Стандартная ошибка измерения

Стандартная ошибка измерения: определение и пример

17 авг. 2022 г.
читать 2 мин

Стандартная ошибка измерения , часто обозначаемая как SE m , оценивает отклонение от «истинного» показателя для индивидуума при повторных измерениях.

Он рассчитывается как:

SE m = s√ 1-R

куда:

s: стандартное отклонение измерений
R: коэффициент надежности теста.

Обратите внимание, что коэффициент надежности находится в диапазоне от 0 до 1 и рассчитывается путем двукратного проведения теста для многих людей и расчета корреляции между их результатами теста.

Чем выше коэффициент надежности, тем чаще тест дает стабильные результаты.

Пример: расчет стандартной ошибки измерения

Предположим, человек проходит определенный тест 10 раз в течение недели, целью которого является измерение общего интеллекта по шкале от 0 до 100. Он получает следующие баллы:

Очки: 88, 90, 91, 94, 86, 88, 84, 90, 90, 94.

Среднее значение выборки равно 89,5, а стандартное отклонение выборки равно 3,17.

Если известно, что тест имеет коэффициент надежности 0,88, то мы рассчитываем стандартную ошибку измерения как:

SE м = с√1 -R = 3,17√1-0,88 = 1,098

Как использовать SE m для создания доверительных интервалов

Используя стандартную ошибку измерения, мы можем создать доверительный интервал, который, вероятно, будет содержать «истинную» оценку человека по определенному тесту с определенной степенью достоверности.

Если человек получает по тесту оценку x , мы можем использовать следующие формулы для расчета различных доверительных интервалов для этой оценки:

68% доверительный интервал = [ x – SE m , x + SE m ]
95% доверительный интервал = [ x – 2*SE m , x + 2*SE m ]
99% доверительный интервал = [ x – 3*SE m , x + 3*SE m ]

Например, предположим, что человек набрал 92 балла по определенному тесту, который, как известно, имеет SE m 2,5. Мы могли бы рассчитать 95% доверительный интервал как:

95% доверительный интервал = [92 – 2*2,5, 92 + 2*2,5] = [87, 97]

Это означает, что мы на 95% уверены в том, что «истинный» результат этого теста человека находится между 87 и 97.

Надежность и стандартная ошибка измерения

Существует простая зависимость между коэффициентом надежности теста и стандартной ошибкой измерения:

Чем выше коэффициент надежности, тем меньше стандартная ошибка измерения.
Чем ниже коэффициент надежности, тем выше стандартная ошибка измерения.

Чтобы проиллюстрировать это, рассмотрим человека, который проходит тест 10 раз и имеет стандартное отклонение баллов, равное 2 .

Если тест имеет коэффициент надежности 0,9 , то стандартная ошибка измерения будет рассчитываться как:

SE m = s√1 -R = 2√1-0,9 = 0,632

Однако, если тест имеет коэффициент надежности 0,5 , то стандартная ошибка измерения будет рассчитываться как:

SE м = с√ 1-R = 2√ 1-,5 = 1,414

Это должно иметь смысл интуитивно: если результаты теста менее надежны, то ошибка измерения «истинного» результата будет выше.

Источник

Методы
тестирования

.
Широко распространенные диагностические
методы. Их существует множество, и они
разделяются на группы по следующим
признакам: индивидуальные и групповые
(коллективные), вербальные и невербальные,
количественные и качественные, общие
и специальные и др.

Тесты

являются
специализированными методами
диагностического обследования, применяя
которые, можно получать количественную
или качественную характеристику
изучаемого явления. В отличие от других
методов, они предполагают четкую
процедуру сбора и обработки первичных
данных, а также своеобразие их последующей
интерпретации. Существуют варианты
теста: тест-опросник и тест-задание.

Тест-опросник
—
тщательно продуманные и проверенные
вопросы, по ответам на которые можно
судить о психологических качествах
испытуемого.

Тест-задание
—
оценка психологии и поведения человека
на базе того, что он делает. Испытуемый
выполняет специальные задания, по
которым можно судить о наличии или
отсутствии степени развития у него
изучаемого качества.

Положительная
сторона тестов состоит в том, что они
могут применяться к категориям населения,
различающимся по возрасту, культуре,
профессии, жизненному опыту и т.д.
Недостаток их в том, что испытуемый по
желанию может сознательно влиять на
результаты, зная механизм теста.

В
этих случаях применяется тест-проектирование.
Создается определенный тип проекции,
согласно которому неосознаваемые
собственные качества, особенно недостатки,
человек склонен приписывать другим.
Этот тест требует повышенного
интеллектуального уровня как от
испытуемого, так и высокой профессиональной
квалификации со стороны самого диагноста.

Технология социальной работы
Зайнышев И.Г.

Социальная
педагогика и социальная работа сайт

Здоровы
ли вы душевно?

Узнайте
— все ли в порядке у вас с вашим душевным
здоровьем?

Тест
на выявление уровня самооценки

Как
высоко вы цените себя? Пройдите этот
тест чтобы выяснить это!

Зависите
ли вы от общественного мнения?

Пройдите
тест и выясните это!

стандартная
ошибка измерения

Надежность
психодиагностических методик. Стандартная
ошибка измерения. Понятие о методе
измерения ретестовой надежности

Надежность
– одно из трех главных психометрических
свойств любой измерительной
психодиагностической методики (теста).

Надежность
– это помехоустойчивость теста,
независимость его результата от действия
всевозможных случайных
факторов:

а) разнообразие
внешних материальных условий тестирования,
меняющихся от одного испытуемого к
другому;

б) динамичные
внутренние факторы, по-разному действующие
на разных испытуемых в ходе тестирования;

в) информационно-социальные
обстоятельства. Разнообразие и
изменчивость этих факторов так велики,
что они обусловливают появление у
каждого испытуемого непрогнозируемого
по размерам и направлению отклонения
измеренного тестового балла от истинного
тестового балла (который можно было бы,
в принципе, получать в идеальных
условиях). Величина этого отклонения
определяется как «стандартная
ошибка измерения» (Se).

Ошибка
измерения (Se) и надежность измерения
(R), согласно общепринятой психометрической
теории, связаны следующей формулой:

R
= 1 – Se2 / Sx2, (1)

где
Sx – дисперсия тестовых показателей Х.

Лучинин
Алексей Сергеевич
Психодиагностика конспект лекций

стандартная
ошибка измерения
— относительная доля случайного изменения
(дисперсии) измеряемого показателям по
отношению к совокупного изменению этого
показателя (общей дисперсии). Чем выше
СОИ, тем ниже точность и НАДЕЖНОСТЬ
теста.

СТАНДАРТНАЯ
ОШИБКА ИЗМЕРЕНИЯ

(standard
error of measurement)
— статистическая величина, отражающая
степень точности отдельных (педагогических)
измерений; диапазон изменения показателей,
в который попадает теоретический
показатель (например, истинный балл),
при данном выборочном показателе, с
различной степенью вероятности
Информационно просветительский портал
Ханта Мансийского округа

Оценка
степени, в которой можно ожидать, что
определенный набор измерений, полученных
в данной ситуации (например, в тесте или
в одной из нескольких параллельных форм
теста), будет отклоняться от истинных
значений. Обозначается как а (М).
Психологическая энцеклопедия

Основы теории тестов

1. Основные понятия теории тестов

Измерение
или испытание, проводимое с целью
определения состояния или способностей
спортсмена, называется тестом.

Не
всякие измерения могут быть использованы
как тесты, а только те, которые отвечают
специальным требованиям. К ним относятся:

1.
стандартизованность (процедура и условия
тестирования должны быть одинаковыми
во всех случаях применения теста);
2.
надежность;
3. информативность;
4.
наличие системы оценок.

Тесты,
удовлетворяющие требованиям надежности
и информативности, называют добротными
или аутентичными
(греч. аутентико — достоверным образом).

Процесс
испытаний называется тестированием;
полученное в итоге измерения числовое
значение — результатом
тестирования
(или результатом теста). Например, бег
100 м — это тест, процедура проведения
забегов и хронометража — тестирование,
время забега — результат теста.

Тесты,
в основе которых лежат двигательные
задания, называют двигательными
или моторными
. Результатами их могут быть либо
двигательные достижения (время прохождения
дистанции, число повторений, пройденное
расстояние и т.п.), либо физиологические
и биохимические показатели.

Иногда
используется не один, а несколько тестов,
имеющих единую конечную цель (например,
оценку состояния спортсмена в
соревновательном периоде тренировки).
Такая группа тестов называется комплексом
или батареей
тестов.

Один
и тот же тест, примененный к одним и тем
же исследуемым, должен дать в одинаковых
условиях совпадающие результаты (если
только не изменились сами исследуемые).
Однако при самой строгой стандартизации
и точной аппаратуре результаты
тестирования всегда несколько варьируют.
Например, исследуемый, только что
показавший в тесте становой динамометрии
результат 215 кГ, при повторном выполнении
показывает лишь 190 кГ.

2. Надежность тестов и пути ее определения

Надежностью
теста называется степень совпадения
результатов при повторном тестировании
одних и тех же людей (или других объектов)
в одинаковых условиях.

Вариацию
результатов при повторном тестировании
называют внутри индивидуальной, или
внутри групповой, либо внутриклассовой.

Четыре
основные причины вызывают эту вариацию:

1.
Изменение состояния исследуемых
(утомление, врабатывание, научение,
изменение мотивации, концентрации
внимания и т.п.).
2. Неконтролируемые
изменения внешних условий и аппаратуры
(температура, ветер, влажность, напряжение
в электросети, присутствие посторонних
лиц и т.п.), т.е. все то, что объединяется
термином “случайная ошибка измерения”.
3.
Изменение состояния человека, проводящего
или оценивающего тест (и, конечно, замена
одного экспериментатора или судьи
другим).
4. Несовершенство теста (есть
такие тесты, которые заведомо малонадежные.
Например, если исследуемые выполняют
штрафные броски в баскетбольную корзину,
то даже баскетболист, имеющий высокий
процент попаданий, может случайно
ошибиться при первых бросках).

Основное
различие теории надежности тестов от
теории ошибок измерения состоит в том,
что в теории ошибок измеряемая величина
считается неизменной, а в теории
надежности тестов предполагается, что
она меняется от измерения к измерению.
Например, если необходимо измерить
результат выполненной попытки в прыжках
в длину с разбега, то он вполне определенный
и с течением времени значительно
измениться не может. Конечно, в силу
случайных причин (например, неодинакового
натяжения рулетки) нельзя с идеальной
точностью (скажем до 0,0001 мм) измерить
этот результат. Однако используя более
точный измерительный инструмент
(например, лазерный измеритель), можно
повысить их точность до необходимого
уровня. Вместе с тем, если стоит задача
определить подготовленность прыгуна
на отдельных этапах годичного цикла
тренировки, то самое точное измерение
показанных им результатов мало чем
поможет: ведь они от попытки к попытке
изменятся.

Чтобы
разобраться в идее методов, используемых
для суждения о надежности тестов,
рассмотрим упрощенный пример. Предположим,
что необходимо сравнить результаты
прыжков в длину с места у двух спортсменов
по двум выполненным попыткам. Допустим,
что результаты каждого из спортсменов
варьируют в пределах ± 10 см от средней
величины и равны соответственно 230 ± 10
см (т.е. 220 и 240 см) и 280± 10 см (т.е. 270 и 290
см). В таком случае вывод, конечно, будет
совершенно однозначным: второй спортсмен
превосходит первого (различия между
средними в 50см явно выше случайных
колебаний в ± 10 см). Если же при той же
самой внутригрупповой вариации ( ± 10
см) различие между средними значениями
исследуемых (межгрупповая вариация)
будут маленькими, то сделать вывод будет
гораздо труднее. Допустим, что средние
значения будут примерно равны 220 см (в
одной попытке — 210, в другой — 230 см) и
222 см (212 и 232 см). При этом первый исследуемый
в первой попытке прыгает на 230 см, а
второй — только на 212 см; и создается
впечатление, что первый существенно
сильнее второго. Из этого примера видно,
что основное значение имеет не сама по
себе внутриклассовая изменчивость, а
ее соотношение с межклассовыми различиями.
Одна и та же внутриклассовая изменчивость
дает разную надежность при равных
различиях между классами (в частном
случае между исследуемыми, рис. 14).

Например,
если зарегистрировать у исследуемых
их результаты в каком-либо тесте, повторяя
этот тест в разные дни, причем каждый
день делать по несколько попыток,
периодически меняя экспериментаторов,
то будут иметь место вариации:

а)
от испытуемого к испытуемому;

б)
ото дня ко дню;

в)
от экспериментатора к экспериментатору;

г)
от попытки к попытке.

Дисперсионный
анализ дает возможность выделить и
оценить эти вариации.

Таким
образом, чтобы оценить практически
надежность теста надо, во-первых,
выполнить дисперсионный анализ,
во-вторых, рассчитать внутриклассовый
коэффициент корреляции (коэффициент
надежности).

При
двух попытках величина внутриклассового
коэффициента корреляции практически
совпадает со значениями обычного
коэффициента корреляции между результатами
первой и второй попыток. Поэтому в таких
ситуациях для оценки надежности можно
использовать обычный коэффициент
корреляции (он при этом оценивает
надежность одной, а не двух попыток).

Говоря
о надежности тестов, необходимо различать
их стабильность (воспроизводимость),
согласованность, эквивалентность.

Под
стабильностью
теста понимают воспроизводимость
результатов при его повторении через
определенное время в одинаковых условиях.
Повторное тестирование обычно называют
ретестом.

Согласованность
теста характеризуется независимостью
результатов тестирования от личных
качеств лица, проводящего или оценивающего
тест.

При
выборе теста из определенного числа
однотипных тестов (например, спринтерский
бег на 30, 60 и 100 м) методом параллельных
форм оценивается степень совпадения
результатов. Рассчитанный между
результатами коэффициент корреляции
называют коэффициентом
эквивалентности.

Если
все тесты, входящие в какой-либо комплекс
тестов, высоко эквивалентны, он называется
гомогенным.
Весь этот комплекс измеряет одно какое-то
свойство моторики человека (например,
комплекс, состоящий из прыжков с места
в длину, вверх и тройного; оценивается
уровень развития скоростно-силовых
качеств). Если в комплексе нет эквивалентных
тестов, то есть тесты, входящие в него,
измеряют разные свойства, то он называется
гетерогенным
(например,
комплекс, состоящий из становой
динамометрии, прыжка вверх по Абалакову,
бега на 100 м).

Надежность
тестов может быть повышена до определенной
степени путем:

а)
более строгой стандартизации тестирования;

б)
увеличения числа попыток;

в)
увеличения числа оценщиков (судей,
экспериментов) и повышения согласованности
их мнений;

г)
увеличения числа эквивалентных тестов;

д)
лучшей мотивации исследуемых.

Кубанский
государственный университет физ культуры
спорта и туризма

Популярные
тестовые методики, применяемые в практике
профессионального отбора и тестирования
персонала:

Проективные
тесты

Тест
Роршаха.
Испытуемому предъявляются для
интерпретации картинки с абстрактными
изображениями — пятнами различной
конфигурации и цвета (напоминающими
чернильные кляксы). На основании того,
что увидит испытуемый, диагностируются
его скрытые установки, побуждения,
свойства характера.

Тест
Люшера
позволяет исследовать личность работника
путем анализа его субъективных
предпочтений при выборе цветовых
стимулов. В оригинале стимульный материал
представляют 73 карточки различного
цвета, в российской психодиагностике
распространена упрощенная тестовая
методика, применяющая восемь основных
цветов. При этом каждому цвету приписывается
определенное значение. Важен порядок
выбора цветов: первые выбранные цвета
выражают явные цели деятельности
личности и способы их достижения,
последние — подавленные, вытесненные
стремления.

Тематический
апперцептивный тест (ТАТ)
направлен на исследование психических
свойств личности по спонтанному описанию
тестируемым тех или иных стандартных
ситуаций, изображенных на предъявляемых
ему рисунках. Это один из наиболее
известных тестов на мотивацию достижений.
Надежность в практике тестирования
персонала не является доказанной. По
мнению специалистов, ответы на вопросы
ТАТ могут быть подвержены влиянию
сторонних факторов. Тем не менее,
успешность прохождения данного теста
коррелирует как с общими успехами
человека в учебе, так и с его экономическим
преуспеванием.

Тест
Майнера
на завершение предложений позволяет
прогнозировать управленческий и
творческий потенциал менеджеров. Этот
тест состоит из 40 незаконченных
предложений, которые тестируемый должен
дописать самостоятельно. По нему можно
судить о различных аспектах мотивации
менеджерской деятельности. В других
тестах на завершение предлагается
досочинить рассказ или дорисовать
рисунки.

По
критерию измеряемого психологического
качества можно выделить следующие
группы тестов:

Тесты
на уровень интеллекта (тесты на IQ —
интеллектуальные тесты)

Тестов,
измеряющих уровень интеллекта, очень
много, большинство из них происходят
от двух классических методик: теста
Бине-Симона
и теста
Векслера.
Оба теста прошли испытание на протяжении
70-летней практики их применения и
являются наиболее изученными и надежными.
К примеру, баллы по результатам
словесно-речевых IQ-тестов (тест Векслера)
всегда хорошо коррелируют с успехами
в учебе.

Применяя
тот или иной тест интеллекта, важно
знать, что автор или авторы теста
вкладывают в понятие «интеллект». В
настоящее время психологами выделяется
несколько видов интеллекта: словесно-речевой,
математический, визуально-пространственный,
художественный, двигательный, музыкальный
и прикладной. При этом многие психологи
говорят о так называемом «общем (едином)
интеллекте», позволяющим человеку
довольно эффективно проявлять себя в
разных областях жизнедеятельности.

Тесты
на IQ (коэффициент интеллекта) помогают
выявить наличие отдельных интеллектуальных
способностей человека, в том числе:

словесно-речевых;
способностей
оперировать с числами — математический
интеллект;
визуально-пространственных;
исполнительских
(особых) — прикладной интеллект.

Недостатком
интеллектуальных тестов является то,
что они нацелены на получение некоторого
суммарного балла, отражающего
интеллектуальные способности «вообще».
Но за этим суммарным баллом остаются
неразличимыми отдельные сильные и
слабые способности человека. Выполняя
интеллектуальные тесты, человек
использует главным образом конвергентное
мышление.
Это мышление «специализируется» на
решении задач, у которых есть только
один правильный ответ. Однако на многие
вопросы нельзя дать однозначный, верный
или неверный ответ. Например, когда
нужно найти новую генеральную линию
развития фирмы, которая позволила бы
ей обогнать своих конкурентов, или
выработать новый действенный слоган —
в этих случаях у задачи множество
вариантов решения. Некоторые из них
будут лучше, другие хуже (зачастую это
может показать лишь время), но ни один
из них не является единственно верным.
Такие вопросы требуют дивергентного
мышления.
Тесты на IQ реально зондируют лишь
конвергентное мышление.

К
тому же высокий коэффициент интеллекта
сам по себе не является гарантией
успешной работы сотрудника. Многое
определяется тем, что требуется для
выполнения конкретной работы, а в этом
случае на первом месте далеко не всегда
выходят интеллектуальные качества. К
примеру, финансовому директору
недостаточно иметь хороший математический
интеллект, ему очень важно уметь верно
оценивать степень риска и принимать
правильные финансовые решения.

Тесты
на личностные качества

Отличительная
особенность данных тестов в том, что в
них оценивается не правильность ответов
тестируемого, а его личностные качества.
Хотя не все стороны характера можно
оценить с помощью тестов, поскольку
каждый человек уникален, но некоторые
личностные черты поддаются количественной
оценке.

В
практике кадровой работы часто
используются MMPI
(Миннесотский многопрофильный личностный
опросник), СМИЛ
(стандартизированный метод исследования
личности), тест
Айзенка,
16-факторный
опросник Кеттелла
(тест 16PF), тесты
Лири, Стреляу, Леонгарда,
«рисуночные тесты», тесты цветовых
предпочтений, а также такие экзотические,
как графологические
(анализ почерка)
и физиогномические (анализ черт лица).
Эти тесты могут применяться при
профотборе, если в службе персонала
есть квалифицированные психологи,
способные интерпретировать получаемые
с их помощью данные. При этом следует
учитывать, что ни один из этих тестов
не рассчитывался на специальное
применение в кадровых службах. Личностные
тесты обладают недостатком: как правило
они достаточно громоздки и сложны. В то
же время большинство служб персонала
при определении личностных качеств
кандидата стремятся использовать более
простые тесты.

Многофакторный
метод исследования личности (СМИЛ)
— это модифицированный (адаптированный
к российским условиям) вариант теста
MMPI, разработанного в 40-х годах американскими
психологами Дж. Маккинли и С. Хатэуэем
для профессионального отбора военных
летчиков. Методика построена по типу
опросника, при этом оценка результата
базируется не на прямом анализе ответов
испытуемого, а на данных статистически
подтвержденной значимости каждого
ответа в сравнении со средненормативными
показателями. Одно из важных достоинств
метода состоит в том, что автоматизированный
способ обработки данных практически
исключает зависимость получаемых
результатов от личностных особенностей
и опыта специалиста, проводящего
тестирование. В основу методики положена
статистически достоверная математическая
база.

Тест
эффективен в решении сложных вопросов
профотбора и профориентации, комплектовании
рабочих коллективов, расстановки кадров,
при изучении социального климата в
организациях и на предприятиях. Он
находит активное применение в
профконсультировании и профориентационной
работе психологов.

Тест
Кеттелла (16PF)
выводит баллы для разных качеств личности
(17 факторов первого порядка). Данные по
некоторым из этих шкал коррелируют друг
с другом, поэтому в итоге образуются 5
факторов (показателей) второго (высшего)
порядка. Полный вариант теста Кеттелла
позволяет исследовать и уровень
интеллекта, и личностные качества. Тест
Кеттелла, а также тест Айзенка наиболее
результативны в диагностике степени
нервозности личности, что профессионально
значимо для некоторых профессий.

Тест
Майерс-Бриггс,
в основе которого лежит психологическая
теория личности К.Г. Юнга, содержит более
ста утверждений и позволяет описать
личность человека по четырем составляющим:

Экстравертированность
— Интравертированность;
Осознание
— Интуиция (что из них для вас более
значимо, приоритетно);
Размышления
— Чувства;
Суждения
— Ощущения.

Однако
этот тест больше подходит для оценки
возможности карьерного роста сотрудников
внутри организации, чем для решения
вопроса о приеме на работу.

На
входном контроле (при приеме на работу)
используют тесты самооценки, например,
тест
Лири,
личностный
дифференциал
(ЛД) или опросник
деловой направленности
(ОДН) личности, а также СМИЛ,
результаты которого коррелируют с
результатами, полученными другими
методами.

Тесты
на творческое мышление

Существуют
следующие виды:

Тесты
на генерирование идей;
Тесты
на межпредметные связи (умение создавать
«творческие композиции» особенно важно
в рекламном и маркетинговом деле);
Визуальные
тесты (на умение создавать визуальные
каламбуры или рассказы по картинкам);
Тесты
на «боковое мышление» (которое, в отличие
от обычного, позволяет взглянуть на
задачу под нестандартным углом зрения).

Нередко
в тестах на творческое мышление
применяются сюрреалистические либо
иронические рисунки.

Управление
персоналом Словарь-справочник

Источник

18. Надежность психодиагностических методик. Стандартная ошибка измерения. Понятие о методе измерения ретестовой надежности

Надежность – одно из трех главных психометрических свойств любой измерительной психодиагностической методики (теста).

Надежность – это помехоустойчивость теста, независимость его результата от действия всевозможных случайных факторов:

а) разнообразие внешних материальных условий тестирования, меняющихся от одного испытуемого к другому;

б) динамичные внутренние факторы, по-разному действующие на разных испытуемых в ходе тестирования;

в) информационно-социальные обстоятельства. Разнообразие и изменчивость этих факторов так велики, что они обусловливают появление у каждого испытуемого непрогнозируемого по размерам и направлению отклонения измеренного тестового балла от истинного тестового балла (который можно было бы, в принципе, получать в идеальных условиях). Величина этого отклонения определяется как «стандартная ошибка измерения» (Se).

Ошибка измерения (Se) и надежность измерения (R), согласно общепринятой психометрической теории, связаны следующей формулой:

R = 1 – Se2 / Sx2, (1)

где Sx – дисперсия тестовых показателей Х.

Метод измерения «ретестовой надежности».

На одной и той же выборке испытуемых проводят пер1вое тестирование Х, а затем повторное тестирование Y. Интервал – две недели. Затем для двух рядов значений Х и Y подсчитывает-ся линейный коэффициент корреляции, или ранговый коэффициент корреляции:

где Sx, Sy – стандартные отклонения X и Y;

Cov (X, Y) – ковариация двух переменных X и Y Для сути теории надежности методов важна возможность определить ошибку измерения, после того как подсчитана корреляция «тест-ретест» по формуле (3), полученной путем простого преобразования формулы (1):

Se = Sx x V1 – R. (3)

Таким образом, если стандартное отклонение в тесте составило 10 очков, а корреляция «тест-ретест» оказалась равной лишь 0,5, то ошибка измерения оказывается очень большой:

Se = 10 x V1 – 0,5 ~ 7,1.

Надежность – характеристика методики, отражающая точность психодиагностических измерений, а также устойчивость результатов теста к действию посторонних случайных факторов. Надежность и валидность являются важнейшими характеристиками методики как инструмента исследования. Общий разброс (дисперсию) результатов тестового обследования можно представить как результат влияния двух групп причин: изменчивости, присущей самому измеряемому свойству, и факторов нестабильности измерительной процедуры.

Данный текст является ознакомительным фрагментом.

Стандартная ошибка среднего

Точное значение

Если статистически независимая выборканаблюденияберется из статистической совокупности со стандартным отклонением, то среднее значение, рассчитанное по выборкебудет иметь соответствующую стандартную ошибку в среднем дано: ^[1]

Практически это говорит нам о том, что при попытке оценить значение среднего значения совокупности из-за фактора, уменьшение ошибки оценки в два раза требует получения в четыре раза большего количества наблюдений в выборке; уменьшение его в десять раз требует в сто раз больше наблюдений.

Оценить

Стандартное отклонениео выборке населения редко известно. Поэтому стандартная ошибка среднего обычно оценивается путем заменысо стандартным отклонением выборки вместо:

Поскольку это только оценка истинной «стандартной ошибки», здесь часто встречаются другие обозначения, такие как:

или попеременно .

Обычный источник путаницы возникает, когда не удается четко разграничить стандартное отклонение совокупности (), стандартное отклонение выборки (), стандартное отклонение самого среднего (, что является стандартной ошибкой), и оценка стандартного отклонения среднего (, которая является наиболее часто вычисляемой величиной, а также часто в просторечии называется стандартной ошибкой ).

Точность оценки

Когда размер выборки мал, использование стандартного отклонения выборки вместо истинного стандартного отклонения генеральной совокупности приведет к систематической недооценке стандартного отклонения генеральной совокупности и, следовательно, стандартной ошибки. При n = 2 недооценка составляет около 25%, а при n = 6 недооценка составляет всего 5%. Гурланд и Трипати (1971) предлагают поправку и уравнение для этого эффекта. ^[3] Sokal and Rohlf (1981) дают уравнение поправочного коэффициента для небольших выборок n < 20. ^[4] Для дальнейшего обсуждения
см . объективную оценку стандартного отклонения .

Происхождение

Стандартная ошибка среднего может быть получена из дисперсии суммы независимых случайных величин ^[5] с учетом определения дисперсии и некоторых ее простых свойств . Еслиявляютсянезависимые наблюдения за популяцией со средними стандартное отклонение, то мы можем определить общее

который в силу формулы Бьенеме будет иметь дисперсию

Среднее значение этих измеренийпросто дается

Тогда дисперсия среднего

Стандартная ошибка – это, по определению, стандартное отклонениекоторый представляет собой просто квадратный корень из дисперсии:

Для коррелированных случайных величин выборочная дисперсия должна быть рассчитана в соответствии с центральной предельной теоремой цепи Маркова .

Независимые и одинаково распределенные случайные величины со случайным размером выборки

Бывают случаи, когда выборку берут, не зная заранее, сколько наблюдений будет приемлемо по тому или иному критерию. В таких случаях размер выборкиявляется случайной величиной, вариация которой добавляется к вариациитакой, что

^[6]

Еслиимеет распределение Пуассона , тос оценщиком. Следовательно, оценкастановится, приводя следующую формулу для стандартной ошибки:

(поскольку стандартное отклонение представляет собой квадратный корень из дисперсии)

Аппроксимация Стьюдента, когда значение σ неизвестно

Во многих практических приложениях истинное значение σ неизвестно. В результате нам нужно использовать распределение, учитывающее этот разброс возможных σ’с. Когда известно, что истинное базовое распределение является гауссовым, хотя и с неизвестным σ, то результирующее оценочное распределение соответствует t-распределению Стьюдента. Стандартная ошибка представляет собой стандартное отклонение t-распределения Стьюдента. T-распределения немного отличаются от гауссовых и меняются в зависимости от размера выборки. Небольшие выборки с несколько большей вероятностью недооценивают стандартное отклонение совокупности и имеют среднее значение, которое отличается от истинного среднего значения совокупности, а t-распределение Стьюдента объясняет вероятность этих событий с несколько более тяжелыми хвостами по сравнению с гауссовским. Для оценки стандартной ошибки t-распределения Стьюдента достаточно использовать выборочное стандартное отклонение «s» вместо σ , и мы могли бы использовать это значение для расчета доверительных интервалов.

Примечание. Распределение вероятностей Стьюдента хорошо аппроксимируется распределением Гаусса, когда размер выборки превышает 100. Для таких выборок можно использовать последнее распределение, которое намного проще.

Предположения и использование

Пример того, какиспользуется для того, чтобы сделать доверительные интервалы неизвестной генеральной совокупности средними. Если распределение выборки имеет нормальное распределение , то выборочное среднее, стандартная ошибка и квантили нормального распределения могут использоваться для расчета доверительных интервалов для истинного среднего значения генеральной совокупности. Следующие выражения можно использовать для расчета верхнего и нижнего 95%-го доверительного интервала, гдеравно выборочному среднему,равно стандартной ошибке выборочного среднего, а 1,96 — это приблизительное значение точки 97,5 процентиля нормального распределения :

Верхний предел 95%а также

Нижний предел 95%

В частности, стандартная ошибка выборочной статистики (такой как выборочное среднее ) — это фактическое или оценочное стандартное отклонение выборочного среднего в процессе, с помощью которого оно было создано. Другими словами, это фактическое или оценочное стандартное отклонение выборочного распределения выборочной статистики. Обозначение стандартной ошибки может быть любым из SE, SEM (стандартная ошибка измерения или среднего значения ) или _SE .

Стандартные ошибки обеспечивают простые меры неопределенности значения и часто используются, потому что:

во многих случаях, если известна стандартная ошибка нескольких отдельных величин, то можно легко вычислить стандартную ошибку некоторой функции этих величин;
когда известно распределение вероятностей значения, его можно использовать для расчета точного доверительного интервала ;
когда распределение вероятностей неизвестно, для расчета консервативного доверительного интервала можно использовать неравенства Чебышева или Высочанского–Петунина ; а также
поскольку размер выборки стремится к бесконечности, центральная предельная теорема гарантирует, что выборочное распределение среднего является асимптотически нормальным .

Стандартная ошибка среднего по сравнению со стандартным отклонением

В научно-технической литературе экспериментальные данные часто обобщаются либо с использованием среднего значения и стандартного отклонения выборочных данных, либо среднего значения со стандартной ошибкой. Это часто приводит к путанице в отношении их взаимозаменяемости. Однако среднее значение и стандартное отклонение являются описательной статистикой , тогда как стандартная ошибка среднего значения описывает процесс случайной выборки. Стандартное отклонение выборочных данных — это описание вариаций в измерениях, а стандартная ошибка среднего — вероятностное утверждение о том, как размер выборки обеспечит лучшую оценку среднего значения генеральной совокупности в свете центрального предела. теорема. ^[7]

Проще говоря, стандартная ошибка среднего значения выборки — это оценка того, насколько вероятно среднее значение выборки будет отличаться от среднего значения генеральной совокупности, тогда как стандартное отклонение выборки — это степень, в которой отдельные лица в выборке отличаются от среднего значения выборки. ^[8] Если стандартное отклонение совокупности конечно, стандартная ошибка среднего значения выборки будет стремиться к нулю с увеличением размера выборки, потому что оценка среднего значения совокупности будет улучшаться, в то время как стандартное отклонение выборки будет приближаться к стандартное отклонение генеральной совокупности по мере увеличения размера выборки.

Расширения

Коррекция конечной популяции (FPC)

Приведенная выше формула для стандартной ошибки предполагает, что размер выборки намного меньше, чем размер совокупности, так что совокупность можно считать фактически бесконечной по размеру. Обычно это происходит даже с конечными популяциями, потому что большую часть времени люди в первую очередь заинтересованы в управлении процессами, которые создали существующую конечную популяцию; это называется аналитическим исследованием вслед за У. Эдвардсом Демингом . Если люди заинтересованы в управлении существующей конечной популяцией, которая не изменится с течением времени, то необходимо сделать поправку на размер популяции; это называется перечислительным исследованием .

Когда доля выборки (часто называемая f ) велика (приблизительно 5% или более) в перечислительном исследовании , оценка стандартной ошибки должна быть скорректирована путем умножения на «поправку на конечную совокупность» (она же: fpc ): ^[9]
^[10]

что для больших N :

для учета дополнительной точности, полученной за счет выборки, близкой к большему проценту населения. Эффект FPC заключается в том, что ошибка становится равной нулю ,
когда размер выборки n равен размеру совокупности N.

Это происходит в методологии обследования при выборке без возмещения . Если выборка с заменой, то ФПК не играет роли.

Поправка на корреляцию в выборке

Ожидаемая ошибка среднего значения A для выборки из n точек данных с коэффициентом смещения выборки ρ . График несмещенной стандартной ошибки представляет собой диагональную линию ρ = 0 с логарифмическим наклоном −½.

Если значения измеренной величины А не являются статистически независимыми, а были получены из известных местоположений в пространстве параметров х , несмещенная оценка истинной стандартной ошибки среднего (фактически поправка на часть стандартного отклонения) может быть получена путем умножения рассчитанная стандартная ошибка выборки по фактору f :

где коэффициент смещения выборки ρ — это широко используемая оценка Прайса – Винстена коэффициента автокорреляции (величина от -1 до +1) для всех пар точек выборки. Эта приблизительная формула предназначена для средних и больших размеров выборки; ссылка дает точные формулы для любого размера выборки и может применяться к сильно автокоррелированным временным рядам, таким как котировки акций Уолл-стрит. Более того, эта формула работает как для положительных, так и для отрицательных ρ. ^[11] См. также несмещенную оценку стандартного отклонения для дальнейшего обсуждения.

Смотрите также

Иллюстрация центральной предельной теоремы
Погрешность
Вероятная ошибка
Стандартная ошибка взвешенного среднего
Выборочное среднее и выборочная ковариация
Стандартная ошибка медианы
Дисперсия

Ссылки

^ ^a ^b ^c ^d Альтман, Дуглас Г.; Бланд, Дж. Мартин (15 октября 2005 г.). «Стандартные отклонения и стандартные ошибки» . BMJ: Британский медицинский журнал . 331 (7521): 903. doi : 10.1136/bmj.331.7521.903 . ISSN 0959-8138 . ПВК 1255808 . PMID 16223828 .
^ Эверитт, BS (2003). Кембриджский статистический словарь . КРУЖКА. ISBN 978-0-521-81099-9.
^ Гурланд, Дж.; Трипати RC (1971). «Простое приближение для объективной оценки стандартного отклонения». Американский статистик . 25 (4): 30–32. дои : 10.2307/2682923 . JSTOR 2682923 .
^ Сокаль; Рольф (1981). Биометрия: принципы и практика статистики в биологических исследованиях (2-е изд.). п. 53 . ISBN 978-0-7167-1254-1.
^ Хатчинсон, Т.П. (1993). Основы статистических методов, на 41 странице . Аделаида: Рамсби. ISBN 978-0-646-12621-0.
^ Корнелл, Дж. Р., и Бенджамин, Калифорния, Вероятность, статистика и решения для инженеров-строителей, Макгроу-Хилл, Нью-Йорк, 1970, ISBN 0486796094 , стр. 178–9.
^ Барде, М. (2012). «Что использовать для выражения изменчивости данных: стандартное отклонение или стандартная ошибка среднего?» . Перспектива. клин. Рез. 3 (3): 113–116. doi : 10.4103/2229-3485.100662 . ПВК 3487226 . PMID 23125963 .
^ Вассертейл-Смоллер, Сильвия (1995). Биостатистика и эпидемиология: учебник для медицинских работников (второе изд.). Нью-Йорк: Спрингер. стр. 40–43. ISBN 0-387-94388-9.
^ Иссерлис, Л. (1918). «О значении среднего, рассчитанного по выборке» . Журнал Королевского статистического общества . 81 (1): 75–81. дои : 10.2307/2340569 . JSTOR 2340569 . (Уравнение 1)
^ Бонди, Уоррен; Злот, Уильям (1976). «Стандартная ошибка среднего и разница между средними для конечных популяций». Американский статистик . 30 (2): 96–97. дои : 10.1080/00031305.1976.10479149 . JSTOR 2683803 . (Уравнение 2)
^ Бенс, Джеймс Р. (1995). «Анализ коротких временных рядов: поправка на автокорреляцию» . Экология . 76 (2): 628–639. дои : 10.2307/1941218 . JSTOR 1941218 .

Источник

Стандартная ошибка измерения