Статистическая ошибка формула

Статистическая погрешность — это неопределенность в оценке истинного значения измеряемой величины, которая возникает из-за того, что несколько повторных измерений тем же самым инструментом дали различающиеся результаты.

Статистическая погрешность — это та неопределенность в оценке истинного значения измеряемой величины, которая возникает из-за того, что несколько повторных измерений тем же самым инструментом дали различающиеся результаты. Возникает она, как правило, из-за того, что результаты измерения в микромире не фиксированы, а вероятностны. Она тесно связана с объемом статистики: обычно чем больше данных, тем меньше статистическая погрешность и тем точнее результат измерения. Среди всех типов погрешностей она, пожалуй, самая безобидная: понятно, как ее считать, и понятно, как с ней бороться.

Статистическая погрешность: чуть подробнее

Предположим, что ваш детектор может очень точно измерить какую-то величину в каждом конкретном столкновении. Это может быть энергия или импульс какой-то родившейся частицы, или дискретная величина (например, сколько мюонов родилось в событии), или вообще элементарный ответ «да» или «нет» на какой-то вопрос (например, родилась ли в этом событии хоть одна частица с импульсом больше 100 ГэВ).

Это конкретное число, полученное в одном столкновении, почти бессмысленно. Скажем, взяли вы одно событие и выяснили, что в нём хиггсовский бозон не родился. Никакой научной пользы от такого единичного факта нет. Законы микромира вероятностны, и если вы организуете абсолютно такое же столкновение протонов, то картина рождения частиц вовсе не обязана повторяться, она может оказаться совсем другой. Если бозон не родился сейчас, не родился в следующем столкновении, то это еще ничего не говорит о том, может ли он родиться вообще и как это соотносится с теоретическими предсказаниями. Для того, чтобы получить какое-то осмысленное число в экспериментах с элементарными частицами, надо повторить эксперимент много раз и набрать статистику одинаковых столкновений. Всё свое рабочее время коллайдеры именно этим и занимаются, они накапливают статистику, которую потом будут обрабатывать экспериментаторы.

В каждом конкретном столкновении результат измерения может быть разный. Наберем статистику столкновений и усредним по ней результат. Этот средний результат, конечно, тоже не фиксирован, он может меняться в зависимости от статистики, но он будет намного стабильнее, он не будет так сильно прыгать от одной статистической выборки к другой. У него тоже есть некая неопределенность (в статистическом анализе она так и называется: «неопределенность среднего»), но она обычно небольшая. Вот эта величина и называется статистической погрешностью измерения.

Итак, когда экспериментаторы предъявляют измерение какой-то величины, то они сообщают результат усреднения этой величины по всей набранной статистике столкновений и сопровождают его статистической погрешностью. Именно такие средние значения имеют физический смысл, только их может предсказывать теория.

Есть, конечно, и иной источник статистической погрешности: недостаточный контроль условий эксперимента при повторном измерении. Если в физике частиц этот источник можно попытаться устранить, по крайней мере, в принципе, то в других разделах естественных наук он выходит на первый план; например, в медицинских исследованиях каждый человек отличается от другого по большому числу параметров.

Как считать статистическую погрешность?

Существует теория расчета статистической погрешности, в которую мы, конечно, вдаваться не будем. Но есть одно очень простое правило, которое легко запомнить и которое срабатывает почти всегда. Пусть у вас есть статистическая выборка из N столкновений и в ней присутствует n событий какого-то определенного типа. Тогда в другой статистической выборке из N событий, набранной в тех же условиях, можно ожидать примерно n ± √n таких событий. Поделив это на N, мы получим среднюю вероятность встретить такое событие и погрешность среднего: n/N ± √n/N. Оценка истинного значения вероятности такого типа события примерно соответствует этому выражению.

Сразу же, впрочем, подчеркнем, что эта простая оценка начинает сильно «врать», когда количество событий очень мало. В науке обсчета маленькой статистики есть много дополнительных тонкостей.

Более серьезное (но умеренно краткое) введение в методы статистической обработки данных в применении к экспериментам на LHC см. в лекциях arXiv.1307.2487.

Именно поэтому эксперименты в физике элементарных частиц стараются оптимизировать не только по энергии, но и по светимости. Ведь чем больше светимость, тем больше столкновений будет произведено — значит, тем больше будет статистическая выборка. И уже это позволит сделать измерения более точными — даже без каких-либо улучшений в эксперименте. Примерная зависимость тут такая: если вы увеличите статистику в k раз, то относительные статистические погрешности уменьшатся примерно в √k раз.

Этот пример — некая симуляция того, как могло бы происходить измерение массы ρ-мезона свыше полувека назад, на заре адронной физики, если бы он был вначале обнаружен в процессе e+e → π+π. А теперь перенесемся в наше время.

Рис. 3. Сечение процесса e+e– → π+π– в области энергий от 700 до 850 МэВ, в которой четко проступают ρ-мезон и ω-мезон

Сейчас этот процесс изучен вдоль и поперек, статистика набрана огромная (миллионы событий), а значит, и масса ρ-мезона сейчас определена несравнимо точнее. На рис. 3 показано современное состояние дел в этой области масс. Если ранние эксперименты еще имели какие-то существенные погрешности, то сейчас они практически неразличимы глазом. Огромная статистика позволила не только измерить массу (примерно равна 775 МэВ с точностью в десятые доли МэВ), но и заметить очень странную форму этого пика. Такая форма получается потому, что практически в том же месте на шкале масс находится и другой мезон, ω(782), который «вмешивается» в процесс и искажает форму ρ-мезонного пика.

Другой, гораздо более реальный пример влияния статистики на процесс поиска и изучения хиггсовского бозона обсуждался в новости Анимации показывают, как в данных LHC зарождался хиггсовский сигнал.

Статистические ошибки

Использование
методов биометрии позволяет исследователю
на ограниченном по численности материале
делать заключения о проявлении признака,
его изменчивости и других параметрах
в генеральной совокупности. Но так
как выборочная совокупность — часть
генеральной и ее формируют методом
случайного отбора, то в выборку могут
попасть животные с более низкими
продуктивными качествами, или несколько
лучшие особи. В этом случае вычисленные
значения M, б, Cv и
других биометрических величин будут
отличаться от значений этих величин в
генеральной совокупности, то есть
выборка отражает генеральную совокупность
с ошибкой. Эти ошибки, связанные с
методом выборочности, называются
статистическими и устранить их нельзя.
Ошибки не будет лишь в том случае, когда
в обработку включаются все члены
генеральной совокупности. Величины
статистических ошибок зависят от
изменчивости признаков и объема выборки:
чем более изменчив признак, тем больше
ошибка, и чем больше объем выборки, тем
она меньше. Ошибки статистических
величин в биометрии принято обозначать
буквой m.

Ошибки
имеют все статистические величины.
Вычисляют их по формулам:

Все
ошибки измеряют в тех же единицах, что
и сами показатели, и записывают обычно
рядом с ними.

Статистические
ошибки указывают интервал, в котором
находится величина того или иного
статистического показателя в генеральной
совокупности. Зная среднее значение
признака (М) и его ошибку (m), можно
установить доверительные границы
средней величины в генеральной
совокупности по формуле: Мген.в. 
tm, где t — нормированное отклонение,
которое зависит от уровня вероятности
и объема выборки. Цифровое значение t
для каждого конкретного случая находят
с помощью специальной таблицы. Например,
нас интересует средняя частота пульса
у овец породы прекос. Для изучения этого
показателя была сформирована выборка
в количестве 50 голов и определена у
этих животных средняя частота пульса.
Оказалось, что этот показатель равен
75 ударов в минуту, изменчивость его б =
12 ударов. Ошибка средней арифметической
величины в этом случае составит:

б
12

m
= ──── = ──── = 1,7 (уд./мин).

n
50

Итоговая
запись будет иметь вид: М  
m или 75  
1,7, то есть частота пульса 75 ударов в
минуту — среднее значение для 50 голов.
Чтобы определить среднюю частоту пульса
в генеральной совокупности животных,
возьмем в качестве доверительной
вероятности P = 0,95. В этом случае, исходя
из таблицы, t = 2,01. Определим доверительные
границы частоты пульса в генеральной
совокупности M  
tm.

75,0
+ 2,01 x 1,7 = 75,0 + 3,4 = 78,4 (уд./мин)

75,0
— 2,01 x 1,7 = 75,0 — 3,4 = 71,6 (уд./мин)

Таким
образом, средняя частота пульса для
генеральной совокупности будет в
пределах от 71,6 до 78,4 ударов в минуту.

Зная
величину статистических ошибок,
устанавливают также, правильно ли
выборочная совокупность отражает тот
или иной параметр генеральной, то есть
устанавливают критерий доверительности
выборочных величин.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #


Загрузить PDF


Загрузить PDF

Стандартной ошибкой называется величина, которая характеризует стандартное (среднеквадратическое) отклонение выборочного среднего. Другими словами, эту величину можно использовать для оценки точности выборочного среднего. Множество областей применения стандартной ошибки по умолчанию предполагают нормальное распределение. Если вам нужно рассчитать стандартную ошибку, перейдите к шагу 1.

  1. Изображение с названием Calculate Standard Error Step 1

    1

    Запомните определение среднеквадратического отклонения. Среднеквадратическое отклонение выборки – это мера рассеянности значения. Среднеквадратическое отклонение выборки обычно обозначается буквой s. Математическая формула среднеквадратического отклонения приведена выше.

  2. Изображение с названием Calculate Standard Error Step 2

    2

    Узнайте, что такое истинное среднее значение. Истинное среднее является средним группы чисел, включающим все числа всей группы – другими словами, это среднее всей группы чисел, а не выборки.

  3. Изображение с названием Calculate Standard Error Step 3

    3

    Научитесь рассчитывать среднеарифметическое значение. Среднеаримфетическое означает попросту среднее: сумму значений собранных данных, разделенную на количество значений этих данных.

  4. Изображение с названием Calculate Standard Error Step 4

    4

    Узнайте, что такое выборочное среднее. Когда среднеарифметическое значение основано на серии наблюдений, полученных в результате выборок из статистической совокупности, оно называется “выборочным средним”. Это среднее выборки чисел, которое описывает среднее значение лишь части чисел из всей группы. Его обозначают как:

  5. Изображение с названием Calculate Standard Error Step 5

    5

    Усвойте понятие нормального распределения. Нормальные распределения, которые используются чаще других распределений, являются симметричными, с единичным максимумом в центре – на среднем значении данных. Форма кривой подобна очертаниям колокола, при этом график равномерно опускается по обе стороны от среднего. Пятьдесят процентов распределения лежит слева от среднего, а другие пятьдесят процентов – справа от него. Рассеянность значений нормального распределения описывается стандартным отклонением.

  6. Изображение с названием Calculate Standard Error Step 6

    6

    Запомните основную формулу. Формула для вычисления стандартной ошибки приведена выше.

    Реклама

  1. Изображение с названием Calculate Standard Error Step 7

    1

    Рассчитайте выборочное среднее. Чтобы найти стандартную ошибку, сначала нужно определить среднеквадратическое отклонение (поскольку среднеквадратическое отклонение s входит в формулу для вычисления стандартной ошибки). Начните с нахождения средних значений. Выборочное среднее выражается как среднее арифметическое измерений x1, x2, . . . , xn. Его рассчитывают по формуле, приведенной выше.

    • Допустим, например, что вам нужно рассчитать стандартную ошибку выборочного среднего результатов измерения массы пяти монет, указанных в таблице:
      Вы сможете рассчитать выборочное среднее, подставив значения массы в формулу:
  2. Изображение с названием Calculate Standard Error Step 8

    2

    Вычтите выборочное среднее из каждого измерения и возведите полученное значение в квадрат. Как только вы получите выборочное среднее, вы можете расширить вашу таблицу, вычтя его из каждого измерения и возведя результат в квадрат.

    • Для нашего примера расширенная таблица будет иметь следующий вид:
  3. Изображение с названием Calculate Standard Error Step 9

    3

    Найдите суммарное отклонение ваших измерений от выборочного среднего. Общее отклонение – это сумма возведенных в квадрат разностей от выборочного среднего. Чтобы определить его, сложите ваши новые значения.

    • В нашем примере нужно будет выполнить следующий расчет:
      Это уравнение дает сумму квадратов отклонений измерений от выборочного среднего.
  4. Изображение с названием Calculate Standard Error Step 10

    4

    Рассчитайте среднеквадратическое отклонение ваших измерений от выборочного среднего. Как только вы будете знать суммарное отклонение, вы сможете найти среднее отклонение, разделив ответ на n -1. Обратите внимание, что n равно числу измерений.

    • В нашем примере было сделано 5 измерений, следовательно n – 1 будет равно 4. Расчет нужно вести следующим образом:
  5. Изображение с названием Calculate Standard Error Step 11

    5

    Найдите среднеквадратичное отклонение. Сейчас у вас есть все необходимые значения для того, чтобы воспользоваться формулой для нахождения среднеквадратичного отклонения s.

    • В нашем примере вы будете рассчитывать среднеквадратичное отклонение следующим образом:
      Следовательно, среднеквадратичное отклонение равно 0,0071624.

    Реклама

  1. Изображение с названием Calculate Standard Error Step 12

    1

    Чтобы вычислить стандартную ошибку, воспользуйтесь базовой формулой со среднеквадратическим отклонением.

    • В нашем примере вы сможете рассчитать стандартную ошибку следующим образом:
      Таким образом в нашем примере стандартная ошибка (среднеквадратическое отклонение выборочного среднего) составляет 0,0032031 грамма.

Советы

  • Стандартную ошибку и среднеквадратическое отклонение часто путают. Обратите внимание, что стандартная ошибка описывает среднеквадратическое отклонение выборочного распределения статистических данных, а не распределения отдельных значений
  • В научных журналах понятия стандартной ошибки и среднеквадратического отклонения несколько размыты. Для объединения двух величин используется знак ±.

Реклама

Об этой статье

Эту страницу просматривали 48 427 раз.

Была ли эта статья полезной?


Download Article


Download Article

After collecting data, oftentimes the first thing you need to do is analyze it. This usually entails finding the mean, the standard deviation, and the standard error of the data. This article will show you how it’s done.

Cheat Sheets

  1. Image titled Calculate Mean, Standard Deviation, and Standard Error Step 1

    1

    Obtain a set of numbers you wish to analyze. This information is referred to as a sample.

    • For example, a test was given to a class of 5 students, and the test results are 12, 55, 74, 79 and 90.
  2. Advertisement

  1. Image titled Calculate Mean, Standard Deviation, and Standard Error Step 2

    1

    Calculate the mean. Add up all the numbers and divide by the population size:[1]

    • Mean (μ) = ΣX/N, where Σ is the summation (addition) sign, xi is each individual number, and N is the population size.
    • In the case above, the mean μ is simply (12+55+74+79+90)/5 = 62.
  1. Image titled Calculate Mean, Standard Deviation, and Standard Error Step 3

    1

    Calculate the standard deviation. This represents the spread of the population.
    Standard deviation = σ = sq rt [(Σ((X-μ)^2))/(N)].[2]

    • For the example given, the standard deviation is sqrt[((12-62)^2 + (55-62)^2 + (74-62)^2 + (79-62)^2 + (90-62)^2)/(5)] = 27.4. (Note that if this was the sample standard deviation, you would divide by n-1, the sample size minus 1.)
  2. Advertisement

  1. Image titled Calculate Mean, Standard Deviation, and Standard Error Step 4

    1

    Calculate the standard error (of the mean). This represents how well the sample mean approximates the population mean. The larger the sample, the smaller the standard error, and the closer the sample mean approximates the population mean. Do this by dividing the standard deviation by the square root of N, the sample size.[3]

    Standard error = σ/sqrt(n)[4]

    • So for the example above, if this were a sampling of 5 students from a class of 50 and the 50 students had a standard deviation of 17 (σ = 21), the standard error = 17/sqrt(5) = 7.6.

Add New Question

  • Question

    How do you find the mean given number of observations?

    Community Answer

    To find the mean, add all the numbers together and divide by how many numbers there are. e.g to find the mean of 1,7,8,4,2: 1+7+8+4+2 = 22/5 = 4.4.

  • Question

    The standard error is calculated as 0.2 and the standard deviation of a sample is 5kg. Can it be said to be smaller or larger than the standard deviation?

    Community Answer

    The standard error (SE) must be smaller than the standard deviation (SD), because the SE is calculating by dividing the SD by something — i.e. making it smaller.

  • Question

    How can I find out the standard deviation of 50 samples?

    Community Answer

    The results of all your figures (number plus number plus number etc.) divided by quantity of samples 50 =SD.

See more answers

Ask a Question

200 characters left

Include your email address to get a message when this question is answered.

Submit

Advertisement

Video

  • Calculations of the mean, standard deviation, and standard error are most useful for analysis of normally distributed data. One standard deviation about the central tendency covers approximately 68 percent of the data, 2 standard deviation 95 percent of the data, and 3 standard deviation 99.7 percent of the data. The standard error gets smaller (narrower spread) as the sample size increases.

Thanks for submitting a tip for review!

Advertisement

  • Check your math carefully. It is very easy to make mistakes or enter numbers incorrectly.

Advertisement

References

About This Article

Article SummaryX

The mean is simply the average of a set of numbers. You can work it out by adding up all the numbers and dividing the total by the amount of numbers. For example, if you wanted to find the average test score of 3 students who scored 74, 79, and 90, you’d add the 3 numbers together to get 243, then divide it by 3 to get 81. The standard error represents how well the sample mean approximates the population mean. All you need to do is divide the standard deviation by the square root of the sample size. For instance, if you were sampling 5 students from a class of 50 and the 50 students had a standard deviation of 17, you’d divide 17 by the square root of 5 to get 7.6. For more tips, including how to calculate the standard deviation, read on!

Did this summary help you?

Thanks to all authors for creating a page that has been read 996,353 times.

Did this article help you?


Download Article


Download Article

After collecting data, oftentimes the first thing you need to do is analyze it. This usually entails finding the mean, the standard deviation, and the standard error of the data. This article will show you how it’s done.

Cheat Sheets

  1. Image titled Calculate Mean, Standard Deviation, and Standard Error Step 1

    1

    Obtain a set of numbers you wish to analyze. This information is referred to as a sample.

    • For example, a test was given to a class of 5 students, and the test results are 12, 55, 74, 79 and 90.
  2. Advertisement

  1. Image titled Calculate Mean, Standard Deviation, and Standard Error Step 2

    1

    Calculate the mean. Add up all the numbers and divide by the population size:[1]

    • Mean (μ) = ΣX/N, where Σ is the summation (addition) sign, xi is each individual number, and N is the population size.
    • In the case above, the mean μ is simply (12+55+74+79+90)/5 = 62.
  1. Image titled Calculate Mean, Standard Deviation, and Standard Error Step 3

    1

    Calculate the standard deviation. This represents the spread of the population.
    Standard deviation = σ = sq rt [(Σ((X-μ)^2))/(N)].[2]

    • For the example given, the standard deviation is sqrt[((12-62)^2 + (55-62)^2 + (74-62)^2 + (79-62)^2 + (90-62)^2)/(5)] = 27.4. (Note that if this was the sample standard deviation, you would divide by n-1, the sample size minus 1.)
  2. Advertisement

  1. Image titled Calculate Mean, Standard Deviation, and Standard Error Step 4

    1

    Calculate the standard error (of the mean). This represents how well the sample mean approximates the population mean. The larger the sample, the smaller the standard error, and the closer the sample mean approximates the population mean. Do this by dividing the standard deviation by the square root of N, the sample size.[3]

    Standard error = σ/sqrt(n)[4]

    • So for the example above, if this were a sampling of 5 students from a class of 50 and the 50 students had a standard deviation of 17 (σ = 21), the standard error = 17/sqrt(5) = 7.6.

Add New Question

  • Question

    How do you find the mean given number of observations?

    Community Answer

    To find the mean, add all the numbers together and divide by how many numbers there are. e.g to find the mean of 1,7,8,4,2: 1+7+8+4+2 = 22/5 = 4.4.

  • Question

    The standard error is calculated as 0.2 and the standard deviation of a sample is 5kg. Can it be said to be smaller or larger than the standard deviation?

    Community Answer

    The standard error (SE) must be smaller than the standard deviation (SD), because the SE is calculating by dividing the SD by something — i.e. making it smaller.

  • Question

    How can I find out the standard deviation of 50 samples?

    Community Answer

    The results of all your figures (number plus number plus number etc.) divided by quantity of samples 50 =SD.

See more answers

Ask a Question

200 characters left

Include your email address to get a message when this question is answered.

Submit

Advertisement

Video

  • Calculations of the mean, standard deviation, and standard error are most useful for analysis of normally distributed data. One standard deviation about the central tendency covers approximately 68 percent of the data, 2 standard deviation 95 percent of the data, and 3 standard deviation 99.7 percent of the data. The standard error gets smaller (narrower spread) as the sample size increases.

Thanks for submitting a tip for review!

Advertisement

  • Check your math carefully. It is very easy to make mistakes or enter numbers incorrectly.

Advertisement

References

About This Article

Article SummaryX

The mean is simply the average of a set of numbers. You can work it out by adding up all the numbers and dividing the total by the amount of numbers. For example, if you wanted to find the average test score of 3 students who scored 74, 79, and 90, you’d add the 3 numbers together to get 243, then divide it by 3 to get 81. The standard error represents how well the sample mean approximates the population mean. All you need to do is divide the standard deviation by the square root of the sample size. For instance, if you were sampling 5 students from a class of 50 and the 50 students had a standard deviation of 17, you’d divide 17 by the square root of 5 to get 7.6. For more tips, including how to calculate the standard deviation, read on!

Did this summary help you?

Thanks to all authors for creating a page that has been read 996,353 times.

Did this article help you?

Статистика — самая точная из всех неточных наук.
— Г. Флобер

Наткнулся в Интернете на вот такое видео, которое захотелось разобрать. Эту запись можно рассмотреть как ликбез в области статистики или как продолжение серии «научных анекдотов»:
scinquisitor.livejournal.com/9724.html 
scinquisitor.livejournal.com/14730.html
scinquisitor.livejournal.com/10323.html

На сайте ВЦИОМ  wciom.ru/index.php сделано утверждение: «Опрошено 1600 человек в 138 населенных пунктах в 46 областях, краях и республиках России. Статистическая погрешность не превышает 3,4%«. Далее приведена таблица, из которой видно, что 32% Россиян считают, что Солнце вращается вокруг Земли, а не наоборот, а так же ряд других не очень приятных для патриота РФ статистических данных.

В обсуждаемом ролике говорится, что фраза на сайте ВЦИОМ: «статистическая погрешность не превышает 3,4%»  — является «артефактом» и «ни о чем не говорит«. На основании чего ВЦИОМ обвиняется в подтасовке и выдумывании фактов. В конце ролика нам сообщают, что «время, когда все верят в социологические опросы, должно кануть в лету» — настораживающее заявление для тех кто хоть немного понимает как работает статистика.

Если набрать в гугле www.google.ru/ словосочетание «Статистическая погрешность» мы увидим, что не только ВЦИОМ пользуется данным термином в обсуждаемом контексте. Приведу лишь пару примеров:

«Статистическая погрешность при такой выборке не превышает 2,3%» — Фонд «Общественное Мнение» www.fom.ru/about/18.html«Для данного объема выборочной совокупности максимальная статистическая погрешность выборки при доверительном уровне 0,95 равна 2,36 %» — Центр Социологических и Маркетинговых Исследвоаний «Аналитик» www.socio-research.ru/svd/cnt/ru/fldr_mainmenu/fldr_publications/fldr_thesis/fldr_dnv_citymodification/fldr_dnv_abstract/cnt_basis

Это должно было послужить неким сигналом, что дело все-таки не во ВЦИОМе. Автор ролика мог  предположить, что он просто не понимает значения термина «статистическая погрешность» в контексте социологических исследований. Но не предположил.

Из приведенных выше контекстов понятно, что максимальная статистическая погрешность в социологическом исследовании — это некая величина не зависящая от того, какими были ответы респондентов (ведь приводится одна величина на множество вопросов, с разным распределением ответов), но зависящая от размера выборки, а так же от доверительного уровня.

Попробую объяснить не вдаваясь в математические детали, что такое статистическая погрешность и доверительный уровень.

Предположим, что в действительности у 50% людей в некотором городе с населением в 100000 человек есть машина. Мы хотели бы узнать это число, но всех опросить не можем. Давайте много раз возьмем случайную выборку из 383 человек и спросим их «есть ли у Вас машина?» (предполагая честность ответов). При таких условиях в 95% случаев опрос покажет, что машина имеется у 45-55% из взятых 383 человек. То есть в 95% случаев полученные данные каждого из небольших опросов будут не больше, чем на 5% отличаться от реального значения — доли людей, у которых в действительности есть машина (50%).

В данном случае 5% — это статистическая погрешность. 95% — это доверительный уровень при котором эта погрешность посчитана. 383 человека — это взятая выборка. 100 000 — общий размер изучаемой популяции.

Чтобы получить меньшую статистическую погрешность при том же доверительном уровне, нам необходимо иметь большую выборку. В моем примере, если мы возьмем случайным образом не 383 человек, а 1056 человек, то в 95% случаев опрос покажет, что машина имеется у 47-53% и в 99% случаев, что у 46-54% людей. То есть в среднем результаты опроса будут ближе к действительности .

Когда делается социальный опрос мы не знаем удалось ли нам установить точную долю людей, дающих некий ответ на заданный вопрос. Но мы знаем с заданной вероятностью (доверительный уровень), что находимся где-то в рамках статистической погрешности .

Здесь сразу хочу отметить еще одну деталь. Полученные погрешности посчитаны уже исходя из предположения, что у 50% людей в данной популяции в действительности имеется автомобиль. Но на практике мы именно это и пытаемся узнать — у какой доли населения есть машина?! Нет ли здесь порочного круга или парадокса? Нисколько. Дело в том, что мы ищем максимальную погрешность.

Предположим, что у нас есть вопрос с двумя вариантами ответа, как в примере с автомобилем. Он либо есть у человека, либо его нет. Если у абсолютно всех людей из популяции есть автомобиль (или его нет ни у кого) то какой бы не была наша выборка, доля людей с автомобилем в этой выборке будет точно равна доли людей с автомобилем во всей популяции — 100% (или 0%). То есть  погрешность измерений будет равна нулю.

Если в действительности в популяции один из вариантов ответа преобладает над другим, то погрешность измерений падает (это так же видно из формулы, которая приведена в конце статьи). Если ровно половина людей имеет машину, а половина людей машины не имеет, погрешность опросов будет максимальной. Предполагая, что 50% людей имеют машину мы добиваемся максимального значения погрешности т.е. работаем против себя, переоцениваем неточность наших методов. В действительности погрешность будет не больше, чем посчитанная, но может быть меньше.

Автор ролика утверждает, что «ВЦИОМ показывает погрешность, которая совсем ни о чем не говорит» и, на этом основании, заявляется, что «можно однозначно утверждать: в Рамках страны ценность исследования ВЦИОМа равна нулю«.

В случае с опросом ВЦИОМа мы имеем следующие показатели.

Размер популяции — это максимальная оценка населения России, примерно 145 000 000 человек.  Можно отметить, что с точки зрения конечных чисел, разницы между 145 000 000 и, скажем 1 000 000 в этой графе не будет практически никакой, поэтому точность данной оценки не принципиальна (она играет роль лишь при малых значениях размера популяции). Размер нашей выборки — 1600 человек. Доверительный уровень (как у меня получилось обратным расчетом) — 99%.

Поскольку мы хотим максимизировать погрешность будем исходить из того, что 50% людей выберут некий вариант ответа на вопрос, например, вариант ответа «да», а 50% не выберут.

Итак, мы теперь можем расшифровать популярно значение того, что написано на сайте ВЦИОМ — то, чего не понял автор ролика, но взялся критиковать. «Статистическая погрешность не превышает 3,4%»

С вероятностью 99% доля ответов из рассмотренной подвыборки в 1600 человек по любому взятому в опросе вопросу не отличается более, чем на 3.4% от реальной доли Россиян, которые дали бы аналогичной ответ на данный вопрос. Это справедливо при допущении, что выборка репрезентативная (что опрашивались люди, действительно, случайно, а не специально выискивались особо одаренные) и предположении о нормальном распределении.

С уверенностью в 99% мы можем сказать, что в России на вопрос «Солнце вращается вокруг Земли» ответят 32% плюс минус 3.4% людей.

Таким образом, опровергнуты следующие утверждения:
«ВЦИОМ показывает погрешность, которая совсем ни о чем не говорит»
«Можно однозначно утверждать: в Рамках страны ценность исследования ВЦИОМа равна нулю»

Я не берусь давать оценку деятельности ВЦИОМа — я не знаю, подделывают ли они сырые данные (это отдельный вопрос) и т.д. но могу сказать лишь то, что вся критика деятельности ВЦИОМа и статистики, использованной данной организацией в социальных опросах, приведенная в данном конкретном ролике не обоснована и связана с тем, что автор ролика не потрудился разобраться в той терминологии которая используется в формулах расчета.

Кстати, для математически подкованных любителей формул, вот они:

x = Z(c/100)2r(100-r)
n = N x/((N-1)E2 + x)
E = Sqrt[(Nn)x/n(N-1)]

Здесь c — доверительный уровень (например, 99%),  n -размер выборки (например, 1600), N — размер популяции (например, 145 000 000), E — статистическая ошибка, r — доля интересующих нас ответов (например, 50% для оценки максимальной ошибки).  Вторая формула позволяет посчитать необходимый размер выборки при заданной статистической ошибке. Третья формула позволяет посчитать значение статистической ошибки при данном размере выборки. Отмечу, что при r = 0, как я и говорил, E = 0 при любых n не равных нулю.

Формула взята с сайта, где имеется калькулятор, позволяющий посчитать эту самую статистическую ошибку для некой выборки и ряд других пояснений на английском для тех, кто хочет подробно разобраться в математике, а не только в самой идее www.raosoft.com/samplesize.html Профилактика ФГМ (фимоза головного мозга — lurkmore.ru/ФГМ ) — это очень полезная деятельности, однако, не стоит выдавать за борьбу с ФГМ борьбу со статистикой или социологией, а так же пропаганду очередной теории заговора, что все социологические опросы куплены и так далее.

Содержание

  • Расчет ошибки средней арифметической
    • Способ 1: расчет с помощью комбинации функций
    • Способ 2: применение инструмента «Описательная статистика»
  • Вопросы и ответы

Ошибка средней арифметической в Microsoft Excel

Стандартная ошибка или, как часто называют, ошибка средней арифметической, является одним из важных статистических показателей. С помощью данного показателя можно определить неоднородность выборки. Он также довольно важен при прогнозировании. Давайте узнаем, какими способами можно рассчитать величину стандартной ошибки с помощью инструментов Microsoft Excel.

Расчет ошибки средней арифметической

Одним из показателей, которые характеризуют цельность и однородность выборки, является стандартная ошибка. Эта величина представляет собой корень квадратный из дисперсии. Сама дисперсия является средним квадратном от средней арифметической. Средняя арифметическая вычисляется делением суммарной величины объектов выборки на их общее количество.

В Экселе существуют два способа вычисления стандартной ошибки: используя набор функций и при помощи инструментов Пакета анализа. Давайте подробно рассмотрим каждый из этих вариантов.

Способ 1: расчет с помощью комбинации функций

Прежде всего, давайте составим алгоритм действий на конкретном примере по расчету ошибки средней арифметической, используя для этих целей комбинацию функций. Для выполнения задачи нам понадобятся операторы СТАНДОТКЛОН.В, КОРЕНЬ и СЧЁТ.

Для примера нами будет использована выборка из двенадцати чисел, представленных в таблице.

Выборка в Microsoft Excel

  1. Выделяем ячейку, в которой будет выводиться итоговое значение стандартной ошибки, и клацаем по иконке «Вставить функцию».
  2. Переход в Мастер функций в Microsoft Excel

  3. Открывается Мастер функций. Производим перемещение в блок «Статистические». В представленном перечне наименований выбираем название «СТАНДОТКЛОН.В».
  4. Переход в окно аргументов функции СТАНДОТКЛОН.В в Microsoft Excel

  5. Запускается окно аргументов вышеуказанного оператора. СТАНДОТКЛОН.В предназначен для оценивания стандартного отклонения при выборке. Данный оператор имеет следующий синтаксис:

    =СТАНДОТКЛОН.В(число1;число2;…)

    «Число1» и последующие аргументы являются числовыми значениями или ссылками на ячейки и диапазоны листа, в которых они расположены. Всего может насчитываться до 255 аргументов этого типа. Обязательным является только первый аргумент.

    Итак, устанавливаем курсор в поле «Число1». Далее, обязательно произведя зажим левой кнопки мыши, выделяем курсором весь диапазон выборки на листе. Координаты данного массива тут же отображаются в поле окна. После этого клацаем по кнопке «OK».

  6. Окно аргументов функции СТАНДОТКЛОН.В в Microsoft Excel

  7. В ячейку на листе выводится результат расчета оператора СТАНДОТКЛОН.В. Но это ещё не ошибка средней арифметической. Для того, чтобы получить искомое значение, нужно стандартное отклонение разделить на квадратный корень от количества элементов выборки. Для того, чтобы продолжить вычисления, выделяем ячейку, содержащую функцию СТАНДОТКЛОН.В. После этого устанавливаем курсор в строку формул и дописываем после уже существующего выражения знак деления (/). Вслед за этим клацаем по пиктограмме перевернутого вниз углом треугольника, которая располагается слева от строки формул. Открывается список недавно использованных функций. Если вы в нем найдете наименование оператора «КОРЕНЬ», то переходите по данному наименованию. В обратном случае жмите по пункту «Другие функции…».
  8. Переход к дальнейшему продолжению написания формулы стандартной ошибки в Microsoft Excel

  9. Снова происходит запуск Мастера функций. На этот раз нам следует посетить категорию «Математические». В представленном перечне выделяем название «КОРЕНЬ» и жмем на кнопку «OK».
  10. Переход в окно аргументов функции КОРЕНЬ в Microsoft Excel

  11. Открывается окно аргументов функции КОРЕНЬ. Единственной задачей данного оператора является вычисление квадратного корня из заданного числа. Его синтаксис предельно простой:

    =КОРЕНЬ(число)

    Lumpics.ru

    Как видим, функция имеет всего один аргумент «Число». Он может быть представлен числовым значением, ссылкой на ячейку, в которой оно содержится или другой функцией, вычисляющей это число. Последний вариант как раз и будет представлен в нашем примере.

    Устанавливаем курсор в поле «Число» и кликаем по знакомому нам треугольнику, который вызывает список последних использованных функций. Ищем в нем наименование «СЧЁТ». Если находим, то кликаем по нему. В обратном случае, опять же, переходим по наименованию «Другие функции…».

  12. Окно аргументов функции КОРЕНЬ в Microsoft Excel

  13. В раскрывшемся окне Мастера функций производим перемещение в группу «Статистические». Там выделяем наименование «СЧЁТ» и выполняем клик по кнопке «OK».
  14. Переход в окно аргументов функции СЧЁТ в Microsoft Excel

  15. Запускается окно аргументов функции СЧЁТ. Указанный оператор предназначен для вычисления количества ячеек, которые заполнены числовыми значениями. В нашем случае он будет подсчитывать количество элементов выборки и сообщать результат «материнскому» оператору КОРЕНЬ. Синтаксис функции следующий:

    =СЧЁТ(значение1;значение2;…)

    В качестве аргументов «Значение», которых может насчитываться до 255 штук, выступают ссылки на диапазоны ячеек. Ставим курсор в поле «Значение1», зажимаем левую кнопку мыши и выделяем весь диапазон выборки. После того, как его координаты отобразились в поле, жмем на кнопку «OK».

  16. Окно аргументов функции СЧЁТ в Microsoft Excel

  17. После выполнения последнего действия будет не только рассчитано количество ячеек заполненных числами, но и вычислена ошибка средней арифметической, так как это был последний штрих в работе над данной формулой. Величина стандартной ошибки выведена в ту ячейку, где размещена сложная формула, общий вид которой в нашем случае следующий:

    =СТАНДОТКЛОН.В(B2:B13)/КОРЕНЬ(СЧЁТ(B2:B13))

    Результат вычисления ошибки средней арифметической составил 0,505793. Запомним это число и сравним с тем, которое получим при решении поставленной задачи следующим способом.

Результат вычисления стандартной ошибки в сложной формуле в Microsoft Excel

Но дело в том, что для малых выборок (до 30 единиц) для большей точности лучше применять немного измененную формулу. В ней величина стандартного отклонения делится не на квадратный корень от количества элементов выборки, а на квадратный корень от количества элементов выборки минус один. Таким образом, с учетом нюансов малой выборки наша формула приобретет следующий вид:

=СТАНДОТКЛОН.В(B2:B13)/КОРЕНЬ(СЧЁТ(B2:B13)-1)

Результат вычисления стандартной ошибки для малой выборки в Microsoft Excel

Урок: Статистические функции в Экселе

Способ 2: применение инструмента «Описательная статистика»

Вторым вариантом, с помощью которого можно вычислить стандартную ошибку в Экселе, является применение инструмента «Описательная статистика», входящего в набор инструментов «Анализ данных» («Пакет анализа»). «Описательная статистика» проводит комплексный анализ выборки по различным критериям. Одним из них как раз и является нахождение ошибки средней арифметической.

Но чтобы воспользоваться данной возможностью, нужно сразу активировать «Пакет анализа», так как по умолчанию в Экселе он отключен.

  1. После того, как открыт документ с выборкой, переходим во вкладку «Файл».
  2. Переход во вкладку Файл в Microsoft Excel

  3. Далее, воспользовавшись левым вертикальным меню, перемещаемся через его пункт в раздел «Параметры».
  4. Перемещение в раздел Параметры в Microsoft Excel

  5. Запускается окно параметров Эксель. В левой части данного окна размещено меню, через которое перемещаемся в подраздел «Надстройки».
  6. Переход в подраздел надстройки окна параметров в Microsoft Excel

  7. В самой нижней части появившегося окна расположено поле «Управление». Выставляем в нем параметр «Надстройки Excel» и жмем на кнопку «Перейти…» справа от него.
  8. Переход в окно надстроек в Microsoft Excel

  9. Запускается окно надстроек с перечнем доступных скриптов. Отмечаем галочкой наименование «Пакет анализа» и щелкаем по кнопке «OK» в правой части окошка.
  10. Включение пакета анализа в окне надстроек в Microsoft Excel

  11. После выполнения последнего действия на ленте появится новая группа инструментов, которая имеет наименование «Анализ». Чтобы перейти к ней, щелкаем по названию вкладки «Данные».
  12. Переход во вкладку Данные в Microsoft Excel

  13. После перехода жмем на кнопку «Анализ данных» в блоке инструментов «Анализ», который расположен в самом конце ленты.
  14. Переход в Анализ данных в Microsoft Excel

  15. Запускается окошко выбора инструмента анализа. Выделяем наименование «Описательная статистика» и жмем на кнопку «OK» справа.
  16. Переход в описательную статистику в Microsoft Excel

  17. Запускается окно настроек инструмента комплексного статистического анализа «Описательная статистика».

    В поле «Входной интервал» необходимо указать диапазон ячеек таблицы, в которых находится анализируемая выборка. Вручную это делать неудобно, хотя и можно, поэтому ставим курсор в указанное поле и при зажатой левой кнопке мыши выделяем соответствующий массив данных на листе. Его координаты тут же отобразятся в поле окна.

    В блоке «Группирование» оставляем настройки по умолчанию. То есть, переключатель должен стоять около пункта «По столбцам». Если это не так, то его следует переставить.

    Галочку «Метки в первой строке» можно не устанавливать. Для решения нашего вопроса это не важно.

    Далее переходим к блоку настроек «Параметры вывода». Здесь следует указать, куда именно будет выводиться результат расчета инструмента «Описательная статистика»:

    • На новый лист;
    • В новую книгу (другой файл);
    • В указанный диапазон текущего листа.

    Давайте выберем последний из этих вариантов. Для этого переставляем переключатель в позицию «Выходной интервал» и устанавливаем курсор в поле напротив данного параметра. После этого клацаем на листе по ячейке, которая станет верхним левым элементом массива вывода данных. Её координаты должны отобразиться в поле, в котором мы до этого устанавливали курсор.

    Далее следует блок настроек определяющий, какие именно данные нужно вводить:

    • Итоговая статистика;
    • К-ый наибольший;
    • К-ый наименьший;
    • Уровень надежности.

    Для определения стандартной ошибки обязательно нужно установить галочку около параметра «Итоговая статистика». Напротив остальных пунктов выставляем галочки на свое усмотрение. На решение нашей основной задачи это никак не повлияет.

    После того, как все настройки в окне «Описательная статистика» установлены, щелкаем по кнопке «OK» в его правой части.

  18. Окно описаительная статистика в Microsoft Excel

  19. После этого инструмент «Описательная статистика» выводит результаты обработки выборки на текущий лист. Как видим, это довольно много разноплановых статистических показателей, но среди них есть и нужный нам – «Стандартная ошибка». Он равен числу 0,505793. Это в точности тот же результат, который мы достигли путем применения сложной формулы при описании предыдущего способа.

Результат расчета стандартной ошибки путем применения инструмента Описательная статистика в Microsoft Excel

Урок: Описательная статистика в Экселе

Как видим, в Экселе можно произвести расчет стандартной ошибки двумя способами: применив набор функций и воспользовавшись инструментом пакета анализа «Описательная статистика». Итоговый результат будет абсолютно одинаковый. Поэтому выбор метода зависит от удобства пользователя и поставленной конкретной задачи. Например, если ошибка средней арифметической является только одним из многих статистических показателей выборки, которые нужно рассчитать, то удобнее воспользоваться инструментом «Описательная статистика». Но если вам нужно вычислить исключительно этот показатель, то во избежание нагромождения лишних данных лучше прибегнуть к сложной формуле. В этом случае результат расчета уместится в одной ячейке листа.

Стандартное отклонение и стандартная ошибка: в чем разница?

  • Редакция Кодкампа

17 авг. 2022 г.
читать 2 мин


В статистике студенты часто путают два термина: стандартное отклонение и стандартная ошибка .

Стандартное отклонение измеряет, насколько разбросаны значения в наборе данных.

Стандартная ошибка — это стандартное отклонение среднего значения в повторных выборках из совокупности.

Давайте рассмотрим пример, чтобы ясно проиллюстрировать эту идею.

Пример: стандартное отклонение против стандартной ошибки

Предположим, мы измеряем вес 10 разных черепах.

Для этой выборки из 10 черепах мы можем вычислить среднее значение выборки и стандартное отклонение выборки:

Предположим, что стандартное отклонение оказалось равным 8,68. Это дает нам представление о том, насколько распределен вес этих черепах.

Но предположим, что мы собираем еще одну простую случайную выборку из 10 черепах и также проводим их измерения. Более чем вероятно, что эта выборка из 10 черепах будет иметь немного другое среднее значение и стандартное отклонение, даже если они взяты из одной и той же популяции:

Теперь, если мы представим, что мы берем повторные выборки из одной и той же совокупности и записываем выборочное среднее и выборочное стандартное отклонение для каждой выборки:

Теперь представьте, что мы наносим каждое среднее значение выборки на одну и ту же строку:

Стандартное отклонение этих средних значений известно как стандартная ошибка.

Формула для фактического расчета стандартной ошибки:

Стандартная ошибка = s/ √n

куда:

  • s: стандартное отклонение выборки
  • n: размер выборки

Какой смысл использовать стандартную ошибку?

Когда мы вычисляем среднее значение данной выборки, нас на самом деле интересует не среднее значение этой конкретной выборки, а скорее среднее значение большей совокупности, из которой взята выборка.

Однако мы используем выборки, потому что для них гораздо проще собирать данные, чем для всего населения. И, конечно же, среднее значение выборки будет варьироваться от выборки к выборке, поэтому мы используем стандартную ошибку среднего значения как способ измерить, насколько точна наша оценка среднего значения.

Вы заметите из формулы для расчета стандартной ошибки, что по мере увеличения размера выборки (n) стандартная ошибка уменьшается:

Стандартная ошибка = s/ √n

Это должно иметь смысл, поскольку большие размеры выборки уменьшают изменчивость и увеличивают вероятность того, что среднее значение нашей выборки ближе к фактическому среднему значению генеральной совокупности.

Когда использовать стандартное отклонение против стандартной ошибки

Если мы просто заинтересованы в измерении того, насколько разбросаны значения в наборе данных, мы можем использовать стандартное отклонение .

Однако, если мы заинтересованы в количественной оценке неопределенности оценки среднего значения, мы можем использовать стандартную ошибку среднего значения .

В зависимости от вашего конкретного сценария и того, чего вы пытаетесь достичь, вы можете использовать либо стандартное отклонение, либо стандартную ошибку.

Понравилась статья? Поделить с друзьями:

Читайте также:

  • Статистическая ошибка среднего
  • Статус подписки приостановлена вк комбо как исправить
  • Статистическая ошибка при установке приложения арк
  • Статус подключения wan отключено неизвестная ошибка
  • Статистическая ошибка как вычислить

  • 0 0 голоса
    Рейтинг статьи
    Подписаться
    Уведомить о
    guest

    0 комментариев
    Старые
    Новые Популярные
    Межтекстовые Отзывы
    Посмотреть все комментарии