Определение законов распределения и числовых характеристик случайной величины на основе опытных данных
Самарский государственный аэрокосмический университет имени академика С.П.Королева Кафедра высшей математики
Расчетно-пояснительная записка к курсовой работе по математике
г. Самара
Определение законов распределения и числовых характеристик случайной величины на основе опытных данных
Задание
В протокол внесено n=100 измерений случайной величины Х.
1. По выборке построить статистический ряд и гистограмму.
2. Найти статистическую функцию распределения и построить её график.
3. Вычислить числовые характеристики статистического ряда .
4. Выровнять полученное распределение с помощью нормального закона.
Построить график теоретической кривой распределения в одной системе координат с гистограммой.
Построить график теоретической функции распределения в одной системе координат с графиком функции.
5. Найти доверительный интервал, в котором находится точное значение математического ожидания m случайной величины Х с доверительной вероятностью .
6. С помощью критерия согласия проверить согласованность статистического и выбранного теоретического (нормального) распределения.
Генеральная совокупность и выборка, статистический ряд и гистограмма
Генеральной совокупностью-называется совокупность всех подлежащих изучению объектов или возможных результатов всех наблюдений, производимых в одинаковых условиях над одним объектом.
Выборочной совокупностью или выборкой называется совокупность объектов или результатов наблюдения над объектом, отобранных случайным образом из генеральной совокупности.
Объемом выборки называется число объектов или наблюдений в выборке.
Конкретные значения выборки называются наблюдаемыми значениями случайной величины Х. Наблюдаемые значения заносятся в протокол. Протокол представляет собой таблицу. Составленный протокол является первичной формой записи обработки полученного материала. Для получения достоверных, надежных выводов выборка должна быть достаточно представительной по объему. Большая выборка – это неупорядоченное множество чисел. Для исследования выборку приводят к наглядному упорядоченному виду. Для этого в протоколе находят наибольшее и наименьшее значения случайной величины. Выборка, отсортированная по возрастанию, приведена в таблице 1.
Таблица 1. Протокол
-8,66
-5,49
-4,11
-3,48
-2,9
-2,32
-1,82
-1,09
-0,44
0,64
-8,31
-4,71
-3,92
-3,41
-2,85
-2,31
-1,82
-1,01
-0,43
0,71
-8,23
-4,68
-3,85
-3,33
-2,83
-2,29
-1,8
-0,99
-0,43
0,73
-7,67
-4,6
-3,85
-3,25
-2,77
-2,27
-1,77
-0,95
-0,31
0,99
-6,64
-4,43
-3,81
-3,08
-2,72
-2,25
-1,73
-0,89
-0,3
1,03
-6,6
-4,38
-3,8
-3,07
-2,67
-2,19
-1,38
-0,7
0,04
1,05
-6,22
-4,38
-3,77
-3,01
-2,6
-2,15
-1,32
-0,56
0,08
1,13
-5,87
-4,25
-3,73
-3,01
-2,49
-2,09
-1,3
-0,51
0,15
1,76
-5,74
-4,18
-3,59
-2,99
-2,37
-2,01
-1,28
-0,49
0,26
2,95
-5,68
-4,14
-3,49
-2,98
-2,33
-1,91
-1,24
-0,48
0,53
4,42
Размахом выборки называется разность между наибольшим и наименьшим значением случайной величины Х
Размах выборки разбивают на k интервалов – разрядов. Число разрядов устанавливают в зависимости от величины размаха выборки от 8 до 25, в этой курсовой работе примем k = 10.
Тогда длина интервала будет равна
В протоколе подсчитаем число наблюдаемых значений, попавших в каждый интервал, обозначим их m1, m2,…,m10.
.
Назовем mi частотой попадания случайной величины в i интервал. Если какое-либо наблюдаемое значение случайной величины совпадает с концом интервала, то это значение случайной величины по договоренности относят в один из интервалов.
После того как определили частоты mi , определим частости случайной величины, т.е. найдем отношение частот mi к общему числу наблюдаемых значений n.
— частость, условие полноты –
Найдем середину каждого интервала
.
Составим таблицу 2
Таблица значений границ интервалов и соответствующих частостей , где i = 1, 2, 3, …, k, называется статистическим рядом. Графическим изображением статистического ряда называется гистограмма. Она строится следующим образом по оси абсцисс откладывают интервалы и на каждом таком интервале, как на основании, строится прямоугольник, площадь которого равна соответствующей частости.
, — высота прямоугольника, .
Таблица
Номер интервала
Левая граница интервала
Правая граница интервала
Интервал
Середина интервала
Частота интервала
Частость интервала
Высота прямо-угольника
1
-8,66
-7,352
(-8,66; -7,352)
-8,006
4
0,04
0,0306
2
-7,352
-6,044
(-7,352; -6,044)
-6,698
3
0,03
0,0229
3
-6,044
-4,736
(-6,044; -4,736)
-5,39
4
0,04
0,0306
4
-4,736
-3,428
(-4,736; -3,428)
-4,082
20
0,2
0,1529
5
-3,428
-2,12
(-3,428; -2,12)
-2,774
26
0,26
0,1988
6
-2,12
-0,812
(-2,12; -0,812)
-1,466
18
0,18
0,1376
7
-0,812
0,496
(-0,812; 0,496)
-0,158
14
0,14
0,1070
8
0,496
1,804
(0,496; 1,804)
1,15
9
0,09
0,0688
9
1,804
3,112
(1,804; 3,112)
2,458
1
0,01
0,0076
10
3,112
4,42
(3,112; 4,42)
3,766
1
0,01
0,0076
Сумма
100
1
Рисунок 1.
Статистическая функция распределения
Статистической функцией распределения называется частость случайной величины, не превосходящая заданного значения Х
Для дискретной случайной величины Х статистическая функция распределения находится по формуле
Запишем статистическую функцию распределения в развернутом виде
где — это середина интервала i, а — это соответствующие частости, где i=1, 2,…, k.
График статистической функции распределения есть ступенчатая линия, точками разрыва которой являются середины интервалов, а конечные скачки равны соответствующим частотам (Рисунок 2).
Рисунок 2
Вычисление числовых характеристик статистического ряда
— статистическое математическое ожидание,
— статистическая дисперсия,
— статистическое среднеквадратическое отклонение.
Статистическим математическим ожиданием или статистическим средним называется среднеарифметическое наблюдаемых значений случайной величины Х.
Статистической дисперсией называется среднеарифметическое значение величиныили
При большом объеме выборки вычисления по формулам и приводят к громоздким выкладкам. Для упрощения расчетов используют статистический ряд с границами и частостями , где i = 1, 2, 3, …, k, находят середины интервалов , а затем все элементы выборки, которые попали в интервал, заменяют единственным значением, тогда таких значений будетв каждом интервале .
где- среднее значение соответствующего интервала;- частость интервала
Вычисление числовых характеристик статистического ряда сведем в таблицу 3.
Таблица 3. Числовые характеристики
Номер интервала
Середина интервала Xi
Частость Pi
XiPi
(Xi-m)^2
(Xi-m)^2*Pi
1
-8,006
0,04
-0,3202
31,48691
1,2595
2
-6,698
0,03
-0,2009
18,51856
0,5556
3
-5,39
0,04
-0,2156
8,97194
0,3589
4
-4,082
0,20
-0,8164
2,84705
0,5694
5
-2,774
0,26
-0,7212
0,14388
0,0374
6
-1,466
0,18
-0,2639
0,86245
0,1552
7
-0,158
0,14
-0,0221
5,00274
0,7004
8
1,15
0,09
0,1035
12,56476
1,1308
9
2,458
0,01
0,0246
23,54850
0,2355
10
3,766
0,01
0,0377
37,95398
0,3795
Статистическое математическое ожидание
-2,3947
Статистическая дисперсия
5,3822
Статистическое среднее квадратическое отклонение
2,3200
определяет положение центра группировки наблюдаемых значений случайной величины.
, характеризуют рассеяние наблюдаемых значений случайной величины вокруг
Выравнивание (сглаживание) статистического ряда и статистической функции распределения с помощью нормального закона
Выравнивание статистического ряда
Во всяком статистическом распределении неизбежно присутствуют элементы случайности. Однако при очень большом числе наблюдений эти случайности сглаживаются, и случайные явления обнаруживают присущую ему закономерность.
При обработке статистического материала приходится решать вопрос о том, как подобрать для данного статистического ряда теоретическую кривую. Эта теоретическая кривая распределения должна выражать существенные черты статистического распределения – эта задача называется задачей сглаживания или выравнивания статистического ряда.
Иногда общий вид распределения случайной величины Х вытекает из самой природы этой случайной величины.
Пусть случайная величина Х – это результат измерения некоторой физической величины прибора.
Х = точное значение физической величины + ошибка прибора.
Случайная ошибка прибора при измерении имеет суммарную природу и распределена по нормальному закону. Следовательно такое же распределение имеет случайная величина Х, т.е. нормальное распределение с плотностью вероятности
, где , , .
Параметры и определяются так, чтобы числовые характеристики теоретического распределения были равны соответствующим числовым характеристикам статистического распределения. При нормальном распределении полагают, что ,,, , тогда функция нормального распределения примет вид
Вычисления сведем в таблицу 4.
Таблица 4. Выравнивающая кривая
Номер интервала
Середина интервала Xi
Табулированная функция
Нормальная кривая
1
-8,0060
-2,4187
0,0214
0,0092
2
-6,6980
-1,8549
0,0714
0,0308
3
-5,3900
-1,2911
0,1734
0,0747
4
-4,0820
-0,7273
0,3062
0,1320
5
-2,7740
-0,1635
0,3936
0,1697
m
-2,3947
0
0,3989
0,1720
6
-1,4660
0,4003
0,3682
0,1587
7
-0,1580
0,9641
0,2507
0,1080
8
1,1500
1,5279
0,1242
0,0535
9
2,4580
2,0917
0,0448
0,0193
10
3,7660
2,6555
0,0117
0,0051
Теоретическую нормальную кривую строим по точкам на одном графике с гистограммой статистического ряда (Ошибка! Источник ссылки не найден.).
Рисунок 3
Выравнивание статистической функции распределения
Статистическую функцию распределения выравниваем функцией распределения нормального закона
, где,,- функция Лапласа.
Вычисления сведем в таблицу 5.
Таблица 5. Функция распределения
Номер интервала
Середина интервала Xi
Функция Лапласа
Функция распределения
1
-8,0060
-2,4187
-0,4922
0,0078
2
-6,6980
-1,8549
-0,4682
0,0318
3
-5,3900
-1,2911
-0,4017
0,0983
4
-4,0820
-0,7273
-0,2665
0,2335
5
-2,7740
-0,1635
-0,0649
0,4351
m
-2,3947
0
0
0,5000
6
-1,4660
0,4003
0,1555
0,6555
7
-0,1580
0,9641
0,3325
0,8325
8
1,1500
1,5279
0,4367
0,9367
9
2,4580
2,0917
0,4818
0,9818
10
3,7660
2,6555
0,4960
0,9960
Строим график теоретической функции распределения по точкамвместе с графиком статистической функции распределения.
Рисунок 4.
Точечные и интервальные оценки параметров распределения
Точечные оценки числовых характеристик случайной величины
Пусть изучается случайная величина Х с математическим ожиданием и дисперсией, оба параметра неизвестны.
Пусть х1, х2, х3, …, хn – выборка, полученная в результате проведения n независимых наблюдений случайной величины Х. Чтобы подчеркнуть случайный характер величин х1, х2, х3, …, хn перепишем их в виде
Х1, Х2, Х3, …, Хn, где Хi – значение случайной величины Х в i-ом опыте.
Требуется на основании этих опытных данных оценить математическое ожидание и дисперсию случайной величины. Такие оценки называются точечными, в качестве оценки m и D можно принять статистическое математическое ожидание и статистическую дисперсию , где
,
До проведения опыта выборка Х1, Х2, Х3, …, Хn есть совокупность независимых случайных величин, которые имеют математическое ожидание и дисперсию, а значит распределение вероятности такие же как и сама случайная величина Х. Таким образом
,, где i = 1, 2, 3, …, n.
Исходя из этого, найдем математическое ожидание и дисперсию случайной величины (пользуясь свойствами математического ожидания).
Таким образом математическое ожидание статистического среднего равно точному значению математического ожидания m измеряемой величины, а дисперсия статистического среднего в n раз меньше дисперсии отдельных результатов измерений.
при
Это значит, что при большом объеме выборки N статистическое средние является величиной почти неслучайной, оно лишь незначительно отклоняется от точного значения случайной величины m. Этот закон называется законом больших чисел Чебышева.
Точность статистической оценки. Доверительная вероятность (надежность оценки), доверительный интервал
Точечные оценки неизвестных значений математического ожидания и дисперсии имеют большое значение на первоначальном этапе обработки статических данных. Их недостаток в том, что неизвестно с кокой точностью они дают оцениваемый параметр.
Пусть по данной выборке Х1, Х2, Х3, …, Хn получены точные статистические оценки и, тогда числовые характеристики случайной величины Х будут приближенно равны . Для выборки небольшого объема вопрос поточности оценки существенен, т.к между m и, D и будут недостаточно большие отклонения. Кроме того при решении практических задач требуется не только найти приближенные значения m и D, но и оценить их точность и надежность. Пусть ,т.е является точечной оценкой для m. Очевидно, чтотем точнее определяет m, чем меньше модуль разности . Пусть , где ε>0, тогда, чем меньше ε, тем точнее оценка m. Таким образом, ε>0 характеризует точность оценки параметра. Однако статистические методы не позволяют категорически утверждать, что оценка истинного значения m удовлетворяет, можно лишь говорить о вероятности α, с которой это неравенство выполняется
Таким образом, α- это доверительная вероятность или надежность оценки, значение α выбираются заранее в зависимости от решаемой задачи. Надежность α принято выбирать 0.9; 0.95; 0.99; 0.999. События с такой вероятностью являются практически достоверными. По заданной доверительной вероятности можно найти число ε>0 из .
Тогда получим интервал,который накрывает с вероятностью α истинное значение математического ожидания m, длина этого интервала равна 2ε. Этот интервал называется доверительным интервалом. А такой способ оценки неизвестного параметра m – интервальным.
Доверительный интервал для математического ожидания нормального распределения случайной величины при известном σ.
Пусть дана выборка Х1, Х2, Х3, …, Хn, и пусть по этой выборке найдено ,,.
Требуется найти доверительный интервал для математического ожидания m с доверительной вероятностью α. Величина есть величина случайная с математическим ожиданием,.
Случайная величина имеет суммарную природу, при большом объеме выборки она распределена по закону близкому к нормальному. Тогда вероятность попадания случайной величины в интервал будет равна
,где
Где- функция Лапласа.
Из формулы (3) и таблиц функции Лапласа находим число ε>0 и записываем доверительный интервал для точного значения случайной величины Х с надежностью α.
В этой курсовой работе значение σ заменим, и тогда формула (3) примет вид
Найдем доверительный интервал , в котором находится математическое ожидание. При α = 0.99, n = 100, ,.
по таблицам Лапласа находим
Отсюда ε = 0,5986.
— доверительный интервал, в котором с вероятностью 99% находится точное значение математического ожидания.
Понятия о критериях согласия
Во многих случаях закон распределения случайной величины неизвестен, но на основании опытных данных делается предположение о виде закона распределения случайной величины Х. Однако для окончательного решения вопроса о виде распределения следует проверить согласуются ли результаты наблюдения с высказанным предположением. При этом, если даже предположение о виде распределения сделано правильно, закон распределения наблюдаемой случайной величины будет отличаться от теоретического закона, т.к. число наблюдений ограничено.
Поэтому следует выяснить является ли расхождение между статистическим и теоретическим законами распределения только следствием ограниченного числа наблюдений, или оно является чем-то более существенным.
Для решения этой задачи служит критерий согласия. Существует несколько видов критерия согласия критерий согласия Пирсона, Колмогорова, Смирного, Фишера и т.д.
Для проверки гипотезы о законе распределения случайной величины применим критерий согласия Пирсона или c2.
1. Найдем число
Где- частота каждого интервала или разряда,
n – объем выборки (n = 100),
— теоретическая вероятность попадания случайной величины в i интервал.
где, — границы интервалов.
— статистическое математическое ожидание,
— статистическое среднеквадратическое отклонение.
— функция Лапласа.
Формула (4) следует из формулы вероятности попадания случайной величины Х, распределенной по нормальному закону, в интервал (a;b)
2. Определим число степеней свободы , где K – число интервалов или разрядов, 3 – число связей наложенных при выборе теоретического закона распределения. Связи
1) Условие полноты ,
2) ,
3)
Замечание частота mi каждого интервала должна быть не меньше 5 — 8, т.е. в этот интервал должно попадать не меньше 5 — 8 значений случайной величины. Если это не выполняется, то малочисленные интервалы следует объединить в один интервал или присоединить к соседнему, суммируя частоты.
По найденному значению c2 и числу степеней свободы r по таблице вероятностей c2 получим искомое значение вероятности Р и сравним его с выбранным условием значимости β = 0.05. Если Р< 0.05, то гипотезу о выборе теоретического закона распределения следует пересмотреть. Если Р> 0.05, то статистический и теоретический законы распределения наблюдаемой случайной величины согласуются, следовательно, нормальное распределение может быть принято в качестве аппроксимирующего закона. Вычисления сведем в таблицу 6.
Таблица
Номер интервала
Левая граница интервала
Правая граница интервала
mi
npi
0
-8,66
-2,7006
-0,4965
1
-8,66
-4,736
-1,0092
-0,3436
0,1530
11
15,2977
1,2074
2
-4,736
-3,428
-0,4454
-0,1720
0,2702
20
27,0156
1,8218
3
-3,428
-2,12
0,1184
0,0471
0,2191
26
21,9110
0,7631
4
-2,12
-0,812
0,6822
0,2524
0,2053
18
20,5320
0,3123
5
-0,812
0,496
1,2460
0,3936
0,1412
14
14,1174
0,0010
6
0,496
4,42
2,9374
0,4983
0,1047
10
10,4726
0,0213
4,1269
Определим число степеней свободы .
K = 6, т.к. произошло объединение трёх первых и трёх последних интервалов в один, так как частота mi каждого интервала должна быть не меньше 5 — 8.
По найденному значению c2 и числу степеней свободы r по таблице вероятностей c2 получим искомое значение вероятности Р = 0,25.
Сравним его с выбранным уравнением значимости β = 0,05 0,25 > 0,05, Р > β.
Вывод статистический и теоретический законы распределения наблюдаемой случайной величины согласуются, следовательно, нормальное распределение может быть принято в качестве аппроксимирующего закона.
Список литературы
1.Гмурман В.Е Теория вероятностей и математическая статистика.
2.Гмурман В.Е Руководство к решению задач по теории вероятностей и математической статистике.
3.Данко П.Е.,Попов А.Г. Высшая математика в упражнениях и задачах.
4.Пискунов Н.С. Дифференциальное и интегральное исчисления. Т 2.
генеральный совокупность статистический распределение