Статистический анализ выборочного наблюдения

Федеральное агентство по образованию
Кафедра Экономики и финансов
Южно-Уральского Государственного Университета
Статистический анализ выборочного наблюдения
Пояснительная записка к курсовой работе
по курсу «Статистика»
вариант 104
Руководитель
Серебренникова Т.А.
«____»___________2005г.
______________________
Автор проекта
студент группы ЗЭиУ-427
Михайлов А.А.
«____»___________2005г.
______________________
Проект защищен
с оценкой
______________________
«_____»___________2005г.
Челябинск
2005

Аннотация
Михайлов А.А. Статистический анализ выборочного наблюдения. – Челябинск ЮУрГУ, ЗЭиУ, 2005, 27 с., 5 ил., 11 табл.. Список литературы – 2 наименования.
В данном курсовом проекте исследуется показатель «Площади жилищ, приходящейся в среднем на одного жителя, по регионам Российской Федерации, весь жилищный фонд; кв.м./чел» на конец 2003г., охватываются такие разделы, как «Сводка и группировка данных», «Вариационный анализ», «Выборочное наблюдение», «Ряды динамики».
Применяются различные методы статистики для вычисления показателей. Производится анализ полученных результатов в каждом разделе. Результатом выполнения курсовой работы является умение и навыки работы со статистическими данными

Содержание
Введение
1. 1.Сводка и группировка данных статистического наблюдения
2. Вариационный анализ
3. Выборочное наблюдение
4. Анализ динамики
Заключение
Список литературы

Введение
Многие окружающие нас процессы можно выразить с помощью числовых значений. Однако этих чисел оказывается так много и они носят различный характер, что для обыденного человека не представляют никакой информации. Методы статистики позволяют анализировать такие данные, находить закономерности и даже строить прогнозы.
Основываясь на статистических данных, мы можем предсказывать развитие различных ситуаций. Что помогает нам как в технике, так и в управленческой деятельности при принятии различных решений. Именно поэтому знание основных методов статистики необходимо для того, чтобы успешно решать различного рода задачи.
Количество данных, поступающих к нам из внешнего мира, постоянно растет, поэтому статистические методы, применяемые для упорядочивания этих данных, представления их в удобном для рассмотрения и анализа виде, никогда не теряют своей актуальности.

1. Сводка и группировка данных статистического наблюдения
Выполним простую сводку по показателю «Площадь жилищ, приходящаяся в среднем на одного жителя, по регионам Российской Федерации, весь жилищный фонд; кв.м/чел» на конец 2003г. Результат сводки представим в таблице 1.1
Таблица 1.1 – Простая сводка по показателю «Площадь жилищ, приходящаяся в среднем на одного жителя, по регионам Российской Федерации, весь жилищный фонд» на конец 2003г.

Название субъекта РФ
Площадь жилищ, кв.м/чел

Российская Федерация
20,2

Центральный федеральный округ
21,5

Белгородская область
22,0

Брянская область
21,9

Владимирская область
22,4

Воронежская область
22,9

Ивановская область
21,5

Калужская область
22,2

Костромская область
22,8

Курская область
22,0

Липецкая область
21,9

Московская область
23,3

Орловская область
21,2

Рязанская область
22,5

Смоленская область
22,8

Тамбовская область
21,6

Тверская область
24,5

Тульская область
22,5

Ярославская область
21,5

г. Москва
18,8

Северо-Западный федеральный округ
22,0

Республика Карелия
21,8

Республика Коми
22,2

Архангельская область
22,5

Вологодская область
23,1

Калининградская область
19,2

Ленинградская область
23,3

Мурманская область
22,3

Новгородская область
23,7

Псковская область
24,5

г. Санкт-Петербург
20,9

Южный федеральный округ
18,4

Республика Адыгея
22,7

Республика Дагестан
15,6

Республика Ингушетия
6,7

Чеченская Республика

Кабардино-Балкарская Республика
15,3

Республика Калмыкия
19,8

Карачаево-Черкесская Республика
18,4

Республика Северная Осетия — Алания
24,9

Краснодарский край
18,7

Ставропольский край
19,1

Астраханская область
18,6

Волгоградская область
19,4

Ростовская область
19,1

Приволжский федеральный округ
19,9

Республика Башкортостан
18,6

Республика Марий Эл
20,2

Республика Мордовия
21,1

Республика Татарстан
19,7

Удмуртская Республика
18,1

Чувашская Республика
19,8

Кировская область
20,3

Нижегородская область
21,3

Оренбургская область
19,1

Пензенская область
21,3

Пермская область
18,9

Самарская область
20,0

Саратовская область
21,7

Ульяновская область
20,8

Уральский федеральный округ
19,5

Курганская область
19,1

Свердловская область
20,4

Тюменская область
18,3

Ямало-Ненецкий автономный округ
17,4

Челябинская область
19,8

Сибирский федеральный округ
19,0

Республика Алтай
15,2

Республика Бурятия
17,6

Республика Тыва
12,6

Республика Хакасия
18,9

Алтайский край
19,2

Красноярский край
20,0

Эвенкийский автономный округ
27,5

Иркутская область
19,3

Кемеровская область
19,7

Новосибирская область
18,6

Омская область
19,5

Томская область
19,0

Читинская область
18,2

Дальневосточный федеральный округ
19,8

Республика Саха (Якутия)
19,5

Приморский край
18,9

Хабаровский край
19,5

Амурская область
19,6

Камчатская область
21,2

Магаданская область
25,7

Сахалинская область
21,4

Еврейская автономная область
20,0

Чукотский автономный округ
28,4

Проанализировав все данные можно выделить две республики, данные по которым значительно отличаются от всей совокупности. Вследствие этого, уберем из расчетов Чеченскую республику и республику Ингушетия.
Построим простую группировку, с выделением групп субъектов со значением показателя выше и ниже среднего по Российской Федерации.
Рассчитаем среднее по группе, расчет выполним как простую арифметическую величину по формуле (1)
, кв.м/чел (1)
где n – число субъектов РФ в данной группе,
Xi – значение по каждому субъекту.

Результат занесем в таблицу 1.2.
Таблица 1.2 – Простая группировка с выделением групп субъектов выше и ниже среднего по Российской Федерации относительно среднего значения по России

Площадь жилищ, кв.м/чел
Количество субъектов
В % к общему числу
Среднее по группе, кв.м/чел

Ниже среднего по РФ (< 20,2 кв.м/чел)
39
48,75
18,6

Выше среднего по РФ (> 20,2 кв.м/чел)
41
51,25
22,5

Итого
80
100,00
20,2

Отобразим полученные результаты на графике, показанном на рисунке 1.1, для простой группировки лучшим образом подойдет круговая диаграмма.

Рисунок 1.1 – Доля субъектов со значением выше и ниже среднего по Российской Федерации
Построим простую группировку, с выделением групп субъектов со значением показателя выше и ниже среднего относительно Челябинской области.
Рассчитаем среднее по группе, расчет выполним как простую арифметическую величину по формуле (1).

Результат занесем в таблицу 1.3.
Таблица 1.3 – Простая группировка с выделением групп субъектов выше и ниже среднего относительно Челябинской области

Площадь жилищ, кв.м/чел
Количество субъектов
В % к общему числу
Среднее по группе, кв.м/чел

Ниже среднего по ЧО (< 19,8 кв.м/чел)
33
41,25
18,4

Выше среднего по ЧО (> 19,8 кв.м/чел)
47
58,75
22,2

Итого
80
100,00
20,2

Отобразим полученные результаты на графике, показанном на рисунке 1.2. Для простой группировки лучшим образом подойдет круговая диаграмма.

Рисунок 1.2 – Доля субъектов со значением выше и ниже среднего по Челябинской области
Выполнив простые группировки видно, что в среднем значение показателя по РФ не сильно варьируется. Это обусловлено тем, что в каждом субъекте соотношение жителей и жилой площади сопоставимо. Поэтому разброс значений показателя не велик.

2. Вариационный анализ
Выполним вариационный анализ показателя «Площадь жилищ, приходящаяся в среднем на одного жителя, по регионам Российской Федерации, весь жилищный фонд» на конец 2003г.
Для этого построим вариационный ряд. Так как признак непрерывный, то необходимо разбить все значения на интервалы. Количество интервалов примерно можно определить с помощью формулы Стержесса
(2)
где k – количество интервалов,
n – количество субъектов РФ, попадающих в вариационный анализ.
Длину интервалов считаем по формуле (3)
, кв.м/чел (3)
Подставим значения и посчитаем количество интервалов и шаг интервалов.

Примем k = 8.
кв.м/чел
Так как в вариационном ряду встречаются максимальные и минимальные значения отличные от общей вариации, посчитаем другую длину интервала.
кв.м/чел
Примем длину интервала l = 1,5 кв.м/чел.
Исходя из полученных интервалов и длины построим таблицу 2.1
Отобразим вариационный ряд графически. Для отображения вариационного ряда наиболее подходящим графиком является гистограмма. Построим гистограмму рисунок 2.1 по полученным значениям.
Таблица 2.1 – Распределение количества субъектов РФ

Площадь жилищ, кв.м/чел
Количество субъектов

< 15,0
1

15,0 – 16,5
3

16,5 – 18,0
2

18,0 – 19,5
22

19,5 – 21,0
16

21,0 – 22,5
19

22,5 – 24,0
11

> 24,0
6

Итого
80

Рисунок 2.1 – Гистограмма распределения числа субъектов РФ в зависимости от площади жилищ, приходящейся на одного жителя
Построим кумуляту и огиву на рисунке 2.2, для этого составим таблицу 2.2 накопленных частот для кумуляты и огивы.

Таблица 2.2 – Накопленные значения для кумуляты и огивы

Площадь жилищ, кв.м/чел
Количество субъектов
Накопленные частоты для кумуляты
Накопленные частоты для огивы

< 15,0
1
1
80

15,0 – 16,5
3
4
79

16,5 – 18,0
2
6
76

18,0 – 19,5
22
28
74

19,5 – 21,0
16
44
52

21,0 – 22,5
19
63
36

22,5 – 24,0
11
74
17

> 24,0
6
80
6

Итого
80

Рисунок 2.2 – Кумулята и огива распределения количества субъектов
Выполним расчет числовых характеристик показателя.
Необходимо рассчитать среднее значение вариационного ряда. Для интервального ряда среднее значение ряда считается по формуле (4)
(4)
где xi – центр интервала,
fi – количество единиц в j-том интервале.
Подставим значения в формулу (4) и получим
Для характеристики структуры вариационного ряда рассчитаем моду и медиану, они рассчитываются по формулам (5) и (6) соответственно
(5)
(6)
Подставим значения и получим
,
Оценим также силу и размах вариации, они рассчитываются по формулам (7), (8), (9)
(7)
(8)
(9)
Подставим значения в формулы и получим

Посчитаем все остальные показатели по вариационному ряду.
— дисперсия
— относительный размах вариации
— относительное линейное отклонение
— коэффициент вариации
Также необходимо узнать распределение показателя по всему диапазону значений. Для этого вычислим показатели характера вариации
— коэффициент асимметрии
— показатель эксцесса
Для удобства и наглядности все полученные значения в ходе вычислений сведем в таблицу 2.3
Таблица 2.3 – Показатели вариации для распределения площади жилищ, приходящейся на одного жителя

№ п/п
Название показателя
Значение показателя

1
Среднее значение, кв.м/чел
20,62

2
Мода, кв.м/чел
19,15

3
Медиана, кв.м/чел
21,19

4
Размах вариации, кв.м/чел
15,8

5
Среднее линейное отклонение, кв.м/чел
1,87

6
Среднее квадратическое отклонение, кв.м/чел
2,28

7
Дисперсия, (кв.м/чел)2
5,20

8
Относительный размах вариации
0,77

9
Относительное линейное отклонение, %
0,09

10
Коэффициент вариации, %
0,11

11
Коэффициент асимметрии
1,55

12
Эксцесс
— 0,15

Так как выполняется неравенство , то распределение не симметричное. Коэффициент асимметрии показывает, что существует значительная асимметрия.
Отрицательный показатель эксцесса показывает, что разброс показателя достаточно велик. Цель вариационного анализа достигнута.

3. Выборочное наблюдение

Произведем отбор 27 и 35 субъектов из генеральной совокупности.
Будем производить случайный отбор субъектов РФ.
Составим две таблицы из 27 и 35 субъектов соответственно 3.1 и 3.2.
Таблица 3.1 – Бесповторная выборка 27 субъектов РФ

№ п/п
Название субъекта
Площадь жилищ, кв.м/чел

1
Владимирская область
22,4

2
Ивановская область
21,5

3
Костромская область
22,8

4
Липецкая область
21,9

5
Республика Карелия
21,8

6
Архангельская область
22,5

7
Калининградская область
19,2

8
Мурманская область
22,3

9
Краснодарский край
18,7

10
Ставропольский край
19,1

11
Астраханская область
18,6

12
Волгоградская область
19,4

13
Республика Башкортостан
18,6

14
Республика Мордовия
21,1

15
Удмуртская Республика
18,1

16
Кировская область
20,3

17
Курганская область
19,1

18
Свердловская область
20,4

19
Магаданская область
25,7

20
Ямало-Ненецкий автономный округ
17,4

21
Челябинская область
19,8

22
Республика Алтай
15,2

23
Республика Тыва
12,6

24
Алтайский край
19,2

25
Иркутская область
19,3

26
Хабаровский край
19,5

27
Сахалинская область
21,4

Таблица 3.2 – Бесповторная выборка 35 субъектов РФ

№ п/п
Название субъекта
Площадь жилищ, кв.м/чел

1
Белгородская область
22,0

2
Брянская область
21,9

3
Воронежская область
22,9

4
Калужская область
22,2

5
Курская область
22,0

6
Республика Коми
22,2

7
Вологодская область
23,1

8
Ленинградская область
23,3

9
Новгородская область
23,7

10
Псковская область
24,5

11
Республика Адыгея
22,7

12
Республика Дагестан
15,6

13
Республика Калмыкия
19,8

14
Карачаево-Черкесская Республика
18,4

15
Ростовская область
19,1

16
Республика Марий Эл
20,2

17
Республика Татарстан
19,7

18
Нижегородская область
21,3

19
Пензенская область
21,3

20
Ямало-Ненецкий автономный округ
17,4

21
Челябинская область
19,8

22
Самарская область
20,0

23
Курганская область
19,1

24
Свердловская область
20,4

25
Тюменская область
18,3

26
Республика Бурятия
17,6

27
Республика Хакасия
18,9

28
Кемеровская область
19,7

29
Новосибирская область
18,6

30
Томская область
19,0

31
Приморский край
18,9

32
Амурская область
19,6

33
Еврейская автономная область
20,0

34
Камчатская область
21,2

35
Республика Саха (Якутия)
19,5

Посчитаем выборочные средние для двух выборок

Найдем дисперсию для обеих выборок

Для определения предельной ошибки возьмем вероятность попадания в интервал 0,99. По таблице в приложении 2, 3 страница 34-37 /1/, найдем значение коэффициента t = 2,58 и tСт=2,779. Подставим значения и посчитаем предельные ошибки для обоих случаев

Таким образом, генеральная средняя будет лежать в пределах
· при малой выборке
· при большой выборке
По заданию необходимо определить доверительный интервал генеральной средней по выборочным данным с вероятностью 0,689; 0,789; 0,889; 0,959. Для этого необходимо из таблиц приложений /1/ выписать соответствующие значения коэффициентов t и tСт. Подставим значения в формулы и посчитаем, а результаты занесем в таблицы 3.3 и 3.4 для малой выборки и большой соответственно.
Таблица 3.3 – Определение доверительных интервалов генеральной средней для заданных вероятностей для малой (27 субъектов) выборки

Заданная вероятность
Значение tСт
Значение предельной ошибки, кв.м/чел
Доверительный интервал, кв.м/чел

0,689
1,058
1,06
[18,34; 20,46]

0,789
1,315
1,31
[18,09; 20,71]

0,889
1,706
1,70
[17,70; 21,10]

0,959
2,479
2,48
[16,92; 21,88]

Таблица 3.4 – Определение доверительных интервалов генеральной средней для заданных вероятностей для большой (35 субъектов) выборки

Заданная вероятность
Значение t
Значение предельной ошибки, кв.м/чел
Доверительный интервал, кв.м/чел

0,689
1,01
0,67
[19,73; 21,07]

0,789
1,25
0,83
[19,57; 21,23]

0,889
1,60
1,06
[19,34; 21,46]

0,959
2,05
1,36
[19,04; 21,76]

Как мы видим, в обеих выборках выборочная средняя величина лежит довольно близко к генеральному среднему. Однако в большей выборке выборочная средняя гораздо ближе к генеральному среднему, это связано с тем, что большая выборка более точная.
Для всех заданных вероятностей значение генеральной средней лежит в доверительном интервале. Это свидетельствует о том, что нами был выбран правильный способ отбора регионов для оценки.
Доверительные интервалы для обеих выборок имеют разную длину из-за получившейся большой выборочной дисперсии в первой (малой) выборке. В целом, мы видим, что при увеличении доверительной вероятности доверительный интервал расширяется и в том и другом случае – мы можем гарантировать, что больший доверительный интервал будет иметь внутри себя генеральную среднюю с высокой вероятностью.

4. Анализ динамики

Проанализируем динамику показателя «Площадь жилищ, приходящаяся в среднем на одного жителя, по Челябинской области за 1995–2003 г.г.; кв.м/чел».
Для этого построим ряд динамики и рассчитаем показатели ряда динамики
— абсолютное изменение уровня ряда
· цепное
· базисное
— ускорение уровня ряда

— темп роста уровня ряда
· цепной
· базисный
— темп прироста уровня ряда
· цепной
· базисный
-абсолютное значение 1% прироста

Подставим значения в формулы, полученные результаты расчетов сведем в таблицу 4.1.
По данным таблицы 4.1 построим график тенденции показателя по Челябинской области для выявления вида уравнения динамики.

Таблица 4.1 – Сводная таблица показателей динамики

Наименование показателя
Год
Средние значения

1995
1996
1997
1998
1999
2000
2001
2002
2003

Площадь жилищ, кв.м/чел
17,9
18,1
18,2
18,1
18,6
18,7
19,1
19,4
19,8
18,6

Абсолютный цепной прирост, кв.м/чел

0,2
0,1
-0,1
0,5
0,1
0,4
0,3
0,4
0,2

Абсолютный базисный прирост, кв.м/чел

0,2
0,3
0,2
0,7
0,8
1,2
1,5
1,9

Абсолютное цепное ускорение, кв.м/чел


-0,1
-0,2
0,6
-0,4
0,3
-0,1
0,1
0,2

Темп роста (цепной), %

101,1
100,6
99,5
102,8
100,5
102,1
101,6
102,1
101,3

Темп роста (базисный), %

101,1
101,7
101,1
103,9
104,5
106,7
108,4
110,6

Темп прироста (цепной), %

1,1
0,6
-0,5
2,8
0,5
2,1
1,6
2,1
1,3

Темп прироста (базисный), %

1,1
1,7
1,1
3,9
4,5
6,7
8,4
10,6

Абсолютное значение 1% прироста (цепного), кв.м/чел

0,023
0,002
0,001
-0,001
0,005
0,001
0,004
0,003

Рисунок 4.1 – График тенденции показателя по Челябинской области
Исходя из вида графика, можно судить о характере тренда. На графике ясно видно, что тренд имеет линейный вид, пусть даже с небольшими отклонениями. Составим для линейного вида тренда систему уравнений
,
Аппроксимируем кривую, для этого необходимо провести прямую, так чтобы площади «над ней» и «под ней» были равны. Найдем значения в соответствующих точках.
Подставив соответствующие значения t и x, получим

Решая систему уравнений, найдем значения a и b , .
Напишем уравнение линейного тренда
Максимальный темп прироста мы наблюдаем в 1999 году, что связано с общим ростом отечественного производства после дефолта 1998 года. Минимальный абсолютный темп прироста наблюдается в 1998 году, это связано, видимо с тем, что большая часть населения хранила свои сбережения либо в валюте, либо в банках РФ, которые после дефолта стали неплатежеспособными.
Проведя анализ динамики, мы выяснили, что площадь жилищ, приходящаяся на одного жителя, из года в год увеличивается, что говорит о постоянном увеличении уровня жизни населения. Не исключено что в дальнейшем условия жизни населения в Челябинской области улучшатся и рост площади жилищ, приходящейся на одного жителя, будет увеличиваться по другому закону, например, по параболическому.

Заключение
Проведя работу можно сделать вывод существуют субъекты РФ в которых показатель «площадь жилищ, приходящаяся в среднем на одного жителя» выше среднего по России (20,2 кв.м/чел), но существуют такие где показатель ниже среднего. Но необходимо сделать оговорку, что разброс данных невелик. Есть отдельные субъекты, которые были убраны из расчетов (Чеченская Республика и Республика Ингушетия), но это связано с боевыми действиями на Кавказе.
В целом по России распределение равномерное и в процентном отношении составило 48,75% (ниже среднего) к 51,25% (выше среднего). Однако, показатель эксцесса свидетельствует о том, что разброс достаточно велик.
В результате вариационного анализа выяснили, что мода равна 19,15 кв.м/чел, а медиана 21,15 кв.м/чел. Это говорит о том что на половину жителей приходится больше чем 21,15 кв.м жилой площади, а на вторую половину жителей меньше чем 21,15 кв.м площади.
Также в работе выполнено выборочное наблюдение. Был произведен бесповторный отбор 27 и 35 регионов. То, что полученные значения выборочной средней находятся довольно близко к генеральной средней, а все доверительные интервалы содержат в себе генеральную среднюю, говорит о том, что выборки получились репрезентативными и способ отбора выбран правильно.
Челябинская область имеет значение показателя ниже среднего по России, но значение отличается менее чем на 2% (19,8 кв.м/чел). Но прослеживается динамика увеличения показателя, это стало видно после проведения анализа динамики. Средний темп роста составил 101,3%.
Цель курсовой работы достигнута. Мы научились работать со статистическими данными. Знание основных методов статистики помогло нам успешно решить различного рода задачи.

Список литературы

1. Лазарева Г.В., Богданчикова М.Ю. Статистика Учебное пособие по выполнению курсового проекта. – Челябинск Изд. ЮУрГУ, 2003.
2. Сборник «Российский статистический ежегодник» 2004.