По исходным данным, представленным в таблице 1, составить два ряда распределения – один дискретный, другой интервальный. По каждому ряду выполнить группировку данных, определить абсолютные, относительные и интегральные частоты, определить средние арифметические и структурные величины, показатели вариации. Сделать обоснованные выводы о качественных особенностях ряда и проиллюстрировать результаты графиками (гистограмма для интервального ряда, полигон для дискретного ряда, кумуляты). Расчеты выполнить вручную и подтвердить на компьютере (с помощью надстройки Microsoft Excel «Анализ данных (Описательная статистика)»).
Таблица 1
Данные обследования рабочих строительного треста, принятых на работу за последние 10 лет.

Порядковый
номер
рабочего Стаж
работы
на данном
предприятии Возраст
рабочих
(в годах)
1 2 8
21 2 21
22 2 22
23 2 22
24 3 23
25 1 19
26 1 25
27 4 28
28 1 22
29 2 20
30 2 21
31 1 20
32 3 23
33 5 26
34 3 25
35 5 24
36 3 21
37 2 22
38 1 19
39 3 24
40 1 20

Дискретный ряд распределения по стажу
Построим дискретный ряд распределения по стажу, по каждому значению стажа работы подсчитаем число рабочих – абсолютную частоту, относительную частоту находим как отношение числа рабочих по каждому стажу работу к общей численности рабочих, интегральные частоты определим как накопленные абсолютные и относительные частоты. Результаты расчета в таблице 2.

Таблица 2
Дискретный ряд распределения рабочих по стажу работы
Стаж работы Абсолютная частота Относительная частота Интегральные частоты

Число рабочих
Накопленная абсолютная частота Накопленная относительная частота
1 6 0,3 6 0,3
2 6 0,3 12 0,6
3 5 0,25 17 0,85
4 1 0,05 18 0,9
5 2 0,1 20 1,0
Итого 20 1,0 — —

1.Характеристики центра распределения:
— среднее значение стажа работы
x=i=1nxi⋰fii=1nfi
Таблица 3
Расчетная таблица
x f xf
S  xi⋰-x
 xi⋰-xf
 xi⋰-x2f
 xi⋰-x3f
 xi⋰-x3f
1
6
6 6 -1,35 8,1 10,935 -14,7623 19,929038
2
6
12 12 -0,35 2,1 0,735 -0,25725 0,0900375
3
5
15 17 0,65 3,25 2,1125 1,373125 0,8925313
4
1
4 18 1,65 1,65 2,7225 4,492125 7,4120063
5
2
10 20 2,65 5,3 14,045 37,21925 98,631013
Итого 20 47   3,25 20,4 30,55 28,065 126,9546
x=4720=2,35 года
Среднее значение стажа работы составило 2,35 года
— модальное значение признака
Мода для дискретного ряда – варианта с наибольшей частотой. Мо=2
Наибольшее число рабочих со стажем работы 2 года.
— медианное значение признака для дискретного ряда делит совокупность пополам, для четного числа значений медиана равна
Ме=2+22=2 года
50% рабочих со стажем менее 2 лет, вторая половина рабочих со стажем более 2 лет.
2.Показатели размера и интенсивности вариации
— среднее линейное отклонение
d=x-xff=20,420=1,02 года.
— дисперсия
σ2=(хi-x)2fifi=30,5520=1,5275
— среднее квадратическое отклонение
σ=σ2=1,5275=1,236
— коэффициент вариации
Vσ= σx*100=1,2362,35*100=52,6%
 Относительная мера отклонения измеренных значений вокруг средней арифметической составила 52,6%. Так как коэффициент вариации больше 33% — совокупность не является однородной, а средняя величина не является надежной и типичной.
3.Показатели формы распределения: коэффициенты асимметрии и эксцесса
Наиболее точным и распространенным показателем асимметрии является моментный коэффициент асимметрии.
As=m3σ3
где
mi=xi⋰-xlfifi- центральный момент l-го порядка
σ=xi⋰-x2fifi-среднее квадратическое отклонение
As=m3s3=28,065/201,2363=0,743
В анализируемом ряду распределения наблюдается правосторонняя асимметрия
Другой характеристикой формы распределения является эксцесс (излишество).
Ех=m4σ4-3

Ех=126,9546/201,2364-3=-0,28>0
Распределение более плосковершинное, чем нормальное.
Построим полигон и кумуляту

Рисунок 1 – Полигон распределения

Рисунок 2 – Кумулята
С помощью надстройки Microsoft Excel «Анализ данных (Описательная статистика)» получаем
стаж работы  

Среднее 2,350
Стандартная ошибка 0,284
Медиана 2,000
Мода 2,000
Стандартное отклонение 1,2359
Дисперсия выборки 1,5275
Эксцесс -0,2802
Асимметричность 0,744
Интервал 4
Минимум 1
Максимум 5
Сумма 47
Счет 20

Расчеты выполнены верно, небольшие отклонения в результата ручных и компьютерных расчетов получены в результате округления результатов при ручном расчете.
Выводы: среднее значение стажа работы составило 2,35 года. Наибольшее число рабочих со стажем 2 года, 50% рабочих со стажем менее 2 лет, вторая половина со стажем более 2 лет.  Относительная мера отклонения измеренных значений вокруг средней арифметической составила 52,6%. Так как коэффициент вариации больше 33% — совокупность не является однородной, а средняя величина не является надежной и типичной. В анализируемом ряду распределения наблюдается правосторонняя асимметрия, распределение более плосковершинное, чем нормальное.
Интервальный ряд распределения по возрасту рабочих

Определим длину интервала
h=xmax-xminn=28-191+3.22lg20=95≈2 года
Получаем
Таблица 4
Интервальный ряд распределения рабочих по возрасту
Группа по возрасту рабочих Абсолютная частота Относительная частота Интегральные частоты

Число рабочих
Накопленная абсолютная частота Накопленная относительная частота
19-21 5 0,25 5 0,25
21-23 7 0,35 12 0,6
23-25 4 0,20 16 0,8
25-27 3 0,15 19 0,95
27-29 1 0,05 20 1,0
Итого 20 1,0 — —

1.Характеристики центра распределения:
— среднее значение признака определим по формуле средней арифметической взвешенной, т.к. задан интервальный ряд распределения
x=i=1nxi⋰fii=1nfi
где
x-средняя величина, xi⋰- серединное значение признака в интервале
n-число единиц совокупности, fi-частота
Расчетная таблица
x f xf
S  xi⋰-x
 xi⋰-xf
 xi⋰-x2f
 xi⋰-x3f
 xi⋰-x3f
20 5
100 5 -2,8 14 39,2 -109,76 307,328
22 7
154 12 -0,8 5,6 4,48 -3,584 2,8672
24 4
96 16 1,2 4,8 5,76 6,912 8,2944
26 3
78 19 3,2 9,6 30,72 98,304 314,5728
28 1
28 20 5,2 5,2 27,04 140,608 731,1616
Итого 20
456   6 39,2 107,2 132,48 1364,224
x=i=1nxi⋰fii=1nfi=45620=22,8 лет≈23 года.
Средний возраст рабочих 23 года.
— модальное значение признака
Мода для интервального ряда
M0=xMo+hMofM0-fM0-1fM0-fM0-1+(fM0-fM0+1)
xMo- начало модального интервала
hMo-величина модального интервала
fM0-частота интервала , соответствующая модальному интервалу
fM0-1-частота интервала, предшествующая модальному интервалу
fM0+1-частота интервала, следующего за модальным
M0=21+2*7-57-5+7-4=21,8 года≈22 года.
Наибольшее число рабочих в возрасте 22 года.
— медианное значение признака
Медианный размер определяем по формуле для интервального ряда
Me=xMe+hMеfi2-SMe-1fMe
xMe- нижняя граница медианного интервала
hMе-величина медианного интервала
fMе-частота медианного интервала
fi- сумма всех частот fi=20
SMe-1-накопленная частота интервала, предшествующего медианному
Me=21+2*10-57=22,4 года.
50% рабочих в возрасте младше 22,4 года, вторая половина рабочих в возрасте старше 22,4 года.
2.Показатели размера и интенсивности вариации
— среднее линейное отклонение
d=x-xff=39,220=1,96 года.
— дисперсия
σ2=(хi-x)2fifi=107,220=5,36
— среднее квадратическое отклонение
σ=σ2=5,36=2,32 года
— коэффициент вариации
Vσ= σx*100=2,3222,8*100=10,2%
 Относительная мера отклонения измеренных значений вокруг средней арифметической составила 10,2%. Так как коэффициент вариации меньше 33% — совокупность является однородной, а средняя величина является надежной и типичной.
3.Показатели формы распределения: коэффициенты асимметрии и эксцесса
Наиболее точным и распространенным показателем асимметрии является моментный коэффициент асимметрии.
As=m3σ3
где
mi=xi⋰-xlfifi- центральный момент l-го порядка
σ=xi⋰-x2fifi-среднее квадратическое отклонение
As=m3s3=6,6242,323=0,534
В анализируемом ряду распределения наблюдается правосторонняя асимметрия
Другой характеристикой формы распределения является эксцесс (излишество).
Ех=m4σ4-3

Ех=68,21122,324-3=-0,63<0
Распределение более плосковершинное, чем нормальное.
Построим гистограмму распределения

Рисунок 3 – Гистограмма распределения рабочих по возрасту

Рисунок 4 – Кумулята
С помощью надстройки Microsoft Excel «Анализ данных (Описательная статистика)» получаем
стаж работы  
Среднее 22,350
Стандартная ошибка 0,539
Медиана 22,000
Мода 22,000
Стандартное отклонение 2,412
Дисперсия выборки 5,818
Эксцесс 0,011
Асимметричность 0,642
Интервал 9
Минимум 19
Максимум 28
Сумма 447
Счет 20

Наблюдаются отклонения в результата ручных и компьютерных расчетов, т.к. при ручном расчете данные брались по середине интервала, а компьютерные расчеты велись по всей совокупности.
Выводы: среднее значение возраста рабочих составило 23 года. Наибольшее число рабочих в возрасте 22 года, 50% рабочих в возрасте младше 22,4 года, вторая половина в возрасте старше 22,4 года.  Относительная мера отклонения измеренных значений вокруг средней арифметической составила 10,2%. Так как коэффициент вариации больше 33% — совокупность не является однородной, а средняя величина не является надежной и типичной. В анализируемом ряду распределения наблюдается правосторонняя асимметрия, распределение более плосковершинное, чем нормальное.

Заключение

В результате проведенных расчетов как ручным способом, так и с помощью надстройки Microsoft Excel «Анализ данных (Описательная статистика)» получены значения среднего стажа и возраста рабочих, вариации признаков. Совокупность по стажу работы не является количественно однородной, а по возрасту совокупность однородна. В дискретном ряду значения признаком совпали с результатами расчетов в EXCEL, а в интервальном ряду наблюдаются отклонения от ручного расчета, т.к. при ручном расчете при построенном интервальном ряде в качестве вариант выбирались средние значения по каждой группе, а компьютерный расчет производится по всей не сгруппированной совокупности.

СПИСОК ЛИТЕРАТУРЫ

1. Гусаров В.М. Статистика: Учебное пособие для студ. вузов. – М.: ЮНИТИ, 2008 . – 479 с.
2. Елисеева И.И. Статистика: Учебник. –- М.: ИНФРА-М, 2011. – 565 с.
3. Ефимова, М. Р. Практикум по общей теории статистики – М.: Финансы и статистика, 2007 . – 368 с.
4. Практикум по общей теории статистики: Учеб. пособие для вузов / Под ред. И.И. Елисеевой. — М.: Финансы и статистика, 2008. – 512 с.

По исходным данным представленным в таблице 1 составить два ряда распределения – один дискретный