Применение критерия колмогорова. Критерий согласия колмогорова-смирнова - способ оценки распределения совокупности. Пример Получена случайная выборка объема. Построим вариационный ряд и эмпирическую функцию распределения

Для применения критерия А.Н. Колмогорова ЭД требуется представить в виде вариационного ряда (ЭД недопустимо объединять в разряды). В качестве меры расхождения между теоретической F(x ) и эмпирической F* n (x) функциями распределения непрерывной случайной величины Х используется модуль максимальной разности

А.Н. Колмогоров доказал, что какова бы ни была функция распределения F(x) величины Х при неограниченном увеличении количества наблюдений n функция распределения случайной величины d n асимптотически приближается к функции распределения

Иначе говоря, критерий А.Н. Колмогорова характеризует вероятность того, что величина d n не будет превосходить параметр l для любой теоретической функции распределения. Уровень значимости a выбирается из условия

в силу предположения, что почти невозможно получить это равенство, когда существует соответствие между функциями F(x) и F* n (x) . Критерий А.Н. Колмогорова позволяет проверить согласованность распределений по малым выборкам, он проще критерия хи-квадрат, поэтому его часто применяют на практике. Но требуется учитывать два обстоятельства.

1. В соответствии с условиями его применения необходимо пользоваться следующим соотношением

2. Условия применения критерия предусматривают, что теоретическая функция распределения известна полностью – известны вид функции и значения ее параметров. На практике параметры обычно неизвестны и оцениваются по ЭД. Но критерий не учитывает уменьшение числа степеней свободы при оценке параметров распределения по исходной выборке. Это приводит к завышению значения вероятности соблюдения нулевой гипотезы, т.е. повышается риск принять в качестве правдоподобной гипотезу, которая плохо согласуется с ЭД (повышается вероятность совершить ошибку второго рода). В качестве меры противодействия такому выводу следует увеличить уровень значимости a, приняв его равным 0,1 – 0,2, что приведет к уменьшению зоны допустимых отклонений.

Последовательность действий при проверке гипотезы следующая.

1. Построить вариационный ряд.

2. Построить график эмпирической функции распределения F *(x ).

3. Выдвинуть гипотезу:

H 0: F (x ) = F 0(x ) ,

H 1: F (x ) F 0(x ) ,

где F 0(x ) - теоретическая функция распределения типового закона: равномерного, экспоненциального или нормального. Ниже приведены формулы для расчета F 0(x).

Равномерный закон

Экспоненциальный закон

5. По графику определить максимальное по модулю отклонение между функциями F* n (x ) и F 0(x ).



6. Вычислить значение критерия

7. Принимают тот или иной уровень значимости (чаще всего 0,05 или 0,01). Тогда доверительная вероятность = 1 - .

8. Из таблицы вероятностей Колмогорова выбрать критическое значение.

9. Если > , то нулевая гипотеза H 0отклоняется, в противном случае - принимается, хотя она может быть неверна.

Достоинства критерия Колмогорова по сравнению с критерием 2: возможность применения при очень маленьких объемах выборки (n < 20) , более высокая "чувствительность", а следовательно, меньшая трудоемкость вычислений.

Недостаток: критерий можно использовать в том случае, если параметры Q 1, ..., Qk распределения заранее известны, а эмпирическая функция распреде­ления F *(x ) должна быть построена по несгруппированным выборочным данным.

Пример 3.3 . По критерию Колмогорова проверить гипотезу о равно­мерном законе распределения R (0,5; 5,25) случайной величины по выборке объема 10: 2,68 1,83 2,90 1,03 0,90 4,07 5,05 0,94 0,71 1,16, уровень значимости 0,5.

Решение . Вариационный ряд данной выборки имеет вид:

0,71 0,90 0,94 1,03 1,16 1,83 2,68 2,90 4,07 5,05.

После этого строим график эмпирической функции распределения F *(x ).

Теоретическая функция распределения F 0(x ) равномерного закона R (0,5;5,25) равна

Максимальная разность по модулю между графиками F *(x ) и F 0(x ) равна 0,36 при х = 1,16.

Вычислим значение статистики

Из таблицы Колмогорова выбираем критическое значение Так как < 1,36 , то гипотеза о равномерном законе распределения принимается.

На практике кроме критерия χ 2 часто используется критерий Колмогорова, в котором в качестве меры расхождения между теоретическим и эмпирическим распределениями рассматривают максимальное значение абсолютной величины разности между эмпирической функцией распределения и соответствующей теоретической функцией распределения

называемое статистикой критерия Колмогорова.

Задавая уровень значимости α, можно найти соответствующее критическое значение

В таблице приводятся критические значения , критерия Колмогорова для некоторых α.

Таблица 4.2.

Схема применения критерия Колмогорова

1.Строится эмпирическая функция распределения и предполагаемая теоретическая функция распределения F(x) .

2.Определяется статистика Колмогорова D – мера расхождения между теоретическим и эмпирическим распределением и вычисляется величина

3. Если вычисленное значение λ больше критического , то нулевая гипотеза Н 0 о том, что случайная величина Х имеет заданный закон распределения, отвергается.

Если , то считают, что гипотеза Н 0 не противоречит опытным данным.

Пример. С помощью критерия Колмогорова на уровне значимости α=0,05 проверить гипотезу Н 0 о том, что случайная величина Х – выработка рабочих предприятия – имеет нормальный закон распределения.

Решение . 1. Построим эмпирическую и теоретическую функции распределения.

Эмпирическую функцию распределения строят по относительным накопленным частотам.

Теоретическую функцию распределения построим согласно формуле

где

Результаты вычислений сведем в таблицу:

Таблица 4.3.

Ранее рассматривались гипотезы, в которых закон распределения генеральной совокупности предполагался известным. Теперь займемся проверкой гипотез о предполагаемом законе неизвестного распределения, то есть будем проверять нулевую гипотезу о том, что генеральная совокупность распределена по некоторому известному закону. Обычно статистические критерии для проверки таких гипотез называются критериями согласия.

Критерием согласия называется критерий проверки гипотезы о предполагаемом законе неизвестного распределения. Это численная мера расхождения между эмпирическим и теоретическим распределением.

Основная задача. Дано эмпирическое распределение (выборка). Сделать предположение (выдвинуть гипотезу) о виде теоретического распределения и проверить выдвинутую гипотезу на заданном уровне значимости α.

Решение основной задачи состоит из двух частей:

1. Выдвижение гипотезы.

2. Проверка гипотезы на заданном уровне значимости.

Рассмотрим подробно эти части.

1. Выбор гипотезы о виде теоретического распределения удобно делать с помощью полигонов или гистограмм частот. Сравнивают эмпирический полигон (или гистограмму) с известными законами распределения и выбирают наиболее подходящий.

Приведём графики важнейших законов распределения:

Примеры эмпирических законов распределения приведены на рисунках:



В случае (а) выдвигается гипотеза о нормальном распределении, в случае (б) - гипотеза о равномерном распределении, в случае (в) - гипотеза о распределении Пуассона.

Основанием для выдвижения гипотезы о теоретическом распределении могут быть теоретические предпосылки о характере изменения признака. Например, выполнение условий теоремы Ляпунова позволяет сделать гипотезу о нормальном распределении. Равенство средней и дисперсии наводит на гипотезу о распределении Пуассона.

На практике чаще всего приходится встречаться с нормальным распределением, поэтому в наших задачах требуется проверить только гипотезу о нормальном распределении.

Проверка гипотезы о теоретическом распределении отвечает на вопрос: можно ли считать расхождение между предполагаемыми теоретическим и эмпирическим распределениями случайным, несущественным, объясняемым случайностью попадания в выборку тех или иных объектов, или же это расхождение говорит о существенном расхождении между распределениями. Для проверки существуют различные методы (критерии согласия) - c 2 (хи-квадрат), Колмогорова, Романовского и др.

Критерий Пирсона.

Достоинством критерия Пирсона является его универсальность: с его помощью можно проверять гипотезы о различных законах распределения.

1. Проверка гипотезы о нормальном распределении. Пусть получена выборка достаточно большого объема п с большим количеством различных значений вариант. Для удобства ее обработки разделим интервал от наименьшего до наибольшего из значений вариант на s равных частей и будем считать, что значения вариант, попавших в каждый интервал, приближенно равны числу, задающему середину интервала. Подсчитав число вариант, попавших в каждый интервал, составим так называемую сгруппированную выборку:

варианты………..х 1 х 2 … х s

частоты………….п 1 п 2 … п s ,

где х i – значения середин интервалов, а п i – число вариант, попавших в i -й интервал (эмпирические частоты). По полученным данным можно вычислить выборочное среднее и выборочное среднее квадратическое отклонение σ В . Проверим предположение, что генеральная совокупность распределена по нормальному закону с параметрами M (X ) = , D (X ) = . Тогда можно найти количество чисел из выборки объема п , которое должно оказаться в каждом интервале при этом предположении (то есть теоретические частоты). Для этого по таблице значений функции Лапласа найдем вероятность попадания в i -й интервал:

,

где а i и b i - границы i -го интервала. Умножив полученные вероятности на объем выборки п, найдем теоретические частоты: п i =n·p i .Наша цель – сравнить эмпирические и теоретические частоты, которые, конечно, отличаются друг от друга, и выяснить, являются ли эти различия несущественными, не опровергающими гипотезу о нормальном распределении исследуемой случайной величины, или они настолько велики, что противоречат этой гипотезе. Для этого используется критерий в виде случайной величины

. (7)

Смысл ее очевиден: суммируются части, которые квадраты отклонений эмпирических частот от теоретических составляют от соответствующих теоретических частот. Можно доказать, что вне зависимости от реального закона распределения генеральной совокупности закон распределения случайной величины (7) при стремится к закону распределения с числом степеней свободы k = s – 1 – r , где r – число параметров предполагаемого распределения, оцененных по данным выборки. Нормальное распределение характеризуется двумя параметрами, поэтому k = s – 3. Для выбранного критерия строится правосторонняя критическая область, определяемая условием

(8)

где α – уровень значимости. Следовательно, критическая область задается неравенством а область принятия гипотезы - .

Итак, для проверки нулевой гипотезы Н 0: генеральная совокупность распределена нормально – нужно вычислить по выборке наблюдаемое значение критерия:

, (7`)

а по таблице критических точек распределения χ 2 найти критическую точку , используя известные значения α и k = s – 3. Если - нулевую гипотезу принимают, при ее отвергают.

Пример. Результаты исследования спроса на товар представлены в таблице:

Выдвинуть гипотезу о виде распределения и проверить её на уровне значимости a=0,01.

I. Выдвижение гипотезы.

Для указания вида эмпирического распределения построим гистограмму


120 160 180 200 220 280

По виду гистограммы можно сделать предположение о нормальном законе распределения изучаемого признака в генеральной совокупности.

II. Проверим выдвинутую гипотезу о нормальном распределении, используя критерий согласия Пирсона.

1. Вычисляем , s В.В качестве вариант возьмём среднее арифметическое концов интервалов:

2. Найдём интервалы (Z i ; Z i+1): ; .

За левый конец первого интервала примем (-¥), а за правый конец последнего интервала - (+¥). Результаты представлены в табл. 4.

3. Найдем теоретические вероятности Р i и теоретические частоты (см. табл. 4).

Таблица 4

i Граница интервалов Ф(Z i) Ф(Z i+1) P i = Ф(Z i+1)-Ф(Z i)
x i x i+1 Z i Z i+1
-1,14 -0,5 -0,3729 0,1271 6,36
-1,14 -0,52 -0,3729 -0,1985 0,1744 8,72
-0,52 0,11 -0,1985 0,0438 0,2423 12,12
0,11 0,73 0,0438 0,2673 0,2235 11,18
0,73 0,2673 0,5 0,2327 11,64

4. Сравним эмпирические и теоретические частоты. Для этого:

а) вычислим наблюдаемое значение критерия Пирсона.

Вычисления представлены в табл.5.

Таблица 5

i
6,36 -1,36 1,8496 0,291
8,72 1,28 1,6384 0,188
12,12 1,88 3,5344 0,292
11,18 0,82 0,6724 0,060
11,64 -2,64 6,9696 0,599
S

б) по таблице критических точек распределения c 2 при заданном уровне значимости a=0,01 и числе степеней свободы k=m–3=5–3=2 находим критическую точку ; имеем .

Сравниваем c . . Следовательно, нет оснований отвергать гипотезу о нормальном законе распределения изучаемого признака генеральной совокупности. Т.е. расхождение между эмпирическими и теоретическими частотами незначимо (случайно). ◄

Замечание. Интервалы, содержащие малочисленные эмпирические частоты (n i <5), следует объединить, а частоты этих интервалов сложить. Если производилось объединение интервалов, то при определении числа степеней свободы по формуле K=m-3 следует в качестве m принять число оставшихся после объединения интервалов.

2. Проверка гипотезы о равномерном распределении . При использовании критерия Пирсона для проверки гипотезы о равномерном распределении генеральной совокупности с предполагаемой плотностью вероятности

необходимо, вычислив по имеющейся выборке значение , оценить параметры а и b по формулам:

где а* и b* - оценки а и b . Действительно, для равномерного распределения М (Х ) = , , откуда можно получить систему для определения а* и b *: , решением которой являются выражения (9).

Затем, предполагая, что , можно найти теоретические частоты по формулам

Здесь s – число интервалов, на которые разбита выборка.

Наблюдаемое значение критерия Пирсона вычисляется по формуле (7`), а критическое – по таблице с учетом того, что число степеней свободы k = s – 3. После этого границы критической области определяются так же, как и для проверки гипотезы о нормальном распределении.

3. Проверка гипотезы о показательном распределении. В этом случае, разбив имеющуюся выборку на равные по длине интервалы, рассмотрим последовательность вариант , равноотстоящих друг от друга (считаем, что все варианты, попавшие в i – й интервал, принимают значение, совпадающее с его серединой), и соответствующих им частот n i (число вариант выборки, попавших в i – й интервал). Вычислим по этим данным и примем в качестве оценки параметра λ величину . Тогда теоретические частоты вычисляются по формуле

Затем сравниваются наблюдаемое и критическое значение критерия Пирсона с учетом того, что число степеней свободы k = s – 2.

Пример . Для выборки, интервальный статистический ряд которой имеет вид

проверить при уровне значимости α = 0,05 гипотезу о.

Назначение критерия . Критерий λ предназначен для сопоставления двух распределений: а). эмпирического с теоретическим, например, равномерным или нормальным; б). одного эмпирического распределения с другим эмпирическим распределением.

Ограничения критерия. Критерий требует, чтобы выборка была достаточно большой, ≥50.

Гипотезы:

: различия между двумя распределениями незначимы.

: различия между двумя распределениями значимы.

Алгоритм подсчета λ – критерия.

Составляем таблицу для удобства расчетов:

1. В первом столбце располагают эмпирические значения признака, упорядоченные по возрастанию.

2. Во втором столбце располагают эмпирические частоты для каждого значения, а в третьем столбце относительные эмпирические частоты для каждого значения, рассчитанные по формуле: f* эмп j = f эмп j / n, где f эмп j – эмпирическая частота из второго столбца, n – объем выборки.

3. Подсчитываем «накопленные» эмпирические частоты по формуле:

∑ f* эмп j = ∑ f* эмп j -1 + f* эмп j ,

где ∑ f* эмп j -1 – частота, накопленная на предыдущих значениях признака;

j – порядковый номер значения признака; f* эмп j – эмпирическая частота данного j разряда. Результаты помещают в 4 столбец.

4. В 5 столбце располагают накопленные теоретические частоты, если сравнивают с известным теоретическим распределением; если сравнивают 2 эмпирических распределения, то в 5 столбце располагают накопленные эмпирические частоты для выборки 2.

5. Подсчитывают разности между накопленными частотами и их абсолютные значения помещают в 6 столбец. Обозначим их d j .

6. Определяют по 6 столбцу максимальное значение d j → d max .

7. Подсчитывают λ эмп по формуле:

,

где n 1 – объем выборки 1, n 2 - объем выборки 2, если = = n, то .

8. По заданному уровню значимости из таблицы VII приложения находят граничную точку λ кр.

9. Если λ эмп < λ кр, то различия между распределениями признака незначимы; если λ эмп > λ кр, то различия между распределениями признака значимы.

Пример . В продовольственном магазине проведены контрольные взвешивания проданной колбасы. Объем выборки n = 100. Полученные данные указаны в таблице.

недовес, г
частота

Определить с помощью λ – критерия Колмогорова-Смирнова на уровне значимости α=0,05, согласуются ли данные выборки с равномерным распределением на отрезке .

Решение. : различия между эмпирическим и предполагаемым теоретическим распределением незначимы.

: различия между эмпирическим и предполагаемым теоретическим распределением значимы.

Функция распределения случайной величины, равномерно распределенной на отрезке имеет следующий вид:

Заполним таблицу:

x j f эмп j f эмп j /n ∑ f* эмп j ∑ f* теор j d j
0,10 0,10 0,1
0,11 0,21 0,2 0,01
0,08 0,29 0,3 0,01
0,09 0,38 0,4 0,02
0,12 0,50 0,5
0,10 0,60 0,6
0,13 0,73 0,7 0,03
0,15 0,88 0,8 0,08
0,12 1,00 0,9 0,1

Поясним, как заполняется таблица. Значения первых двух столбцов взяты из условия. Каждое число второго столбца делим на n = 100 и результат записываем в 3 столбец. Каждое число 4 столбца равно сумме числа из этой же строки 3 столбца и предыдущего числа 4 столбца. Каждое число 1 столбца подставляем в формулу f * теор = x j /10 и результат записываем в 5 столбец. 6 столбец – модуль разности 4 и 5 столбцов. Наибольшее число в 6 столбце d max =0,1; λ эмп =0,1 = 1.

По уровню значимости α = 0,05 из таблицы VI приложениия находим граничную точку λ кр = 1,358. Поскольку λ эмп < λ кр (1 < 1,358), то принимаем гипотезу на уровне значимости α = 0,05. Данные выборки согласуются с равномерным распределением на отрезке .