Лекция 16. Статистическая проверка гипотез


  1. Основные понятия


Определение 1.   Статистическими гипотезами называются любые предположения относительно закона распределения СВ X, проверяемые по выборке Zn.

Пример 1.   По выборке Zn требуется проверить гипотезу H0 о том, что mX= m, где m - некоторое фиксированное число.

Определение 2.   Статистикой называется произвольная функция Z = φ(Zn) выборки Zn, для значений которой известны условные плотности распределения f(z|H0) и f(z|H1) относительно проверяемой гипотезы H0 и конкурирующей с ней альтернативной гипотезы H1.

Замечание 1.   Из определения 2 следует, что Z есть СВ. Практическое применение математической статистики состоит в проверке соответствия результатов экспериментов предполагаемой гипотезе. С этой целью строится процедура (правило) проверки гипотезы.

Определение 3.   Критерием согласия называется правило, в соответствии с которым по реализации

z
Δ
=

φ(zn)
статистики Z, вычисленной на основании апостериорной выборки zn, гипотеза H0 принимается или отвергается.

Определение 4.   Критической областью G называется область реализаций z статистики Z, при которых гипотеза H0 отвергается.

Определение 5.   Доверительной областью G называется область значений z статистики Z, при которых гипотеза H0 принимается.

Определение 6.   Уровнем значимости p критерия согласия называется вероятность события, стоящего в том, что гипотеза H0 отвергается, когда она верна, т.е.

p
Δ
=

P{Z О G|H0} ,
где вероятность P соответствует условной плотности распределения f(z|H0).

Определение 7.   Мощностью γ критерия согласия называется вероятность события, состоящего в том, что гипотеза H0 отвергается, когда она неверна, т.е.

γ
Δ
=

P{Z О G|H1} ,
где вероятность P соответствует условной плотности f(z|H1).

Определение 8.   Критической точкой zβ называется точка на оси Oz, являющаяся квантилью уровня

β
Δ
=

1 - p
распределения F(z|H0), соответствующего плотности распределения f(z|H0).

Замечание 2.   На рис.1 показана графическая интерпретация введенных понятий, где β + p = 1, δ + γ = 1.

Рисунок 1
Рисунок 1.

Замечание 3.   В качестве критерия согласия примем правило:
    1)   если значение

z
Δ
=

φ(zn)
статистики Z = φ(Zn) лежит в критической области G, то гипотеза H0 отвергается и принимается альтернативная гипотеза H1;
    2)   если реализация

z
Δ
=

φ(zn)
статистики Z = φ(Zn) лежит в доверительной области G, то гипотеза H0 принимается.
При реализации данного правила могут возникнуть ошибки двух видов.

Определение 9.   Ошибкой 1-го рода называется событие, состоящее в том, что гипотеза H0 отвергается, когда она верна. Вероятность этой ошибки равна

p
Δ
=

P{Z О G|H0} .

Определение 10.   Ошибкой 2-го рода называется событие, состоящее в том, что гипотеза H0 принимается, когда она неверна. Вероятность этой ошибки равна

δ
Δ
=

P{Z О G|H1} = 1 - γ .

Замечание 4.   Из рисунка видно, что с уменьшением вероятности p ошибки 1-го рода возрастает вероятность ошибки 2-го рода и наоборот, т.е. при выборе критической и доверительной областей должен достигаться определенный компромисс.



  2. Проверка гипотезы о значении параметров нормального распределения


Замечание 1.   Пусть известно, что СВ X имеет нормальное распределение. Требуется проверить гипотезу H0, состоящую в том, что mX = m (m - некоторое фиксированное число), используя апостериорную выборку zn. Возможны два случая: дисперсия (σX)2 известна или неизвестна.
Предполо-
жение
Статистика Z
критерия
согласия
Распре-
деление
Доверительная
область G
принятия
гипотезы Н0
      σX
известно
    ^
(MX - m)√n
      σX
N(0,1)[-uα , uα]
      σX
неизвестно
    ^
(MX - m)√n-1
           ^    
    DX
S(n-1)[-tα(n - 1) , tα(n - 1)]
Для каждого случая в соответствии с примерами Л15.Р4.П1 и Л15.Р4.П2 получаем свой критерий согласия. (ниже uα, tα(n - 1) - квантили уровня

α
Δ
=

1 - p / 2
распределений N(0,1) и S(n-1) соответственно).

Замечание 2.   Пусть СВ X нормально распределена, но ее дисперсия неизвестна. Требуется проверить гипотезу H0, что σX = σ (σ - некоторое фиксированное число), на основе апостериорной выборки zn. Возможны два случая: mX - известно или mX - неизвестно (ниже χα(k), χ1-α(k) - квантили уровня α и 1-α распределения Χ2(k) с k степенями свободы,

α
Δ
=

1 - p / 2 для k = n,n-1) :
Предпо-
ложение
Статистика Z
критерия
согласия
Распре-
деление
Доверительная
область
G принятия
гипотезы Н0
      mX
известно
   n
 (Xk - mX)2
 k=1
      σ2
Χ2(n)[-χ1-α(n) , χα(n)]
      mX
неизвестно
         ^
    nDX
       σ2
Χ2(n-1)[-χ1-α(n-1) , χα(n-1)]

Замечание 3.   На практике обычно задают p О [0.01 , 0.05].



  3. Проверка гипотезы о законе распределения случайной величины


Замечание 1.   Пусть имеется апостериорная выборка zn и требуется проверить гипотезу H0, состоящую в том, что непрерывная СВ X имеет определенный закон распределения f(x) (например, нормальный, равномерный и т.д.). Истинный закон распределения f(x) неизвестен. Для проверки такой гипотезы обычно используют критерий согласия хи-квадрат (критерий Пирсона). Правило проверки состоит в следующем:
    1.   Формулируется гипотеза H0, состоящая в том, что СВ X имеет плотность распределения определенного вида f(x,θ1, ... , θs) с s неизвестными параметрами θ1, ... , θs(например, m и σ для нормального распределения, a и b - для равномерного и т.д.)
    2.   По апостериорной выборке zn методом максимального правдоподобия (или методом наименьших квадратов) находятся оценки
 ^
θ1, ... ,
 ^
θs
неизвестных параметров θ1, ... , θs
    3.   Действительная ось R1 разбивается на j + 1 непересекающихся полуинтервалов Δ0, ... , Δj так, как это сделано в Л13.Р2.31 при построении гистограммы. Подсчитывается число nk элементов выборки, попавших в каждый полуинтервал Δk , k = 1, j-1, кроме Δ0 и Δj.
    4.   Вычисляются вероятности pk попадания СВ X в полуинтервалы Δk , k = 0, j , по формуле

pk =

αk+1
 
αk

f(x, 
 ^
θ1, .... ,
 ^
θs) dx ,
где α0 = -∞, αj+1 = +∞. Для разрядов Δk , k = 1,j-1 значения pk можно вычислить приближенно по формуле

pk @ f(xk,
 ^
θ1, .... ,
 ^
θs)(αk+1-αk),
где

xk
Δ
=

(αk+1 + αk) / 2
- середина разряда Δk.
    5.   Вычисляется реализация статистики критерия хи-квадрат по формуле

z
Δ
=

φ(zn)
Δ
= np0 +

  j-1
 
 k=1

(nk-npk)2 / (npk) + (npj) .

    6.   В соответствии с критерием согласия хи-квадрат гипотеза H0 принимается (т.е. она согласуется с выборкой zn), если φ(zn) ≤ χ1-p(j-s), где χ1-p(j-s) - квантиль уровня 1-p распределения хи-квадрат с (j-s) степенью свободы, p - заданный уровень значимости (обычно p = 0.05), s - количество неизвестных параметров предполагаемого закона распределения f(x,θ1, ... , θs). Если же φ(zn) > χ1-p(j-s), то гипотеза H0 отвергается.

Замечание 2.   При разбиении на полуинтервалы Δk, необходимо учитывать, чтобы npk ≥ 5 для k = 1, j-1 . В противном случае (npk < 5) соседние полуинтервалы объединяются.




Оглавление

Hosted by uCoz