<a href="https://colab.research.google.com/github/andrey-gl/study2020/blob/master/%D0%97%D0%B0%D0%BD%D1%8F%D1%82%D0%B8%D0%B5_6.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Проверка статистичеких гипотез

**Определение.** Гипотезой ($H$) называется любое предположение о распределении наблюдений. 

**Определение.** Пусть дана выборка $\mathbf{X} = (X_1, . . . , X_n)$, относительно которой выдвинуты критерии $H_1, ... , H_k$. Критерием $t(\mathbf X)$ называется измеримое отображение из $t:\mathbb R^n \rightarrow (H_1, ...., H_k)$ из множества всех значений выборки в множество гипотез. Тогда ошибка $i$-го рода – это вероятность отвергнуть верную нипотезу $H_i$.

Как правило, рассматриваются две гипотезы: $H_0$ - основная или нулевая гипотеза, $H_1$ - альтернативная гипотеза.

В этой ситуации множество $\mathbb R^n$ делится на две части. Та область, в которой отвергается нулевая гипотеза, называется критической областью или множеством.

В большинстве случаев мы имеем дело с так называемыми критериями согласия, когда простая нулевая гипотеза $H_0$ проверяется относительно сложной альтернативы ($H_0$ – неверна). Итак, пусть дана выборка $\mathbf{X} = (X_1, . . . , X_n)$ из распределения $F$. Проверется гипотеза $H_0 = (F=F_0)$ против альтернативы $H_0 = (F \neq F_0)$. 

**Определение.** Пусть существует борелевская функция $T(\mathbf X)$, такая то:
1. Если $H_0$ верна, то $T(\mathbf X) \Rightarrow \mathbb \mu$, где $\mu \sim \mathbb T$ – известное непрерывное распределение;
2. Если $H_0$ неверна, то для любого $F_1 \neq F_0$: $|T(\mathbf X| \stackrel{P}{\longrightarrow} \infty$ при $n \rightarrow \infty$.

Для заданного уровня значимости $\varepsilon$ определим $C$: $\varepsilon = P(|\mu| \geq C)$

$$ \delta (\mathbf X) = \begin{cases}
H_1, & |t(\mathbf X)| < C, \\
H_2, & |t(\mathbf X)| \geq C.
\end{cases}
$$

Данный критерий и называется критерием согласия.

Отметим, что на практике поступают обратным образом. По данной реализации выборки вычисляется значение статистики критерия $t^* = T(\mathbf x)$ и значение $p = P(|T(x)| \geq |t^*|)$. Если $p \leq \varepsilon$, то мы отвергаем $H_0$, если $p > \varepsilon$, то отвегаем $H_1$. В этом случае $p$ называется $p$-значением для данной выборки.



# Проверка статистичеких гипотез (Практика)

In [None]:
 # Подгружаем необходимые библиотеки
import numpy as np
import matplotlib
import matplotlib.pyplot as plt
from scipy import stats

##Пример. Гипотеза о среднем нормального распределения с известной дисперсией


In [None]:
n = 100
a = 1
sigma = 2
x = np.random.normal(a, sigma, n) # генерируем выборку
a0 = 1.2
# Проверяется гипотеза H0 = (a = a0) против альтернативы H1 = (a не равно a0)
t = n**0.5 * (x.mean() - a0) / sigma # статистика критерия

p = 2 * (1 - stats.norm.cdf(np.abs(t))) # p-значение

t, p

# Видим, что в зависимости от того, как сгенерирована выборка, иногда критерий отклоняет гипотезу, иногда не отклоняет


(-0.49198223662934026, 0.6227319010593131)

##Пример. Гипотеза о среднем нормального распределения с неизвестной дисперсией

In [None]:
n = 100
a = 1
sigma = 2
x = np.random.normal(a, sigma, n) # генерируем выборку
a0 = 2
# Проверяется гипотеза H0 = (a = a0) против альтернативы H1 = (a не равно a0)
t = n**0.5 * (x.mean() - a0) / ((x.var() * n / (n-1))**0.5) # статистика критерия
# Статистика критерия имеет распределение Сьюдента с n-1 степенями свободы
p = 2 * (1 - stats.t.cdf(np.abs(t), n-1)) # p-значение

t, p

(-4.499148297116019, 1.861081078935456e-05)

In [None]:
# То же самое, но с использованием библиотеки stats
stats.ttest_1samp(x, a0)
# Значение статистики критерия и p-значение совпали с вычисленными ранее

Ttest_1sampResult(statistic=-4.499148297116019, pvalue=1.8610810789236063e-05)

##Пример. Критерий Стьюдента

In [None]:
n = 100
m = 200
a1 = 1
a2 = 2
sigma = 2
x = np.random.normal(a1, sigma, n) # генерируем первую выборку
y = np.random.normal(a2, sigma, m) # генерируем вторую выборку

# Проверяется гипотеза H0 = (a1 = a2) против альтернативы H1 = (a1 не равно a2)
t = ((n*m/(n+m))**0.5)*(x.mean()-y.mean())/(((n*x.var()+m*y.var())/(n+m-2))**0.5) # статистика критерия
# Статистика критерия имеет распределение Сьюдента с n+m-2 степенями свободы
p = 2 * (1 - stats.t.cdf(np.abs(t), n+m-2)) #p-значение

t, p

(-5.743626454520005, 2.285198119622578e-08)

In [None]:
stats.ttest_ind(x, y, equal_var=True)
# Значение статистики критерия и p-значение совпали с вычисленными ранее

Ttest_indResult(statistic=-5.743626454520005, pvalue=2.2851981271658924e-08)

#Однофакторный дисперсионный анализ


Пусть даны $k$ независимых выборок $\mathbf{X}^1 = (X^1_1...X^1_{n_1})$, ..., $\mathbf{X}^k = (X^k_1...X^k_{n_1})$, где $X^j_i \sim N_{a_j, \sigma^2}$. 

Проверяется основная гипотеза $H_0 = (a_1=....=a_k)$.

Для каждой выборки вычислим выборочное среднее и выборочную дисперсию:

$$\overline{X}^j = \frac{1}{n_j} \sum_{i=1}^{n_j}X_i^j,  {S^2}^i = \frac{1}{n_j} \sum_{i=1}^{n_j} (X_i^j - \overline{X}^j)^2$$.

Положим $n = n_1 + ... + n_k$. Тогда:
1. $\overline{X} = \frac{1}{n} \sum \limits_{i, j} X_i^j, S^2 = \frac{1}{n} \sum \limits_{i, j} (X_i^j - \overline{X})^2$ - общее выборочное среднее и общая выборочная дисперсия;
2. $S_м^2 = \frac{1}{n} \sum \limits_{j=1}^k n_j(\overline{X}^j - \overline{X})^2$ - межгрупповая дисперсия;
3. $S_в^2 = \frac{1}{n} \sum \limits_{j=1}^k \sum \limits_{i=1}^{n_j} (X_i^j - \overline{X}^j)^2 $ - общая внутригрупповая дисперсия.

Легко проверить, что:
$$\frac{nS^2}{\sigma^2} = \frac{nS_м^2}{\sigma^2} + \frac{nS_в^2}{\sigma^2}$$ 

В этой соотношении $\frac{nS^2}{\sigma^2} \sim H_{n-1}, \frac{nS_м^2}{\sigma^2} \sim H_{k-1}, \frac{nS_в^2}{\sigma^2} \sim H_{n-k}$.

Построим статистику критерия следующим образом:

$$T = \frac{nS_м^2}{\sigma^2(k-1)} \frac{\sigma^2(n-k)}{nS_в^2} \sim F_{k-1, n-k}$$

##Пример. Однофакторный дисперсионный анализ

In [None]:
# Ннаши выборки
x1 = np.array([1, 2, 5])
x2 = np.array([2, 4, 2])
x3 = np.array([6, 7, 9])

# Выборка из средних
m = np.array([x1.mean(),x2.mean(),x3.mean()])
# Объединенная выборка
x = np.vstack((x1, x2, x3))
 
s = x.var() # общая выборочная диперсия
sm = m.var() # межгрупповая дисперсия
sb = (x1.var()*3 + x2.var()*3 + x3.var()*3)/9 # внутригрупповая дисперсия

t = (sm/2)/(sb/6) # статистика критерия

p = 1-stats.f.cdf(t, 2, 6) # p-значения, вычисленное по распределению Фишера

t, p

(8.166666666666666, 0.01939068302949498)

In [None]:
res = stats.f_oneway(x1, x2, x3)
res
# Значения, вычисленные вручную и с помощью библиотеки ожидаемо совпадают. Гипотезу о равенстве мат. ожиданий выборок отвергаем на урочне значимости 0.05.

F_onewayResult(statistic=8.166666666666663, pvalue=0.01939068302949501)