In [None]:
# установить свежую версию
!pip install scipy==1.5.2



In [2]:
import math
import numpy as np
import pandas as pd
from scipy import stats as st
import matplotlib.pyplot as plt 

#### Введение

О проверки гипотезы о норманом законе распределения, разработаны специальные критерии, основанные на свойствах нормального распределения.

Пусть сл. вел. $\xi$, выборка $X_{[n]} = (x_1, ..., x_n)$

$H_0: \xi = N(a, \sigma)$

$H_1: \xi $ имеет иное распределение

#### Критерий Жарка-Бера

##### Случаи использования

Используют как для простой, так и для сложной гипотезы.

##### На чём основывается критерий

Основан на свойствах нормального распр., заключающийся на том, что коэфициент эксцесса и **коэфициент ассиметрии для нормально распр. сл. вел. равны нулю**.

##### Статистический критерий

$JB = \frac{n}{6} (Sk^2 + \frac{1}{4} K^2)$, где

$Sk^2$ выборочный коэфициент ассиметрии.

$K^2$ выборочный коэфициент эксцесса.

$JB \xrightarrow[n \rightarrow \infty]{} \zeta \sim \chi^2_2$ с двумя степенями свободы

###### Коэфициент ассиметрии

$Sk = \frac{\hat{\mu_3}}{\tilde s^2}$, где

$\hat{\mu_3} = \frac{1}{n} \sum \limits_{i=1}^n (x_i - \overline X)^3 $ выборочный центральный момент третьего порядка

$\tilde s^2 = \frac{1}{n} \sum \limits_{i=1}^n (x_i - \overline X)^2$ выборочная дисперсия

######Коэфициент эксцесса

$K = \frac{\hat{\mu_3}}{\tilde s^4} - 3$, где

$\hat{\mu_4} = \frac{1}{n} \sum \limits_{i=1}^n (x_i - \overline X)^4 $ выборочный четвертый момент

$\tilde s^4$ квадрат выборочной дисперсии

##### Scipy

В Scipy st.jarque_bera(X), возвращает $JB$ и $p_{value}$

##### Критическая область

При больших объемах выборки

$V_k = (\chi^2_{1 - \alpha, 2}, + \infty)$

$JB \in V_k \Rightarrow H_0$ отвергается.

При малых объемах выборки

$V_k = (С_{1 - \alpha}, + \infty)$, где

$С_{1 - \alpha}$ находят методом Монте_Карло

##### Задача №1

По выборке

3.4 7.0 3.9 6.1 0.9 4.6 6.4 3.2 1.8 4.8 3.8 5.6 1.3 3.3 3.7 2.9 5.2 3.7 5.0 3.9

найдите значение статистики Жарка-Бера

In [None]:
X = np.array([3.4, 7.0, 3.9, 6.1, 0.9, 4.6, 6.4, 3.2, 1.8, 4.8, 3.8, 5.6, 1.3, 3.3, 3.7, 2.9, 5.2, 3.7, 5.0, 3.9])

st.jarque_bera(X)

(0.21565419512884013, 0.8977828118462765)

**Ответ:**

$JB = 0.21$

#### Критерий Лиллиефорса

##### Случаи использования

Для простых и сложных гипотез.

##### На чём основывается критерий

Критерий является модицикацией критерия Колмогорова. 

##### Статистический критерий

$D_n(X_{[n]}) = \overset{}{\underset{x \in \mathbb R}{sup}} | F^*_n(x, X_{[n]}) - Ф(x)| > 0$, где

$F^*_n(x, X_{[n]})$ эмпирическая ф-я распределения

$Ф(x)$ теоритическая ф-я распределения


т.к. мы проверяем сложную нулевую гипотезу, то необходимо найти оценку парамтров.

В кач-ве оценки мат. ож. $a = \overline X$

В кач-ве оценки дисперсии $D = s^2$ несмещенную оценку дисперсии.

Тогда теоритическая функция распределения будет

$Ф(x) = \frac{1}{\sqrt{2\pi} s} \int\limits_{- \infty}^x e^{- \frac{(y - \overline X)^2}{2s^2}} dy$

##### Критическая область

$V_k = (C_{1 - \alpha}, + \infty)$, где

$C_{1 - \alpha}$ находят методом Монте_Карло

$JB \in V_k \Rightarrow H_0$ отвергается.

#### Критерий Андерсона-Дарлинга

##### На чём основывается критерий

Модификация критерия Колмогорова. В отличие от критерия Колмогорова, уделяет больше внимание хвостам распределения.

##### Статистический критерий

$A^2 = -n - \sum \limits_{i=1}^n \frac{2i - 1}{n} (ln F(X_{(i)}) + ln(1 - F(X_{(n+i-1)}))) $, где 

$F$ ф-я нормального распределения

$X_{(i)}$ порядковые статистики (из вариационного ряда)

В кач-ве оценки мат. ож. $a = \overline X$

В кач-ве оценки дисперсии $D = s^2$ несмещенную оценку дисперсии.

##### Scipy критерий

scipy.stats.anderson()

##### Scipy p-value

С вычислением $p-value$ всё не так просто, пример вычисления был взят [здесь](https://stats.stackexchange.com/questions/350443/how-do-i-get-the-p-value-of-ad-test-using-the-results-of-scipy-stats-anderson), а описан метод в [этой статье](https://www.spcforexcel.com/knowledge/basic-statistics/anderson-darling-test-for-normality).

In [None]:
x = st.norm.rvs(loc=5, scale=3, size=100)
AD, _, _ = st.anderson(x, dist='norm')

def anderson_p_value(AD):
  if AD >= .6:
      p = math.exp(1.2937 - 5.709*AD - .0186*(AD**2))
  elif AD >=.34:
      p = math.exp(.9177 - 4.279*AD - 1.38*(AD**2))
  elif AD >.2:
      p = 1 - math.exp(-8.318 + 42.796*AD - 59.938*(AD**2))
  else:
      p = 1 - math.exp(-13.436 + 101.14*AD - 223.73*(AD**2))
  print(f'p_value={p}')

anderson_p_value(AD)

p_value=0.20932578560048398


$F(x) = Ф(x) = \frac{1}{\sqrt{2\pi} s} \int\limits_{- \infty}^x e^{- \frac{(y - \overline X)^2}{2s^2}} dy$

##### Критическая область

$V_k = (C_{1 - \alpha}, + \infty)$, где

$C_{1 - \alpha}$ находят методом Монте_Карло

$JB \in V_k \Rightarrow H_0$ отвергается.

##### Задача №1

По выборке

3.4 7.0 3.9 6.1 0.9 4.6 6.4 3.2 1.8 4.8 3.8 5.6 1.3 3.3 3.7 2.9 5.2 3.7 5.0 3.9

найдите значение статистики Андерсона-Дарлинга

In [None]:
X = np.array([3.4, 7.0, 3.9, 6.1, 0.9, 4.6, 6.4, 3.2, 1.8, 4.8, 3.8, 5.6, 1.3, 3.3, 3.7, 2.9, 5.2, 3.7, 5.0, 3.9])

st.anderson(X)

AndersonResult(statistic=0.2345974610623358, critical_values=array([0.506, 0.577, 0.692, 0.807, 0.96 ]), significance_level=array([15. , 10. ,  5. ,  2.5,  1. ]))

#### Критерий Шапиро-Уилка

##### На чём основывается критерий

Считается самым мощным критерием для проверки нормальности распределения. Основан на сравнении двух оценок дисперсии. Оценки Лойда и выборочной дисперсии.

##### Статистический критерий

$W = \frac{(\sum \limits_{i=1}^n a_i X_{(i)})^2}{\sum \limits_{i=1}^n (x_i - \overline X)^2}$, где

$x_{(i)}$ порядковая статистика (из вариационного ряда).

Используется для выборок $3 \leq n \leq 5000$

$W \in [0, 1]$

##### Scipy

In [3]:
x = st.norm.rvs(loc=5, scale=3, size=100)
st.shapiro(x)

(0.992127537727356, 0.8303875923156738)

##### Критическая область

$V_k = [0, W_{\alpha})$

$W_{\alpha}$ находятся методом Монте-Карло

$JB \in V_k \Rightarrow H_0$ отвергается.