## Критерии согласия для теста о принадлежности к произвольному ЗР

In [17]:
import scipy.stats as stats
import numpy as np
import pandas as pd
import statsmodels

In [3]:
%matplotlib inline
import seaborn as sns
sns.set(color_codes=True)

In [15]:
data_norm = pd.read_csv('data/euro_weights', sep='\t', header=None,index_col=0, names=['weight', 'group'])

### Критерий Пирсона

$$ \chi^2_{obs} = \sum_{i=1}^{n}\frac{(O_i - E_i)^2}{E_i},$$

где $O_i$ - наблюдаемая частота наблюдения $i$,  $E_i$ - ожидаемая (т.е. в соответствии с распределением, принадлежность к которому мы тестируем) частота наблюдения $i$

$$ H_0: F_{obs} = F_{exp},$$
$$ H_1: F_{obs} \neq F_{exp}.$$

In [28]:
mu_est, sigma_est = np.mean(data['weight']), np.std(data['weight'])

In [37]:
black = [9,10,12,11,8,10]
red   = [6,5,14,15,11,9]
chi2, p = stats.chisquare( black )

In [36]:
p

0.96256577324729642

In [38]:
chi2, p = stats.chisquare( red )
p

0.13552522337752962

### Критерий Коломогорова-Смирнова

Данный тест позволяет протестировать гипотезу о том, что две выборки подчиняются одному и тому же распределению. Нулевая гипотеза:
$$ H_0: F(x) = G(x).$$
Альтернативная гипотеза может быть сформулирована как в форме одностроннего теста:
$$ H_0: F(x) > G(x),$$
так и в форме двустороннего теста:
$$ H_0: F(x) \neq G(x).$$

Тест рассматривает распределение статистики:
$$ D_mn = {\left( \frac{mn}{m+n} \right)}^{(1/2)} \sup_{x}\,\lvert F_n(x) - G_m(x)\rvert.$$
против теоретического распределения Колмогорова-Смирнова.

** Двусторонний тест:**

In [41]:
stats.kstest(data['weight'], alternative='two-sided', cdf='norm')

KstestResult(statistic=0.99999999999970113, pvalue=0.0)

** Односторонний тест: **

In [42]:
x = stats.norm.rvs(loc=0.2, size=100)
stats.kstest(x,'norm', alternative = 'less')

KstestResult(statistic=0.16355177457324532, pvalue=0.0041699242820857352)

In [43]:
stats.kstest(x,'norm', alternative = 'greater')

KstestResult(statistic=0.018703785469693979, pvalue=0.92092911531275634)

Мы часто говорили о том, что распределение Стьюдента асимпотически сходится к нормальному. Давайте расмотрим на примере:

In [44]:
 stats.kstest(stats.t.rvs(100,size=100),'norm')

KstestResult(statistic=0.062418284045091865, pvalue=0.83073635711207272)

In [45]:
stats.kstest(stats.t.rvs(3,size=100),'norm')

KstestResult(statistic=0.11780724242762386, pvalue=0.11489232549951289)

Для проверки гипотезы для двух выборок испольузется иная функция:

In [48]:
rvs1 = stats.norm.rvs(size=120, loc=0., scale=1)
rvs2 = stats.norm.rvs(size=220, loc=0.5, scale=1.5)

In [49]:
stats.ks_2samp(rvs1, rvs2)

Ks_2sampResult(statistic=0.2992424242424242, pvalue=1.1988884725627701e-06)

## Критерии согласия для теста о принадлежности к нормальному ЗР

### Критерий Шапиро-Уилка

Данный тест позволяет проверить гипотезу о нормальном распределении распределении генеральной совокупности.

$$H_0: X_1, ..., X_n \sim \mathbb{N} ,$$
$$H_1: X_1, ..., X_n \, \, \text{not} \, \, \mathbb{N}.$$

$$ W = \frac{(\sum_{i=1}^{n}a_i x_{(i)})^2}{\sum_{i=1}^{n}(x_{(i)} - \bar{x})^2}.$$

где $x_{(i)}$ - поряковая статистика, $a_{i}$ - затабулированные константы.

In [40]:
stats.shapiro(data_norm['weight'])

(0.9754709601402283, 5.014394515895443e-18)

### Критерий Харке-Берра

Тест предназначен для тестирования гипотезы о том, что выборочные данные имеют коэффициент асимметрии и эксцесса, соответствующий нормальному распределению.

$$ JB = \frac{n}{6}\left( S^2 + 0.25 (C-3)^2\right),$$
где $S = \hat{\mu}^3/\hat{\sigma}^3$, $C = \hat{\mu}^4/\hat{\sigma}^4.$

In [46]:
stats.jarque_bera(data_norm['weight'])

(1645.2460197863015, 0.0)

### $K^ 2$ критерий Д'Агостино

Тест предназначен для тестирования гипотезы о том, что выборочные данные имеют коэффициент асимметрии и эксцесса, соответствующий нормальному распределению.

In [50]:
stats.normaltest(data_norm['weight'])

NormaltestResult(statistic=217.71561523324894, pvalue=5.2924265568196671e-48)

### Критерий Андерсона-Дарлинга

Представляет из себя тест Колмогорова-Смирнова с дополнительными модификациями на класс, к которому может принадлежать распределение СВ.

In [52]:
stats.anderson(data_norm['weight'], dist='norm')

AndersonResult(statistic=1.6212909387968466, critical_values=array([ 0.575,  0.655,  0.785,  0.916,  1.09 ]), significance_level=array([ 15. ,  10. ,   5. ,   2.5,   1. ]))