# Статистические тесты

In [None]:
import warnings
warnings.filterwarnings('ignore')

# Тест на нормальность распределения

<h3 class="alert alert-info">Тест Шарпиро-Вилка</h3>
Тест показывает, имеют ли данные нормальное распределение.

<div class="alert alert-info">Предположение</div>
 Наблюдения в каждой выборке независимы и распределены одинаково.
<div class="alert alert-info">Гипотезы</div>


* H0: выборка имеет гауссово распределение.
* H1: выборка не имеет гауссова распределения.

<a href="https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.shapiro.html" class="btn btn-warning" role="button">Scipy Ref -></a>

In [20]:
from scipy.stats import shapiro
data = [0.873, 2.817, 0.121, -0.945, -0.055, -1.436, 0.360, -1.478, -1.637, -1.869]
stat, p = shapiro(data)
print('stat={0:.3f}, p={0:.3f}' .format(stat, p))
if p > 0.05:
    print('Probably Gaussian')
else:
    print('Probably not Gaussian')

stat=0.895, p=0.895
Probably Gaussian


<h3 class="alert alert-info"> Критерий Д’Агостино </h3>
Тест показывает, имеют ли данные нормальное распределение.

<div class="alert alert-info">Предположение</div>
 Наблюдения в каждой выборке независимы и распределены одинаково.
<div class="alert alert-info">Гипотезы</div>


* H0: выборка имеет гауссово распределение.
* H1: выборка не имеет гауссова распределения.

<a href="https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.normaltest.html" class="btn btn-warning" role="button">Scipy Ref -></a>

In [21]:
# Example of the D'Agostino's K^2 Normality Test
from scipy.stats import normaltest
data = [0.873, 2.817, 0.121, -0.945, -0.055, -1.436, 0.360, -1.478, -1.637, -1.869]
stat, p = normaltest(data)
print('stat={0:.3f}, p={0:.3g}'.format(stat, p))
if p > 0.05:
    print('Probably Gaussian')
else:
    print('Probably not Gaussian')

stat=3.392, p=3.39
Probably Gaussian


# Корреляция

<h3 class="alert alert-info">Корреляция Пирсона</h3>
Есть ли линейная зависимость между метриками

<div class="alert alert-info">Assumption</div>
a) Наблюдения в каждой выборке независимы и распределены одинаково. <br>
b) Наблюдения распределены нормально. <br>
c) Одинаковая дисперсия между независимыми переменными
<div class="alert alert-info">Гипотезы</div>


* H0: выборки коррелируют.
* H1: выборка не имеет никакой корреляции.

<a href="https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.normaltest.html" class="btn btn-warning" role="button">Scipy Ref -></a>



In [25]:
# Example of the Pearson's Correlation test
from scipy.stats import pearsonr
data1 = [0.873, 2.817, 0.121, -0.945, -0.055, -1.436, 0.360, -1.478, -1.637, -1.869]
data2 = [0.353, 3.517, 0.125, -7.545, -0.555, -1.536, 3.350, -1.578, -3.537, -1.579]
stat, p = pearsonr(data1, data2)
print('stat={0:.3f}, p={0:.3f}'.format(stat, p))
if p > 0.05:
    print('Probably independent')
else:
    print('Probably dependent')

stat=0.688, p=0.688
Probably dependent


<h3 class="alert alert-info">Ранговая корреляция Спирмана</h3>
Проверяет, есть ли корреляция в данных?

<div class="alert alert-info">Предположения</div>
а) Наблюдения в каждой выборке независимы и распределены одинаково. <br>
б) Наблюдения в каждой выборке ранжированы. <br>
<div class="alert alert-info">Гипотезы</div>


* H0: выборки коррелируют.
* H1: выборка не имеет никакой корреляции.

<a href="https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.spearmanr.html" class="btn btn-warning" role="button">Scipy Ref -></a>

In [26]:
# Example of the Spearman's Rank Correlation Test
from scipy.stats import spearmanr
data1 = [0.873, 2.817, 0.121, -0.945, -0.055, -1.436, 0.360, -1.478, -1.637, -1.869]
data2 = [0.353, 3.517, 0.125, -7.545, -0.555, -1.536, 3.350, -1.578, -3.537, -1.579]
stat, p = spearmanr(data1, data2)
print('stat={0:.3g}, p={0:.3f}'.format(stat, p))
if p > 0.05:
    print('Probably independent')
else:
    print('Probably dependent')


stat=0.855, p=0.855
Probably dependent


<h3 class="alert alert-info">Ранговая корреляция Кендала</h3>
Связанны ли метрики по рангам?

<div class="alert alert-info">Assumption</div>
а) Наблюдения в каждой выборке независимы и распределены одинаково. <br>
б) Наблюдения в каждой выборке ранжированы. <br>
<div class="alert alert-info">Hypothesis</div>


* H0: выборки коррелируют.
* H1: выборка не имеет никакой корреляции.

<a href="https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.kendalltau.html" class="btn btn-warning" role="button">Scipy Ref -></a>

In [27]:
# Example of the Kendall's Rank Correlation Test
from scipy.stats import kendalltau
data1 = [0.873, 2.817, 0.121, -0.945, -0.055, -1.436, 0.360, -1.478, -1.637, -1.869]
data2 = [0.353, 3.517, 0.125, -7.545, -0.555, -1.536, 3.350, -1.578, -3.537, -1.579]
stat, p = kendalltau(data1, data2)
print('stat={0:.3f}, p={0:.3f}'.format(stat, p))
if p > 0.05:
    print('Probably independent')
else:
    print('Probably dependent')

stat=0.733, p=0.733
Probably dependent


<h3 class="alert alert-info">хи-квадрат тест</h3>
Проверяет, связаны ли две категориальные переменные друг с другом.

<div class="alert alert-info">Assumption</div>
а) Наблюдения, используемые в таблице сопряженности, являются независимыми. <br>
б) В таблице сопряженности имеется более 25 примеров. <br>
<div class="alert alert-info">Hypothesis</div>


* H0: выборки коррелируют.
* H1: выборка не имеет никакой корреляции.

<a href="https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.chi2_contingency.html" class="btn btn-warning" role="button">Scipy Ref -></a>

In [9]:
# Example of the Chi-Squared Test
from scipy.stats import chi2_contingency
table = [[10, 20, 30],[6,  9,  17]]
stat, p, dof, expected = chi2_contingency(table)
print('stat={0:.3g}, p={0:.3f}' .format(stat, p))
if p > 0.05:
    print('Probably independent')
else:
    print('Probably dependent')

stat=0.272, p=0.272
Probably independent


# Тест на стационарность временного ряда
<p> Используется для проверки тенденций данных временного ряда (стационарных/нестационарных). </p>
<h3 class="alert alert-info">Augmented Dickey-Fuller Unit Root Test</h3>
Проверяет, имеют ли данные временного ряда авторегрессионный тренд.

<div class="alert alert-info">Условия</div>
Данные имеют временной характер
<div class="alert alert-info">Гипотезы</div>


* H0: ряд стационарный.
* H1: ряд нестационарный.

<a href="https://www.statsmodels.org/dev/generated/statsmodels.tsa.stattools.adfuller.html" class="btn btn-warning" role="button">Stats-Model Ref -></a>

In [10]:
# Example of the Augmented Dickey-Fuller unit root test
from statsmodels.tsa.stattools import adfuller
data = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]
stat, p, lags, obs, crit, t = adfuller(data)
print('stat={0:.3f}, p={0:.3f}'.format(stat, p))
if p > 0.05:
    print('Probably not Stationary')
else:
    print('Probably Stationary')

stat=0.992, p=0.992
Probably not Stationary


<h3 class="alert alert-info">Квятковски-Филлипс-Шмидт-Шин</h3>
Проверяет, является ли тенденция временного ряда стационарной или нет.

<div class="alert alert-info">Условия</div>
Данные имеют временной характер
<div class="alert alert-info">Гипотезы</div>

* H0: ряд стационарный.
* H1: ряд не стационарный.

<a href="https://www.statsmodels.org/stable/generated/statsmodels.tsa.stattools.kpss.html#statsmodels.tsa.stattools.kpss" class="btn btn-warning" role="button">Stats-Model Ref -></a>

In [33]:
# Example of the Kwiatkowski-Phillips-Schmidt-Shin test
from statsmodels.tsa.stattools import kpss
data = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]
stat, p, lags, crit = kpss(data)
print(f'stat={round(stat, 3)}, p={round(p, 3)}')
if p > 0.05:
    print(p)
    print('Probably not Stationary')
else:
    print('Probably Stationary')

stat=0.594, p=0.023
Probably Stationary


## Параметрические статистические тесты гипотез
<p> Статистический тест для сравнения выборок данных. </p>
<h3 class="alert alert-info">Критерий Стьюдента(t-тест)</h3>
Средние значения между двумя выборками данных существенно различаются.

<div class="alert alert-info">Assumption</div>
a)Наблюдения каждой выборки данных независимы и распределены. <br>
b)Наблюдения распределены нормально.<br>
c)Наблюдения имеют одинаковую дисперсию между собой. <br>

<div class="alert alert-info">Гипотезы</div>


* H0: средние значения между двумя выборками равны.
* H1: средние значения между двумя выборками не равны.
<a href="https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.ttest_ind.html" class="btn btn-warning" role="button">Scipy Ref -></a>

In [12]:
# Example of the Student's t-test
from scipy.stats import ttest_ind
data1 = [0.873, 2.817, 0.121, -0.945, -0.055, -1.436, 0.360, -1.478, -1.637, -1.869]
data2 = [1.142, -0.432, -0.938, -0.729, -0.846, -0.157, 0.500, 1.183, -1.075, -0.169]
stat, p = ttest_ind(data1, data2)
print('stat={0:.3f}, p={0:.3f}'.format(stat, p))
if p > 0.05:
    print('Probably the same distribution')
else:
    print('Probably different distributions')

stat=-0.326, p=-0.326
Probably the same distribution


<h3 class="alert alert-info">Парный t-критерий Стьюдента</h3>
Средние значения между двумя выборками данных существенно различаются.

<div class="alert alert-info">Предположение</div>
a)Наблюдения каждой выборки данных независимы и распределены. <br>
b)Наблюдения распределены нормально. <br>
c)Наблюдения имеют одинаковую дисперсию между собой. <br>
d)Наблюдения парные.

<div class="alert alert-info">Гипотеза</div>

* H0: средние значения между двумя выборками равны.
* H1: средние значения между двумя выборками не равны.

<a href="https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.ttest_rel.html" class="btn btn-warning" role="button">Scipy Ref -></a>

In [13]:
# Example of the Paired Student's t-test
from scipy.stats import ttest_rel
data1 = [0.873, 2.817, 0.121, -0.945, -0.055, -1.436, 0.360, -1.478, -1.637, -1.869]
data2 = [1.142, -0.432, -0.938, -0.729, -0.846, -0.157, 0.500, 1.183, -1.075, -0.169]
stat, p = ttest_rel(data1, data2)
print('stat={0:.3f}, p={0:.3f}'.format(stat, p))
if p > 0.05:
    print('Probably the same distribution')
else:
    print('Probably different distributions')

stat=-0.334, p=-0.334
Probably the same distribution


<h3 class="alert alert-info">Дисперсионный анализ (ANOVA)</h3>
Средние значения между двумя выборками данных существенно независимы и различны.

<div class="alert alert-info">Предположение</div>
a)Наблюдения каждой выборки данных независимы и распределены. <br>
b)Наблюдения распределены нормально. <br>
c)Наблюдения имеют одинаковую дисперсию между собой. <br>

<div class="alert alert-info">Гипотеза</div>

* H0: средние значения между двумя выборками равны.
* H1: средние значения между двумя выборками не равны.

<a href="https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.f_oneway.html" class="btn btn-warning" role="button">Scipy Ref -></a>

In [14]:
# Example of the Analysis of Variance Test
from scipy.stats import f_oneway
data1 = [0.873, 2.817, 0.121, -0.945, -0.055, -1.436, 0.360, -1.478, -1.637, -1.869]
data2 = [1.142, -0.432, -0.938, -0.729, -0.846, -0.157, 0.500, 1.183, -1.075, -0.169]
data3 = [-0.208, 0.696, 0.928, -1.148, -0.213, 0.229, 0.137, 0.269, -0.870, -1.204]
stat, p = f_oneway(data1, data2, data3)
print('stat={0:.3g}, p={0:.3g}'.format(stat, p))
if p > 0.05:
    print('Probably the same distribution')
else:
    print('Probably different distributions')

stat=0.0964, p=0.0964
Probably the same distribution


## Nonparametric Statistical Hypothesis Tests
<h3 class="alert alert-info">U-тест Манна-Уитни</h3>
Распределение двух выборок данных одинаково или нет.
<div class="alert alert-info">Предположение</div>
a)Наблюдения каждой выборки данных независимы и распределены. <br>
b)Наблюдения в каждой выборке данных можно ранжировать.<br>

<div class="alert alert-info">Гипотеза</div>

* H0: распределение двух выборок одинаково.
* H1: распределение двух выборок не одинаково.

<a href="https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.mannwhitneyu.html" class="btn btn-warning" role="button">Scipy Ref -></a>

In [15]:
# Example of the Mann-Whitney U Test
from scipy.stats import mannwhitneyu
data1 = [0.873, 2.817, 0.121, -0.945, -0.055, -1.436, 0.360, -1.478, -1.637, -1.869]
data2 = [1.142, -0.432, -0.938, -0.729, -0.846, -0.157, 0.500, 1.183, -1.075, -0.169]
stat, p = mannwhitneyu(data1, data2)
print('stat={0:.3g}, p={0:.3g}'.format(stat, p))
if p > 0.05:
    print('Probably the same distribution')
else:
    print('Probably different distributions')

stat=40, p=40
Probably the same distribution


<h3 class="alert alert-info">Знаково-ранговый тест Вилкоксона</h3>
Предназначен для проверки равенства медиан нескольких выборок. 

<div class="alert alert-info">Предположение</div>
a)Наблюдения каждой выборки данных независимы и распределены. <br>
b)Наблюдения можно ранжировать. <br>
c)Наблюдения парные. <br>

<div class="alert alert-info">Гипотеза</div>

* H0: распределение двух выборок равно.
* H1: распределение двух выборок не равно.

<a href="https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.wilcoxon.html" class="btn btn-warning" role="button">Scipy Ref -></a>

In [16]:
# Example of the Wilcoxon Signed-Rank Test
from scipy.stats import wilcoxon
data1 = [0.873, 2.817, 0.121, -0.945, -0.055, -1.436, 0.360, -1.478, -1.637, -1.869]
data2 = [1.142, -0.432, -0.938, -0.729, -0.846, -0.157, 0.500, 1.183, -1.075, -0.169]
stat, p = wilcoxon(data1, data2)
print('stat={0:.3g}, p={0:.3g}' .format (stat, p))
if p > 0.05:
    print('Probably the same distribution')
else:
    print('Probably different distributions')

stat=21, p=21
Probably the same distribution


<h3 class="alert alert-info">H-тест Краскела-Уоллиса</h3>
Позволяет сравнивать медианы трех или более независимых выборок.

<div class="alert alert-info">Предположение</div>
a)Наблюдения каждой выборки данных независимы и распределены. <br>
b)Наблюдения можно ранжировать. <br>

<div class="alert alert-info">Гипотеза</div>

* H0: распределения выборок равны.
* H1: распределения выборок не равны.

<a href="https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.kruskal.html" class="btn btn-warning" role="button">Scipy Ref -></a>

In [17]:
# Example of the Kruskal-Wallis H Test
from scipy.stats import kruskal
data1 = [0.873, 2.817, 0.121, -0.945, -0.055, -1.436, 0.360, -1.478, -1.637, -1.869]
data2 = [1.142, -0.432, -0.938, -0.729, -0.846, -0.157, 0.500, 1.183, -1.075, -0.169]
stat, p = kruskal(data1, data2)
print('stat={0:.3g}, p={0:.3g}'.format(stat, p))
if p > 0.05:
    print('Probably the same distribution')
else:
    print('Probably different distributions')

stat=0.571, p=0.571
Probably the same distribution


<h3 class="alert alert-info">Тест Фридмана</h3>
Критерий Фридмана позволяет установить, что величины показателей от условия к условию изменяются, но при этом не указывает на направление изменений и в этом смысле он похож на критерий знаков.

<div class="alert alert-info">Предположение</div>
a)Наблюдения каждой выборки данных независимы и распределены. <br>
b)Наблюдения могут быть ранжированы. <br>
c)Наблюдения могут быть парными.

<div class="alert alert-info">Гипотеза</div>

* H0: существуют лишь случайные различия.
* H1: имеются существенные неслучайные различия.


<a href="https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.friedmanchisquare.html" class="btn btn-warning" role="button">Scipy Ref -></a>

In [18]:
# Example of the Friedman Test
from scipy.stats import friedmanchisquare
data1 = [0.873, 2.817, 0.121, -0.945, -0.055, -1.436, 0.360, -1.478, -1.637, -1.869]
data2 = [1.142, -0.432, -0.938, -0.729, -0.846, -0.157, 0.500, 1.183, -1.075, -0.169]
data3 = [-0.208, 0.696, 0.928, -1.148, -0.213, 0.229, 0.137, 0.269, -0.870, -1.204]
stat, p = friedmanchisquare(data1, data2, data3)
print('stat={0:.3g}, p={0:.3f}'.format(stat, p))
if p > 0.05:
    print('Probably the same distribution')
else:
    print('Probably different distributions')

stat=0.8, p=0.800
Probably the same distribution
