# Проверка статистических гипотез: сравнения

Ниже приведены краткие сведения о статистических тестах, которые используются для проверки гипотез о распределении одной выборки или для сравнения двух и более групп. 

* Все функции для реализации этих тестов или критериев обладают схожей логикой – вычисляют наблюдаемое значение статистики критерия и p-value. 
* Если значение p-value превышает уровень значимости $\alpha$ (вероятность ошибочно отвергнуть верную нулевую гипотезу, часто берется равным 5%), то проверяемая нулевая гипотеза не отвергается, если не превышает – отвергается в пользу альтернативной гипотезы.
* По умолчанию альтернативная гипотеза двусторонняя, но при желании ее тип можно скорректрировать.

## Одна выборка

### Проверка гипотезы о равенстве доли числу

Особенности:

* Проверяется гипотеза $H_0: p = p_0$, где $p_0$ – вероятность успеха, доля интересующих объектов в генеральной совокупности.
* Число успехов описывается биномиальным распределением, при большом числе испытаний $n$ – нормальным распределением. 
* Отсюда два варианта теста – биномиальный тест для числа успехов (основывается на биномиальном распределении) и z-тест для долей (основывается на стандартном нормальном распределении).

Реализация:

* Функция `binomtest()` из модуля `stats` библиотеки `scipy` ([документация](https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.binomtest.html)).
* Функция `proportions_ztest()` из модуля `stats` библиотеки `statsmodels` ([документация](https://www.statsmodels.org/dev/generated/statsmodels.stats.proportion.proportions_ztest.html)).

### Проверка гипотезы о равенстве среднего числу

Особенности:

* Проверяется гипотеза $H_0: \mu = a$, где $a$ – математическое ожидание, среднее генеральной совокупности.
* Предполагается, что выборка, по которой оцениваем среднее и проверяем гипотезу, взята из (примерно) нормального распределения.
* Классический статистический критерий – одновыборочный критерий Стюдента, он же t-тест для одной выборки.

Реализация:

* Функция `ttest_1samp()` из модуля `stats` библиотеки `scipy` ([документация](https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.ttest_1samp.html#scipy.stats.ttest_1samp)).

### Проверка нормальности распределения

Особенности:

* Проверяется гипотеза о том, что выборка взята из нормального распределения. 
* Распространенный на практике статистический критерий – критерий Шапиро-Уилка.

Реализация:

* Функция `shapiro()` из модуля `stats` библиотеки `scipy` ([документация](https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.shapiro.html#scipy.stats.shapiro)).

## Две выборки


### Проверка гипотезы о равенстве средних

Особенности:

* Предполагается, что обе выборки взяты из нормального распределения.
* Проверяется гипотеза $H_0: \mu_1 = \mu_2$, где $\mu_1$ и $\mu_2$ – математические ожидания, средние двух генеральных совокупностей.
* При выполнении предположения (на практике – если выборки большие и визуально нет явных отклонений от нормальности) используется двухвыборочный критерий Стьюдента, он же t-тест для двух выборок. 
* Выборки могут быть независимыми (разные объекты в двух выборках, например, сравниваем средний рост мужчин и женщин) и связанными или парными (одни и те же объекты, описанные в разное время, например, средняя зарплата в одних и тех же регионах до реформы и после). 
* Отсюда два варианта теста – t-тест для независимых выборок и t-тест для связанных выборок.

Реализация:

* Функция `ttest_ind()` из модуля `stats` библиотеки `scipy` ([документация](https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.ttest_ind.html#scipy.stats.ttest_ind)) для независимых выборок.
* Функция `ttest_rel()` из модуля `stats` библиотеки `scipy` ([документация](https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.ttest_rel.html#scipy.stats.ttest_rel)) для связанных выборок.

Формально, если выборки независимые, у t-теста есть еще две разновидности, вариант для случая, если дисперсии двух случайных величин, из которых взяты выборки (дисперсии генеральных совокупностей) равны, и вариант, если они не равны. Выбор варианта теста можно регулировать с помощью соответствующего аргумента `equal_var`, а вот проверить гипотезу о равенстве дисперсий можно с помощью теста Левена, [функция](https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.levene.html#scipy.stats.levene) `levene()` из того же `stats`. 

### Проверка гипотезы о сходстве распределений или равенстве медиан

Особенности:

* Предполагается, что хотя бы одна выборка взята из распределения, отличного от нормального.
* Проверяется гипотеза $H_0: F(x) = G(y)$, где $F$ и $G$ – функции распределений случайных величин, из которых взяты выборки, иногда формулируется через равенство медиан распределений $H_0: Me_1 = Me_2$.
* Используется критерий Манна-Уитни (независимые выборки) или критерий Уилкоксона (связанные выборки). 

Реализация:

* Функция `mannwhitneyu()` модуля `stats` библиотеки `scipy` ([документация](https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.mannwhitneyu.html)).
* Функция `wilcoxon()` модуля `stats` библиотеки `scipy` ([документация](https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.wilcoxon.html)).

### Проверка гипотезы о равенстве долей

Особенности:

* Проверяется гипотеза $H_0: p_1 = p_2$, где $p_1$ и $p_2$ – вероятности успеха, доли интересующих объектов в первой и второй генеральной совокупности.
* Предполагается, что выборки независимы. Если это выполняется – используется z-тест для долей (по аналогии с одной выборкой), если выборки связанные – часто используют критерий МакНемара, можно почитать [здесь](https://www.geeksforgeeks.org/how-to-perform-mcnemars-test-in-python/).

Реализация:

* Функция `proportions_ztest()` из модуля `stats` библиотеки `statsmodels` ([документация](https://www.statsmodels.org/dev/generated/statsmodels.stats.proportion.proportions_ztest.html)).

## Более двух выборок

### Проверка гипотезы о равенстве $k$ средних

Особенности:

* Предполагается, что все выборки взяты из нормального распределения.
* Проверяется гипотеза $H_0: \mu_1 = \mu_2 = \dots = \mu_k$, где $\mu_1, \dots, \mu_k$ – математические ожидания, средние $k$ генеральных совокупностей.
* Используется однофакторный дисперсионный анализ ANOVA.

Реализация:

* Функция `f_oneway()` из модуля `stats` библиотеки `scipy` ([документация](https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.f_oneway.html#scipy.stats.f_oneway)).


### Проверка гипотезы о сходстве распределений или равенстве медиан

Особенности:

* Предполагается, что хотя бы одна выборка взята из распределения, отличного от нормального.
* Проверяется гипотеза $H_0: Me_1 = Me_2 = \dots = Me_k$, где $Me_1, \dots, Me_k$ – медианы распределений случайных величин, из которых взяты выборки.
* Используется критерий Краскела-Уоллиса.

Реализация:

* Функция `kruskal()` из модуля `stats` библиотеки `scipy` ([документация](https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.kruskal.html#scipy.stats.kruskal)).