# EDA Статистические тесты

##  Содержание <a class="anchor" id=0></a>
- [1. Введение](#1)
- [2. Понятие статической гипотезы](#2)
- [3. Статистическая значимость](#3)
- [4. Статистические тесты. Введение](#4)
- [5. Тесты на нормальность](#5)
- [6. Параметрические тесты](#6)
- [7. Непараметрические тесты](#7)
- [8. Популярные статистические тесты в Python](#8)
- [9. Итоги](#9)


# 1. Введение <a class="anchor" id=1></a>

[к содержанию](#0)

**Статистика** — это набор статистических тестов, которые аналитики используют для формирования выводов из представленных данных. Эти тесты позволяют принимать решения на основе наблюдаемых закономерностей на основе данных. Существует широкий спектр статистических тестов. Выбор статистического теста зависит от структуры и распределения данных, а также от поставленной гипотезы.



# 2. Понятие статической гипотезы <a class="anchor" id=2></a>

[к содержанию](#0)

Как вы уже знаете, большая часть статистики касается взаимосвязи между наблюдениями. Эта наука помогает нам интерпретировать данные путём предположения конкретной структуры или взаимосвязи данных и использования статистических методов для подтверждения или же опровержения этого предположения. Такое предположение называется **гипотезой**. 

Для того чтобы самостоятельно сформулировать гипотезу, лучше всего использовать следующий формат утверждения:

### ЕСЛИ Я (СДЕЛАЮ ЭТО С НЕЗАВИСИМОЙ ПЕРЕМЕННОЙ), ТОГДА (ЭТО ПРОИЗОЙДЁТ С ЗАВИСИМОЙ ПЕРЕМЕННОЙ).

Хорошее изложение гипотезы должно:

✔️ Включать утверждения «если» и «тогда».

✔️ Включать как независимые, так и зависимые переменные.

✔️ Поддаваться проверке с помощью экспериментов, опросов или других научно обоснованных методов.

>Например: Если я (пройду все модули курса), тогда (отлично освою материал).
>
>Давайте убедимся, что предложенная выше гипотеза соответствует указанным критериям.
>
>✔️ Гипотеза имеет форму сложноподчинённого предложения с союзами «если» и «тогда».
>
>✔️ Условие прохождения всех модулей выступает в качестве независимой переменной, а отличное освоение материала — зависимой, так как на него влияет первое условие.
>
>✔️ Данная гипотеза может быть проверена эмпирическим путём: вам необходимо пройти все модули курса и убедиться в отличном освоении материала или же доказать обратное.

**Статистической** называют гипотезу о распределении вероятностей, лежащем в основе наблюдаемой выборки данных. Важно переформулировать статистическую гипотезу как нулевую (`H0`) и альтернативную (`H1`) гипотезы, чтобы иметь возможность проверить её математически.

Альтернативная гипотеза (`H1`) — это, как правило, ваша исходная гипотеза, предсказывающая взаимосвязь между переменными. В преобладающем большинстве случаев нулевая гипотеза (`H0`) — это предсказание отсутствия связи между интересующими вас переменными (хотя иногда нулевая гипотеза может звучать другим образом).

Нулевая гипотеза предполагает **отсутствие разницы** между параметрами или распределениями выборки. 

В статистике **параметр** — это описание совокупности. Например, если вы спросите всех в университете (совокупности) об их среднем росте, вы получите параметр, истинное описание популяции, поскольку спросили всех. 

Математически `H0` формулируется в виде равенства. Если нулевая гипотеза отклоняется, то мы переходим к альтернативной гипотезе, противоречащей `H0`.

>`H0` - Нулевая гипотеза — статистическая гипотеза, подлежащая проверке.
>
>`H1` - Альтернативная гипотеза — альтернатива нулевой гипотезе.

Приведём пример. Предположим, нас интересует связь между полом и ростом. Основываясь на своих знаниях физиологии человека, вы формулируете гипотезу о том, что мужчины в среднем выше женщин. В качестве доступных данных вы используете информацию о своих одногруппниках. Чтобы проверить эту гипотезу, вы формулируете её в виде двух гипотез.

>Одна из гипотез: средний рост как мужской, так и женской половины группы один и тот же. 

Эта гипотеза об отсутствии разницы и называется **нулевой гипотезой**. Мы можем использовать статистическую проверку гипотез, чтобы либо отклонить эту гипотезу, либо не отклонить (сохранить) её. Мы не говорим «принять», потому что результат вероятен и всё равно может быть неверным, только с очень низкой вероятностью. Подробнее о том, как оценить степень уверенности в полученном результате, мы поговорим в следующем юните. 

Альтернативной гипотезой является наличие отличий между выборками, которое математически выражается в виде неравенства. 

>Например, мы можем предположить, что средний рост молодых людей больше среднего роста девушек вашей группы.

`H0` : В среднем рост молодых людей равен росту девушек.

`H1` : Молодые люди в среднем выше девушек.

Теперь давайте попробуем сформулировать нулевую и альтернативную гипотезы для более сложной задачи.

Превышает ли прирост уровня счастья страны А прирост уровня счастья страны B? В первом году уровень счастья страны А составил `2,5`, во втором — `3,1`. Для страны B прирост уровня счастья за год составил `0,7`. 

Как мы помним, нулевая гипотеза формулируется в виде равенства параметров выборок. В данном случае параметром является средний уровень счастья стран. Следовательно, математически нулевая гипотеза (`H0`) будет выглядеть так:  `Ga` = 0.7, где `Ga` — прирост уровня счастья страны A. 

>`H0` : Прирост уровня счастья в стране А равен приросту уровню счастья в стране В.

Альтернативная гипотеза может быть представлена следующими тремя вариантами:

>`H1` : 0.7 > Ga
>
>`H1` : 0.7 < Ga
>
>`H1` : 0.7 != Ga

Итак, альтернативная гипотеза **должна противоречить** нулевой и математически может быть выражена с помощью <, >, !=.

>Таким образом, каждый раз, как вы сталкиваетесь с задачей на определение нулевой и альтернативной гипотезы, начните с поиска утверждения, которое вы хотите доказать и которое может быть представлено в виде неравенства. Это ваша альтернативная гипотеза. Для того чтобы произвести доказательство альтернативной гипотезы, мы формулируем нулевую гипотезу в виде равенства. Две гипотезы противоречат друг другу. Следовательно, для доказательства альтернативной гипотезы нам **достаточно опровергнуть нулевую**.

Основная задача аналитика данных — это извлечение ценной информации из предложенных наборов данных. Проверка статистических гипотез позволяет оценить обоснованность утверждений о выборке. Даже если вопросы по данным подаются на блюдечке, всегда нужно исследовать качество доступных данных! Прежде чем перейти к оценке значимости и проверке статистических гипотез, давайте закрепим полученные знания с помощью небольшого теста.

# 3. Статистическая значимость <a class="anchor" id=3></a>

[к содержанию](#0)

Формулы подсчета вероятностей

<img src=e_4_img1.png>

При проверке гипотезы мы не всегда можем проверить её на всей совокупности, а только на случайно выбранных наборах данных. Так, используя данные об одной группе студентов, мы хотим сформулировать вывод обо всём университете, например сравнить рост женской половины и мужской. Можем ли мы сказать, что наши выводы всегда верны для совокупности (университета)? 

Не совсем. Мы можем сделать два типа ошибок.

>Ошибка I (первого)  рода: отклонение нулевой гипотезы, если она верна.
>
>Ошибка II (второго)  рода: принятие нулевой гипотезы, если она ложна.

Приведём пример. Вы решили провести тест: на глаз измерить рост ваших одногруппников. По этим наблюдениям вы можете допустить два типа ошибок.

Ошибка I рода (ложноположительный результат): результат теста говорит, что средний рост девушек отличается от среднего роста юношей, но на самом деле это не так.

Ошибка II рода (ложноотрицательный): результат теста говорит, что средний рост обеих подгрупп одинаковый, но на самом деле нет.

<img src=e_4_img2.png>

Эти ошибки активно используются аналитиками данных для оценки качества алгоритмов машинного обучения, решающих задачи классификации на группы. Ошибки предполагают сравнение эмпирического (полученного опытным путём) результата с истинным. Истинный результат в таких задачах изначально доступен аналитикам. Данные, на которых проводится тест, и истинные  результаты используются для обучения алгоритмов и формирования предсказаний на новых похожих данных. Об этом вы подробно узнаете в будущих юнитах!

Для определения того, что связь между двумя или более переменными вызвана чем-то иным, чем случайность, используется понятие **статистической значимости** `p-value`. 

>`P-value` — это вероятность обнаружения наблюдаемых результатов, когда нулевая гипотеза (`H0`) верна.

Статистическая значимость произвольна: она зависит от порога, называемого **уровнем значимости**   `a` (альфа).  

>**Уровень значимости** `a`  — это фиксированная вероятность ошибочного отклонения истинной нулевой гипотезы, то есть вероятность ошибки I рода. 

В нашем примере уровень значимости показывает вероятность того, что на глаз нам покажется, что средний рост девушек не равен среднему росту молодых людей, хотя в случае замера роста линейкой окажется, что это не так. 

>Если `p-value` вашего теста <font color=green>ниже уровня значимости</font>, это означает, что ваши результаты статистически значимы и согласуются с альтернативной гипотезой. Если `p-value` <font color=red>выше уровня значимости</font>, ваши результаты считаются статистически незначимыми и мы не можем отвергнуть нулевую гипотезу.

Вернёмся к примеру зависимости роста от гендера. Используя тест «измерение роста людей на глаз» на тридцати группах, вы получили следующий результат: в одной группе из тридцати средний рост молодых людей и девушек оказался одинаковым, а в остальных — девушки в среднем были ниже. Предположим, вы получили `p-value` = 0,033. Это `p-value` ниже, чем ваш выбранный , поэтому вы считаете свои результаты статистически значимыми и отклоняете нулевую гипотезу.

Однако `p-value` означает, что вероятность получения результатов составляет 3,3 %, если нулевая гипотеза верна. **Существует риск ошибки I рода!**

### КАК ЖЕ ВЫБРАТЬ ЗНАЧЕНИЕ `a`?

Уровень значимости используется как порог для принятия решений. Чем ниже `a`, тем лучше. Перед тем как начать проверку гипотезы, вы обычно выбираете уровень ошибки, который вы готовы принять. Например, если `a=5%`, это означает, что мы можем взять на себя 5 %-ный риск и сделать вывод о существовании разницы между средним ростом женской и мужской половины группы, хотя фактической разницы нет. 

Но если мы хотим быть на 100 % уверенными, что ошибки нет, и зададим `a=0%`?

>Не всё так просто! Помимо `a`, мы должны учитывать `b` (бета), вероятность ошибки II рода. Если `b` определяет риск ложноотрицательного результата, то `1 - b`  — это вероятность не допустить ошибки II рода. Такая вероятность называется **«мощность теста»**. Чем ниже `b`, тем выше мощность. 

Естественно, нам бы хотелось, чтобы значения этих ошибок были как можно ниже. Однако важно отметить, что обе ошибки в некоторой степени **работают друг против друга**: предположим, вы хотите минимизировать ошибку I (ошибку отклонения нулевой гипотезы, когда она верна). Тогда проще всего всегда принимать `H0`. Но тогда это будет работать непосредственно против ошибки II (ошибки принятия нулевой гипотезы, когда она ложна).

Компромисс между этими параметрами  визуализирован на рисунке ниже. 

<img src=e_4_img3.png>

На изображении показано две кривые:

* <font color=blue>Синим</font> представлено распределение нулевой гипотезы, которое показывает все возможные результаты, которые вы получите, если нулевая гипотеза верна. Правильный вывод для любой точки этого распределения — **не отвергать нулевую гипотезу**.

* <font color=green>Зелёным</font> представлено распределение альтернативной гипотезы, которое показывает все возможные результаты, которые вы получите, если альтернативная гипотеза верна. Правильный вывод для любой точки этого распределения означает **отказ от нулевой гипотезы**.

Ошибки `типа I` и `типа II` возникают там, где эти два **распределения перекрываются**. Область, заштрихованная синим цветом, представляет `a`, частоту ошибок I рода, а область, заштрихованная зелёным цветом, представляет собой `b`, частоту ошибок типа II.

>Установив частоту ошибок I рода, вы также косвенно влияете на размер частоты ошибок II рода. По этой причине хорошим балансом служат обычно используемые уровни `a = 0.01. 0.05 или 0.10`. 

?Но как выбрать между указанными значениями? 

Поскольку **стандартное значение параметра** `a` **составляет 0.05**, мы начнём с отклонения от этого значения.

### ПОВЫШЕНИЕ УРОВНЯ ЗНАЧИМОСТИ

Представьте, что вы тестируете на прочность воздушные шары для вечеринок. Вы будете использовать результаты теста, чтобы определить, какую марку воздушных шаров покупать. Ложноположительный результат побуждает покупать непрочные воздушные шары. Покупка непрочного воздушного шара не является чем-то критичным. Поэтому можно рассмотреть повышение уровня риска ошибки, которое выражается в уменьшении количества требуемых доказательств, **изменив уровень значимости на 0.10**. Поскольку это изменение уменьшает количество необходимых доказательств, оно увеличивает вероятность ложноположительного результата с `5 %` до `10 %`.

### ПОНИЖЕНИЕ УРОВНЯ ЗНАЧИМОСТИ

А теперь представьте, что вы проверяете прочность ткани для воздушных шаров, используемых для полетов. Ложноположительный результат здесь очень критичен и опасен, ведь на кону стоят жизни людей! Вы должны быть очень уверены в том, что материал одного производителя прочнее другого. В этом случае вам следует увеличить количество необходимых доказательств, **изменив  на 0.01**. Такое изменение снижает вероятность ложного срабатывания с `5 %` до `1 %`.

>Стоит отметить, что уровень значимости `a = 0.05` **является наиболее распространённым**. Однако аналитик должен определить, насколько проблематично ложное срабатывание. Не существует единственно верного ответа, поэтому вам нужно самостоятельно выбирать уровень значимости в зависимости от обстоятельств: решить, какая ошибка для конкретной задачи является наиболее критичной — I или II рода. 

В примере с тканью для воздушного шара ложноположительный результат оказался очень критичным, поэтому нам важно выбирать минимальный уровень значимости.

Теперь допустим, вы решили пройти тест на COVID-19 на основании лёгких симптомов. Возможны две ошибки:

* Ошибка I рода (ложноположительный результат): результат теста говорит, что у вас коронавирус, но на самом деле это не так.

* Ошибка II рода (ложноотрицательный): результат теста говорит, что у вас нет коронавируса, но на самом деле он есть.

В данном случае для нас критичен **ложноотрицательный** результат. 

Как мы уже знаем, риск совершения ошибки типа II обратно пропорционален статистической мощности теста. Чтобы (косвенно) уменьшить риск ошибки II рода, вы можете **увеличить размер выборки** или **уровень значимости**, чтобы повысить статистическую мощность. Поэтому стоит выбрать `a = 0.10`.

### ПОДВЕДЁМ ИТОГИ ЮНИТА

* В статистике при проверки гипотез могут возникнуть два типа ошибок: первого и второго рода. Ошибка типа I означает **отклонение нулевой гипотезы**, когда она действительно верна, а ошибка типа II означает **неспособность отклонить нулевую гипотезу**, когда она на самом деле ложна.

* Уровень риска ошибки I рода определяется выбранным вами **уровнем значимости `a`**. Это значение, которое вы устанавливаете в начале исследования, чтобы оценить статистическую вероятность получения результатов (`p-value`). Когда значение `p-value` ниже выбранного значения `a`, мы говорим, что результат теста **статистически значим**.

* Уровень значимости обычно устанавливается на `a = 0.05`. Это означает, что вероятность получения ваших результатов составляет `5 %` или меньше, если нулевая гипотеза действительно верна.

* Чтобы уменьшить вероятность ошибки I рода, можно установить более низкий уровень значимости. Однако стоит учитывать, что это повлечёт за собой риск снижения статистической мощности проводимого теста, то есть **повысить вероятность ошибки II рода**.

# 4. Статистические тесты. Введение <a class="anchor" id=4></a>

[к содержанию](#0)

**Проверка гипотез** — важная процедура в статистике. Она оценивает два взаимоисключающих утверждения о совокупности, чтобы определить, какое утверждение лучше всего подтверждается выборкой данных. Когда мы говорим, что результат является статистически значимым, это делается благодаря проверке гипотез.

Но как происходит эта проверка? Давайте разберёмся!

Общий алгоритм проверки гипотезы состоит из **пяти основных этапов**:

1. Изложение исследовательской гипотезы как нулевой (`H0`) и альтернативной (`H1`) гипотезы.

2. Выбор уровня значимости (`a`).

3. Сбор данных для проверки гипотезы.

4. Выполнение соответствующего статистического теста: вычисление `p-value` и сравнение его с уровнем значимости.

5. Формулировка вывода: **отклонить или не отклонять нулевую гипотезу**.


>Приведём пример использования данного алгоритма. Представим следующую ситуацию.
>
>Каждый день Василий покупает лотерейный билет с шансом выиграть приз в `40 %`. Как-то Василий заметил, что всякий раз, когда он носит красную рубашку, он выигрывает. Молодой человек решил следить за своим выигрышем, не снимая рубашки, и обнаружил, что выиграл 5 из 5 раз.

Давайте проверим гипотезу о том, что шансы Василия на победу в красной рубашке, как всегда, составляют 40 % по сравнению с альтернативой гипотезой, согласно которой этот шанс каким-то образом выше.

?Если предположить, что гипотеза верна, какова вероятность того, что Василий выиграет 5 из 5 раз? 

Условимся, что если наблюдаемый результат имеет вероятность `менее 1 %` при проверенной гипотезе, мы отвергнем эту гипотезу.

Итак, гипотезы уже сформированы. 

> `H0 : p = 0.4` (шансы Василия на победу в рубашке, как всегда, составляют 40 %)
>
> `H1 : p > 0.4` (шанс каким-то образом выше)
>
>Уровень значимости по условию составляет `a = 0.01`
>
>Данные уже собраны.

* Необходимо вычислить `p-value`, равное вероятности выигрыша Василия 5 из 5 раз: если предположить, что гипотеза верна, вероятность того, что Василий выиграет один раз, составляет 40 %; поскольку мы ищем вероятность того, что это произойдёт 5 раз, нам нужно возвести` 0.4 в 5 степень`; . 

* Вероятность, которую мы получили, `выше 1 %`. Следовательно, мы не можем отвергнуть нулевую гипотезу. Другими словами, красная рубашка не влияет на выигрыш, без неё Василий также побеждает с вероятностью 40 %. Однако, если Василий сыграет ещё несколько раз в красной рубашке и выиграет, мы можем пересмотреть эту гипотезу.

* Мы проверяли гипотезу о том, что шанс Василия на победу в красной рубашке составляет 40 %, как всегда. Если предположить, что гипотеза верна, вероятность его победы 5 из 5 раз составляет `1.024%`. Следовательно, мы не можем отвергнуть гипотезу.

>Как вы уже могли догадаться, если статистическая гипотеза — это предположение о вероятностном распределении выборки данных, то **статистический тест (критерий)** — это строгое математическое правило, по которому принимается решение по статистической гипотезе: сохранить её или отвергнуть.

Как вы помните, нулевая гипотеза математически формулируется в виде равенства, а альтернативная — в виде неравенства. Снова вспомним наш пример зависимости роста от пола. Гипотеза была сформулирована следующим образом:

`H0` : Молодые люди в среднем не выше девушек.

`H1` : Молодые люди в среднем выше девушек. 

В данном случае применяется **односторонний тест**: мы тестируем в одном направлении, что означает проверку того, что средний рост мужской половины значительно больше или, наоборот, значительно меньше, чем средний рост женской половины группы. 

<img src=e_4_img4.png>

**Двусторонний тест** — это статистический тест, в котором критическая область распределения является двусторонней и проверяет, больше или меньше выборка определённого диапазона значений. Если тестируемая выборка попадает в одну из критических областей, вместо нулевой гипотезы принимается альтернативная гипотеза.

В этом случае альтернативная гипотеза изменится на: 

`H1` : Существует разница между средним ростом молодых людей и девушек, отличная от 0.

<img src=e_4_img5.png>

Другими словами, при двустороннем тесте мы проверяем гипотезу `H0 : b = b0`, используя альтернативную гипотезу `H0 : b != b0`. При одностороннем тесте альтернативная гипотеза меняется на `H1 : b > b0` или `H1 : b < b0` в зависимости от того, какое влияние оказывается на зависимую переменную (положительное или отрицательное).

>Может показаться, что настоящий интерес для дата-сайентиста представляет именно альтернативная гипотеза. Но почему тогда мы пытаемся сохранить или опровергнуть нулевую, а не альтернативную?

При использовании логических рассуждений намного легче доказать ложность утверждения, чем его истинность. Дело в том, что для доказательства ложности требуется **только один контрпример**. Однако, чтобы доказать что-то истинное, необходимо показать, что это утверждение истинно во всех возможных ситуациях.

По этой причине при проведении проверки значимости используется нулевая гипотеза. Альтернативная гипотеза — это утверждение, которое исследователи на самом деле пытаются доказать. Однако они это делают через доказательство ложности нулевой гипотезы. 

# 5. Тесты на нормальность <a class="anchor" id=5></a>

[к содержанию](#0)

Чтобы ответить на вопрос, какой статистический тест лучше всего выбрать для проверки гипотезы на предложенной выборке данных, сначала нужно понять, какому распределению эти данные следуют.

Одно из самых известных распределений — это **нормальное распределение**. Нормальное распределение является наиболее важным распределением вероятностей в статистике, потому что…

* Многие процессы в природе следуют нормальному распределению. Примерами являются возраст, рост, вес и кровяное давление человека.

* Некоторые алгоритмы машинного обучения, такие как линейный дискриминантный анализ, основаны на предположении о нормальном распределении.

Существует ряд методов, с помощью которых можно проверить, является ли используемая выборка данных гауссовской, чтобы использовать стандартные методы, или выборка не подчиняется нормальному закону распределения. Во втором случае вместо стандартных (параметрических) статистических тестов необходимо использовать непараметрические статистические методы. С ними мы познакомимся чуть позже.

>Примечание. Сам термин «параметрические тесты» говорит о том, принадлежит ли распределение признака к какому-то известному параметрическому закону распределения. Об этих законах мы подробнее поговорим в модуле по теории вероятностей. Самый популярный закон — нормальное распределение, но нужно понимать, что он не является единственным. Существуют и другие параметрические распределения, для которых есть специализированные тесты. Однако в контексте данного модуля под параметрическими законами мы будем понимать исключительно нормальное распределение. 

Это ключевой момент при выборе статистических методов для выборки данных. Мы можем резюмировать это решение следующим образом:

<img src=e_4_img6.png width="500">

Если вы установили, к какому закону принадлежит распределение вашего признака, например к распределению Пуассона, то рекомендуется использовать специальные параметрические тесты, ориентированные именно на этот конкретный закон, так как они дадут более корректные результаты. 

Существует множество статистических тестов, которые мы можем использовать для количественной оценки того, выглядит ли выборка данных так, как если бы она была взята из **распределения Гаусса**.

Каждый тест делает разные предположения и рассматривает разные аспекты данных.

Здесь и далее мы будем рассматривать два часто используемых теста на нормальность: 

* тест Шапиро-Уилка;

* тест Д’Агостино K2.

>Тест Шапиро-Уилка оценивает выборку данных и определяет, насколько вероятно, что данные были получены из распределения Гаусса.

На практике считается, что критерий Шапиро-Уилка является надёжным критерием нормальности, хотя есть некоторые предположения, что этот критерий может быть пригоден для небольших выборок данных, например для тысячи наблюдений или меньше.

>Тест Д’Агостино K2 вычисляет **эксцесс** и **перекос** по данным, чтобы определить, отклоняется ли распределение данных от нормального распределения.

>**Перекос** — это количественная оценка того, насколько распределение смещено влево или вправо, мера асимметрии в распределении.

>**Эксцесс** количественно определяет, какая часть распределения находится в хвосте. 

Тест Д’Агостино K2 — простой и часто используемый статистический тест на нормальность.

Итак, для проверки данных на нормальность мы используем один из предложенных тестов, вычисляем `p-value` и затем сравниваем его с установленным .

После того как тест на нормальность пройден, чтобы определить, какой статистический тест использовать, необходимо знать типы переменных, с которыми вы имеете дело.

Напомним, что числовые (количественные) переменные включают в себя два типа:

**Непрерывные**: представляют собой меры и обычно могут быть представлены в виде делений меньше единицы (например, 0.75 грамма).

**Дискретные**: представляют собой счётчики и обычно не могут быть представлены в виде делений меньше единицы (например, 1 дерево).


Помимо числовых выделяют **категориальные** и **бинарные** переменные. 

К категориальным относятся те признаки, которые можно разбить на категории, например уровень образования: начальный, средний, высший. 
Бинарными являются переменные, которые могут принимать лишь два значения, например пол студента: мужской или женский.

# 6. Параметрические тесты <a class="anchor" id=6></a>

[к содержанию](#0)

### КОРРЕЛЯЦИОННЫЕ ТЕСТЫ 

Как вы уже знаете из раздела EDA-2. Математическая статистика в контексте EDA, корреляционные тесты проверяют, связаны ли переменные, не выдвигая гипотезы о причинно-следственной связи.

Наиболее распространённым является **параметрический тест на корреляцию Пирсона**. Другие изученные вами типы корреляций, например корреляция Спирмена, относятся к непараметрическим тестам.

<img src=e_4_img7.png width=1000>

### ТЕСТЫ НА СРАВНЕНИЕ ВЫБОРОК

Перед дата-сайентистами могут возникать различные задачи на этапе разведочного анализа данных. Например, вам может понадобиться решить, как влияет пол студента на рост и вес. В этом вам помогут сравнительные тесты.

**Сравнительные тесты** ищут различия между средними параметрами по группам. Их можно использовать для проверки влияния категориальной переменной на среднее значение какой-либо другой характеристики. 

В таблице ниже приведены популярные тесты на сравнение выборок.

<img src=e_4_img8.png width=1000>


`Т-тест` (`t-критерий`) используется при сравнении средних значений ровно двух групп одной совокупности (например, среднего роста мужчин и женщин). 

Независимый T-тест проверяет разницу между одной и той же переменной из разных совокупностей (например, сравнение собак и кошек). Стоит отметить, что `T-тест` используется на выборках размером **меньше 30**. 

В случае, если объём выборки превышает 30, используется `z-тест`. Для проведения `z-теста` необходимо владеть информацией о разбросе данных. Таким образом, `z-тест` используется для определения того, различаются ли рассчитанные средние значения двух выборок в случае, если доступно стандартное отклонение и выборка велика. `T-тест` используется для определения того, как средние значения различных наборов данных отличаются друг от друга, если стандартное отклонение или дисперсия неизвестны.

Тесты `ANOVA` и `MANOVA` используются при сравнении **средних значений более чем двух групп** (например, среднего роста детей, подростков и взрослых).

>Примечание. Обратите внимание, что именно зависимая переменная должна быть количественной и подчиняться нормальному закону распределения.

Если с тестом на корреляцию всё просто, то как не запутаться и сделать правильный выбор теста на сравнение выборок? Ниже представлена диаграмма-алгоритм, которая поможет вам определить, какой параметрический тест для сравнения групп необходим для конкретных данных.

<img src=e_4_img9.png width=1000>

Разберём пример, используя предложенную схему. 

>Проведём опрос 100 студентов. 50 первокурсников и 50 второкурсников. Зададим всем следующий вопрос: Сколько денег тратите на покупку книг? 

Наша нулевая гипотеза состоит в том, что в двух группах средние значения потраченных на книги денег **равны**.

Мы провели тест на нормальность и поняли, что данные близки к гауссовскому распределению. Значит, мы переходим к параметрическим тестам для проверки нашей нулевой гипотезы. Мы сравниваем количественные переменные, значит используем тест на сравнение выборок. Групп для сравнения всего две, то есть нам нужен `T-тест`!

# 7. Непараметрические тесты <a class="anchor" id=7></a>

[к содержанию](#0)

### КОРРЕЛЯЦИОННЫЕ ТЕСТЫ 

Для поиска зависимостей между не гауссовскими или категориальными величинами часто используют тест на **корреляцию Спирмена** и `X2`-тест (Хи-квадрат-тест).

>Критерий `X2` оценивает, являются ли ожидаемые частоты каждой переменной значимо отличающимися от наблюдаемых частот или нет. 

Представьте, что 10 мужчин и 10 женщин опрошены относительно выбора пиццы (пиццерия №1 или пиццерия №2). Если между предпочтением и полом нет связи, то естественно ожидать равного выбора пиццерии №1 и пиццерии №2 каждым полом.

<img src=e_4_img10.png width=1000>

### ТЕСТЫ НА СРАВНЕНИЕ ВЫБОРОК

**Критерий Уилкоксона** используется для сравнения двух независимых выборок путём анализа их медианных значений. 

**Критерий Краскела-Уоллиса** предназначен для сравнения распределений в нескольких выборках. 

**ANOSIM** (анализ сходства) — это непараметрический тест на наличие существенных различий между двумя или более группами, основанный на любой мере расстояния.

<img src=e_4_img11.png width=1000>

Дата-сайенс-сообщество — это не только магия поиска закономерностей данных, которые могут быть скрыты от глаз обывателя, но и огромные возможности использования уже готовых библиотек и их методов! 

В следующем юните вы научитесь применять все указанные выше тесты для проверки гипотез с помощью нескольких строк кода! 

Найти другие тесты и почитать подробнее про вышеуказанные вы можете в [этой статье](http://statistica.ru/theory/neparametricheskie-kriterii/).

In [13]:
# Задание 7.4
from scipy.stats import f_oneway

data_north = [117, 107, 29, 121, 86, 35, 117, 136, 89, 102, 131, 114, 118, 145, 67, 16, 102, 52, 144, 35, 72, 36, 103, 63, 73]
data_south = [56, 74, 94, 29, 76, 76, 61, 76, 65, 69, 78, 17, 65, 21, 35, 87, 53, 32, 18, 74, 28, 23, 67, 16, 98]
data_east = [141, 109, 120, 93, 57, 96, 84, 127, 130, 85, 99, 53, 51, 55, 103, 53, 103, 142, 112, 67, 139, 93, 83, 123, 111]

alpha = 0.05
H_0 = 'среднее время доставки в Северный, Южный и Восточный районы одинаковое.'
H_1 = 'среднее время доставки в Северный, Южный и Восточный районы не одинаковое.'

_, p = f_oneway(data_north, data_south, data_east)
print('p-значение: {:.3f}'.format(p))

if p <= alpha:
    print('p-значение меньше, чем заданный уровень значимости {:.2f}. Отвергаем нулевую гипотезу, что {}'.format(alpha, H_0))
else:
    print('p-значение больше, чем заданный уровень значимости {:.2f}. У нас нет оснований отвергнуть нулевую гипотезу, что {}'.format(alpha, H_0))

p-значение: 0.000
p-значение меньше, чем заданный уровень значимости 0.05. Отвергаем нулевую гипотезу, что среднее время доставки в Северный, Южный и Восточный районы одинаковое.


# 8. Популярные статистические тесты в Python <a class="anchor" id=8></a>

[к содержанию](#0)

Но для начала вспомним, что **статистический тест** — это формальный метод, основанный на распределении вероятностей, позволяющий сделать вывод о справедливости гипотезы. Выделяют параметрические и непараметрические тесты.

**Параметрический тест** — это тест, который содержит информацию о параметре генеральной совокупности.

**Непараметрический тест** — это тест, в котором исследователь не имеет представления о параметре генеральной совокупности.

Далее мы на конкретных примерах рассмотрим использование тестов на нормальность, а также основных параметрических и непараметрических тестов. Кроме того, вы увидите работу библиотеки SciPy на реальных данных.

In [4]:
# Задание 8.3

data_before = [51, 46, 40, 48, 44, 42, 48, 36, 44, 35, 42, 52, 38, 33, 40, 43, 51, 38, 36, 47, 42, 44, 47, 36, 41, 46, 33, 51, 49, 41]
data_after = [46, 44, 47, 51, 52, 37, 46, 49, 45, 40, 32, 41, 48, 36, 37, 39, 37, 42, 46, 38, 42, 35, 41, 41, 42, 33, 47, 49, 36, 37]

from scipy.stats import wilcoxon

wilcoxon(data_after, data_before, alternative = 'greater')

WilcoxonResult(statistic=187.5, pvalue=0.7419350305909402)

In [8]:
# Задание 8.4

data = [77, 78, 74, 81, 87, 73, 80, 72, 73, 81, 88, 74, 74, 79, 78, 73, 89, 82, 77, 77, 88, 75, 80, 88, 72, 84, 88, 74, 74, 78]

wilcoxon(data, alternative = 'two-sided')

WilcoxonResult(statistic=0.0, pvalue=1.862645149230957e-09)

In [10]:
# Задание 8.5

from scipy.stats import kruskal

data_tariffs = [57, 56, 64, 62, 64, 63, 57, 64, 57, 63, 62, 59, 61, 61, 62, 57, 55, 60, 56, 62, 64, 56, 62, 62, 65]

data_offers = [56, 56, 60, 64, 62, 63, 63, 56, 64, 60, 58, 61, 59, 63, 62, 63, 59, 64, 63, 58, 61, 61, 62, 55, 61]

data_support = [65, 67, 65, 69, 66, 65, 62, 63, 65, 69, 64, 61, 69, 69, 62, 68, 65, 69, 62, 67, 63, 69, 63, 67, 61]

kruskal(data_tariffs, data_offers, data_support)

KruskalResult(statistic=28.331726478030856, pvalue=7.044396034032787e-07)

# 9. Итоги <a class="anchor" id=9></a>

[к содержанию](#0)

In [11]:
import scipy.stats as stats
import pandas as pd

# задаём уровень значимости
alpha = 0.05 

data = pd.read_csv('cat_variables_tarif_children.zip')

# вычисляем таблицу сопряжённости
table = pd.crosstab(data['Тариф'], data['Наличие детей'])

# проводим тест
_, p, _, _ = stats.chi2_contingency(table)

print('p-value = {:.3f}'.format(p))

# интерпретируем результат
if p <= alpha:
    print('p-значение меньше, чем заданный уровень значимости {:.2f}. Отвергаем нулевую гипотезу.'.format(alpha))
else:
    print('p-значение больше, чем заданный уровень значимости {:.2f}. У нас нет оснований отвергнуть нулевую гипотезу.'.format(alpha))

# p-value = 0.373
# p-значение больше, чем заданный уровень значимости 0.05. У нас нет оснований отвергнуть нулевую гипотезу.

p-value = 0.373
p-значение больше, чем заданный уровень значимости 0.05. У нас нет оснований отвергнуть нулевую гипотезу.


In [14]:
from statsmodels.stats.contingency_tables import mcnemar
import pandas as pd

# задаём уровень значимости
alpha = 0.05 

data = pd.read_csv('cat_variables_usage.zip')

# вычисляем таблицу сопряжённости
table = pd.crosstab(data['До'], data['После'])

# проводим тест
res = mcnemar(table)

# извлекаем значение p-value из результатов теста
p = res.pvalue

print('p-value = {:.3f}'.format(p))

# интерпретируем результат
if p <= alpha:
    print('p-значение меньше, чем заданный уровень значимости {:.2f}. Отвергаем нулевую гипотезу.'.format(alpha))
else:
    print('p-значение больше, чем заданный уровень значимости {:.2f}. У нас нет оснований отвергнуть нулевую гипотезу.'.format(alpha))

# p-value = 0.013
# p-значение меньше, чем заданный уровень значимости 0.05. Отвергаем нулевую гипотезу.

p-value = 0.013
p-значение меньше, чем заданный уровень значимости 0.05. Отвергаем нулевую гипотезу.


In [24]:
# Задание 9.2

data = pd.DataFrame([['Есть', 'Есть'], ['Есть', 'Нет'], ['Нет', 'Есть'], ['Нет', 'Есть'], ['Нет', 'Нет'], 
                     ['Есть', 'Есть'], ['Нет', 'Есть'], ['Нет', 'Есть'], ['Нет', 'Есть'], ['Нет', 'Есть'], 
                     ['Нет', 'Есть'], ['Нет', 'Есть'], ['Есть', 'Есть'], ['Нет', 'Есть'], ['Нет','Нет'], 
                     ['Нет', 'Нет'], ['Нет', 'Нет'], ['Есть', 'Нет'], ['Есть', 'Есть'], ['Нет', 'Нет'], 
                     ['Нет', 'Есть'], ['Есть', 'Нет'], ['Есть', 'Есть'], ['Нет', 'Нет'], ['Есть', 'Есть'], 
                     ['Нет', 'Есть'], ['Есть', 'Есть'], ['Нет', 'Нет'], ['Нет', 'Есть'], ['Нет', 'Нет']], columns=['Старая форма', 'Новая форма'])

#data['Старая форма'] = data['Старая форма'].apply(lambda x: 1 if x == 'Есть' else 0)
#data['Новая форма'] = data['Новая форма'].apply(lambda x: 1 if x == 'Есть' else 0)
print(pd.crosstab(data['Старая форма'], data['Новая форма']))

from statsmodels.stats.contingency_tables import mcnemar

print(mcnemar(pd.crosstab(data['Старая форма'], data['Новая форма'])))

Новая форма   Есть  Нет
Старая форма           
Есть             7    3
Нет             12    8
pvalue      0.03515625
statistic   3.0
