# **Статистические тесты. Введение**

**Проверка гипотез** — важная процедура в статистике. Она оценивает два взаимоисключающих утверждения о совокупности, чтобы определить, какое утверждение лучше всего подтверждается выборкой данных. Когда мы говорим, что результат является **статистически значимым**, это делается благодаря проверке гипотез.

Общий алгоритм проверки гипотезы состоит из пяти основных этапов:

1. Изложение исследовательской гипотезы как нулевой (H0) и альтернативной (Ha) гипотезы.
2. Выбор уровня значимости (a - альфа).
3. Сбор данных для проверки гипотезы.
4. Выполнение соответствующего статистического теста: вычисление p-value и сравнение его с уровнем значимости.
5. Формулировка вывода: отклонить или не отклонять нулевую гипотезу.

**[Каждый день Василий покупает лотерейный билет с шансом выиграть приз в 40 %. Как-то Василий заметил, что всякий раз, когда он носит красную рубашку, он выигрывает. Молодой человек решил следить за своим выигрышем, не снимая рубашки, и обнаружил, что выиграл 5 из 5 раз.]**

Условимся, что если наблюдаемый результат имеет вероятность менее 1 % при проверенной гипотезе, мы отвергнем эту гипотезу.

Итак, гипотезы уже сформированы. 

* H0: p=0,4 (шансы Василия на победу в рубашке, как всегда, составляют 40 %)
* Ha: p>0,4 (шанс каким-то образом выше)

Уровень значимости по условию составляет 0.01 (a).
Данные уже собраны.

* Необходимо вычислить p-value, равное вероятности выигрыша Василия 5 из 5 раз: если предположить, что гипотеза верна, вероятность того, что Василий выиграет один раз, составляет 40 %; поскольку мы ищем вероятность того, что это произойдёт 5 раз, нам нужно возвести 0.4 в 5 степень; 0,4^5 = 0,01024
* Вероятность, которую мы получили, выше 1 %. Следовательно, мы не можем отвергнуть нулевую гипотезу. Другими словами, красная рубашка не влияет на выигрыш, без неё Василий также побеждает с вероятностью 40 %. Однако, если Василий сыграет ещё несколько раз в красной рубашке и выиграет, мы можем пересмотреть эту гипотезу.
* Мы проверяли гипотезу о том, что шанс Василия на победу в красной рубашке составляет 40 %, как всегда. Если предположить, что гипотеза верна, вероятность его победы 5 из 5 раз составляет 1.024%. Следовательно, мы не можем отвергнуть гипотезу.

Как вы уже могли догадаться, если статистическая гипотеза — это предположение о вероятностном распределении выборки данных, то **статистический тест (критерий)** — это строгое математическое правило, по которому принимается решение по статистической гипотезе: сохранить её или отвергнуть. 

Как вы помните, нулевая гипотеза математически формулируется в виде равенства, а альтернативная — в виде неравенства. Снова вспомним наш пример зависимости роста от пола. Гипотеза была сформулирована следующим образом:

* H0: Молодые люди в среднем не выше девушек.
* Ha: Молодые люди в среднем выше девушек. 

В данном случае применяется **односторонний тест**: мы тестируем в одном направлении, что означает проверку того, что средний рост мужской половины значительно больше или, наоборот, значительно меньше, чем средний рост женской половины группы. 

![](https://lms.skillfactory.ru/assets/courseware/v1/6b99f0e3d311e7f0f2691dbcaca677a3/asset-v1:SkillFactory+DSPR-2.0+14JULY2021+type@asset+block/dst-eda-4-5.png)

**Двусторонний тест** — это статистический тест, в котором критическая область распределения является двусторонней и проверяет, больше или меньше выборка определённого диапазона значений. Если тестируемая выборка попадает в одну из критических областей, вместо нулевой гипотезы принимается альтернативная гипотеза.

![](https://lms.skillfactory.ru/assets/courseware/v1/7fccb2a708b709a5b1212c067aa5d11f/asset-v1:SkillFactory+DSPR-2.0+14JULY2021+type@asset+block/dst-eda-4-6.png)

В этом случае альтернативная гипотеза изменится на: 

* Ha: Существует разница между средним ростом молодых людей и девушек, отличная от 0.

Другими словами, при двустороннем тесте мы проверяем гипотезу H0: b=b0, используя альтернативную гипотезу H1: b<>b0. При одностороннем тесте альтернативная гипотеза меняется на H1: b>b0 или H1: b<b0 в зависимости от того, какое влияние оказывается на зависимую переменную (положительное или отрицательное).

***
## **ПРИМЕРЫ**


У Александра есть два брата: Артём и Роман. Каждый день Роман вытаскивает имя из шляпы, чтобы случайным образом выбрать одного из трёх братьев для мытья посуды. Александр подозревал, что Роман жульничает, поэтому следил за розыгрышами и выяснил, что в 12 розыгрышах Роман ни разу не был выбран!  
Проверим следующую гипотезу: каждый брат имеет равные шансы выбора в каждом розыгрыше 1/3 по сравнению с альтернативной гипотезой, в которой вероятность Романа ниже.  
Если предположить, что гипотеза верна, какова вероятность того, что Романа не выберут ни разу из 12 раз? Условимся, что если наблюдаемый результат имеет вероятность меньше, чем 1 % по проверенной гипотезе, гипотезу отвергаем.  
Какой вывод мы должны сделать относительно гипотезы?  


Вероятность того, что Романа не выберут в одном розыгрыше, равна 2/3. Поскольку мы ищем вероятность того, что это произойдёт 12 раз, нам нужно возвести 2/3 в степень 12. (2/3)^12 = 0.008, значит вероятность, которую мы получили, ниже 1%.

Отвергаем нулевую гипотезу.
***
У Ольги есть собака. Девушка заметила, что у её собаки обычно больше щенков мужского пола, чем женского. Ольга решила проверить это при следующем рождении щенков: все 4 щенка оказались кобелями.  
Проверим гипотезу о том, что у каждого щенка равные шансы на то, чтобы быть самцом или самкой, по сравнению с альтернативной гипотезой о том, что вероятность появления щенка мужского пола выше.   
Если предположить, что гипотеза верна, какова вероятность того, что из 4 щенков 4 окажутся кобелями? Условимся, что если наблюдаемый результат имеет вероятность меньше, чем 1 % по проверенной гипотезе, гипотезу отвергнем.  
Какой вывод мы должны сделать относительно гипотезы?  

Мы не можем отвергнуть нулевую гипотезу. Вероятность того, что все 4 щенка мужского пола равна 0,5^4 = 0,0625 > 0,01.

***
# **Тесты на нормальность**

Чтобы ответить на вопрос, какой статистический тест лучше всего выбрать для проверки гипотезы на предложенной выборке данных, сначала нужно понять, какому распределению эти данные следуют.

Одно из самых известных распределений — это **нормальное распределение**. Нормальное распределение является наиболее важным распределением вероятностей в статистике, потому что…

* Многие процессы в природе следуют нормальному распределению. Примерами являются возраст, рост, вес и кровяное давление человека.
* Некоторые алгоритмы машинного обучения, такие как линейный дискриминантный анализ, основаны на предположении о нормальном распределении.

Существует ряд методов, с помощью которых можно проверить, является ли используемая выборка данных гауссовской, чтобы использовать стандартные методы, или выборка не подчиняется нормальному закону распределения. Во втором случае вместо стандартных (параметрических) статистических тестов необходимо использовать **непараметрические статистические методы**.

**Примечание**. Сам термин **«параметрические тесты»** говорит о том, принадлежит ли распределение признака к какому-то известному параметрическому закону распределения. Об этих законах мы подробнее поговорим в модуле по теории вероятностей. Самый популярный закон — нормальное распределение, но нужно понимать, что он не является единственным. Существуют и другие параметрические распределения, для которых есть специализированные тесты. Однако в контексте данного модуля под параметрическими законами мы будем понимать исключительно нормальное распределение. 

![](https://lms.skillfactory.ru/assets/courseware/v1/6258069b44fcbb8a0b2e8489c2432932/asset-v1:SkillFactory+DSPR-2.0+14JULY2021+type@asset+block/dst-eda-4-7.png)

Существует множество статистических тестов, которые мы можем использовать для количественной оценки того, выглядит ли выборка данных так, как если бы она была взята из распределения Гаусса.

Каждый тест делает разные предположения и рассматривает разные аспекты данных.

Здесь и далее мы будем рассматривать два часто используемых теста на нормальность: 

* **тест Шапиро-Уилка**;
* **тест Д’Агостино K^2**.

Тест **Шапиро-Уилка** оценивает выборку данных и определяет, насколько вероятно, что данные были получены из распределения Гаусса.  
Тест **Д’Агостино K^2** вычисляет **эксцесс** и **перекос** по данным, чтобы определить, отклоняется ли распределение данных от нормального распределения.

**Перекос** — это количественная оценка того, насколько распределение смещено влево или вправо, мера асимметрии в распределении.

**Эксцесс** количественно определяет, какая часть распределения находится в хвосте. 

Итак, для проверки данных на нормальность мы используем один из предложенных **тестов**, вычисляем **p-value** и затем сравниваем его с установленным **a (альфа)**.

После того как тест на нормальность пройден, чтобы определить, какой статистический тест использовать, необходимо знать типы переменных, с которыми вы имеете дело.

Напомним, что числовые (**количественные**) переменные включают в себя два типа:

* **Непрерывные**: представляют собой меры и обычно могут быть представлены в виде делений меньше единицы (например, 0.75 грамма).  
* **Дискретные**: представляют собой счётчики и обычно не могут быть представлены в виде делений меньше единицы (например, 1 дерево).  

Помимо числовых выделяют категориальные и бинарные переменные.  
* К **категориальным** относятся те признаки, которые можно разбить на категории, например уровень образования: начальный, средний, высший.   
* **Бинарными** являются переменные, которые могут принимать лишь два значения, например пол студента: мужской или женский.  


***
# **Параметрические тесты**
Параметрические тесты используются для **количественных данных с нормальным распределением**.  
Наиболее распространённые типы параметрических тестов включают **корреляционные** и **сравнительные** тесты. 

### **КОРРЕЛЯЦИОННЫЕ ТЕСТЫ**
Как вы уже знаете из раздела *EDA-2*, корреляционные тесты проверяют, связаны ли переменные, не выдвигая гипотезы о причинно-следственной связи.

Наиболее распространённым является параметрический тест на корреляцию Пирсона. Другие изученные вами типы корреляций, например корреляция Спирмена, относятся к непараметрическим тестам. 

![](https://lms.skillfactory.ru/assets/courseware/v1/69e3bc927ae293c1ad78ad4c1fe30ed4/asset-v1:SkillFactory+DSPR-2.0+14JULY2021+type@asset+block/dst-eda-4-8.png)

### **ТЕСТЫ НА СРАВНЕНИЕ ВЫБОРОК**

Перед дата-сайентистами могут возникать различные задачи на этапе разведочного анализа данных. Например, вам может понадобиться решить, как влияет пол студента на рост и вес. В этом вам помогут сравнительные тесты.

**Сравнительные** тесты ищут различия между средними параметрами по группам. Их можно использовать для проверки **влияния категориальной** переменной на **среднее значение** какой-либо **другой характеристики**. 

В таблице ниже приведены популярные тесты на сравнение выборок.  
![](https://lms.skillfactory.ru/assets/courseware/v1/f92908de09b500971eca225e9a67f28f/asset-v1:SkillFactory+DSPR-2.0+14JULY2021+type@asset+block/dst-eda-4-9.png)

**Т-тест (t-критерий)** используется при сравнении средних значений ровно двух групп одной совокупности (например, среднего роста мужчин и женщин). 

Независимый T-тест проверяет **разницу между одной и той же переменной из разных совокупностей** (например, сравнение собак и кошек). Стоит отметить, что T-тест используется на выборках размером меньше 30. 

В случае, **если объём выборки превышает 30, используется z-тест**. Для проведения z-теста необходимо владеть информацией о разбросе данных. Таким образом, z-тест используется для определения того, различаются ли рассчитанные средние значения двух выборок в случае, если доступно стандартное отклонение и выборка велика. T-тест используется для определения того, как средние значения различных наборов данных отличаются друг от друга, если стандартное отклонение или дисперсия неизвестны.

Тесты ANOVA и MANOVA используются при сравнении средних значений более чем двух групп (например, среднего роста детей, подростков и взрослых).

Примечание. Обратите внимание, что **именно зависимая переменная должна быть количественной и подчиняться нормальному закону распределения**.

![](https://lms.skillfactory.ru/assets/courseware/v1/d7233d514b2e667433a4399af30c75fa/asset-v1:SkillFactory+DSPR-2.0+14JULY2021+type@asset+block/dst-eda-4-10.png)

Разберём пример, используя предложенную схему. 

**[Проведём опрос 100 студентов. 50 первокурсников и 50 второкурсников. Зададим всем следующий вопрос: Сколько денег тратите на покупку книг?]**

Наша нулевая гипотеза состоит в том, что в двух группах средние значения потраченных на книги денег равны.

Мы провели тест на нормальность и поняли, что данные близки к **гауссовскому** распределению. Значит, мы переходим к параметрическим тестам для проверки нашей нулевой гипотезы. Мы сравниваем **количественные** переменные, значит используем тест на сравнение выборок. Групп для сравнения всего **две**, то есть нам нужен T-тест!

***
# **Непараметрические тесты**

Непараметрические тесты не делают предположений о нормальности данных и не привязаны к типу шкалы измерения признаков.  
Давайте посмотрим, каким непараметрическим тестом можно заменить параметрический для каждой из рассмотренных задач.  


### **КОРРЕЛЯЦИОННЫЕ ТЕСТЫ**

Для поиска зависимостей между не гауссовскими или категориальными величинами часто используют тест на корреляцию **Спирмена** и **X^2-тест** (Хи-квадрат-тест). 
Критерий X^2 оценивает, **являются ли ожидаемые частоты каждой переменной значимо отличающимися от наблюдаемых частот** или нет. 

**[Представьте, что 10 мужчин и 10 женщин опрошены относительно выбора пиццы (пиццерия №1 или пиццерия №2). Если между предпочтением и полом нет связи, то естественно ожидать равного выбора пиццерии №1 и пиццерии №2 каждым полом.]**

![](https://lms.skillfactory.ru/assets/courseware/v1/d9c2f468f49caa81a93d5fde6cc48cf2/asset-v1:SkillFactory+DSPR-2.0+14JULY2021+type@asset+block/dst-eda-4-11.png)

### **ТЕСТЫ НА СРАВНЕНИЕ ВЫБОРОК**

**Критерий Уилкоксона** используется для сравнения **двух независимых выборок** путём анализа их **медианных** значений. 

**Критерий Краскела-Уоллиса** предназначен для сравнения распределений **в нескольких выборках**. 

**ANOSIM (анализ сходства)** — это непараметрический тест на наличие существенных различий между двумя или более группами, основанный на любой мере **расстояния**.

![](https://lms.skillfactory.ru/assets/courseware/v1/66bd1e48c3ce05d05fc4cf98786d4ec7/asset-v1:SkillFactory+DSPR-2.0+14JULY2021+type@asset+block/dst-eda-4-12.png)

⭐️ Отлично! Вы понимаете, какой тест и когда нужно применять! Теперь стоит вопрос: как эти тесты работают? 