# Значение и реализация статистических тестов в разведывательном анализе 

## Понятие статистической гипотезы

**Гипотезой** называется предположение конкретной структуры или взаимосвязи данных и использования статистических методов для подтверждения или же опровержения этого предположения.

Для того чтобы самостоятельно сформулировать гипотезу, лучше всего использовать следующий формат утверждения:

**ЕСЛИ Я (СДЕЛАЮ ЭТО С НЕЗАВИСИМОЙ ПЕРЕМЕННОЙ), ТОГДА (ЭТО ПРОИЗОЙДЁТ С ЗАВИСИМОЙ ПЕРЕМЕННОЙ)**.

Хорошее изложение гипотезы должно:

✔️ Включать утверждения «если» и «тогда».

✔️ Включать как независимые, так и зависимые переменные.

✔️ Поддаваться проверке с помощью экспериментов, опросов или других научно обоснованных методов.

Давайте убедимся, что предложенная выше гипотеза соответствует указанным критериям.

✔️ Гипотеза имеет форму сложноподчинённого предложения с союзами «если» и «тогда».

✔️ Условие прохождения всех модулей выступает в качестве независимой переменной, а отличное освоение материала — зависимой, так как на него влияет первое условие.

✔️ Данная гипотеза может быть проверена эмпирическим путём: вам необходимо пройти все модули курса и убедиться в отличном освоении материала или же доказать обратное.

**Статистической** называют гипотезу о распределении вероятностей, лежащем в основе наблюдаемой выборки данных. Важно переформулировать статистическую гипотезу как нулевую ($H_{0}$) и альтернативную ($H_{1}$) гипотезы, чтобы иметь возможность проверить её математически.

Альтернативная гипотеза ($H_{0}$) — это, как правило, ваша исходная гипотеза, предсказывающая взаимосвязь между переменными. В преобладающем большинстве случаев нулевая гипотеза ($H_{1}$) — это предсказание отсутствия связи между интересующими вас переменными (хотя иногда нулевая гипотеза может звучать другим образом).

Нулевая гипотеза предполагает отсутствие разницы между параметрами или распределениями выборки. 

В статистике **параметр** — это описание совокупности. Например, если вы спросите всех в университете (совокупности) об их среднем росте, вы получите параметр, истинное описание популяции, поскольку спросили всех. 

$H_{0}$: Нулевая гипотеза — статистическая гипотеза, подлежащая проверке.

$H_{1}$: Альтернативная гипотеза — альтернатива нулевой гипотезе.

Приведём пример 1. Предположим, нас интересует связь между полом и ростом. 

Одна из гипотез: средний рост как мужской, так и женской половины группы один и тот же. Эта гипотеза об отсутствии разницы и называется **нулевой гипотезой**.

**Альтернативной гипотезой** является наличие отличий между выборками, которое математически выражается в виде неравенства. Например, мы можем предположить, что средний рост молодых людей больше среднего роста девушек вашей группы.

$H_{0}$: В среднем рост молодых людей равен росту девушек.

$H_{1}$: Молодые люди в среднем выше девушек.

Приведем пример 2. Превышает ли прирост уровня счастья страны А прирост уровня счастья страны B? В первом году уровень счастья страны А составил 2,5, во втором — 3,1. Для страны B прирост уровня счастья за год составил 0,7. 

Как мы помним, нулевая гипотеза формулируется в виде равенства параметров выборок. В данном случае параметром является средний уровень счастья стран. Следовательно, математически нулевая гипотеза ($H_{0}$) будет выглядеть так: $g_A = 0.7$, где $g_A$ — прирост уровня счастья страны A. 

($H_0$): Прирост уровня счастья в стране А равен приросту уровню счастья в стране В.

Альтернативная гипотеза может быть представлена следующими тремя вариантами:

$H_a : 0.7 > g_A$

$H_a : 0.7 < g_A$

$H_a : 0.7 != g_A$

Таким образом, каждый раз, как вы сталкиваетесь с задачей на определение *нулевой* и *альтернативной гипотезы*, начните с поиска утверждения, которое вы хотите доказать и которое может быть представлено **в виде неравенства**. Это ваша альтернативная гипотеза. Для того чтобы произвести доказательство альтернативной гипотезы, мы формулируем нулевую гипотезу **в виде равенства**. Две гипотезы противоречат друг другу. Следовательно, для доказательства альтернативной гипотезы нам достаточно опровергнуть нулевую.

## Статистическая значимость

**Oсновные формулы для подсчёта вероятности** в таблицe-шпаргалкe, представленной ниже.

![](./images/2023-05-12_16-33-28.png)

Следует помнить, что при проверке гипотез можно сделать два типа ошибок:

**Ошибка I (первого)  рода**: отклонение нулевой гипотезы, если она верна

**Ошибка II (второго)  рода**: принятие нулевой гипотезы, если она ложна

Приведём пример. Вы решили провести тест: на глаз измерить рост ваших одногруппников. По этим наблюдениям вы можете допустить два типа ошибок.

**Ошибка I рода (ложноположительный результат)**: результат теста говорит, что средний рост девушек отличается от среднего роста юношей, но на самом деле это не так.

**Ошибка II рода (ложноотрицательный)**: результат теста говорит, что средний рост обеих подгрупп одинаковый, но на самом деле нет.

![](./images/mistakes.png)

Для определения того, что связь между двумя или более переменными вызвана чем-то иным, чем случайность, используется понятие **статистической значимости p-value**. 

**P-value** — это вероятность обнаружения наблюдаемых результатов, когда нулевая гипотеза ($H_0$) верна.

 Статистическая значимость произвольна: она зависит от порога, называемого **уровнем значимости** $\alpha$ (альфа).  

**Уровень значимости**$\alpha$  — это фиксированная вероятность ошибочного отклонения истинной нулевой гипотезы, то есть вероятность ошибки I рода. 

В нашем примере **уровень значимости** показывает вероятность того, что на глаз нам покажется, что средний рост девушек не равен среднему росту молодых людей, хотя в случае замера роста линейкой окажется, что это не так. 

Если *p-value* вашего теста **ниже уровня значимости**, это означает, что ваши результаты статистически значимы и согласуются с альтернативной гипотезой. Если *p-value* **выше уровня значимости**, ваши результаты считаются статистически незначимыми и мы не можем отвергнуть нулевую гипотезу. 

Используя тест «измерение роста людей на глаз» на тридцати группах, вы получили следующий результат: в одной группе из тридцати средний рост молодых людей и девушек оказался одинаковым, а в остальных — девушки в среднем были ниже. Предположим, вы получили *p-value* = 0,033. Это *p-value* ниже, чем ваш выбранный $\alpha = 0.05$, поэтому вы считаете свои результаты статистически значимыми и отклоняете нулевую гипотезу.

### КАК ЖЕ ВЫБРАТЬ ЗНАЧЕНИЕ $\alpha$?

Уровень значимости используется как порог для принятия решений. Чем ниже $\alpha$, тем лучше. Перед тем как начать проверку гипотезы, вы обычно выбираете уровень ошибки, который вы готовы принять. Например, если $\alpha = 5\%$, это означает, что мы можем взять на себя 5 %-ный риск и сделать вывод о существовании разницы между средним ростом женской и мужской половины группы, хотя фактической разницы нет. 

Но если мы хотим быть на 100 % уверенными, что ошибки нет, и зададим $\alpha = 0\%$?

Не всё так просто! Помимо $\alpha$, мы должны учитывать $\beta$ (бета), вероятность ошибки II рода. Если $\beta$ определяет риск ложноотрицательного результата, то $1 - \beta$ — это вероятность не допустить ошибки II рода. Такая вероятность называется «**мощность теста**». Чем ниже $\beta$, тем выше мощность. 

Естественно, нам бы хотелось, чтобы значения этих ошибок были как можно ниже. Однако важно отметить, что обе ошибки в некоторой степени **работают друг против друга**: предположим, вы хотите минимизировать ошибку I (ошибку отклонения нулевой гипотезы, когда она верна). Тогда проще всего всегда принимать $H_0$. Но тогда это будет работать непосредственно против ошибки II (ошибки принятия нулевой гипотезы, когда она ложна).

![](./images/Kompromiss.png)

Ошибки типа I и типа II возникают там, где эти два распределения **перекрываются**. Область, заштрихованная синим цветом, представляет $\alpha$, частоту ошибок I рода, а область, заштрихованная зелёным цветом, представляет собой $\beta$, частоту ошибок типа II.

Установив частоту ошибок I рода, вы также косвенно влияете на размер частоты ошибок II рода. По этой причине хорошим балансом служат обычно используемые уровни $\alpha = 0.01, 0.05$ или $0.10$. 

### ПОВЫШЕНИЕ УРОВНЯ ЗНАЧИМОСТИ

Представьте, что вы тестируете на прочность воздушные шары для вечеринок. Вы будете использовать результаты теста, чтобы определить, какую марку воздушных шаров покупать. Ложноположительный результат побуждает покупать непрочные воздушные шары. Покупка непрочного воздушного шара не является чем-то критичным. Поэтому можно рассмотреть повышение уровня риска ошибки, которое выражается в уменьшении количества требуемых доказательств, изменив уровень значимости на 0.10. Поскольку это изменение уменьшает количество необходимых доказательств, оно увеличивает вероятность ложноположительного результата с 5 % до 10 %.

### ПОНИЖЕНИЕ УРОВНЯ ЗНАЧИМОСТИ

А теперь представьте, что вы проверяете прочность ткани для воздушных шаров, используемых для полетов. Ложноположительный результат здесь очень критичен и опасен, ведь на кону стоят жизни людей! Вы должны быть очень уверены в том, что материал одного производителя прочнее другого. В этом случае вам следует увеличить количество необходимых доказательств, изменив $\alpha$ на 0.01. Такое изменение снижает вероятность ложного срабатывания с 5 % до 1 %.

Приведем пример. Вы решили пройти тест на COVID-19 на основании лёгких симптомов. Возможны две ошибки:

Ошибка I рода (**ложноположительный результат**): результат теста говорит, что у вас коронавирус, но на самом деле это не так.

Ошибка II рода (**ложноотрицательный**): результат теста говорит, что у вас нет коронавируса, но на самом деле он есть

В данном случае для нас критичен **ложноотрицательный результат**. 

Как мы уже знаем, риск совершения ошибки типа II обратно пропорционален статистической мощности теста. Чтобы (косвенно) уменьшить риск ошибки II рода, вы можете увеличить размер выборки или уровень значимости, чтобы повысить статистическую мощность. Поэтому стоит выбрать $\alpha = 0.10$.

### РЕЗЮМИРУЕМ

В статистике при проверки гипотез могут возникнуть два типа ошибок: первого и второго рода. Ошибка типа I означает отклонение нулевой гипотезы, когда она действительно верна, а ошибка типа II означает неспособность отклонить нулевую гипотезу, когда она на самом деле ложна.

Уровень риска ошибки I рода определяется выбранным вами **уровнем значимости** $\alpha$. Это значение, которое вы устанавливаете в начале исследования, чтобы оценить **статистическую вероятность** получения результатов (*p-value*). Когда значение p-value ниже выбранного значения $\alpha$, мы говорим, что результат теста **статистически значим**.

Уровень значимости обычно устанавливается на 0.05. Это означает, что вероятность получения ваших результатов составляет 5 % или меньше, если нулевая гипотеза действительно верна.

Чтобы уменьшить вероятность ошибки I рода, можно установить более низкий уровень значимости. Однако стоит учитывать, что это повлечёт за собой риск снижения статистической мощности проводимого теста, то есть повысить вероятность ошибки II рода.

## Статистические тесты. Введение

**Проверка гипотез** оценивает два взаимоисключающих утверждения о совокупности, чтобы определить, какое утверждение лучше всего подтверждается выборкой данных.

Общий алгоритм проверки гипотезы состоит из пяти основных этапов:

1. Изложение исследовательской гипотезы как нулевой ($H_0$) и альтернативной ($H_a$) гипотезы. 
2. Выбор уровня значимости ($\alpha$).
3. Сбор данных для проверки гипотезы.
4. Выполнение соответствующего статистического теста: вычисление *p-value* и сравнение его с уровнем значимости.
5. Формулировка вывода: отклонить или не отклонять нулевую гипотезу.

Приведём пример. Каждый день Василий покупает лотерейный билет с шансом выиграть приз в 40 %. Как-то Василий заметил, что всякий раз, когда он носит красную рубашку, он выигрывает. Молодой человек решил следить за своим выигрышем, не снимая рубашки, и обнаружил, что выиграл 5 из 5 раз.
Применим алгоритм проверки:

1. Давайте проверим гипотезу о том, что шансы Василия на победу в красной рубашке, как всегда, составляют 40 % по сравнению с альтернативой гипотезой, согласно которой этот шанс каким-то образом выше.
2. Условимся, что если наблюдаемый результат имеет вероятность менее 1 % при проверенной гипотезе, мы отвергнем эту гипотезу. Итак, гипотезы уже сформированы. 
   * $H_0 : p = 0.4$ (шансы Василия на победу в рубашке, как всегда, составляют 40 %) 
   * $H_a : p > 0.4$ (шанс каким-то образом выше)
   * Уровень значимости по условию составляет 0.01
   * Данные уже собраны.
3. Необходимо вычислить *p-value*, равное вероятности выигрыша Василия 5 из 5 раз: если предположить, что гипотеза верна, вероятность того, что Василий выиграет один раз, составляет 40 %; поскольку мы ищем вероятность того, что это произойдёт 5 раз, нам нужно возвести 0.4 в 5 степень: $0.4^5 = 0.01024$. 
4. Вероятность, которую мы получили, выше 1 %. Следовательно, мы не можем отвергнуть нулевую гипотезу. Другими словами, красная рубашка не влияет на выигрыш, без неё Василий также побеждает с вероятностью 40 %. Однако, если Василий сыграет ещё несколько раз в красной рубашке и выиграет, мы можем пересмотреть эту гипотезу.
5. Мы проверяли гипотезу о том, что шанс Василия на победу в красной рубашке составляет 40 %, как всегда. Если предположить, что гипотеза верна, вероятность его победы 5 из 5 раз составляет 1.024%. Следовательно, мы не можем отвергнуть гипотезу.

Eсли **статистическая гипотеза** — это предположение о вероятностном распределении выборки данных, то **статистический тест (критерий)** — это строгое математическое правило, по которому принимается решение по статистической гипотезе: сохранить её или отвергнуть. 

Hулевая гипотеза математически формулируется в виде равенства, а альтернативная — в виде неравенства. Приведем пример зависимости роста от пола. Гипотеза сформулирована следующим образом:

$H_0$: Молодые люди в среднем не выше девушек.

$H_a$: Молодые люди в среднем выше девушек. 

В данном случае применяется **односторонний тест**: мы тестируем в одном направлении, что означает проверку того, что средний рост мужской половины значительно больше или, наоборот, значительно меньше, чем средний рост женской половины группы. 

![](./images/1_side_test.png)

**Двусторонний тест** — это статистический тест, в котором критическая область распределения является двусторонней и проверяет, больше или меньше выборка определённого диапазона значений. Если тестируемая выборка попадает в одну из критических областей, вместо нулевой гипотезы принимается альтернативная гипотеза.

В этом случае альтернативная гипотеза изменится на: 

$H_a$: Существует разница между средним ростом молодых людей и девушек, отличная от 0.

![](./images/2_sides_test.png)

Другими словами, при **двустороннем тесте** мы проверяем гипотезу $H_0 : \beta = \beta$, используя альтернативную гипотезу $H_a : \beta \neq \beta$. При **одностороннем тесте** альтернативная гипотеза меняется на $H_a : \beta > \beta$ или $H_a : \beta < \beta$ в зависимости от того, какое влияние оказывается на зависимую переменную (положительное или отрицательное).

Приведем пример. У Александра есть два брата: Артём и Роман. Каждый день Роман вытаскивает имя из шляпы, чтобы случайным образом выбрать одного из трёх братьев для мытья посуды. Александр подозревал, что Роман жульничает, поэтому следил за розыгрышами и выяснил, что в 12 розыгрышах Роман ни разу не был выбран!

Проверим следующую гипотезу: каждый брат имеет равные шансы выбора в каждом розыгрыше 1/3 по сравнению с альтернативной гипотезой, в которой вероятность Романа ниже.

Если предположить, что гипотеза верна, какова вероятность того, что Романа не выберут ни разу из 12 раз? Условимся, что если наблюдаемый результат имеет вероятность меньше, чем 1 % по проверенной гипотезе, гипотезу отвергаем.

Решаем. Вероятность того, что Романа не выберут в одном розыгрыше, равна $\frac{2}{3}$. Поскольку мы ищем вероятность того, что это произойдёт 12 раз, нам нужно возвести $\frac{2}{3}$ в степень 12. $(\frac{2}{3})^{12} =0.008$, значит вероятность, которую мы получили, ниже $1\%$.

Приведем пример. У Ольги есть собака. Девушка заметила, что у её собаки обычно больше щенков мужского пола, чем женского. Ольга решила проверить это при следующем рождении щенков: все 4 щенка оказались кобелями.

Проверим гипотезу о том, что у каждого щенка равные шансы на то, чтобы быть самцом или самкой, по сравнению с альтернативной гипотезой о том, что вероятность появления щенка мужского пола выше.

Если предположить, что гипотеза верна, какова вероятность того, что из 4 щенков 4 окажутся кобелями? Условимся, что если наблюдаемый результат имеет вероятность меньше, чем 1 % по проверенной гипотезе, гипотезу отвергнем.

Мы не можем отвергнуть нулевую гипотезу. Вероятность того, что все 4 щенка мужского пола равна $0.5^{12} = 0.0625 > 0.01$.

## Тесты на нормальность

Чтобы ответить на вопрос, какой статистический тест лучше всего выбрать для проверки гипотезы на предложенной выборке данных, сначала нужно понять, какому распределению эти данные следуют.

Одно из самых известных распределений — это **нормальное распределение**. Нормальное распределение является наиболее важным распределением вероятностей в статистике, потому что…

* Многие процессы в природе следуют нормальному распределению. Примерами являются возраст, рост, вес и кровяное давление человека.
* Некоторые алгоритмы машинного обучения, такие как линейный дискриминантный анализ, основаны на предположении о нормальном распределении.

Если выборка имеет нормальное распределение, или является гаусовкой, тогда мы можем использовать стандарные (параметрические) методы. В случае, если выборка не подчиняется нормальному закону распределения, необходимо использовать **непараметрические** статистические методы. Сам термин «параметрические тесты» говорит о том, принадлежит ли распределение признака к какому-то из известных параметрическим законам распределения. Самый популярный из них —  закон **нормального распределения**. Но нужно понимать, что он не является единственным. Существуют и другие параметрические распределения, для которых есть специализированные тесты. В данном контексте под параметрическими законами мы будем понимать исключительно нормальное распределение. 

![](./images/choice.png)

Если вы установили, к какому закону принадлежит распределение вашего признака, например к распределению Пуассона, то рекомендуется использовать специальные параметрические тесты, ориентированные именно на этот конкретный закон, так как они дадут более корректные результаты. 

Существует множество статистических тестов, которые мы можем использовать для количественной оценки того, выглядит ли выборка данных так, как если бы она была взята из **распределения Гаусса**.

Каждый тест делает разные предположения и рассматривает разные аспекты данных.

Рассмотрим два часто используемых теста на нормальность: 

* тест Шапиро-Уилка
* тест Д’Агостино $K^2$

**Тест Шапиро-Уилка** оценивает выборку данных и определяет, насколько вероятно, что данные были получены из **распределения Гаусса**. На практике считается, что критерий Шапиро-Уилка является надёжным критерием нормальности, хотя есть некоторые предположения, что этот критерий может быть пригоден для небольших выборок данных, например для тысячи наблюдений или меньше.

**Тест Д’Агостино** $K^2$ вычисляет эксцесс и перекос по данным, чтобы определить, отклоняется ли распределение данных от нормального распределения. Тест Д’Агостино $K^2$ — простой и часто используемый статистический тест на нормальность.

**Перекос** — это количественная оценка того, насколько распределение смещено влево или вправо, мера асимметрии в распределении.

**Эксцесс** количественно определяет, какая часть распределения находится в хвосте. 

Итак, для проверки данных на нормальность мы используем один из предложенных тестов, вычисляем *p-value* и затем сравниваем его с установленным $\alpha$.

После того как тест на нормальность пройден, чтобы определить, какой статистический тест использовать, необходимо знать **типы переменных**, с которыми вы имеете дело.

1. **Числовые (количественные)** переменные включают в себя два типа:
   * **Непрерывные**: представляют собой меры и обычно могут быть представлены в виде делений меньше единицы (например, 0.75 грамма).
   * **Дискретные**: представляют собой счётчики и обычно не могут быть представлены в виде делений меньше единицы (например, 1 дерево).
2. К **категориальным** относятся те признаки, которые можно разбить на категории, например уровень образования: начальный, средний, высший. 
3. **Бинарными** являются переменные, которые могут принимать лишь два значения, например пол студента: мужской или женский.

## Параметрические тесты

**Параметрические** тесты используются для *количественных* данных с *нормальным распределением*.
Наиболее распространённые типы параметрических тестов включают **корреляционные** и **сравнительные** тесты.

### КОРРЕЛЯЦИОННЫЕ ТЕСТЫ 

**Kорреляционные** тесты проверяют, связаны ли переменные, не выдвигая гипотезы о причинно-следственной связи.

Наиболее распространённым является **параметрический тест на корреляцию Пирсона**. Другие изученные вами типы корреляций, например корреляция Спирмена, относятся к непараметрическим тестам.

![](./images/pirs.png)

### ТЕСТЫ НА СРАВНЕНИЕ ВЫБОРОК

**Сравнительные** тесты ищут различия между средними параметрами по группам. Их можно использовать для проверки влияния категориальной переменной на среднее значение какой-либо другой характеристики. 

В таблице ниже приведены популярные тесты на сравнение выборок.

![](./images/sravntests.png)

**Т-тест (t-критерий)** используется при сравнении средних значений ровно двух групп одной совокупности (например, среднего роста мужчин и женщин). Обратите внимание, что именно зависимая переменная должна быть количественной и подчиняться нормальному закону распределения.

Независимый **T-тест** проверяет разницу между одной и той же переменной из разных совокупностей (например, сравнение собак и кошек). Стоит отметить, что T-тест используется на выборках размером **меньше 30**. 

В случае, если **объём выборки превышает 30**, используется **z-тест**. Для проведения z-теста необходимо владеть информацией о разбросе данных. Таким образом, **z-тест** используется для определения того, различаются ли рассчитанные средние значения двух выборок в случае, если доступно стандартное отклонение и выборка велика. **T-тест** используется для определения того, как средние значения различных наборов данных отличаются друг от друга, если стандартное отклонение или дисперсия неизвестны.

Тесты **ANOVA** и **MANOVA** используются при сравнении средних значений более чем двух групп (например, среднего роста детей, подростков и взрослых).

![](./images/diag_algor.png)

Пример. Проведём опрос 100 студентов. 50 первокурсников и 50 второкурсников. Зададим всем следующий вопрос: Сколько денег тратите на покупку книг? 

Наша нулевая гипотеза состоит в том, что в двух группах средние значения потраченных на книги денег равны.

Мы провели тест на нормальность и поняли, что данные близки к **гауссовскому** распределению. Значит, мы переходим к **параметрическим** тестам для проверки нашей нулевой гипотезы. Мы сравниваем количественные переменные, значит используем тест на **сравнение** выборок. Групп для сравнения всего две, и объём каждой превышает 30, то есть нам нужен **Z-тест**!

## Непараметрические тесты

**Непараметрические** тесты не делают предположений о нормальности данных и не привязаны к типу шкалы измерения признаков. 

### КОРРЕЛЯЦИОННЫЕ ТЕСТЫ 

Для поиска зависимостей между не гауссовскими или категориальными величинами часто используют тест на корреляцию Спирмена и $\chi^2$-тест (Хи-квадрат-тест).

Критерий $\chi^2$ оценивает, являются ли ожидаемые частоты каждой переменной значимо отличающимися от наблюдаемых частот или нет. 

Представьте, что 10 мужчин и 10 женщин опрошены относительно выбора пиццы (пиццерия №1 или пиццерия №2). Если между предпочтением и полом нет связи, то естественно ожидать равного выбора пиццерии №1 и пиццерии №2 каждым полом.

![](./images/corrs.png)

### ТЕСТЫ НА СРАВНЕНИЕ ВЫБОРОК

**Критерий Уилкоксона** используется для сравнения двух независимых выборок путём анализа их медианных значений. 

**Критерий Краскела-Уоллиса** предназначен для сравнения распределений в нескольких выборках. 

**ANOSIM (анализ сходства)** — это непараметрический тест на наличие существенных различий между двумя или более группами, основанный на любой мере расстояния.

Пример. Ваша бизнес-задача — предсказание цены на подержанный автомобиль. Во время проведения разведывательного анализа у вас возникла гипотеза о том, что объём цилиндров автомобилей влияет на цену автомобиля. Проверку гипотезы вы начали с построения гистограмм выбранных признаков и убедились, что объём цилиндров автомобилей — категориальный признак, цена автомобиля — количественный, а данные не прошли тест на нормальность.

Решение. Критерий Уилкоксона — подходящий для ненормально распределённых данных непараметрический тест.

Пример. Ваша бизнес-задача — оценка влияния уровня образования на зарплату и число полётов за границу в год. Вы опросили 100 работников предприятия. Признаки зарплата и число полётов за границу распределены по нормальному закону. Выберите подходящий статистический тест.

Решение. MANOVA-тест действительно является параметрическим тестом и предусматривает две или более зависимых переменных.

### РЕЗЮМЕ

**Статистический тест** — это формальный метод, основанный на распределении вероятностей, позволяющий сделать вывод о справедливости гипотезы. Выделяют параметрические и непараметрические тесты.

**Параметрический** тест — это тест, который содержит информацию о параметре генеральной совокупности.

**Непараметрический** тест — это тест, в котором исследователь не имеет представления о параметре генеральной совокупности.

## Установка библиотек

In [1]:
import pandas as pd #для работы с таблицами

Для автоматического применения статистического критерия (теста) используется модуль `stats` библиотеки `scipy`.

Этот модуль содержит большое количество вероятностных распределений, корреляционные функции и статистические тесты и многое другое.

Также активно используется библиотека `statsmodels`

Для установки библиотеки `scipy` и `statsmodels` можно воспользоваться менеджером пакетов `pip`.

In [None]:
!pip install scipy

In [None]:
!pip install statsmodels


# Загрузка данных

Для скачивания данных используем команду `!wget`. 

Данные появятся в локальной директории.

Мы будем использовать информацию о диаметре пицц разных производителей.

In [8]:
# Для загрузки данных со стороннего сайта в локальную директорию (при работе в google colab)
!wget https://raw.githubusercontent.com/harika-bonthu/Hypothesis-test-examples/main/pizzas.csv

"wget" �� ���� ����७��� ��� ���譥�
��������, �ᯮ��塞�� �ணࠬ��� ��� ������ 䠩���.


Загрузим данные в память ноутбука.

In [13]:
# read ing the data from the csv file and save it in a data
data = pd.read_csv('data/pizzas.csv')

In [14]:
# rename columns
data.rename(columns={'Making Unit 1': 'Пиццерия №1', 'Making Unit 2': 'Пиццерия №2'}, inplace=True)

In [15]:
# read first 5 rows of data
data.head()

Unnamed: 0,Пиццерия №1,Пиццерия №2
0,6.809,6.7703
1,6.4376,7.5093
2,6.9157,6.73
3,7.3012,6.7878
4,7.4488,7.1522


# Проверка данных на нормальность


In [21]:
# zero hipothesis
H0 = 'Данные распределены нормально'

# alternative hypothesis
Ha = 'Данные не распределены нормально (мы отвергаем H0)'

Установим уровень значимости

In [None]:
# Set the alpha value for the confidence intervals.
alpha = 0.05

## Тест Шапиро-Уилка

In [16]:
# Importing module stats for shapiro test from the libraries scipy  
from scipy.stats import shapiro

In [22]:
# test returns two values, second is p-value
_, p = shapiro(data)
print('p=%.3f' % p)

# interpret p-value
alpha = 0.05  

if p > alpha:
	print(H0)
else:
	print(Ha)

p=0.204
Данные распределены нормально


## Тест Д’Агостино

In [23]:
# Importing module stats for normality test 
from scipy.stats import normaltest

In [24]:
# normaltest return  2-sided probability for hypothesis testing
_, p = normaltest(data)

# interesting p-value[0] - first element
print('p=%.3f' % p[0])

# interpret p-value
if p[0] > alpha/2:
	print(H0)
else:
	print(Ha)

p=0.251
Данные распределены нормально


# Независимый T-тест 

In [25]:
#  Importing ttest_ind from scipy.stats library
from scipy.stats import ttest_ind

In [None]:
# zero hipothesis
H0 = 'Нет значимой разницы между диаметрами пиццы в разных пиццериях.'

# alternative hypothesis
Ha = 'Есть значимая разница между диаметрами пиццы в разных пиццериях.'

Зависимая переменная (диаметр пиццы) является количественной. Группы происходят из разных совокупностей. Следовательно, мы используем независимый T-тест.

In [None]:
def t_test(df):
    print('\n' + "*** Результаты независимого T-теста ***")
    test_results = ttest_ind(data['Пиццерия №1'], data['Пиццерия №2'], equal_var=True)

    p = round(test_results[1],2)

    if p>alpha:
        print(f"{p} > {alpha}. Мы не можем отвергнуть нулевую гипотезу. {H0}")
    else:
        print(f"{p} <= {alpha}. Мы отвергаем нулевую гипотезу. {Ha}")

t_test(data)


*** Результаты независимого T-теста ***
0.47 > 0.05. Мы не можем отвергнуть нулевую гипотезу. Нет значимой разницы между диаметрами пиццы в разных пиццериях.


-----

# Корреляция Спирмана 

In [None]:
from numpy.random import rand
from scipy.stats import spearmanr

data1 = rand(1000) * 20
data2 = data1 + (rand(1000) * 10)


corr, p = spearmanr(data1, data2)

In [None]:
print(corr,p)

0.8962669282669283 0.0


In [None]:
if p>alpha:
    print(f"{p} > {alpha}. Мы не можем отвергнуть нулевую гипотезу об отсутсвии зависимости между переменными.")
else:
    print(f"{p} <= {alpha}. Мы отвергаем нулевую гипотезу об отсутсвии зависимости между переменными.")

0.0 <= 0.05. Мы отвергаем нулевую гипотезу об отсутсвии зависимости между переменными.


# ANOVA тест

In [None]:
from scipy.stats import f_oneway

Однофакторный дисперсионный анализ ANOVA проверяет нулевую гипотезу о том, что две или более групп имеют одинаковое среднее значение генеральной совокупности.

В качестве данных возьмем информацию по размерам раковины мидий, выращенных в разных местах.

In [None]:
petersburg = [0.0974, 0.1352, 0.0817, 0.1016, 0.0968, 0.1064, 0.105]
magadan = [0.1033, 0.0915, 0.0781, 0.0685, 0.0677, 0.0697, 0.0764,
           0.0689]
tvarminne = [0.0703, 0.1026, 0.0956, 0.0973, 0.1039, 0.1045]

In [None]:
_, p = f_oneway(petersburg, magadan, tvarminne)

In [None]:
H0 = 'Нет значимой разницы между средним размером раковины мидий в трех разных местах.'
Ha = 'Есть значимая разница между средним размером раковины мидий в трех разных местах.'

In [None]:
if p>alpha:
  print(f"{p} > {alpha}. Мы не можем отвергнуть нулевую гипотезу. {H0}")
else:
  print(f"{p} <= {alpha}. Мы отвергаем нулевую гипотезу. {Ha}")

0.007870900547143829 <= 0.05. Мы отвергаем нулевую гипотезу. Есть значимая разница между средним размером раковины мидий в трех разных местах.


_____

# Домашнее задание

Используя информацию по мидиям Петербурга и Магадана, которые представлены в виде двух массивов petersburg и magadan в разделе ANOVA тест, проверьте данные на нормальность и на наличие корреляции. Для этого объедините 2 массива в DataFrame. Обоснуйте выбор теста на корреляцию. Сделайте вывод по гипотезе.
 
 
Также ответьте на вопрос:
Какова разница в среднем размере мидии в зависимости от города-производителя. Обоснуйте выбор теста. Сделайте вывод по гипотезе.


# Бонус

Скачаем датасет, содержащий информацию по давлению 120 человек.



In [1]:
!wget https://raw.githubusercontent.com/yug95/MachineLearning/master/Hypothesis%20testing/blood_pressure.csv

--2022-01-13 15:50:15--  https://raw.githubusercontent.com/yug95/MachineLearning/master/Hypothesis%20testing/blood_pressure.csv
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.108.133, 185.199.109.133, 185.199.110.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.108.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 2851 (2.8K) [text/plain]
Saving to: ‘blood_pressure.csv’


2022-01-13 15:50:15 (40.4 MB/s) - ‘blood_pressure.csv’ saved [2851/2851]



In [5]:
data = pd.read_csv('blood_pressure.csv')

In [6]:
print('Размер выборки: ', data.shape)

Размер выборки:  (120, 5)


In [7]:
data.head()

Unnamed: 0,patient,sex,agegrp,bp_before,bp_after
0,1,Male,30-45,143,153
1,2,Male,30-45,163,170
2,3,Male,30-45,153,168
3,4,Male,30-45,153,142
4,5,Male,30-45,146,141


## Z-тест

Проведем Z-тест для проверки двух независимых групп данных на равенство средних значений выборок.

In [8]:
from statsmodels.stats import weightstats

  import pandas.util.testing as tm


In [10]:
_ ,p = weightstats.ztest(data['bp_before'], x2=data['bp_after'], value=0,alternative='two-sided')
print(float(p))


if p < 0.05:
    print("Мы отвергаем нулевую гипотезу об отсутсвии различий между данными.")
else:
    print("Мы не можем отвергнуть нулевую гипотезу об отсутсвии различий между данными.")

0.002162306611369422
Мы отвергаем нулевую гипотезу об отсутсвии различий между данными.


## Z-тест на пропорцию

Z-критерий одной пропорции используется для сравнения наблюдаемой пропорции с теоретической.

В этом тесте используются следующие нулевые гипотезы:

$H_0: p = p_0$ (доля мужчин, предоставивших данные о своем давлении, равна гипотетической пропорции $p_0$)

Альтернативная гипотеза может быть двусторонней, левосторонней или правосторонней:

$H_1 (двусторонний): p ≠ p_0$ (доля мужчин не равна некоторому гипотетическому значению $p_0$)
$H_1 (левосторонний): p < p_0$ (доля мужчин меньше некоторого гипотетического значения $p_0$)
$H_1 (правосторонний): p > p_0$ (доля мужчин больше некоторого гипотетического значения $p_0$)

Предположим, что доля мужчин в нашем датачете равна 40%.

$p_0$: гипотетическая доля мужчин = 0.40

$x$: число мужчин в выборке мужчин: `len(data[data.sex == 'Male'])`

$n$: размер выборки = `len(data)`

Покажем, как использовать функцию `proportions_ztest` для выполнения  **z-теста**:

In [13]:
p_0 = 0.4
n = len(data)
x = len(data[data.sex == 'Male'])

print(n, x)

120 60


In [15]:
from statsmodels.stats.proportion import proportions_ztest

#perform one proportion z-test
_, p = proportions_ztest(count=x, nobs=n, value=p_0)

In [16]:
if p < 0.05:
    print("Мы отвергаем нулевую гипотезу о том, что доля мужчин, предоставивших данные о своем давлении, равна 40%.")
else:
    print("Мы не можем отвергнуть нулевую гипотезу.")

Мы отвергаем нулевую гипотезу о том, что доля мужчин, предоставивших данные о своем давлении, равна 40%.
