# **Введение**

**Статистика** — это набор статистических тестов, которые аналитики используют для формирования выводов из представленных данных. Эти тесты позволяют принимать решения на основе наблюдаемых закономерностей на основе данных. Существует широкий спектр статистических тестов. Выбор статистического теста зависит от структуры и распределения данных, а также от поставленной гипотезы.



In [16]:
import pandas as pd
from IPython.display import display
import numpy as np 

In [21]:
data = pd.read_excel('data/ind.xlsx',decimal=",")
data['индекс'].mean().round(3)

7.466

***
# **Понятие статистической гипотезы**

Большая часть статистики касается взаимосвязи между наблюдениями. Эта наука помогает нам интерпретировать данные путём предположения конкретной структуры или взаимосвязи данных и использования статистических методов для подтверждения или же опровержения этого предположения. Такое предположение называется **гипотезой**. 

Для того чтобы самостоятельно сформулировать гипотезу, лучше всего использовать следующий формат утверждения:

**ЕСЛИ Я (СДЕЛАЮ ЭТО С НЕЗАВИСИМОЙ ПЕРЕМЕННОЙ), ТОГДА (ЭТО ПРОИЗОЙДЁТ С ЗАВИСИМОЙ ПЕРЕМЕННОЙ).**

Хорошее изложение гипотезы должно:

✔️ **Включать утверждения «если» и «тогда».**  
✔️ **Включать как независимые, так и зависимые переменные.**  
✔️ **Поддаваться проверке с помощью экспериментов, опросов или других научно обоснованных методов.**  

**[Например: Если я (пройду все модули курса), тогда (отлично освою материал).]**

Давайте убедимся, что предложенная выше гипотеза соответствует указанным критериям.

✔️ Гипотеза имеет форму сложноподчинённого предложения с союзами «если» и «тогда».  
✔️ Условие прохождения всех модулей выступает в качестве независимой переменной, а отличное освоение материала — зависимой, так как на него влияет первое условие.  
✔️ Данная гипотеза может быть проверена эмпирическим путём: вам необходимо пройти все модули курса и убедиться в отличном освоении материала или же доказать обратное.  

**Статистической** называют **гипотезу о распределении вероятностей**, которое лежит в основе наблюдаемой выборки данных.  
Важно переформулировать статистическую гипотезу как **нулевую** (**H0**) и **альтернативную** (**H1**) гипотезы, чтобы иметь возможность проверить её математически.

**Альтернативная** гипотеза (**H1**) — это, как правило, ваша исходная гипотеза, предсказывающая взаимосвязь между переменными. В преобладающем большинстве случаев нулевая гипотеза (**H0**) — это предсказание отсутствия связи между интересующими вас переменными (хотя иногда нулевая гипотеза может звучать другим образом).

**[ПРИМЕР]**

Основываясь на своих знаниях физиологии человека, вы формулируете гипотезу о том, что мужчины в среднем выше женщин. В качестве доступных данных вы используете информацию о своих одногруппниках. Чтобы проверить эту гипотезу, вы формулируете её в виде двух гипотез.

Одна из гипотез: *средний рост как мужской, так и женской половины группы один и тот же.*  
Эта гипотеза об отсутствии разницы и называется **нулевой** гипотезой.  

Альтернативной гипотезой является наличие отличий между выборками, которое математически выражается в виде неравенства. 
*средний рост молодых людей больше среднего роста девушек вашей группы.*

Таким образом, каждый раз, как вы сталкиваетесь с задачей на определение нулевой и альтернативной гипотезы, начните с поиска утверждения, которое вы хотите доказать и которое может быть представлено в виде неравенства. Это ваша альтернативная гипотеза. Для того чтобы произвести доказательство альтернативной гипотезы, мы формулируем нулевую гипотезу в виде равенства. Две гипотезы противоречат друг другу. Следовательно, для доказательства альтернативной гипотезы нам достаточно опровергнуть нулевую.

***
# **Статистическая значимость**

В прошлом юните мы разобрали понятие статистической гипотезы — набора выводов по данным, содержащих описание некоторого вероятностного распределения. 

В этом юните нам понадобится вспомнить основные формулы для подсчёта вероятности. Для этого используем таблицу-шпаргалку, представленную ниже.

![Таблица](https://lms.skillfactory.ru/assets/courseware/v1/380a482c04352592e4ee15606c34f0ac/asset-v1:SkillFactory+DSPR-2.0+14JULY2021+type@asset+block/dst-eda-4-2.png)

При проверке гипотезы мы не всегда можем проверить её на всей совокупности, а только на случайно выбранных наборах данных. Так, используя данные об одной группе студентов, мы хотим сформулировать вывод обо всём университете, например сравнить рост женской половины и мужской. Можем ли мы сказать, что наши выводы всегда верны для совокупности (университета)? 

Не совсем. Мы можем сделать два типа ошибок.  
                            **Ошибка I (первого)  рода: отклонение нулевой гипотезы, если она верна.**  
                            **Ошибка II (второго)  рода: принятие нулевой гипотезы, если она ложна.**  
                            
![](https://lms.skillfactory.ru/assets/courseware/v1/d56413bc0b5e3a1f4f3ec43e3511e37e/asset-v1:SkillFactory+DSPR-2.0+14JULY2021+type@asset+block/dst-eda-4-3.png)  

Эти ошибки активно используются аналитиками данных для оценки качества алгоритмов машинного обучения, решающих задачи классификации на группы. Ошибки предполагают сравнение эмпирического (полученного опытным путём) результата с истинным. Истинный результат в таких задачах изначально доступен аналитикам. Данные, на которых проводится тест, и истинные  результаты используются для обучения алгоритмов и формирования предсказаний на новых похожих данных. 

***
Для определения того, что связь между двумя или более переменными вызвана чем-то иным, чем случайность, используется понятие статистической значимости **p-value**. 

**P-value** — это вероятность обнаружения наблюдаемых результатов, когда нулевая гипотеза (H0) верна.  
Статистическая значимость произвольна: она зависит от порога, называемого уровнем значимости **a** (альфа).   

**Уровень значимости a** — это фиксированная вероятность ошибочного отклонения истинной нулевой гипотезы, то есть вероятность ошибки I рода. 

                                Если p-value вашего теста ниже уровня значимости, это означает, 
                                что ваши результаты статистически значимы и согласуются с альтернативной
                                гипотезой. Если p-value выше уровня значимости, ваши результаты считаются
                                статистически незначимыми и мы не можем отвергнуть нулевую гипотезу.

**Однако p-value означает, что вероятность получения результатов составляет 3,3 %, если нулевая гипотеза верна. Существует риск ошибки I рода!**
***

## **КАК ЖЕ ВЫБРАТЬ ЗНАЧЕНИЕ a?**

Уровень значимости используется как порог для принятия решений. Чем ниже **a**, тем лучше. Перед тем как начать проверку гипотезы, вы обычно выбираете уровень ошибки, который вы готовы принять. Например, если a=5%, это означает, что мы можем взять на себя 5 %-ный риск и сделать вывод о существовании разницы между средним ростом женской и мужской половины группы, хотя фактической разницы нет. 

Но если мы хотим быть на 100 % уверенными, что ошибки нет, и зададим a=0%?

Не всё так просто! Помимо a, мы должны учитывать b(бета), вероятность ошибки II рода. Если b определяет риск ложноотрицательного результата, то  1-b — это вероятность не допустить ошибки II рода. Такая вероятность называется «мощность теста». Чем ниже b, тем выше мощность. 

Естественно, нам бы хотелось, чтобы значения этих ошибок были как можно ниже. Однако важно отметить, что обе ошибки в некоторой степени работают друг против друга: предположим, вы хотите минимизировать ошибку I (ошибку отклонения нулевой гипотезы, когда она верна). Тогда проще всего всегда принимать . Но тогда это будет работать непосредственно против ошибки II (ошибки принятия нулевой гипотезы, когда она ложна).

Компромисс между этими параметрами  визуализирован на рисунке ниже. 

![](https://lms.skillfactory.ru/assets/courseware/v1/a8bc7c15f42b12601f3be44094089b6e/asset-v1:SkillFactory+DSPR-2.0+14JULY2021+type@asset+block/dst-eda-4-4.png)

На изображении показано две кривые:

* **Синим** представлено распределение нулевой гипотезы, которое показывает все возможные результаты, которые вы получите, если нулевая гипотеза верна. Правильный вывод для любой точки этого распределения — не отвергать нулевую гипотезу.
* **Зелёным** представлено распределение альтернативной гипотезы, которое показывает все возможные результаты, которые вы получите, если альтернативная гипотеза верна. Правильный вывод для любой точки этого распределения означает отказ от нулевой гипотезы.

Установив частоту ошибок I рода, вы также косвенно влияете на размер частоты ошибок II рода. По этой причине хорошим балансом служат обычно используемые уровни  a=0.05, a=0.01 или a=0.1. 

Но как выбрать между указанными значениями? 

Поскольку стандартное значение параметра **a** составляет a=0.05, мы начнём с отклонения от этого значения.

## **ПОВЫШЕНИЕ УРОВНЯ ЗНАЧИМОСТИ**

Представьте, что вы тестируете на прочность воздушные шары для вечеринок. Вы будете использовать результаты теста, чтобы определить, какую марку воздушных шаров покупать. Ложноположительный результат побуждает покупать непрочные воздушные шары. Покупка непрочного воздушного шара не является чем-то критичным. Поэтому можно рассмотреть повышение уровня риска ошибки, которое выражается в уменьшении количества требуемых доказательств, изменив уровень значимости на 0.10. Поскольку это изменение уменьшает количество необходимых доказательств, оно увеличивает вероятность ложноположительного результата с 5 % до 10 %.

## **ПОНИЖЕНИЕ УРОВНЯ ЗНАЧИМОСТИ**

А теперь представьте, что вы проверяете прочность ткани для воздушных шаров, используемых для полетов. Ложноположительный результат здесь очень критичен и опасен, ведь на кону стоят жизни людей! Вы должны быть очень уверены в том, что материал одного производителя прочнее другого. В этом случае вам следует увеличить количество необходимых доказательств, изменив  на 0.01. Такое изменение снижает вероятность ложного срабатывания с 5 % до 1 %.

Стоит отметить, что уровень значимости 0.05 является наиболее распространённым. Однако аналитик должен определить, насколько проблематично ложное срабатывание. Не существует единственно верного ответа, поэтому вам нужно самостоятельно выбирать уровень значимости в зависимости от обстоятельств: решить, какая ошибка для конкретной задачи является наиболее критичной — I или II рода. 

В примере с тканью для воздушного шара ложноположительный результат оказался очень критичным,  поэтому нам важно выбирать минимальный уровень значимости.

Теперь допустим, вы решили пройти тест на COVID-19 на основании лёгких симптомов. Возможны две ошибки:

Ошибка I рода (ложноположительный результат): результат теста говорит, что у вас коронавирус, но на самом деле это не так.

Ошибка II рода (ложноотрицательный): результат теста говорит, что у вас нет коронавируса, но на самом деле он есть.

В данном случае для нас критичен ложноотрицательный результат. 

Как мы уже знаем, риск совершения ошибки типа II обратно пропорционален статистической мощности теста. Чтобы (косвенно) уменьшить риск ошибки II рода, вы можете увеличить размер выборки или уровень значимости, чтобы повысить статистическую мощность. Поэтому стоит выбрать a=0.1.


## **ПОДВЕДЁМ ИТОГИ ЮНИТА**

* В статистике при проверке гипотез могут возникнуть два типа **ошибок**: **первого** и **второго** рода. Ошибка типа I означает отклонение нулевой гипотезы, когда она действительно верна, а ошибка типа II означает неспособность отклонить нулевую гипотезу, когда она на самом деле ложна.
* Уровень риска ошибки I рода определяется выбранным вами уровнем значимости а. Это значение, которое вы устанавливаете в начале исследования, чтобы оценить статистическую вероятность получения результатов (p-value). Когда значение p-value ниже выбранного значения а, мы говорим, что результат теста статистически значим.
* Уровень значимости обычно устанавливается на 0.05. Это означает, что вероятность получения ваших результатов составляет 5 % или меньше, если нулевая гипотеза действительно верна.
* Чтобы уменьшить вероятность ошибки I рода, можно установить более низкий уровень значимости. Однако стоит учитывать, что это повлечёт за собой риск снижения статистической мощности проводимого теста, то есть повысить вероятность ошибки II рода.