# СТАТИСТИЧЕСКИЕ ТЕСТЫ

Статистические тесты — один из наиболее важных инструментов в Data Science, который позволяет проверять гипотезы и принимать решения на основе данных. Благодаря статистическим тестам можно провести анализ и сделать вывод о том, являются ли различия между двумя выборками данных случайными или обусловленными каким-то влиянием.

Важно отметить, что статистические тесты не являются абсолютно надёжными и не всегда дают точные результаты. Чтобы правильно их использовать, требуются определённые знания, в том числе в области математической статистики. Кроме того, результаты статистических тестов могут зависеть от выбора метода и параметров, которые использовались при их проведении. Поэтому важно правильно выбирать тесты и использовать их в сочетании с другими методами анализа данных.

Для начала введём понятия «генеральной совокупности» и «выборки» — они пригодятся нам в дальнейших рассуждениях.

__Генеральной совокупностью__ называется всё множество интересующих нас объектов, а __выборкой__ — случайное подмножество этого множества.

Часто множество объектов генеральной совокупности настолько большое, что мы не можем посчитать все объекты. Например, все заказы в онлайн-магазине — это генеральная совокупность, а часть заказов — выборка. Мы не можем посчитать все заказы как минимум потому, что часть из них ещё не совершена.

На самом деле нас всегда интересуют параметры _генеральной совокупности_ такие как:

* истинное среднее — математическое ожидание ($mu$, «мю»);

* истинное стандартное отклонение (&Sigma;, «сигма»);

* истинная пропорция ($p$).

Например, если речь идёт о среднем чеке заказов в онлайн-магазине, то нам важно узнать его не на выборке, а на всех заказах, то есть на генеральной совокупности.

Важно помнить о разнице между выборочными статистиками и параметрами генеральной совокупности.

* _Выборочная статистика_ — это случайная величина, так как рассчитана на случайной выборке. Например, значение среднего на двух разных выборках будет разным.

* _Параметр генеральной совокупности_ — это константа, конкретное число, которое, как правило, нам неизвестно и никогда не станет известным.

Однако благодаря статистическим тестам мы можем делать выводы о параметрах всей генеральной совокупности, имея только выборку наблюдений.

Допустим, мы хотим увеличить средний чек заказа в онлайн-магазине, внедрив новую рекомендательную систему. Команда Data Science должна оценить, насколько эффективно будет работать эта система. Запускать её для всех покупателей и после этого анализировать эффективность рискованно, так как требует вложения средств. Система может оказаться неэффективной, и её массовое внедрение может привести к репутационным издержкам.

Как тогда поступить?

Выходом будет:

1. Показать рекомендации только части покупателей (выборке).
2. Замерить средний чек на полученной выборке (пусть он получится равным  рублей).
3. Провести статистическое тестирование, чтобы проверить значимость полученного результата для всей генеральной совокупности. То есть мы должны понять, есть ли разница в средних чеках по всем заказам (математических ожиданиях) до и после внедрения рекомендательной системы.
4. Сделать вывод, запускать ли рекомендательную систему на весь магазин.

Почему нельзя просто сделать вывод, что если средний чек в выборке равен  рублей, то он также будет равен  рублей на всех заказах? Потому что, возможно, значения, полученные на выборке, не отражают значения на генеральной совокупности. Например, на рисунке ниже средний чек заказов в выборке меньше, чем средний чек по всем заказам.

Если бы мы запустили рекомендательную систему сразу на всех покупателей онлайн-магазина, то узнали бы, эффективна ли она, без статистических тестов, так как измерили бы все объекты в генеральной совокупности. Однако в случае неэффективности системы было бы уже поздно что-то менять, так как ресурсы компании уже потрачены на её внедрение.

Если бы мы запустили рекомендательную систему только для части покупателей, но не провели статистические тесты, полученные выводы нельзя было бы распространить на все заказы.

# Резюме:

- Статистические тесты позволяют сделать выводы о всей генеральной совокупности по выборке.

- Статистические тесты нужны в случаях, когда мы не можем измерить все объекты в генеральной совокупности.

- Без статистических тестов выводы, полученные на выборке, нельзя распространить на всю генеральную совокупность.

# ПОНЯТИЕ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ

_Статистическая гипотеза_ — это некоторое утверждение о параметрах генеральной совокупности, которое мы будем проверять на основе данных выборки. Например, утверждение «рекомендательная система влияет на средний чек покупки» — это статистическая гипотеза.

Примечание: Здесь и далее под «средним чеком покупки» мы будем иметь в виду средний чек на всей генеральной совокупности, то есть математическое ожидание среднего чека.

## АЛГОРИТМ ПРОВЕРКИ СТАТИСТИЧЕСКИХ ГИПОТЕЗ

Общий алгоритм проверки гипотезы состоит из шести этапов:

1. Построение нулевой и альтернативной гипотез.

2. Выбор уровня значимости.

3. Сбор данных для проверки гипотезы.

4. Выбор статистического теста.

5. Проведение статистического теста, вычисление $p-value$.

6. Сравнение $p-value$ c уровнем значимости &alpha; и вывод, отклонить или не отклонить нулевую гипотезу.

## НУЛЕВАЯ И АЛЬТЕРНАТИВНАЯ ГИПОТЕЗЫ

Проведение статистических тестов начинается с формулирования двух конкурирующих между собой статистических гипотез — нулевой и альтернативной.


1. В качестве нулевой гипотезы ($H_0$) обычно берётся утверждение об отсутствии эффекта, т.е. тех изменений, которых мы ожидали, нет.

_Пример нулевой гипотезы:_ рекомендательная система не влияет на средний чек покупки.

2. В качестве альтернативной гипотезы ($H_1$) берётся утверждение о наличии эффекта (обратное нулевой гипотезе), т. е. те изменения, которых мы ожидали, есть.

_Пример альтернативной гипотезы:_ рекомендательная система влияет на средний чек покупки.


В ходе статистических тестов будем проверять нулевую гипотезу. Возможен один из двух результатов:

- отклоняем нулевую гипотезу в пользу альтернативной (делаем вывод, что эффект есть);

- не отклоняем нулевую гипотезу, так как для этого недостаточно оснований (нельзя сделать вывод о наличии эффекта).

Однако мы можем составить следующие бизнес-вопросы и соответствующие им гипотезы:

<center><img src='Images/eda_7.png' height=500 width=800></center>

_Примечание:_

Альтернативная гипотеза вида $H_1 : mu_1 ≠ mu_2$ называется двусторонней, альтернативные гипотезы $H_1 : mu_1 < mu_2$ и $H_1 : mu_1 > mu_2$ — односторонними. При этом гипотеза $H_1 : mu_1 < mu_2$ называется левосторонней, а гипотеза $H_1 : mu_1 > mu_2$ — правосторонней.

## ОШИБКИ I И II РОДА

При проверке гипотезы возможно допустить ошибку одного из двух видов:

- Ошибка I (первого) рода: отклонение нулевой гипотезы, когда она на самом деле верна. Эта ошибка также называется &alpha;-ошибкой, или ложноположительным результатом.

- Ошибка II (второго) рода: неотклонение нулевой гипотезы, когда она на самом деле ложна. Эта ошибка также называется &beta;-ошибкой, или ложноотрицательным результатом.

_Примечание:_ Ошибки первого и второго рода — предмет активных исследований дата-сайентистов при решении задач классификации, когда необходимо оценить качество алгоритма.

В задаче бинарной классификации (разделении наблюдений на два класса) можно также совершить два вида ошибок. Например, если мы строим алгоритм, который классифицирует банковские транзакции на «стандартные» (класс 0) и «подозрительные/мошеннические» (класс 1), то этот алгоритм может:

Отнести образец к классу 1, когда он на самом деле относится к классу 0. То есть банковская система может признать транзакцию подозрительной, когда она является стандартной. Это ошибка первого рода.
Не отнести образец к классу 1, когда он на самом деле относится к классу 1. То есть банковская система может не признать транзакцию подозрительной, когда она является таковой. Это ошибка второго рода.
Данные, размеченные на два класса, используют в специальных алгоритмах машинного обучения, чтобы сформировать предсказания на новых данных.

## Cамопроверка

Для приведённых ниже бизнес-вопросов самостоятельно сформулируйте нулевую и альтернативную гипотезы, а также смысл ошибок первого и второго рода:

* Уменьшается ли время ответа техподдержки благодаря использованию нового классификатора запросов?

$mu_1$ = среднее время ответа при отсутствии классификатора

$mu_2$ = среднее время ответа при вводе нового классификатора

Ответ:
(если мы запустили классификатор, а он не работет, то ошибка I рода):
$H_0 = mu_1 <= mu_2$ (Время поддежки не уменьшает время ответа от введенного нового классификатора или остается прежним) - либо нейтрально, либо негативно

(если мы не запустили наш классификатор, а оказалось, что у конкурентов это работает, то ошибка II рода)
$H_1 = mu_1 > mu_2$ (Время поддежки уменьшается от введенного нового классификатора) - меры работают

* Увеличивается ли время работы изделий при использовании материалов от нового поставщика?

$mu_1$ = среднее время работы изделия при отсутствии новых материалов

$mu_2$ = среднее время работы изделия при вводе новых материалов

Ответ:
(если мы использует новые материалы, а время работы изделия не увеличивается, то ошибка I рода):
$H_0 = mu_1 >= mu_2$ (Использование новых материалов наоборот уменьшило время работы изделия либо такое же) - наоборот отрицательно влияет, либо никак

(если мы отказались от использования новых материалов, а у конкурентов выяснялось, что время работы увеличилось, то ошибка II рода):
$H_1 = mu_1 < mu_2$ (Использование новых материалов увеличивает время работы изделия) - меры работают, более надежно

## СТАТИСТИЧЕСКАЯ ЗНАЧИМОСТЬ (P-VALUE)

Уровнем статистической значимости (p-value, p-значением) называется вероятность получить наблюдаемые или более экстремальные значения при условии, что нулевая гипотеза верна.

Пример:

Представьте, что у вас есть монета, и вы хотите проверить, честная ли она (т.е., выпадает ли "орел" и "решка" с одинаковой вероятностью). Вы подбрасываете монету 100 раз и получаете 60 орлов и 40 решек. P-value в этом случае покажет вероятность того, что такая разница (60 орлов и 40 решек) могла произойти случайно, даже если монета на самом деле честная.

Основные моменты:

* Малое значение p (например, менее 0.05): Это означает, что вероятность того, что ваши данные возникли случайно, очень мала. Таким образом, можно предположить, что наблюдаемый эффект реален и не случаен.

* Большое значение p (например, более 0.05): Это указывает на то, что наблюдаемые данные вполне могли бы возникнуть случайно, и нет достаточно доказательств, чтобы утверждать, что есть какой-то реальный эффект.

Практическое применение:

Если вы проводите научное исследование и получаете p-value меньше 0.05, это обычно считается статистически значимым, и вы можете утверждать, что результаты вашего эксперимента подтверждают вашу гипотезу. Если p-value больше 0.05, это означает, что результаты могут быть случайными, и вам, возможно, нужно пересмотреть свою гипотезу или провести дополнительное исследование.

Важно помнить:

P-value не измеряет вероятность того, что ваша гипотеза верна или ложна; оно лишь помогает оценить вероятность того, что ваши данные соответствуют случайности.

## УРОВЕНЬ ЗНАЧИМОСТИ

_Уровень значимости_ — это пороговая вероятность допустить ошибку I рода (то есть сделать вывод, что эффект есть, хотя на самом деле его нет). Обычно это число обозначается за &alpha;.

Уровень значимости (&alpha;) - это порог, который исследователь устанавливает заранее для определения статистической значимости результатов исследования. Это максимальная вероятность ошибочно принять альтернативную гипотезу ($H_1$), когда на самом деле верна нулевая гипотеза ($H_0$). Обычно уровень значимости устанавливается равным 0,05, что означает, что мы готовы допустить ошибку в 5% случаев, когда отвергаем нулевую гипотезу. Если p-значение (вероятность получить наблюдаемый результат при условии истинности $H_0$) меньше уровня значимости (&alpha;), то результат считается статистически значимым, и мы отвергаем нулевую гипотезу в пользу альтернативной.

Итак:

* Если полученное p-value __ниже уровня значимости__ ($p$ < &alpha;), результаты статистически значимы и согласуются с альтернативной гипотезой.

* Если полученное p-value __выше уровня значимости__ ($p$ > &alpha;), результаты считаются статистически незначимыми, нельзя отвергнуть нулевую гипотезу.

Примечание: Если p-value равно уровню значимости ($p$ = &alpha;), то возникает дилемма: принять нулевую гипотезу или отвергнуть её в зависимости от предварительных условий. На практике, если не оговорено других предварительных условий, в большинстве случаев нулевую гипотезу отвергают, если 
$p$ <= &alpha;.

<center> <img src='Images/eda_8.png' width=800 height=500></center>

Примечание: Раньше специалисты по статистике вручную рассчитывали p-value по измеренным данным и анализировали результаты по специальным справочникам с таблицами распределения. Теперь мы можем просто воспользоваться готовыми функциями из библиотек __SciPy__ и __Statsmodels__ для языка Python. 

## ОСНОВНЫЕ ТИПЫ СТАТИСТИЧЕСКИХ ТЕСТОВ

Существует множество статистических тестов. Задача дата-сайентиста в том, чтобы выбрать подходящий тест и провести его, получив на выходе p-value.

Вспомним, что признаки объектов, которые мы анализируем, делятся на __количественные__ и __категориальные__.

<center> <img src='Images/eda_9.png' width=800 height=300> </center>

Выбор статистического теста для __количественных__ признаков зависит от ряда факторов:

* количества анализируемых групп (выборок): одна, две, три и более групп;

* зависимости групп: зависимые и независимые;

* знания о распределении признаков по нормальному закону.

Ниже мы рассмотрим каждый из этих факторов.

## КРИТЕРИЙ ВЫБОРА ТЕСТА: КОЛИЧЕСТВО ГРУПП

По количеству анализируемых групп тесты делятся на _одновыборочные_, _двухвыборочные_ и _многовыборочные_.

<center> <img src='Images/eda_10.png' width=800 height=300> </center>

Количество групп определяется значением фактора, влияние которого мы анализируем, например:

* Чтобы определить, достигается ли целевой показатель «среднее время посещения сайта — пять минут», понадобится случайным образом набрать из посетителей этого сайта <u>одну группу</u>.

* Для определения эффекта от лекарства понадобится <u>две группы</u>: пациенты, не принимающие лекарство (контрольная группа), и пациенты, принимающие его (тестовая группа).

* Чтобы выяснить, влияет ли цвет машины на её стоимость, понадобится <u>количество групп</u>, равное анализируемому количеству цветов: белый, чёрный, красный, серый и т. д.

## КРИТЕРИЙ ВЫБОРА ТЕСТА: ЗАВИСИМОСТЬ ГРУПП

Сравниваемые группы могут быть __независимыми__ и __зависимыми__.

- В независимых группах набор объектов в одну группу проходит независимо от набора объектов в другие группы.

Примеры: случайное деление школьников внутри одного класса, случайный набор в группы из всего множества пользователей приложения.

- В зависимых группах каждый объект одной группы связан с объектом в другой группе. Такая ситуация возникает, например, когда мы анализируем признаки в динамике.

Примеры: покупатели до получения рассылки и эти же покупатели после её получения, пациенты до начала лечения и эти же пациенты после его окончания.

Примечание: Тесты, разработанные для сравнения __независимых групп__, называются <u>непарными</u>, тесты для сравнения __зависимых групп__ — <u>парными</u>.

<center> <img src='Images/eda_11.png' width=800 height=300> </center>

## КРИТЕРИЙ ВЫБОРА ТЕСТА: РАСПРЕДЕЛЕНИЕ ПРИЗНАКА ПО НОРМАЛЬНОМУ ЗАКОНУ

Если признаки распределены по <u>нормальному закону</u>, к ним можно применять параметрические тесты — статистические методы, основанные на параметрах нормального распределения (среднее значение, стандартное отклонение).

Если мы знаем, что признаки не распределены нормально или у нас нет информации об их распределении, необходимо использовать непараметрические тесты. Их можно применять на любых количественных признаках независимо от вида их распределения. Непараметрические методы менее чувствительны к выбросам в данных.

<center> <img src='Images/eda_12.png' width=800 height=300> </center>

## Алгоритм принятия решения в выборе теста для количественных признаков

<center> <img src='Images/eda_algorithm.png'> </center>

Например, в задаче, зависит ли _средний чек_ покупки от пола покупателей, шаги по выбору теста будут такими:

1. Какой тип у признака «средний чек»?
- Количественный.

2. Сколько сравниваемых групп?
- Две (мужчины и женщины).

3. Группы зависимы?
- Нет, так как объекты в выборках не повторяются.

4. Признак распределён по нормальному закону?
- Если да, нужен двухвыборочный t-критерий.
- Если нет, нужен U-критерий Манна — Уитни.

## ПРОВЕРКА НА НОРМАЛЬНОСТЬ

Две библиотека смогут нам в этом помочь.

* SciPy — библиотека для научных и инженерных расчётов.

* Statsmodels — библиотека для статистических исследований.

Установить эти библиотеки можно с помощью стандартной команды:

``` terminal
    pip install scipy
    pip install statsmodels
```

### НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ

Многие процессы в природе следуют нормальному закону распределения: рост человека, вес при рождении, артериальное давление, размер ноги и др.

В частности в модуле «Очистка данных» мы изучали метод z-отклонений (трёх сигм) и метод Тьюки для поиска выбросов — они работают только для нормально распределённых данных.

Нормальное распределение (распределение Гаусса) характеризуется двумя числами:

* средним значением $mu$ (mu);

* стандартным отклонением &sigma; (sigma).

Примеры нормальных распределений с разными $mu$ и &sigma;:

<center><img src='Images/eda_13.png'></center>

Любое нормальное распределение обладает следующими свойствами:

1. Один пик в центре и симметричные боковые стороны (одномодальное распределение).
2. Среднее и медиана равны и расположены в центре распределения.
3. Отклонение значений от среднего подчиняется правилу трёх сигм:
4. 68 % значений находятся в пределах одного стандартного отклонения от среднего;
5. 95 % значений — в пределах двух стандартных отклонений;
6. 99.7% значений — в пределах трёх стандартных отклонений.


<center><img src='Images/eda_14.png' width=700 height=450></center>

## ГРАФИЧЕСКИЕ МЕТОДЫ ПРОВЕРКИ НА НОРМАЛЬНОСТЬ

# Гистограмма

Если гистограмма имеет вид колокола, то мы считаем, что данные в выборке распределены нормально!

В Python гистограмму можно построить с помощью функции histplot() пакета seaborn. Параметр kde=True добавляет к гистограмме график оценки плотности ядра.

## КВАНТИЛЬ КВАНТИЛЬ ГРАФИК

Квантиль-квантиль график (Q-Q Plot) визуализирует, насколько распределение выборки близко к нормальному. График показывает взаимное расположение квантилей наблюдаемого и теоретического нормального распределения.

В Python квантиль-квантиль график можно построить с помощью функции qqplot() пакета statsmodels. Построение квантиль-квантиль графика мы также рассмотрим на примере стоимости домов из датасета California Housing.

Тест Шапиро — Уилка — не единственный метод проверки на нормальность. Существуют и другие, например, __тест Д’Агостино__ или __тест Колмогорова — Смирнова__. У всех этих методов разные принципы работы, но очень похожие результаты, поэтому в большинстве случаев можно использовать любой из них.