#  Понятие статистической гипотезы

Итак, мы разобрались, в каких случаях необходимы статистические тесты. Настала пора знакомиться с ними, и мы начнём с важнейшего для статистических тестов понятия — статистической гипотезы.

***Статистическая гипотеза*** — это некоторое утверждение о параметрах генеральной совокупности, которое мы будем проверять на основе данных выборки. Например, утверждение «рекомендательная система влияет на средний чек покупки» — это статистическая гипотеза.

***Примечание.*** Здесь и далее под «средним чеком покупки» мы будем иметь в виду средний чек на всей генеральной совокупности, то есть математическое ожидание среднего чека.

## АЛГОРИТМ ПРОВЕРКИ СТАТИСТИЧЕСКИХ ГИПОТЕЗ

Общий алгоритм проверки гипотезы состоит из шести этапов:

1. Построение нулевой и альтернативной гипотез.
2. Выбор уровня значимости .
3. Сбор данных для проверки гипотезы.
4. Выбор статистического теста.
5. Проведение статистического теста, вычисление p-value.
6. Сравнение p-value c уровнем значимости  и вывод, отклонить или не отклонить нулевую гипотезу.

Далее мы подробно рассмотрим каждый из них.

## НУЛЕВАЯ И АЛЬТЕРНАТИВНАЯ ГИПОТЕЗЫ

Проведение статистических тестов начинается с формулирования двух конкурирующих между собой статистических гипотез — ***нулевой*** и ***альтернативной.***

![image.png](attachment:image.png)

В ходе статистических тестов мы будем проверять нулевую гипотезу. Возможен один из двух результатов:

- ***отклоняем нулевую гипотезу*** в пользу альтернативной (делаем вывод, что эффект есть);
- ***не отклоняем нулевую гипотезу***, так как для этого недостаточно оснований (нельзя сделать вывод о наличии эффекта).

Существует ***три варианта формулировки нулевой и альтернативной гипотез.*** Давайте рассмотрим формулировки вместе с их математической интерпретацией. Пусть μ1 — средний чек покупки без просмотра рекомендаций, μ2 — средний чек покупки после просмотра рекомендаций.

***Примечание. Ещё раз отметим, что  μ1 и μ2 — средние значения чека на двух генеральных совокупностях (заказах до и после внедрения рекомендательной системы), т. е. они отражают средние чеки на всех покупках в онлайн-магазине и являются теоретическими величинами, измерить которые мы не можем.***

Однако мы можем составить следующие бизнес-вопросы и соответствующие им гипотезы:

![image-2.png](attachment:image-2.png)

Альтернативная гипотеза вида H1: μ1 ≠ μ2 называется ***двусторонней***, альтернативные гипотезы H1: μ1 < μ2 и H1: μ1 > μ2 — ***односторонними.*** При этом гипотеза H1: μ1 < μ2 называется ***левосторонней***, а гипотеза H1: μ1 > μ2 — ***правосторонней.***

Рассмотрим тонкости формулировок гипотез более подробно.

1. В качестве первого примера возьмём наш кейс с внедрением рекомендательной системы. Предположим, мы хотим ответить на вопрос «Увеличится ли средний чек покупки после просмотра рекомендаций?»

Нулевая и альтернативная гипотезы будут следующими:

 μ1 >= μ2 — после внедрения рекомендаций средний чек уменьшился или не изменился.

 H1: μ1 < μ2 — после внедрения рекомендаций средний чек увеличился.

 Пусть мы сделали две выборки покупок (без и после просмотра рекомендаций) и получили следующие средние значения чека:

- без просмотра рекомендаций — m1 = 960 рублей;

- после просмотра рекомендаций — m2 = 1250 рублей.

Проверка этих гипотез позволит определить, существует (статистически значима) ли разница в размере чеков в 290 рублей на генеральных совокупностях. То есть мы пытаемся выяснить, справедливо ли утверждение о генеральных совокупностях, основываясь только на выборочных значениях μ1 и μ2.

2. Представим, что мы работаем аналитиками в компании, которая производит кулинарные соусы. Недавно мы запустили новый продукт на рынок, и нам необходимо выяснить, соответствует ли качество соуса показателям, заявленным на упаковке. Мы знаем, что содержание натрия должно быть не более 300 мг на 100 г соуса, и хотим проверить, не превышено ли оно.

С точки зрения статистики это утверждение будет значить, что на генеральной совокупности среднее (математическое ожидание) содержание натрия (μ), должно быть меньше или равно 300 мг на 100 г.

Тогда нулевая и альтернативная гипотезы будут следующими:

- ***H0: μ <= 300***
- ***H1: μ > 300***

Для проверки этих гипотез мы делаем случайную выборку из бутылок соуса и измеряем содержание натрия в каждой из них. Предположим, что среднее значение содержания натрия в выборке составило m = 305 мг на 100 г соуса.

Проверив гипотезы, мы сможем понять, действительно ли среднее значение содержания натрия (μ) отличается от заявленного на упаковке. Возможно, что измеренное нами выборочное значение m является следствием погрешностей и случайностей.

Как видите, в приведённых выше примерах постановка задач и формулировка гипотез отличаются:

- В первом случае нам необходимо было сравнить два средних на двух генеральных совокупностях на основе данных из двух выборок.

- Во втором случае мы имели дело с одной выборкой и хотели проверить соответствие математического ожидания требуемому показателю.

Почему это важно? Далее мы увидим, что один из критериев выбора статистического теста, — это количество групп (выборок). Например, в первом случае мы будем выбирать среди двухвыборочных тестов, а во втором — среди одновыборочных.

Итак, мы разобрали понятие статистической гипотезы и её основные виды: нулевую и альтернативную гипотезы. Нулевая гипотеза — это утверждение об отсутствии эффекта, который мы хотим проверить, а альтернативная — утверждение о наличии такого эффекта.

Давайте закрепим полученные знания с помощью небольшого теста.

![image.png](attachment:image.png)

![image.png](attachment:image.png)

![image.png](attachment:image.png)