# Элементы математической статистики для анализа данных

# 5. Проверка гипотез

## Предельная ошибка выборки и доверительный интервал
Представьте, что нам необходимо оценить долю клиентов Сбербанка, которые любят ходить в тренажерный зал. Всех клиентов опросить не получится, но мы можем случайным образом выбрать 100 человек, провести опрос и выяснить, сколько среди них любителей ходить в спортзал. Допустим, интересующая нас доля равна 0,17. Устроит ли нас такая оценка? На первый взгляд, устроит: выборка репрезентативная и достаточно большая. Но какая бы выборка ни была, мы не сможем однозначно утверждать, что ровно 17% всех клиентов любят ходить в спортзал, т.к. мы оцениваем долю по выборке и получаем значение с некоторой погрешностью. 

Что же мы можем в таком случае сделать? **Зафиксировать уровень уверенности в наших расчетах и вместо одного значения для доли определить интервал, в пределах которого эта доля находится**. Другими словами, мы можем построить **доверительный интервал**.

Часто в машинном обучении важно не только получить точечную оценку (конкретное значение) предсказания, но и оценить, в каком возможном диапазоне лежит реальное неизвестное значение. Доверительные интервалы являются _количественным способом оценки неопределенности прогноза_. Например, при оценке трейдинговых стратегий очень важно правильно учитывать уверенность в прогнозе, чтобы эффективно диверсифицировать инвестиционный портфель. 

### Построение доверительного интервала
Для построения доверительного интервала нужно ввести некоторые параметры. 

У нас есть параметр `θtrue`, который мы не знаем, но хотим оценить. Например, это реальная доля клиентов, которые ходят в спортзал.

Оцениваем его по выборке, получаем значение `θest` (в примере - долю клиентов, которые ходят в спортзал, в выборке) с некоторой погрешностью. Пусть мы можем максимально отклониться от истинного значения параметра на некоторую величину, которая называется **предельной ошибкой выборки** `ε`. То есть запишем:

`θest - θtrue < ε`.

Значение предельной ошибки зависит от **уровня доверия** `γ`, который мы выбираем сами. Обычно в исследованиях используется уровень доверия 95%, иногда 90% и 99%. 

### Уровень доверия

Уровень доверия отражает вероятность того, что доверительный интервал содержит истинное значение параметра. То есть это степень уверенности в оценках, которые мы будем получать на наших данных. Если мы будем повторять аналогичное исследование независимо и много раз, то в `γ` случаев истинное значение параметра будет попадать в доверительный интервал. 

Например, мы захотели построить 95%-ный доверительный интервал для доли людей в России, которые ходят в спортзал. Пусть мы определили, что предельная ошибка выборки `ε= 0,07` (как именно это сделать, мы обсудим далее). Это означает, что, если мы будем проводить аналогичное исследование 100 раз, не менее чем в 95 случаях доля любителей ходить в спортзал, рассчитанная по выборке, будет отклоняться от доли любителей ходить в спортзал по всей России не больше, чем на 0,07. 

Итак, пусть мы ищем среднее значение генеральной совокупности `μ`, которое мы не знаем, но хотим оценить (например, средняя зарплата клиента Сбербанка). У нас есть выборка из `n` клиентов. Нам известно среднее по выборке `xср` и стандартное отклонение по выборке `s`. 

Чтобы построить доверительный интервал для среднего, необходимо ввести определение специальной функции: **t-статистики** и **распределения Стьюдента (t-распределения)**. Перейдем к следующему блоку.

## Статистические тесты
Сначала разберемся с **распределением Стьюдента**. 

График плотности распределения Стьюдента похож на график плотности нормального распределения, только более «плоский» и с более толстыми «хвостами». Главное отличие распределения Стьюдента от нормального распределения заключается в том, что у него есть специфический параметр — **число степеней свободы k**. Число степеней свободы определяет форму распределения; чем больше число степеней свободы, тем ближе распределение Стьюдента к стандартному нормальному распределению `N(0, 1)` с матожиданием `0` и стандартным отклонением `1`:
<p></p>
<div><img src="https://cs.sberbank-school.ru/image/full/full/resize/f05e44d6-ecf8-11ea-8a87-02429a728377" alt="распределение Стьюдента" style="width: 500px; margin-right: 75%"></div>

Как видно из графика, распределение Стьюдента симметрично.

### t-статистика
Теперь введем понятие t-статистики.

Пусть истинное и неизвестное среднее значение генеральной совокупности равняется `μ`, а стандартное отклонение, посчитанное по выборке из `n` объектов, равняется `s`. Тогда верно следующее утверждение: 

> случайная величина `t = xср - μ / s/n**1/2` имеет распределение Стьюдента с `k=n-1` степенями свободы. 

Поясним. Если бы мы знали истинное значение `μ`, взяли много разных выборок из `n` клиентов и для каждой выборки посчитали значение `t` (получили бы набор значений `t`), то гистограмма значений `t` имела бы форму распределения Стьюдента c `k=n-1` степенями свободы. 

Как мы помним, распределение Стьюдента симметрично относительно 0, причем чем дальше от 0 отклоняется значение t-статистики, тем меньше вероятность получить такое значение из данных.

Теперь выразим неизвестное значение `μ` (для которого мы хотим построить доверительный интервал) из формулы для t-статистики:

`μ = xср - t * s/(n**1/2)`

Из формулы видно, что чем ближе число t к 0, тем ближе `xср` приближается к истинному неизвестному значению `μ`.

Договоримся, что будем искать доверительный интервал на уровне доверия 95%. Тогда, если мы возьмем квантили 0,025 и 0,975 для распределения Стьюдента (и отбросим 2,5% самых маловероятных значений слева и 2,5% справа — см. рис.), то мы «зажмем» неизвестное значение μ слева и справа:

`xср - t* * s/(n**1/2) < μ < xср + t* * s/(n**1/2)`

Таким образом, мы построили доверительный интервал с уровнем доверия 95%.
<p></p>
<div><img src="https://cs.sberbank-school.ru/image/full/full/resize/3161a69e-ecf9-11ea-86cd-02429e63942a" alt="доверительный интервал" style="width: 600px; margin-right: 75%"></div>

### Величина t*

Заметим, что `t*` — критические значения квантилей — табличные значения, которые мы можем выяснить по числу объектов в выборке, по количеству степеней свободы и по уровню доверия. Например, если уровень доверия 95% и выборка содержит 10 объектов, t* ≈ 2,262.

Значение функции распределения для распределения Стьюдента с 9 степенями свободы в точке t* ≈ 2,262 равняется ≈ 0,975. То есть мы не учитываем 2,5% вероятностной массы на «левом» хвосте графика и 2,5% на «правом».
<p></p>
<div><img src="https://cs.sberbank-school.ru/image/full/full/resize/b8c536a0-ecf9-11ea-a36d-02429e63942a" alt="таблица" style="width: 600px; margin-right: 75%"></div>

### Алгоритм действий поиска доверительного интервала
Еще раз зафиксируем алгоритм действий

Таким образом, если нам известны значения элементов какой-то выборки из данных и их количество, мы можем найти доверительный интервал для среднего значения всего набора данных, т.е. генеральной совокупности. Воспользуемся формулой:

`xср - t* * s/(n**1/2) < μ < xср + t* * s/(n**1/2)`

Для решения нам нужно:

- вычислить xср - среднее значение в нашей выборке (либо автоматически в excel, либо по формуле `xср = 1/n*СУММАx(i)`, где i от 1 до n);
- вычислить `s` - стандартное отклонение в выборке (автоматически или по формуле `s = ( (СУММА (x(i) - x(ср))**2) / n )\*\*1/2`;
- найти по таблице значение `t*`: берем количество элементов в выборке, вычитаем 1, получаем нужную строку k, количество степеней свободы. Затем определяем столбец уровеня доверия (берем 0,9, 0,95 или 0,99 в зависимости от желаемой точности) и ищем ячейку на пересечении. Это и будет `t*`;
- определить `n**1/2`: извлекаем квадратный корень из количества элементов в выборке.

Все полученные числа подставляем в формулу для `μ` - полученное двойное неравенство будет указывать на искомый интервал.

## 2. Проверка гипотез
## Гипотезы
Проверка гипотез — это важный этап работы над продуктом. Для проверки гипотез нужно освоить специальный математический аппарат и ввести несколько определений. В первую очередь надо определить две гипотезы, с которыми будем работать: 

#### Нулевая гипотеза (H0) 
- утверждение о параметре генеральной совокупности (параметрах генеральных совокупностей) или распределении, которое необходимо проверить. Например, конверсия сайта равняется 0,7. 

#### Альтернативная гипотеза (HA) 
- утверждение, противоположное нулевой гипотезе. Например, конверсия сайта не равняется 0,7. Альтернативная гипотеза выдвигается, но не проверяется.

Нулевая гипотеза всегда проверяется на определенном **уровне значимости**. Уровень значимости `α` — вероятность отвергнуть верную нулевую гипотезу.

Например, мы проверяем нулевую гипотезу на уровне значимости `5%`. Это означает, что если мы будем проводить исследования `100 раз` и проверять на данных эту нулевую гипотезу, то не более чем в пяти случаях из 100 мы нулевую гипотезу отвергнем, хотя она будет верной.

Уровень значимости является понятием, противоположным уровню доверия. **Уровень доверия** `γ`  — вероятность не отвергнуть верную нулевую гипотезу. Имеет место следующее соотношение:

`γ = 1 - α`.

Проверить нулевую гипотезу на уровне значимости 5% и проверить нулевую гипотезу на уровне доверия 95% — это одно и то же.

## Ошибки 1 и 2 рода
При проверке гипотез можно совершить ошибки первого и второго рода.

- Если мы **отвергнем верную нулевую гипотезу H0**, то совершим **ошибку первого рода**.

- Если наоборот, **не отвергнем неверную нулевую гипотезу**, — совершим **ошибку второго рода**.

Ошибки первого рода называются **ложноположительным срабатыванием**, или **ложной тревогой**. Например, если человек здоров, а анализ крови показал обратное, это ложноположительный результат. Ошибки второго рода называют **ложноотрицательным срабатыванием**, или **пропуском события**. То есть если человек болен, а анализ крови показал, что он здоров. Таким образом, 

> _ошибки второго рода критичнее при проверке гипотез_.

<table style="border-collapse: collapse; width: 60%; margin-right: 40%" border="1">
<tbody>
<tr>
<td style="width: 33.02151543498597%; text-align: center;">&nbsp;</td>
<td style="width: 33.02151543498597%; text-align: center;">Н<sub>0</sub> верна</td>
<td style="width: 33.02151543498597%; text-align: center;">Н<sub>0</sub> неверна</td>
</tr>
<tr>
<td style="width: 33.02151543498597%; text-align: center;">Н<sub>0</sub> отвергается</td>
<td style="width: 33.02151543498597%; text-align: center;">Ошибка 1 рода</td>
<td style="width: 33.02151543498597%; text-align: center;">+</td>
</tr>
<tr>
<td style="width: 33.02151543498597%; text-align: center;">Н<sub>0</sub> не отвергается</td>
<td style="width: 33.02151543498597%; text-align: center;">+</td>
<td style="width: 33.02151543498597%; text-align: center;">Ошибка 2 рода</td>
</tr>
</tbody>
</table>

Эта таблица является также **матрицей ошибок классификации** в задачах машинного обучения. Ошибки классификации аналогично бывают двух типов: **False Negative (FN)** и **False Positive (FP)**. Эти ошибки используются для описания метрик (доля правильных ответов алгоритма, точность, полнота и пр.), которые оценивают качество моделей и сравнивают различных алгоритмов.

Обычно алгоритмы бинарной классификации машинного обучения предсказывают вероятность того, что объект принадлежит к какому-то из двух классов. Мы можем увеличивать или уменьшать вероятности ошибок I и II рода, меняя пороги вероятностей, при которых мы относим объект к какому-либо классу. Например, если выборка сбалансирована (оба класса присутствуют в одинаковом количестве), то поставив порог вероятности `0,6` вместо `0,5`, мы увеличим точность определения объектов одного из классов (каждый объект, который отнесен к этому классу, будет более вероятно действительно принадлежать этому классу), однако мы можем «пропустить» объекты этого класса, вероятность которых будет `< 0,6` (но больше `0,5`).

### Факторы формальной проверки гипотез
Что важно учитывать при проверке гипотез? Предположим, что мы проводим исследование, посвященное оценке конверсии сайта среди клиентов Сбербанка. У нас есть гипотеза, которая утверждает, что конверсия нового дизайна сайта равна `0,7`. Мы опросили 1000 человек и выяснили, что доля клиентов, которым нравится новая версия сайта, равна `0,5`. Можно ли сразу по таким результатам опроса сделать однозначный вывод, что конверсия сайта не равна `0,7` (ведь `0,5` не равно `0,7`)? Нельзя.

Во-первых, мы уже знаем, что оценки параметра по выборке (в данном случае конверсии), отличаются от истинного значения параметра генеральной совокупности. Поэтому из того факта, что доля людей, которым нравится новый дизайн, в выборке равна `0,5`, не следует, что доля по всем клиентам обязательно равна `0,5`.

Во-вторых, нам неизвестно, какая разница между выборочной долей и долей, заявленной в гипотезе, считается «маленькой», то есть достаточной для того, чтобы не отвергнуть нулевую гипотезу. В нашем примере доля людей, которым нравится новый дизайн, в выборке равна `0,5`, мы можем считать, что `0,5` сильно отличается от `0,7`, поэтому нам следует отвергнуть нулевую гипотезу. А что было бы, если бы выборочная доля была бы `0,6`? Или `0,65`? Сделали бы мы тогда вывод, что доля людей, которым нравится новый дизайн, не равна `0,7`? Непонятно, потому что неизвестно, что считать сильным отличием, а что просто списывать на неточность оценок, полученных по выборке.

Для того, чтобы понять, являются ли различия между значением в гипотезе и полученным по выборке действительно существенными или эти различия — просто следствие того, что оценки по выборке мы получаем с некоторой погрешностью, требуется формальная проверка гипотез. 

> **Для разных видов вопросов существуют свои статистические критерии, позволяющие проверять соответствующие им нулевые гипотезы**.

## 3. Статистические критерии проверки гипотез

## z-критерий
### Статистический критерий
**Статистика** (не отрасль знаний) — функция от данных. Иначе говоря, это черный ящик, на вход которого приходят данные, а выход — какое-то число, рассчитанное по этим данным. Например, среднее, выборочная дисперсия или медиана.

Мы можем посчитать среднюю зарплату клиентов Сбербанка или медианное время в приложении — это все примеры статистик (разных функций от данных). Это будет **наблюдаемым значением статистики**.

**Статистический критерий** — математическое правило, по которому принимается или отвергается та или иная статистическая гипотеза с известным уровнем значимости. Обычно для критерия определяется соответствующая ему статистика — функция от наблюдений, которая имеет свое распределение.

Для того чтобы понять, действительно ли разница между значением параметра в гипотезе и значением оценки, полученной по выборке, является существенной, **необходимо сравнить два показателя: наблюдаемое значение статистики и критическое значение статистики**. Какие же статистические критерии чаще всего используются при проверке гипотез? 

#### Z-тест
Например, нам известно, что зарплаты клиентов Сбербанка имеют нормальное распределение с известной дисперсией `σ`. Обычно заранее мы не знаем дисперсию всех имеющихся данных (дисперсию генеральной совокупности), этот случай рассмотрим далее. 

Нам нужно проверить гипотезу `H0`: средняя зарплата клиентов Сбербанка равняется `μ`. Для этого нужно воспользоваться **z-тестом**.

Если гипотеза `H0` верна, то верно следующее утверждение:  

**статистика (то есть функция от имеющихся данных)**

`Z* = (xср - μ) / (σ / n**1/2)` 

**имеет нормальное распределение с 0 средним и единичной дисперсией N(0, 1)**.

То есть, если мы возьмем несколько разных выборок из `n` клиентов Сбербанка, для каждой выборки посчитаем свое значение `z*` и построим гистограмму посчитанных значений, то гистограмма будет иметь форму нормального распределения `N(0, 1)`. Если мы посчитаем `z*` по нашим данным и получим слишком маленькое или слишком большое число (из хвостов нормального распределения `N(0, 1)`), то, вероятно, гипотеза `H0` должна быть отвергнута.

Более формально вводится понятие **критической области**. Предположим, мы проверяем гипотезу `H0` на уровне значимости `α = 0,05` (или на уровне доверия `γ = 0,95`). Мы знаем, что статистика `z*` имеет нормальное распределение `N(0, 1)` и делаем вывод: _чем дальше от `0` полученное по выборке значение `z*`, тем вероятнее, что `H0` нужно отвергнуть_.
<p></p>
<div><img src="https://cs.sberbank-school.ru/image/full/full/resize/abc17ece-9162-11eb-bae2-0242ac190002" alt="распределение статистики" style="width: 600px; margin-right: 75%"></div>

Иначе говоря, можно определить критическую область значений статистики `z*` так: 

> если наше значение `z*` попадает в промежуток `[-zкр; zкр]`, то на заданном уровне значимости гипотезу H0 мы не отвергаем. 

Соответствующее критическое значение `z` ищем с помощью [онлайн-калькулятора](https://planetcalc.ru/4987/).

Если нам интересно нормальное распределение с матожиданием 0 и дисперсией 1, необходимо ввести вероятность, с которой исследуем гипотезу: например, если уровень доверия 0,95, интересующее значение вероятности – 0,975 (распределение симметрично, с каждого края отрезаем по половине уровня значимости, `α/2 = 0,025`).

## Тест Стьюдента
В прошлом примере мы требовали, чтобы заранее была известная дисперсия зарплат `𝝈`, что является очень сильным требованием от данных. Чтобы облегчить это требование, можно воспользоваться тестом Стьюдента. 

Пусть нам известно, что зарплаты клиентов Сбербанка **распределены нормально с неизвестной дисперсией** `𝝈`, и нам нужно проверить гипотезу H0: средняя зарплата равняется `μ`. 

В этом случае верно утверждение: 

> если гипотеза H0 верна, то статистика `t` имеет распределение Стьюдента с `k = n-1` степенями свободы: 

`t = (xср - μ) / (s / n**1/2)`

Мы помним, что это распределение симметрично относительно 0, и чем дальше от 0, тем маловероятнее значение **t-статистики**. Иначе говоря, если мы получим значение `t`, далекое от 0, то вероятно, гипотеза H0 должна быть отвергнута.

Напомним, здесь `xср` - средняя зарплата клиентов по нашей выборке данных, `μ` - средняя зарплата по всем клиентам, `s` — стандартное отклонение по выборке, оно может отличаться от неизвестного реального стандартного отклонения `σ`, `n` - количество элементов в выборке. 

Таким образом, мы разобрали два статистических критерия проверки гипотез: 

- если данные распределены нормально и известна дисперсия, пользуются **z-критерием**; 

- если дисперсия неизвестна - пользуются критерием Cтьюдента.

## Алгоритм проверки гипотез
Итак, соберем последовательность шагов проверки нашего предположения относительно данных.

1. Формулируем нулевую гипотезу (H0).
1. Формулируем альтернативную гипотезу (HA) (ее проверять не нужно).
1. Выбираем критерий, необходимый для проверки нулевой гипотезы.
1. Определяем критическое значение статистики и критическую область.
1. Определяем наблюдаемое значение статистики.
1. Сравниваем наблюдаемое и критическое значения. Если наблюдаемое значение по модулю больше критического значения статистики, попадаем в критическую область, следовательно, нулевую гипотезу необходимо отвергнуть.
1. Делаем статистический и содержательный вывод. Пример статистического вывода: на имеющихся данных, на уровне значимости 5% (уровне доверия 95%) есть основания/нет оснований отвергнуть нулевую гипотезу в пользу альтернативы.

Уточним, что 

> _статистический вывод - не всегда повод для принятия решения_

т.к. не всегда применим на практике. Например, изменение дохода на 10 тысяч рублей статистически значимо, но менять ради него политику компании было бы бессмысленно.

Важно всегда указывать **уровень значимости (уровень доверия)**, на котором проверяется гипотеза, так как без этого уточнения выводы о нулевой гипотезе не имеют большого смысла: на одном уровне значимости гипотеза может быть отвергнута, а при выборе другого уровня значимости — нет. Желательно также прописывать, что выводы делаются на имеющихся данных, так как 

> **мы можем отвечать только за те результаты, которые получили по той выборке/выборкам, которые у нас есть, а не за «истинность» выводов вообще**.

Таким образом, по результатам проверки статистической гипотезы мы никогда не делаем вывод о том, что нулевая гипотеза верна или должна быть принята. 

> Вопрос об истинности нулевой гипотезы — содержательный вопрос, и если он и проверяется статистически, то с помощью более продвинутых методов и в рамках специально продуманного дизайна исследования.

**Все, что мы можем решить по итогам проверки: отвергнуть нулевую гипотезу или нет**. Как из того, что события не независимы, автоматически не следует их зависимость, так и из того, что нулевая гипотеза не отвергается, не следует, что она верна.



## 4. Концепция p-value
Проверять статистические гипотезы можно не только с помощью построения критической области для значений статистики критерия и сравнивая его с наблюдаемым значением статистики, но и оценивая на основе имеющихся данных вероятность того, что нулевая гипотеза имеет право на существование. Для этого обычно используют величину, которая называется p-value.

#### P-value

- Это вероятность получить значение статистики критерия, равное наблюдаемому или более экстремальное по сравнению с наблюдаемым при условии, что нулевая гипотеза верна. 

Более неформально, p-value — это «жизнеспособность» нулевой гипотезы, которую мы оцениваем по имеющимся данным. Другими словами, **p-value — вероятность того, что наша нулевая гипотеза верна при условии имеющихся данных**. 

#### Особенности p-value
Рассмотрим пример. У нас есть знакомый, который вдруг почувствовал себя нехорошо. Наша нулевая гипотеза заключается в том, что знакомый не болен, а просто переутомился перед выступлением. Мы собираем различные данные, например, температуру тела, давление, другие симптомы, которые можно измерить количественно. По результатам анализа этих данных мы делаем вывод о том, что знакомый просто переутомился. Насколько мы оказались правы? Вероятность того, что значения показателей здоровья, которые мы получили, объясняются тем, что наш знакомый здоров, и есть p-value.

Что нам дают эти сведения? Во-первых, понимание, что p-value — это вероятность, причем не простая, а условная. Поэтому значения p-value всегда будут принадлежать интервалу [0, 1]. Во-вторых, так как p-value — это вероятность того, что нулевая гипотеза жизнеспособна, чем выше p-value, тем лучше, если мы хотим, чтобы нулевая гипотеза не была отвергнута. 

Остается два вопроса: **как посчитать p-value и с чем его сравнивать, чтобы понять, нужно ли отвергать нулевую гипотезу?**

Мы помним, p-value — вероятность того, что наша нулевая гипотеза верна при условии имеющихся данных. Пусть гипотеза H0 состоит в том, что средняя зарплата клиентов Сбербанка равняется `μ`. Мы обсудили ранее, что когда требуется проверить гипотезу о равенстве среднего значения заданному числу и дисперсия генеральной совокупности неизвестна, нужно воспользоваться тестом Стьюдента.

Сначала посчитаем `t-статистику` по нашим данным: 

`t = (xср - μ) / (s / n**1/2)`.

P-value — это вероятность получить значение статистики критерия, равное наблюдаемому `tН` или более экстремальное по сравнению с наблюдаемым при условии, что нулевая гипотеза верна. То есть посчитаем, какова вероятность получить более экстремальные значения, чем `tН`, для распределения Стьюдента. Другими словами - ищем выделенную площадь под графиком плотности распределения.
<p></p>
<div><img src="https://cs.sberbank-school.ru/image/full/full/resize/9929b33e-ecfe-11ea-b074-02429e63942a" alt="график p-value" style="width: 500px; margin-right: 75%"></div>

`p-value = Pст(t>|tH|) = 2 x min{Pст(t<tH); Pст(t>tH)}`

#### Разбор примера
Найдем `p-value` на примере.

Предположим, что в нашей выборке было 25 объектов (число степеней свободы равняется 24), и мы получили по нашим данным, что `tН = 2,05`.

1. В [онлайн-калькулятор](https://planetcalc.ru/5019/) вводим число степеней свободы и наблюдаемое значение, получаем, что площадь под графиком (слева от `tН`) или вероятность получить значение, меньшее, чем наблюдаемое: `Pст(t<tH) = 0,97428`. Значение большое, близкое к 1, т.к. слева от наблюдаемого значения находится почти вся кривая.

2. Тогда, т.к. вся площадь под графиком нормального распределения равняется 1, `Pст(t>tH) = 1 - Pст(t<tH) = 0,02572`. То есть справа от наблюдаемого значения остался только маленький "хвостик" кривой, под ним маленькая площадь, и вероятность получить значение, большее наблюдаемого, очень мала.

Теперь воспользуемся формулой.

3.  `p-value = Pст(t>|tH|) = 2 x min{Pст(t<tH); Pст(t>tH)}`. Нам нужно найти сумму площадей под графиком у симметричных "хвостов": справа от `tН` и слева от `-tН`. За площадь под ними отвечает меньшее из найденных значений: берем минимум из 0,97428 и 0,02572 – это 0,02572 и умножаем на 2.

Получаем, что `p-value = 2 x 0,02572 = 0,05144`.

На уровне значимости 0,05 мы не можем отвергнуть эту гипотезу, т.к. `p-value > 0,05`. Однако на уровне 0,1 данную гипотезу необходимо отвергнуть: чтобы на 10% уровне значимости нулевая гипотеза не отвергалась, нужно, чтобы p-value было больше 0,1. 

`p-value` - это вероятность того, что нулевая гипотеза верна (средняя зарплата действительно равняется `μ`) при условии имеющихся данных. Если p-value меньше нашего фиксированного уровня значимости, на котором мы проверяем гипотезу, то нулевую гипотезу следует отвергнуть, если больше — то отвергать нулевую гипотезу оснований нет. Если вдруг получилось, что p-value совпало с уровнем значимости, то в таких случаях поступают на усмотрение исследователя.

Вынесем ссылку на [онлайн-калькулятор](https://planetcalc.ru/5019/): при известном числе степеней свободы и наблюдаемом значении `tН` можно получить значение площади под графиком или вероятности `Pст`.


## 5. A/B-тестирование
Зачастую в работе над продуктом используется **A/B-тестирование**. С его помощью можно проверить свои гипотезы и экспериментально оценить предпочтения посетителей — чтобы принять решение о том, стоит ли что-то менять или лучше оставить как есть. Идея A/B тестирования очень проста. Пользователи ресурса случайным образом делятся на сегменты. Один из сегментов остается без изменений — это контрольный сегмент A, на основе данных по этому сегменту оценивается эффект от вносимых изменений. Пользователям из сегмента B показывается измененная версия ресурса.
<p></p>
<div><img src="https://cs.sberbank-school.ru/image/full/full/resize/1cb0320e-ed00-11ea-a056-02429e63942a" alt="a/b тестирование" style="width: 600px; margin-right: 75%"></div>

Для проведения тестирования необходимо разработать гипотезу о том, что именно поменяется, и, соответственно, что нужно проверить. Определяются две гипотезы, которые помогают понять, является ли наблюдаемая разница между версией A (изначальной) и версией B (новой, которую хотим проверить) случайностью или результатом произведенных изменений. То есть в данном случае нулевая гипотеза предполагает, что результаты А и В на самом деле не отличаются и что наблюдаемые различия случайны, а альтернативная гипотеза — это гипотеза о том, что B отличается от A.

Чтобы получить _статистически значимый_ результат, очень важно исключить влияние сегментов друг на друга, т.е. пользователь должен быть отнесен строго к одному сегменту. Это можно сделать, например, записав метку сегмента в cookies браузера. Для снижения влияния внешних факторов, таких как рекламные кампании, день недели, погода или сезонность, замеры в сегментах важно делать параллельно, т.е. в один и тот же период времени. Кроме того, очень важно исключить и внутренние факторы, которые также могут существенно исказить результаты теста. Таким факторами могут быть действия операторов call-центра, служба поддержки, работа редакции, разработчики или администраторы ресурса. В Google Analytics для этого можно воспользоваться фильтрами.

Также надо зафиксировать уровень значимости и определить минимальный размер выборки. Он зависит от многих определяемых параметров, в том числе от уровня доверия, желаемой конверсии, количества посетителей сайта и т.д.

Далее, непосредственно переходим к проверке поставленных гипотез и используем методы, описанные в третьем и четвертом блоках. Например, если мы исследуем среднее значение величины с неизвестной дисперсией, можем воспользоваться тестом Стьюдента. 

A/B тестирование может дать следующие результаты: 

- А выигрывает или между версиями нет разницы (гипотеза H0);
- В выигрывает (альтернативная гипотеза).

После этого можно делать дальнейшие выводы о представленной гипотезе, изменять и улучшать продукт. 

A/B тестирование — полезный инструмент для проверки новых гипотез, но в большинстве случаев он дает возможность не ошибиться, нежели найти новую точку роста. Больше 50% тестов заканчиваются отсутствием статистической значимости и отказом от внесения предложенных правок. 

Рассмотрим практический пример. Предположим, мы сделали новый дизайн приложения Сбербанка и хотим оценить, насколько изменился LTV. Мы разбили пользователей на две группы (группа А и группа В), группе А показываем старую версию приложения, группе В — новую. Рассмотрим два варианта событий.
<div style="display: flex; flex-direction: row">
<div><img src="https://cs.sberbank-school.ru/image/full/full/resize/074b0dc6-ed00-11ea-8406-02429a728377" alt="первый вариант" style="width: 400px; margin-right: 75%"><p style="text-align: center; margin-top: 0"><i>Первый вариант<i></p></div>
<div><img src="https://cs.sberbank-school.ru/image/full/full/resize/0d5677be-ed00-11ea-a734-0242966aaeec" alt="второй вариант" style="width: 400px; margin-right: 75%"><p style="text-align: center; margin-top: 0"><i>Второй вариант</i></p></div>
</div>

Мы можем заметить, что на втором графике визуальная «разница» между распределениями заметнее и можно утверждать более вероятно (по сравнению с первым графиком), что новый дизайн приложения увеличивает LTV.

Аппарат тестирования гипотез, сформулированный выше, помогает четко определять, когда «разница» между двумя распределениями становится статистически значимой. 
