### Проверка статистических гипотез. P-значения. Доверительные интервалы. A/B-тестирование

__Статистическая гипотеза__ — предположение о виде распределения и свойствах случайной величины, которое можно подтвердить или опровергнуть.

Различают _нулевые_ и _альтернативные_ гипотезы.

На практике обычно требуется проверить какую-то конкретную гипотезу $H_0$. Такую гипотезу принято называть __нулевой__. Нулевая гипотеза считается истинной, пока не доказано обратное. Параллельно рассматривается противоречащая ей гипотеза $H_1$, называемая __альтернативной__ или _конкурирующей_.

__Пример 1__

Дана выборка из нормального распределения с неизвестным параметром $a$ и известным параметром $\sigma = 1$. В качестве нулевой гипотезы $H_0$ можно взять гипотезу о том, что параметр $a$ равен какой-то конкретной константе (например, _выборочному среднему_). 

В качестве альтернативной гипотезы $H_1$ можно взять гипотезу о том, что параметр $a$ не равен этой константе или что он меньше/больше этой константы.

### Проверка гипотез

Задача проверки гипотез в том, чтобы проверить, случайно ли отклонение результатов измерения. Если отличия результатов измерения от значений, соответствующих нулевой гипотезе, случайны, нулевая гипотеза остается в силе. Если же результаты измерения значительно отличаются от того, что утверждается в нулевой гипотезе, то принимают альтернативную.

__Этапы проверки гипотез__

1. Формулируются нулевая и альтернативная гипотезы.
2. Задаётся некоторая функция $T$ от выборки, для которой в условиях справедливости нулевой гипотезы $H_0$ известна функция распределения $F_T(x) = P(T < x)$.
3. Фиксируется уровень значимости $\alpha$ — допустимая для данной задачи вероятность _ошибки первого рода_ (чаще всего 0.01, 0.05 или 0.1).
4. Определяется критическая область $\Omega_\alpha$, такая, что $P(T \in \Omega_\alpha | H_0) = \alpha$.
5. Проводится _статистический тест_: для конкретной выборки $X$ считается значение $T(X)$, и если оно принадлежит $\Omega_alpha$, то заключаем, что данные противоречат гипотезе $H_0$, и принимается гипотеза $H_1$.

Ошибки первого и второго рода возникают в задачах, в которых требуется определить, произошло какое-то событие или нет.

__Ошибка первого рода__ (т.н. __false positive__) соответствует ситуации, когда было определено, что событие произошло, тогда как реально оно не произошло.

__Ошибка второго рода__ (т.н. __false negative__) — обратная ситуация: мы определили, что событие не произошло, а реально оно произошло.

В контексте проверки статистических гипотез ошибкой первого рода называются ситуации, когда нулевая гипотеза $H_0$ была отвергнута, тогда как в реальности она верна. 

В свою очередь, ошибка второго рода заключается в том, что нулевая гипотеза ложна, но отвергнута не была.

Низкие значения уровня значимости $\alpha$ уменьшают вероятность совершить ошибку первого рода, однако, вместе с тем увеличивают вероятность совершить ошибку второго рода (т.е. не отвергнуть ложную нулевую гипотезу).

Разберёмся, что представляет из себя критическая область и как она строится. Итак, мы зафиксировали функцию $T$ от выборки, имеющую функцию распределения $F_T(x) = P(T < x)$ (в предположении, что верна нулевая гипотеза), и уровень значимости $\alpha$. Обозначим через $t_\alpha$ значение, для которого $F_T(t_\alpha) = \alpha$.

На практике, как правило, используются функции T с _унимодальной_ (имеющей форму пика) плотностью распределения. __Критические области__ (наименее вероятные значения функции $T$) соответствуют «хвостам» этого распределения. Поэтому чаще всего возникают критические области одного из трёх типов:
* Левосторонняя область: $\Omega_\alpha = (-\infty, t_\alpha)$.
* Правосторонняя область: $\Omega_\alpha = (t_{1 - \alpha}, \infty)$.
* Двусторонняя область: $\Omega_\alpha = (-\infty, t_{\alpha/2}) \cup (t_{1 - \alpha/2}, \infty)$.

Отметим, что описанный выше способ проверять статистические гипотезы не даёт возможности доказать нулевую гипотезу. Мы можем лишь опровергнуть её, наткнувшись на несоответствие в данных, либо принять её. Однако, принятие нами нулевой гипотезы не говорит о том, что она верна, а лишь о том, что мы _достаточно уверены_ в том, что она верна.

__Пример 2__

Рассмотрим случайную величину, имеющую нормальное распределение с параметрами $a = 10$ и $\sigma = 1$, однако, для иллюстрации метода предположим, что параметр $a$ нам неизвестен. Допустим, на основании каких-то данных мы выдвинули нулевую гипотезу, что $a = 9.8$. Необходимо проверить эту гипотезу на выборке размера 100.



In [1]:
import numpy as np

In [2]:
n = 100

samples = np.random.normal(10, 1, size=n)

print(samples)

[ 9.66729899  9.5871216   8.73237869  9.48797517  9.15391504 10.07131623
 11.68632817  9.54981157  9.55737662  9.58629312  9.26566078 10.01038007
  9.91187328 10.12127472  8.2640062  10.10664065 11.88130221  8.34994079
 10.37492001 12.01514459 10.23199511 11.36449179  8.64743047 12.47230543
 10.17111883  7.30168716  9.80698107  9.30314196  8.63912568  9.33324583
 10.06695455 10.1925707  11.28393912  9.73045926 10.76303761  9.42609322
 11.95857857 11.80270162  9.1738702  10.75873842 10.5021966   8.91849966
 11.00936735  9.90143789  9.38111543 10.68697106  9.74300024 11.03094524
 10.11889505  8.80996769 10.90064356  9.91042812  8.14002549 12.43251766
 11.24876789 10.4165813   9.68419993  9.49128373 10.4880907  10.49775759
 10.98427472  9.85075125  7.57562743 10.42983454 10.6767868   9.6874883
  9.66486393  9.98941189 11.39010085 10.52257431 10.05017667  8.95471479
  9.94313313 11.79296331 10.5403884  10.05031441  8.87628595  9.47463245
  9.25192753  9.60097953 10.04521145  9.95475958 10.

Чтобы проверить эту гипотезу, во-первых, нужно задать некоторую функцию от выборки $T$. В качестве такой функции возьмём выборочное среднее:

$$T(X) = \dfrac{1}{n} \displaystyle\sum_{i = 1}^n x_i,$$
где $X = (x_1, x_2, \dots, x_n)$. Поскольку наша гипотеза заключается в том, что рассматриваемая случайная величина имеет нормальное распределение с параметрами $a = 9.8$ и $\sigma = 1$, случайная величина $T$ будет также иметь нормальное распределение с параметрами $a = 9.8$ и $\sigma = \dfrac{1}{\sqrt{n}}$.

Во-вторых, нужно задать уровень значимости $\alpha$. Возьмём $\alpha = 0.05$.

Далее, нужно определить критическую область. Она представляет собой множество значений $\Omega_\alpha$ случайной величины $T$, такое, что вероятность для случайной величины $T$ попасть в множество $\Omega_\alpha$, равно $\alpha$. Поскольку величина $T$ распределена нормально, можно воспользоваться правилом двух сигм: значения величины $T$ с вероятностью 0.95 попадают в интервал

$$\left( 9.8 - \dfrac{2}{\sqrt{n}}, 9.8 + \dfrac{2}{\sqrt{n}} \right).$$

Поэтому для нашего выбора $\alpha$ подойдёт двусторонняя критическая область

$$\left( - \infty, 9.8 - \dfrac{2}{\sqrt{n}} \right) \cup \left( 9.8 + \dfrac{2}{\sqrt{n}}, \infty \right).$$

Теперь остаётся лишь взять конкретную выборку для рассматриваемой случайной величины, посчитать для неё значение функции $T$ и проверить, содержится ли оно в критической области. 

Рассмотрим выборку размера 100. Тогда критическая область будет иметь вид

$$\left( - \infty, 9.6 \right) \cup \left( 10, \infty \right).$$

Проводим статистический тест: берём нашу выборку `samples` (она взята из нормального распределения с параметрами $a = 10$ и $\sigma = 1$) и вычисляем от неё выборочное среднее.

Если это значение попало в критическую область, то гипотеза $H_0$ отвергается в пользу гипотезы $H_1$. Если же это значение не попадает в критическую область, то гипотеза $H_0$ остаётся в силе.

In [3]:
samples.mean()

10.026549005564009

### Доверительные интервалы

Ранее мы познакомились со способами оценивать параметры распределения по выборке. Всё это были __точечные__ оценки, т.е. мы оценивали параметр каким-то единственным числом.  В случае, когда оценка ведётся по выборке небольшого размера, оценивать параметры лучше с помощью доверительных интервалов. 

__Доверительный интервал__ — это интервал, который с некоторой уверенностью (заданной заранее) содержит значение оцениваемого параметра.

Допустим, задано число $p$, называемое __уровнем доверия__. Тогда доверительным интервалом для параметра $\theta$ называется пара статистик $L$ и $U$, таких, что

$$P(L \leq \theta \leq U) = p.$$

Для нахождения доверительного интервала для математического ожидания часто пользуются центральной предельной теоремой и правилом двух или трёх сигм.

__Пример 3__

Рассмотрим выборку размера 50 из распределения Пуассона с параметром $a = 5$.

In [6]:
n = 50

samples = np.random.poisson(5, size=n)

print(samples)

[3 7 3 3 4 5 2 4 4 6 4 8 5 4 7 4 6 6 5 6 5 4 2 6 5 2 8 4 4 4 6 8 5 2 4 6 5
 7 5 3 6 3 5 5 3 5 5 4 3 6]


Математическое ожидание этого распределения можно оценить, используя выборочное среднее:

In [7]:
m = samples.mean()
m

4.72

Попробуем проверить, насколько вероятна такая оценка. Допустим, мы знаем, что данная выборка берётся из распределения Пуассона, но не знаем, чему равен параметр $a$. Тем не менее, мы знаем, что для распределения Пуассона математическое ожидание и дисперсия равны $a$. Кроме того, из центральной предельной теоремы мы знаем, что распределение выборочного среднего достаточно похоже на нормальное распределение с параметрами $a = M(X)$ и $\sigma = \sqrt{\dfrac{D(X)}{n}}$.

Математическое ожидание и дисперсию можно теперь оценить, используя выборочное среднее `m`. Доверительный интервал:

In [8]:
(m - 2 * np.sqrt(m / n), m + 2 * np.sqrt(m / n))

(4.105508340170511, 5.334491659829489)

Т.е. с вероятностью 0.95 реальное значение параметра $a$ лежит где-то в этом интервале.

Отдельного внимания заслуживает ситуация, когда строится доверительный интервал для математического ожидания нормально распределённой случайной величины с неизвестной дисперсией. 

В таком случае можно использовать __t-распределение__. Пусть дана выборка $X$ из нормального распределения. Обозначим через $\overline{X}$ её выборочное среднее, а через $S$ — несмещённое среднее квадратическое отклонение. Тогда

$$
P \left( 
\overline{X} - t_{1 - \alpha/2, \: n - 1} \cdot \dfrac{S}{\sqrt{n}} 
\leq M(X) \leq
\overline{X} + t_{1 - \alpha/2, \: n - 1} \cdot \dfrac{S}{\sqrt{n}} 
\right) = 1 - \alpha.
$$

Здесь $t_{1 - \alpha/2, \: n - 1}$ — [квантиль](https://ru.wikipedia.org/wiki/%D0%9A%D0%B2%D0%B0%D0%BD%D1%82%D0%B8%D0%BB%D0%B8_%D1%80%D0%B0%D1%81%D0%BF%D1%80%D0%B5%D0%B4%D0%B5%D0%BB%D0%B5%D0%BD%D0%B8%D1%8F_%D0%A1%D1%82%D1%8C%D1%8E%D0%B4%D0%B5%D0%BD%D1%82%D0%B0)  t-распределения.

__Пример 4__

Дана выборка из 10 значений случайной величины $X$:

$$6.9, \: 6.1, \: 6.2, \: 6.8, \: 7.5, \: 6.3, \: 6.4, \: 6.9, \: 6.7, \: 6.1$$

Предполагая, что случайная величина $X$ распределена нормально, построим доверительный интервал для $M(X)$ с доверительной вероятностью 0,95. Для этого воспользуемся t-распределением.

Найдём среднее и несмещённую оценку для среднего квадратического отклонения:

In [9]:
samples = np.array([6.9, 6.1, 6.2, 6.8, 7.5, 6.3, 6.4, 6.9, 6.7, 6.1])

In [10]:
n = 10

m = samples.mean()
s = samples.std(ddof=1)

Нужный нам квантиль $t_{1 - \alpha/2, \: n - 1}$ можно найти, например, [здесь](https://ru.wikipedia.org/wiki/%D0%9A%D0%B2%D0%B0%D0%BD%D1%82%D0%B8%D0%BB%D0%B8_%D1%80%D0%B0%D1%81%D0%BF%D1%80%D0%B5%D0%B4%D0%B5%D0%BB%D0%B5%D0%BD%D0%B8%D1%8F_%D0%A1%D1%82%D1%8C%D1%8E%D0%B4%D0%B5%D0%BD%D1%82%D0%B0).
В нашем случае он равен $2.2622$.

In [11]:
t = 2.2622

Итак, доверительный интервал:

In [12]:
(m - t * s / np.sqrt(n), m + t * s / np.sqrt(n))

(6.267509744706053, 6.912490255293949)

In [13]:
from scipy import stats

In [14]:
t = stats.t(9)

In [15]:
t.cdf(2.2622)

0.9750017503417443

### A/B тестирование

__A/B тестирование__ (или _сплит-тестирование_) — маркетинговый метод, который используется для оценки эффективности веб-страниц и управления ими.

При A/В тестировании сравнивают страницы `A` и `B`, имеющие разные элементы дизайна (например, цвета кнопки заказа товара). На каждую страницу случайным образом запускают 50% аудитории сайта и затем сравнивают, какая страница показывает наибольший процент конверсии.

__Пример 4__

Допустим, у нас есть интернет-магазин. Целевая страница этого магазина имеет _коэффициент конверсии_ 2% (т.е. в 2% случаев посещение страницы пользователем заканчивается совершением покупки). 

Специалист хочет увеличить эту цифру до 4%. Он предполагает, что изменение дизайна страницы повысит конверсию. К примеру, он думает, что следует изменить цвет кнопки покупки товара с нейтрального синего на агрессивный красный, и это сделает дизайн более ярким и приведет к повышению конверсии. 

Чтобы проверить, маркетолог создает новую версию веб-страницы `B`, которая отличается от оригинальной страницы `A` лишь тем, что цвет кнопки покупки товара не синий, а красный. Затем, используя инструменты сплит-тестирования, специалист случайным образом делит трафик между страницами `А` и `В` на две приблизительно равные части. При этом одна половина посетителей попадает на страницу `A`, а вторая — на `B`.

За нулевую гипотезу здесь берётся предположение, что конверсия на странице `B` не отличается от конверсии на странице `A`. Соответственно, обратное утверждение берётся за альтернативную гипотезу.