# Урок 5

## Проверка статистических гипотез. Доверительные интервалы. A/B-тестирование

__Статистическая гипотеза__ — предположение о виде распределения и свойствах случайной величины, которое можно подтвердить или опровергнуть.

На практике обычно требуется проверить какую-то конкретную гипотезу $H_0$. Такую гипотезу принято называть __нулевой__. Нулевая гипотеза считается истинной, пока не доказано обратное. Параллельно рассматривается противоречащая ей гипотеза $H_1$, называемая __альтернативной__ или _конкурирующей_.

__Пример 1__

Дана выборка из нормального распределения с неизвестным параметром $a$ и известным параметром $\sigma = 1$. В качестве нулевой гипотезы $H_0$ можно взять гипотезу о том, что параметр $a$ равен какой-то конкретной константе. 

В качестве альтернативной гипотезы $H_1$ можно взять гипотезу о том, что параметр $a$ не равен этой константе или что он меньше/больше этой константы.

### Проверка гипотез

Задача проверки гипотез в том, чтобы проверить, случайно ли отклонение результатов измерения. Если отличия результатов измерения от значений, соответствующих нулевой гипотезе, признаются _незначительными_, нулевая гипотеза остается в силе. Если же результаты измерения _значительно_ отличаются от того, что утверждается в нулевой гипотезе, то принимают альтернативную.

__Этапы проверки гипотез__

1. Формулируются нулевая и альтернативная гипотезы.
2. Задаётся некоторая __статистика__ (функция от выборки) $T$, для которой в условиях справедливости нулевой гипотезы $H_0$ {\it известна функция распределения} $F_T(x) = P(T < x)$.
3. Фиксируется __уровень значимости__ $\alpha$ — допустимая для данной задачи вероятность _ошибки первого рода_ (чаще всего $0.01$, $0.05$ или $0.1$).
4. Определяется __критическая область__ $\Omega_\alpha$, такая, что $P(T \in \Omega_\alpha | H_0) = \alpha$.
5. Проводится __статистический тест__: для конкретной выборки $X$ считается значение $T(X)$, и если оно принадлежит $\Omega_\alpha$, то заключаем, что данные противоречат гипотезе $H_0$, и принимается гипотеза $H_1$.

Ошибки первого и второго рода возникают в задачах, в которых требуется определить, произошло какое-то событие или нет.

__Ошибка первого рода__ (т.н. __false positive__) соответствует ситуации, когда было определено, что событие произошло, тогда как реально оно не произошло.

__Ошибка второго рода__ (т.н. __false negative__) — обратная ситуация: мы определили, что событие не произошло, а реально оно произошло.

В контексте проверки статистических гипотез ошибкой первого рода называются ситуации, когда нулевая гипотеза $H_0$ была отвергнута, тогда как в реальности она верна. В свою очередь, ошибка второго рода заключается в том, что нулевая гипотеза ложна, но отвергнута не была.

Низкие значения уровня значимости $\alpha$ уменьшают вероятность совершить ошибку первого рода, однако, вместе с тем увеличивают вероятность совершить ошибку второго рода (т.е. не отвергнуть ложную нулевую гипотезу).

Разберёмся, что представляет из себя критическая область и как она строится. Итак, мы зафиксировали статистику $T$, имеющую функцию распределения $F_T(x) = P(T < x)$ (в предположении, что верна нулевая гипотеза), и уровень значимости $\alpha$. Обозначим через $t_\alpha$ квантиль порядка $\alpha$, т.е. значение, для которого $F_T(t_\alpha) = \alpha$.

На практике, как правило, используются функции T с _унимодальной_ (имеющей форму пика) плотностью распределения. __Критические области__ — наименее вероятные значения функции $T$ — соответствуют «хвостам» этого распределения. Поэтому чаще всего возникают критические области одного из трёх типов:
* Левосторонняя область: $\Omega_\alpha = (-\infty, t_\alpha)$.
* Правосторонняя область: $\Omega_\alpha = (t_{1 - \alpha}, \infty)$.
* Двусторонняя область: $\Omega_\alpha = (-\infty, t_{\alpha/2}) \cup (t_{1 - \alpha/2}, \infty)$.

__Пример 2__

Рассмотрим случайную величину, имеющую нормальное распределение с параметрами $a = 10$ и $\sigma = 1$, однако, для иллюстрации метода предположим, что параметр $a$ нам неизвестен. Допустим, на основании каких-то данных мы выдвинули нулевую гипотезу, что $a = 9.8$. Необходимо проверить эту гипотезу на выборке размера $100$.

In [2]:
import numpy as np
from scipy import stats

In [12]:
n = 100

samples = np.random.normal(10, 1, size=n)

print(samples)

[12.11214172  8.78989363  9.90697547 10.29657728 10.85360081 11.58937613
 10.78839109 10.58899695 12.17400198  8.33369201 11.99616061 11.67183599
 10.53549117  9.53728459 10.46097569 10.90455172 10.60774015  9.83292484
  9.65882527 10.42958913  9.9104879   9.41504245 10.32687154  9.64080077
 10.88717403  9.99754148  9.8593667   8.40134545  8.79779877  9.39719293
  8.84505502  9.64399529 10.14306815 11.26563826  9.89519128  9.12836921
 10.6409346  10.77886421  8.43844485  8.8834277  12.2040759   9.70326625
 10.22985252 10.57727708 10.29575096  8.17845942 10.12236162 10.34051773
 10.54121447 10.56357152 12.41279126  9.30502217  9.16300887  9.54646485
  9.31600884  8.62174951 10.89215702  9.33757593  8.94621873 10.31277841
 10.01007003 10.17309244 10.64716758  9.60745955 11.19004319  9.36241256
  7.90085848  8.32244473 11.99005893  9.49543511  9.09059122  9.55487024
  8.67811074  9.4375953  10.04528032  8.2900808  11.40824142  9.10536816
 10.93717461  8.53610841 10.18493981  9.76988591 10

Чтобы проверить эту гипотезу, во-первых, нужно задать некоторую функцию от выборки $T$. Когда проверяются гипотезы относительно математического ожидания нормально распределённой случайной величины с известной дисперсией, используется следующая статистика:
$$T(X) = \dfrac{\overline{X} - a}{\sigma / \sqrt{n}},$$
где $a$ — утверждаемое нулевой гипотезой значение математического ожидания, $\sigma$ — известное среднее квадратическое отклонение, $n$ — количество элементов в выборке. В условиях, сформулированных выше, и при условии верности гипотезы $H_0$, статистика $T$ имеет стандартное нормальное распределение (нормальное распределение с параметрами $a = 0$, $\sigma = 1$).

В нашем случае статистика имеет вид:
$$T(X) = \dfrac{\overline{X} - 9.8}{1 / 10} = 10 \cdot (\overline{X} - 9.8).$$

Во-вторых, нужно задать уровень значимости $\alpha$. Возьмём $\alpha = 0.05$.

Далее, нужно определить критическую область. Она представляет собой множество значений $\Omega_\alpha$ случайной величины $T$, такое, что вероятность для случайной величины $T$ попасть в множество $\Omega_\alpha$, равно $\alpha$. Поскольку величина $T$ имеет стандартное нормальное распределение, используем двухстороннюю область:
$$\Omega_\alpha = (-\infty, t_{\alpha/2}) \cup (t_{1 - \alpha/2}, \infty).$$
Здесь $t_{\alpha/2}$ и $t_{1 - \alpha/2}$ — квантили стандартного распределения. Ранее мы уже отмечали, что для стандартного распределения и для уровня значимости $\alpha = 0.05$ эти квантили равны $-2$ и $2$ (см. задание 4 к уроку 4). Итак, критическая область:

$$\Omega_\alpha = (-\infty, -2) \cup (2, \infty).$$

Теперь остаётся лишь взять конкретную выборку для рассматриваемой случайной величины, посчитать для неё значение функции $T$ и проверить, содержится ли оно в критической области. 

Проводим статистический тест: берём нашу выборку `samples` и вычисляем от неё значение статистики $T$.

Если это значение попало в критическую область, то гипотеза $H_0$ отвергается в пользу гипотезы $H_1$. Если же это значение не попадает в критическую область, то гипотеза $H_0$ остаётся в силе.

In [13]:
mean = samples.mean()
mean

10.042212494760003

In [14]:
T = 10 * (mean - 9.8)
T

2.4221249476000217

_Замечание 1_. Для иных уровней значимости (при которых воспользоваться правилом двух или трёх сигм не удаётся), можно воспользоваться таблицей квантилей стандартного нормального распределения (например, [здесь](https://ru.wikipedia.org/wiki/Квантиль#Квантили_стандартного_нормального_распределения)), или же использовать функцию `norm.ppf` из модуля `scipy.stats`.

In [17]:
alpha = 0.05

stats.norm.ppf(1 - alpha / 2)

1.959963984540054

In [18]:
stats.norm.cdf(1.959963984540054)

0.975

__t-распределение__

В случае, когда проверяются гипотезы относительно математического ожидания нормально распределённой случайной величины __с неизвестной дисперсией__, нужно использовать другую статистику, а именно __t-статистику Стьюдента__.

Пусть нулевая гипотеза $H_0$ о некоторой нормально распределённой случайной величине $X$ заключается в том, что $M(X) = a$. Рассмотрим статистику
$$T(X) = \dfrac{\overline{X} - a}{\sigma_X / \sqrt{n}},$$
где $\sigma_X$ — несмещённая оценка среднего квадратического отклонения. В предположении, что гипотеза $H_0$ верна, статистика $T$ имеет __t-распределение Стьюдента $t(n - 1)$__.

Для построения критической области для t-распределения можно также воспользоваться либо [таблицей](https://ru.wikipedia.org/wiki/%D0%9A%D0%B2%D0%B0%D0%BD%D1%82%D0%B8%D0%BB%D0%B8_%D1%80%D0%B0%D1%81%D0%BF%D1%80%D0%B5%D0%B4%D0%B5%D0%BB%D0%B5%D0%BD%D0%B8%D1%8F_%D0%A1%D1%82%D1%8C%D1%8E%D0%B4%D0%B5%D0%BD%D1%82%D0%B0) квантилей, либо функцией `t.ppf` из модуля `scipy.stats`. Поскольку t-распределение симметрично, двухсторонняя критическая область для уровня значимости $\alpha$ будет иметь вид:
$$\Omega_\alpha = \left( -\infty, - t_{1 - \alpha/2, \: n - 1} \right) \cup \left( t_{1 - \alpha/2, \: n - 1}, \infty \right).$$

Как правило, для каждого случая (в зависимости от того, какой параметр мы оцениваем, какое распределение и что известно) статистика $T$ подбирается отдельно. Приведённые выше статистики подходят для проверки гипотез о математическом ожидании нормально распределённой случайной величины.

Если необходимо проверить гипотезу относительно дисперсии нормально распределённой случайной величины, можно воспользоваться статистиками из [этой статьи](https://ru.wikipedia.org/wiki/%D0%94%D0%BE%D0%B2%D0%B5%D1%80%D0%B8%D1%82%D0%B5%D0%BB%D1%8C%D0%BD%D1%8B%D0%B9_%D0%B8%D0%BD%D1%82%D0%B5%D1%80%D0%B2%D0%B0%D0%BB_%D0%B4%D0%BB%D1%8F_%D0%B4%D0%B8%D1%81%D0%BF%D0%B5%D1%80%D1%81%D0%B8%D0%B8_%D0%BD%D0%BE%D1%80%D0%BC%D0%B0%D0%BB%D1%8C%D0%BD%D0%BE%D0%B9_%D0%B2%D1%8B%D0%B1%D0%BE%D1%80%D0%BA%D0%B8). Такой подход использует _распределение хи-квадрат_.

Для большинства других распределений соответствующие статистики _не разработаны_. В таких случаях иногда можно проводить статистические тесты с помощью центральной предельной теоремы, однако, только лишь с некоторой погрешностью.

_Замечание 2_. Отметим, что описанный выше способ проверять статистические гипотезы не даёт возможности доказать нулевую гипотезу. Мы можем лишь опровергнуть её, наткнувшись на несоответствие в данных, либо принять её. Однако, принятие нами нулевой гипотезы не говорит о том, что она верна, а лишь о том, что мы _достаточно уверены_ в том, что она верна.

### Доверительные интервалы

Ранее мы познакомились со способами оценивать параметры распределения по выборке. Всё это были __точечные__ оценки, т.е. мы оценивали параметр каким-то единственным числом.  Интересно было бы узнать, насколько мы можем доверять этой оценке, т.е. насколько вероятно, что реальное значение оцениваемого параметра находится где-то поблизости. 

__Доверительный интервал__ — это интервал, который с некоторой уверенностью (заданной заранее) содержит значение оцениваемого параметра.

Допустим, задано число $p$, называемое __уровнем доверия__. Тогда доверительным интервалом для параметра $\theta$ называется пара статистик $L$ и $U$, таких, что

$$P(L \leq \theta \leq U) = p.$$

Если рассматриваемая случайная величина имеет нормальное распределение, то доверительный интервал для математического ожидания можно построить с помощью квантилей стандартного распределения (если дисперсия известна) или t-распределения (если дисперсия неизвестна).

Разберёмся, как это сделать. Рассмотрим использованную выше статистику
$$T(X) = \dfrac{\overline{X} - a}{\sigma / \sqrt{n}},$$
где $\sigma$ — известный параметр среднего квадратического отклонения. Статистика $T$ имеет стандартное распределение. Допустим, нас интересует симметричный доверительный интервал с уровнем доверия $p = 1 - \alpha$. Тогда доверительный интервал для $T$ можно получить с помощью соответствующих квантилей:
$$P(- t_{1 - \alpha / 2} \leq T \leq t_{1 - \alpha / 2}) = p.$$

Преобразуем выражения в скобках и получим доверительный интервал для параметра $a$:
$$
P \left(
    \overline{X} - t_{1 - \alpha / 2} \cdot \dfrac{\sigma}{\sqrt{n}}
    \leq a \leq 
    \overline{X} + t_{1 - \alpha / 2} \cdot \dfrac{\sigma}{\sqrt{n}}
\right) = p.
$$

Для случая неизвестной дисперсии мы можем получить аналогичное выражение с помощью t-статистики Стьюдента
$$T = \dfrac{\overline{X} - a}{\sigma_X / \sqrt{n}},$$

Доверительный интервал:
$$
P \left( 
    \overline{X} - t_{1 - \alpha/2, \: n - 1} \cdot \dfrac{\sigma_X}{\sqrt{n}} 
    \leq a \leq
    \overline{X} + t_{1 - \alpha/2, \: n - 1} \cdot \dfrac{\sigma_X}{\sqrt{n}} 
\right) = p.
$$

__Пример 4__

Дана выборка из $10$ значений случайной величины $X$:

$$6.9, \: 6.1, \: 6.2, \: 6.8, \: 7.5, \: 6.3, \: 6.4, \: 6.9, \: 6.7, \: 6.1$$

Предполагая, что случайная величина $X$ распределена нормально, построим доверительный интервал для $M(X)$ с доверительной вероятностью $0.95$. Для этого воспользуемся t-распределением.

Найдём среднее и несмещённую оценку для среднего квадратического отклонения:

In [19]:
samples = np.array([6.9, 6.1, 6.2, 6.8, 7.5, 6.3, 6.4, 6.9, 6.7, 6.1])

In [20]:
n = samples.shape[0]

mean = samples.mean()
std = samples.std(ddof=1)

n, mean, std

(10, 6.590000000000001, 0.4508017549014448)

Нужный нам квантиль $t_{1 - \alpha/2, \: n - 1}$ можно найти, например, [здесь](https://ru.wikipedia.org/wiki/%D0%9A%D0%B2%D0%B0%D0%BD%D1%82%D0%B8%D0%BB%D0%B8_%D1%80%D0%B0%D1%81%D0%BF%D1%80%D0%B5%D0%B4%D0%B5%D0%BB%D0%B5%D0%BD%D0%B8%D1%8F_%D0%A1%D1%82%D1%8C%D1%8E%D0%B4%D0%B5%D0%BD%D1%82%D0%B0).
В нашем случае он равен $2.2622$.

In [21]:
t = 2.2622

Либо с помощью `scipy`:

In [22]:
alpha = 0.05

t = stats.t.ppf(1 - alpha / 2, df=n - 1)
t

2.2621571627409915

Здесь параметр `df` отвечает за число степеней свободы $n - 1$.

Итак, доверительный интервал:

In [23]:
(mean - t * std / np.sqrt(n), mean + t * std / np.sqrt(n))

(6.267515851415713, 6.912484148584288)

Доверительные интервалы для дисперсии нормальной величины строятся с помощью _распределения хи-квадрат_. Как это делается, описано, например, [здесь](https://ru.wikipedia.org/wiki/%D0%94%D0%BE%D0%B2%D0%B5%D1%80%D0%B8%D1%82%D0%B5%D0%BB%D1%8C%D0%BD%D1%8B%D0%B9_%D0%B8%D0%BD%D1%82%D0%B5%D1%80%D0%B2%D0%B0%D0%BB_%D0%B4%D0%BB%D1%8F_%D0%B4%D0%B8%D1%81%D0%BF%D0%B5%D1%80%D1%81%D0%B8%D0%B8_%D0%BD%D0%BE%D1%80%D0%BC%D0%B0%D0%BB%D1%8C%D0%BD%D0%BE%D0%B9_%D0%B2%D1%8B%D0%B1%D0%BE%D1%80%D0%BA%D0%B8).

Как и в случае со статистическими тестами, для большинства иных распределений доверительные интервалы можно иногда построить с помощью центральной предельной теоремы, однако, лишь с некоторой погрешностью.

__Пример 3__

Рассмотрим выборку размера $50$ из распределения Пуассона с параметром $a = 5$.

In [24]:
n = 50

samples = np.random.poisson(5, size=n)

print(samples)

[5 6 3 8 5 4 7 5 5 3 5 9 5 3 2 5 7 7 1 5 1 5 3 3 6 7 8 4 3 7 9 5 7 4 5 4 4
 8 6 9 6 5 3 5 4 9 2 8 3 7]


Математическое ожидание этого распределения можно оценить, используя выборочное среднее:

In [25]:
mean = samples.mean()
mean

5.2

Попробуем проверить, насколько вероятна такая оценка. Допустим, мы знаем, что данная выборка берётся из распределения Пуассона, но не знаем, чему равен параметр $a$. Тем не менее, мы знаем, что для распределения Пуассона математическое ожидание и дисперсия равны $a$. Кроме того, из центральной предельной теоремы мы знаем, что распределение выборочного среднего достаточно похоже на нормальное распределение с параметрами $a = M(X)$ и $\sigma = \sqrt{\dfrac{D(X)}{n}}$.

Математическое ожидание и дисперсию можно теперь оценить, используя выборочное среднее `mean`. Зафиксируем теперь уровень доверия $p = 0.95$. Тогда доверительный интервал:

In [26]:
(mean - 2 * np.sqrt(mean / n), mean + 2 * np.sqrt(mean / n))

(4.555019380136116, 5.844980619863884)

Т.е. с вероятностью $0.95$ реальное значение параметра $a$ лежит где-то в этом интервале.

Отметим, что доверительные интервалы _по сути_ несут ту же информацию, что и критические области при проведении статистических тестов. Рассуждение при проверке статистических гипотез:

<center>
    <div style="width: 50%">
        <center>
            В соответствии с гипотезой $H_0$, данный параметр равен $a$. Значит, если гипотеза верна, то вероятность того, что оценка данного параметра будет <i>слишком далеко</i>, равна $\alpha$.
        </center>
    </div>
</center>

<br>

Рассуждение при построении доверительных интервалов:

<center>
    <div style="width: 50%">
        <center>
            Оценка данного параметра равна $\overline{a}$, значит, реальный параметр должен быть <i>не слишком далеко</i> с вероятностью $p$.
        </center>
    </div>
</center>

### A/B-тестирование

__A/B-тестирование__ (или _сплит-тестирование_) — маркетинговый метод, который используется для оценки эффективности веб-страниц и управления ими.

При A/В-тестировании сравнивают страницы A и B, имеющие разные элементы дизайна (например, цвета кнопки заказа товара). На каждую страницу случайным образом запускают $50\%$ аудитории сайта и затем сравнивают, какая страница показывает наибольший процент конверсии.

__Пример 4__

Допустим, у нас есть интернет-магазин. Целевая страница этого магазина имеет _коэффициент конверсии_ $2\%$ (т.е. в $2\%$ случаев посещение страницы пользователем заканчивается совершением покупки). 

Специалист хочет увеличить эту цифру до $4\%$. Он предполагает, что изменение дизайна страницы повысит конверсию. К примеру, он думает, что следует изменить цвет кнопки покупки товара с нейтрального синего на агрессивный красный, и это сделает дизайн более ярким и приведет к повышению конверсии. 

Чтобы проверить, маркетолог создает новую версию веб-страницы B, которая отличается от оригинальной страницы A лишь тем, что цвет кнопки покупки товара не синий, а красный. Затем, используя инструменты сплит-тестирования, специалист случайным образом делит трафик между страницами А и В на две приблизительно равные части. При этом одна половина посетителей попадает на страницу A, а вторая — на B.

За нулевую гипотезу здесь берётся предположение, что конверсия на странице B не отличается от конверсии на странице A. Соответственно, обратное утверждение берётся за альтернативную гипотезу. (Такая задача решается с помощью дисперсионного анализа, который мы рассмотрим на занятии 8.)

## Упражнения

__Задача 1__

Утверждается, что шарики для подшипников, изготовленные автоматическим станком, имеют средний диаметр 17 мм. Используя уровень значимости 0.025 и правостороннюю критическую область, проверить данную гипотезу при условии, что в выборке из 100 шариков средний диаметр оказался равным 17.5 мм, а дисперсия известна и равна 4 мм.

__Задача 2__

Известно, что генеральная совокупность распределена нормально с известным средним квадратическим отклонением 16. Найти доверительный интервал для оценки математического ожидания `a` с надёжностью 0.95, если выборочное среднее равно 80, а объём равен 256.

__Задача 3__

Продавец утверждает, что средний вес пачки печенья составляет 200 г. Из партии извлечена выборка из 10 пачек. Вес каждой пачки составляет:
```
202, 203, 199, 197, 195, 201, 200, 204, 194, 190
```
Известно, что их веса распределены нормально. Верно ли утверждение продавца, если учитывать, что уровень значимости равен 1%?