# Построение доверительных интервалов и уровень значимости

Зачастую исследовать всю генеральную совокупность не представляется возможным, а в рамках исследования есть доступ только к одной выборке, и для оценки среднего ГС используются доверительные интервалы.

μ ± 1.96se — интервал такой ширины, что при многократном повторении эксперимента в 95% из полученных интервалов будет среднее ГС

μ ± 2.58se — более широкий интервал (99%)

Если мы рассчитали 95% доверительный интервал для среднего значения, то это значит, что:
* мы можем быть на 95% уверены, что среднее значение в генеральной совокупности принадлежит рассчитанному доверительному интервалу;
* если многократно повторять эксперимент, для каждой выборки рассчитывать свой доверительный интервал, то в 95 % случаев истинное среднее будет находиться внутри доверительного интервала.

### Например:

В среднем пользователь пользуется приложением 20 раз в день. После введения нового функционала в приложение и тестов на группе пользователей (N=64), среднее количество использования приложения изменилось и составляет 18.5 раз со стандартным отклонением 4.

Наша нулевая гипотеза $H_0$ — ничего не поменялось, результат случайный. Наша альтернативная гипотеза $H_1$ — изменение значимо, пользователи стали реже пользоваться приложением.

Если верна $H_0$, то в соответствии с ЦПТ выборочные средние распределились бы нормально вокруг среднего ГС (пока что мы думаем, что оно 20) со стандартным отклонением (стандартной ошибкой среднего) se = 4 / $\sqrt{64}$ = 0.5

Сделаем z-преобразование, чтобы посчитать, насколько наше выборочное среднее (18.5) отклонилось от среднего ГС (20) в единицах стандартного отклонения.

Z = $\frac{18.5 - 20}{0.5}$ = -3

Если бы среднее в ГС было равно 20, то наше выборочное среднее находилось бы от него в 3 стандартных отклонениях в левую сторону.

Считаем вероятность такого (-3 или 3) или еще более сильного отклонения (>-3 или 3<) с помощью [калькулятора](https://gallery.shinyapps.io/dist_calc/). Получаем p = 0.0027 (p-уровень значимости).

<img src='./images/1.3_p_value.png'></img>

### p-уровень значимости

**p-уровень значимости** - это вероятность получить такие или более выраженные различия при условии, что в генеральной совокупности никаких различий на самом деле нет.

Чем меньше p-значение, тем больше оснований отклонить нулевую гипотезу. Классические пороги для отклонения нулевой гипотезы равны 0.05 или 0.01 (более строгий вариант).

Вывод: в нашем случае видно статистически значимое ухудшение приложения. При этом ероятность того, что новый функционал не ухудшил показатели приложения и вероятность того, что полученный результат является случайным равна 0.27%.

**Важно:**
* p-уровень значимости не говорит о силе эффекта (напр., пользователи стали пользоваться приложением меньше в N раз)
* eсли получили уровень значимости выше порога – это не значит, что нулевая гипотеза верна. Просто такой уровень значимости не позволяет нам её отклонить.

In [8]:
# Возвращаем верхний и нижний уровни доверительного интервала

import numpy as np, scipy.stats as st
import statsmodels.stats.api as sms

a = range(100)

# первый способ
st.t.interval(0.95, len(a)-1, loc=np.mean(a), scale=st.sem(a))

# второй способ
sms.DescrStatsW(a).tconfint_mean()

(43.74349058328968, 55.25650941671032)

# Ошибки первого и второго рода

**Ошибка 1 рода (False positive)**: отклонили нулевую гипотезу, хотя она была верна (сказали, что есть эффект, когда на деле его нет,  false alarm).

**Ошибка 2 рода (False negative)**: не отклонили нулевую гипотезу, хотя верна была альтернативная (говорим, что нет эффекта, когда на самом деле он есть).

<img src='./images/1.3_errors.png'></img>