## План занятия

### 1. Введение в основные понятия:
* Нормальное распределение
* ЦПТ
* Доверительные интервалы

### Примеры
* Данные для демонстрации
* Параметрический критерий. z-критерий
* Пример расчета №1 с использованием z-критерия

### Нормальное распределение

![normal](les_8/normal_distr.png "Normal distribution")

Нормальное распределение:

* унимодально
* симметрично
* отклонения от среднего подчиняются конкретному вероятностному закону

Например: 
1. в диапазоне +- 1sigma* у нас лежит примерно 68.3% наблюдений 
2. в диапазоне +- 2sigma у нас лежит примерно 95.4% наблюдений

*sigma - стандартное отклонение

<b>Почему для нас это важно?</b> - поймем чуть позже, когда будем рассматривать параметрические критерии

### ЦПТ (центральная предельная теорема)

<b>Пример задачи</b>

Вам дают монетку и просят оценить, насколько она "честная". Т.е вас просят сравнить значение вероятности выпадения орла с теоретическим значением 0.5.

По центральной предельной теореме (https://en.wikipedia.org/wiki/Central_limit_theorem), если мы будем семплировать и считать средние, то распределение этих средних будет <b>нормальным</b> и позволит нам оценить истинное значение некоторого параметра в генеральной совокупности. 

![CLT](les_8/CPT.png "Central limit theorem")

Например, мы пытаемся оценить значение некоторого параметра по имеющейся выборке (обозначим как X). Допустим, что это вероятность выпадения орла в серии бросков одной и той же монетки (обозначим данный параметр как p). У нас схема Бернулли, зависящая от параметра p (он нам неизвестен).

![bernouli](les_8/bernouli.png "bernouli")

Мы проводим серию бросков, а затем начинаем семлировать из полученной выборки и считать долю выпавших орлов на каждом шаге (k раз). Получаем уже последовательность из k выборочных значений вероятности выпадения орла (выборочные средние). Далее строим распределение из полученных значений и оно, по мере увеличения семплов, будет все больше похоже на нормальное. 

При этом параметры такого распределения будут mu и <b>s</b>, где mu - истинное значение параметра в генеральной совокупности, а s называют стандартной ошибкой среднего (<b>SE</b> - Standard Error).

![cpt1](les_8/cpt1.png "CPT")

Здесь s - это дисперсия нашей выборки, n - размер выборки

s рассчитывается так, потому что у нас распределение Бернулли и формулы для него такие:

![bernouli2](les_8/bernouli2.png "bernouli2")

Раз уж у нас получается нормальное распределение для параметра p, то давайте снова вспомним его свойства:

![normal](les_8/normal_distr.png "Normal distribution")

Мы знаем, что 95% выборочных средних лежат в диапазоне +-2sigma (в нашем случае +-2SE)

Вспомним наш пример с монеткой. Нам нужно было оценить "честность" монетки.

Допустим, что мы провели серию из 1000 бросков монетки и получили 479 орлов и 521 решку. 

In [53]:
from scipy import stats


k, n = 479, 1000 #первое - "успехи", второе - количество испытаний
p_fair = 0.5 #теоретическое значение, с которым мы сравниваем
#посчитаем "руками"
p_emp = k/n #эмпирическое значение
se_emp = ((p_emp*(1-p_emp))**(1/2))/((n)**(1/2))

#посчитаем 99% доверительный интервал
stats.norm.interval(0.99, loc=p_emp, scale=se_emp)

(0.4383085001400261, 0.5196914998599739)

Как мы видим, теоретическое значение 0.5 попадает в данный интервал. Отсюда можно сделать вывод о том, что истинное значение p лежит в указанном интервале с вероятностью 0.99. Проще говоря, мы не можем утверждать что монетка нечестная. 

Можно и с использованием библиотеки

In [55]:
import statsmodels.api as sm

sm.stats.proportion_confint(k, n, alpha=0.01, method='normal')

(0.4270181129047394, 0.5309818870952606)

### Доверительные интервалы

Собственно, для нормального распределения мы можем взять доверительный интервал +-2SE и быть уверенными, что истинное значение параметра лежит в этом диапазоне. Можно взять и более широкий  диапазон. 

Мы можем посчитать выборочное среднее и SE по имеющимся данным легко.

Воспользуемся возможностями библиотеки statsmodels

In [47]:
sm.stats.proportion_confint(10, 20, alpha=0.05, method='normal')

(0.28086936485585456, 0.7191306351441454)

Здесь у нас 10 "успехов" в 20 испытаниях.

Если же будет 100 на 200, то диапазон уже становится уже.

In [105]:
sm.stats.proportion_confint(100, 200, alpha=0.05, method='normal')

(0.4307048087825161, 0.569295191217484)

А если, скажем, 10000 из 20000, то уже вот так

In [106]:
sm.stats.proportion_confint(10000, 20000, alpha=0.05, method='normal')

(0.4930704808782516, 0.5069295191217484)

###  Z-критерий для разности двух долей, независимые выборки

![z_score](les_8/z_score.png "Z score")

Гипотезы:

![z_score_H01](les_8/z_score_H01.png "Z score H0/H1")

Собственно, z-score

![z_score_SE](les_8/z_score_SE.png "Z score SE")

То, что в знаменателе - это уже знакомая нам SE (standard error)

Но что же нам с этим делать? Вспоминаем нормальное распределение

![z_score_SE2](les_8/z_score_next.png "Z score SE")

Т.е мы смотрим, принадлежит ли полученное z-значение нормальному распределению со средним 0 и стандартным отклонением 1. По сути мы оцениваем, принадлежит ли разность выборочных средних такому нормальному распределению. Но использовать только то, что в числителя формулы для расчета z-значения мы не можем, т.к нам необходимо учесть также разброс наших данных.

![z_score_distr](les_8/z_score_distr.png "Z score distribution")

### Примеры

Пусть у нас был проведен АБ-тест и получены такие результаты для групп А и Б

- k - успехи
- n - количество испытаний

Также заранее выберем доверительный интервал. Пусть будет 0.95

Такому интервалу соответствует z=1.96

In [57]:
import numpy as np


z_crit_value = 1.96
k1, n1 = 210, 2380
k2, n2 = 232, 2600

Посчитаем выборочные p1, p2:

In [58]:
p1, p2 = k1/n1, k2/n2
p1, p2

(0.08823529411764706, 0.08923076923076922)

Посчитаем z-score:

![z_score_SE](les_8/z_score_SE.png "Z score SE")

In [59]:
P = (p1*n1+p2*n2)/(n1+n2)
z = (p1-p2)/(P*(1-P)*(1/n1+1/n2))**(1/2)
z

-0.12338911536625437

Теперь нам нужно сравнить полученное значение по модулю с 1.96 (что соответствует доверительному интервалу 0.95). Если наше значение по модулю больше, то мы принимаем альтернативную гипотезу и утверждаем о наличии статистически значимых различий.

In [60]:
if abs(z) > z_crit_value:
    print("We may reject the null hypothesis!")
else:
    print("We have failed to reject the null hypothesis")

We have failed to reject the null hypothesis


Таким образом для данных выше мы не можем при таком доверительном интервале отвергнуть нулевую гипотезу и признать наблюдаемые различия значимыми.

#### Полезная картинка


![z_scores_normal](les_8/z_scores_normal.png "z_scores_normal")

link https://www.investopedia.com/terms/z/zscore.asp

### Выводы и пояснения о нормальности:

Благодаря центральной предельной теореме и удобству вывода критериев для нормально распределённых выборок методы, основанные на предположении о нормальности данных, наиболее широко распространены.

- Перед использованием методов, предполагающих нормальность, стоит проверить нормальность.
- Если принять предположение о нормальности, то можно применять более мощные критерии. Зачастую они также чувствительны к небольшим отклонениям от нормальности.
- Если гипотеза нормальности отвергается, следует использовать непараметрические методы.

Ист.http://www.machinelearning.ru/wiki/images/3/3b/Psad_ht_parametric.pdf

Таким образом, вышеописанный z-критерий применим не всегда и в случае, например, малых выборок мы должны делать дополнительный шаг с проверкой наших данных на нормальность. 

### Применим еще ряд критериев без погружения в детали

#### Хи-квадрат

In [61]:
import statsmodels

chisq, pvalue, table = statsmodels.stats.proportion.proportions_chisquare(np.array([k1, k2]), 
                                                   np.array([n1, n2]))

print('Results are ','chisq =%.3f, pvalue = %.3f'%(chisq, pvalue))



Results are  chisq =0.015, pvalue = 0.902


pvalue означает вероятность того, что наблюдаемые различия получились случайно. 0.902 - явно слишком высокая вероятность (побольше "стандартных" 0.01 или 0.05)

#### z-критерий, но уже воспользуемся возможностями библиотеки

In [62]:
z_score, z_pvalue = statsmodels.stats.proportion.proportions_ztest(np.array([k1, k2]), 
                                                   np.array([n1, n2]))
print('Results are ','z_score =%.3f, pvalue = %.3f'%(z_score, z_pvalue))

Results are  z_score =-0.123, pvalue = 0.902


значение критерия то же, что и у нас выше (которое мы посчитали руками)

У обычного статистического подхода есть одна (как минимум) проблема - мы не можем сказать насколько одна из групп лучше (хуже) другой.

### Домашнее задание

#### 1. Если мы рассчитали 95% доверительный интервал для среднего значения, то какие из следующих утверждений являются верными?

Выберите несколько вариантов и попытайтесь объяснить свой выбор:

1) Если многократно повторять эксперимент, то 95 % выборочных средних значений будут принадлежать рассчитанному нами доверительному интервалу.

2) Мы можем быть на 95% уверены, что среднее значение в генеральной совокупности принадлежит рассчитанному доверительному интервалу.

3) Если многократно повторять эксперимент, для каждой выборки рассчитывать свой доверительный интервал, то в 95 % случаев истинное среднее будет находиться внутри доверительного интервала.

4) Среднее значение в генеральной совокупности точно превышает нижнюю границу 95% доверительного интервала.

5) Среднее значение в генеральной совокупности точно принадлежит рассчитанному доверительному интервалу.

#### 2. Если мы увеличиваем объем выборки в два раза (при условии, что показатель стандартного отклонения остается неизменным), то 95% доверительный интервал

Выберите один вариант из списка

1) стал более узким
2) возможны оба варианта
3) стал более широким


#### 3. В центре 95% доверительного интервала, рассчитанного по выборочным значениям, находится:

Выберите один вариант из списка

1) Значение стандартной ошибки среднего
2) Выборочное среднее значение
3) Среднее значение генеральной совокупности

#### 4. Часто на практике нулевая гипотеза отклоняется, и различия считаются статистически достоверными, если p < 0,05. Однако часто в статистике используется более жесткий критерий достоверности различий, например, при условии, что p < 0,01. Значение p-уровня значимости, которое выбирается, в качестве порога обозначается буквой α (альфа). Например, если исследователь решил, что α = 0,05, то и нулевая гипотеза будет отклоняться при условии, что p < 0,05. 

#### Если в определенной ситуации весьма рискованно отклонить нулевую гипотезу, когда она на самом деле верна, то лучше использовать показатель α равный 

Выберите один вариант из списка

1) 0,1
2) 0,001
3) 0,05
4) 0,5

#### 5. Данные некоторого исследования сообщают нам, что средний рост детей в 14 лет составляет 166 сантиметров. Однако это лишь выборочная оценка, и исследователи рассчитали 95% доверительный интервал, который составил [160, 172]. Укажите верные утверждения:

Выберите несколько вариантов и попытайтесь объяснить свой выбор:

1) У нас достаточно оснований отклонить нулевую гипотезу, что среднее в генеральной совокупности равняется 173
2) Вероятность того, что истинное среднее значение больше 172, составляет 0,01
3) У нас достаточно оснований отклонить нулевую гипотезу, что среднее в генеральной совокупности равняется 158.
4) Доверительный интервал не может иметь такие границы, т. к. выборочное стандартное отклонение равняется 10, следовательно доверительный интервал должен быть значительно шире.

#### 6. Предположим, нулевой гипотезой вашего исследования являлось предположение, что конверсия в генеральной совокупности равняется 0.4. Вы получили p = 0,12 и не смогли отклонить нулевую гипотезу. Однако позже выяснилось, что конверсия в генеральной совокупности действиетльно равна 0.4. Как можно оценить результаты?


Какой вариант корректный по вашему мнению и почему?
1) Вы не совершали ни ошибку первого рода, ни ошибку второго рода.
2) Вы совершили ошибку первого рода
3) Вы совершили ошибку второго рода