# Проверка статистических гипотез

* *Введение*  
* *Минимальный пример проверки гипотезы*  
* *Сравнение групп: t-тест*
* *Проблемы интерпретации*
* *Заключение*
* *Ссылки*

### Введение

Для анализа А/Б-тестов можно использовать метод проверки статистических гипотез [[StTest](https://en.wikipedia.org/wiki/Statistical_hypothesis_testing)].   
Общая идея - предположить, что между группами нет разницы, после чего посчитать, насколько такое предположение объясняет экспериментальные данные. Если вероятность получить данные мала, то считается, что предположение можно отвергнуть, т.е. между группами есть значимая разница.  

Структура следующая: вначале обсуждается минимальный пример проверки статистической гипотезы.
Далее рассматривается сравнение двух распределений. Затем обсуждается интерпретация и сложности этого метода.

### Минимальный пример проверки статистической гипотезы

Есть экспериментальные данные $data$.  
Есть гипотеза $H$ об этих данных или их свойствах.  
Есть случайная величина $Test$, распределение которой $P_{Test|H}(x)$ в предположении $H$ известно.  
По фактическим данным считается "тестовая статистика"  $x_{fact}$ .   
Считается вероятность получить "фактическое или более экстремальное" значение "тестовой статистики" $p = P_{Test|H}(x \ge x_{fact} )$ или $p = P_{Test|H}(x \le x_{fact} )$. Т.е. $p = CDF_{Test|H}(x_{fact})$ или $p = 1 - CDF_{Test|H}(x_{fact})$ . Эту вероятность называют "p-значением" [[PVal](https://en.wikipedia.org/wiki/P-value)].  
Если вероятность "достаточно мала", гипотезу $H$ "отвергают", если "не достаточно мала" - "принимают".  

Обсуждения такого способа выбора есть в разделе "Проблемы интерпретации".

*(todo: также бывает $p = P_{Test|H}(|x - x_{fact}| \ge 0 )$ )*

Пример:
- данные: в 1000 бросках монетки в 700 случаях выпал орел.  
- гипотеза: вероятность выпадения орла 0.5   
- случайная величина с известным распределением: вероятность k успехов в N попытках при вероятности $p$ успеха в одной попытке задается биномиальным распределением $Binom(p; N, k)$  
- тестовая статистика: число успехов k=700 в общих попытках N=1000
- p-значение: вероятность получить 700 или больше успехов в 1000 попытках $\sum_{i \ge 700}Binom(0.5; 1000, i)$

Вероятность "отвергнуть гипотезу" даже если на самом деле она верна называют вероятностью ошибки первого рода [[StErrors](https://en.wikipedia.org/wiki/Type_I_and_type_II_errors)] и обозначают $\alpha$. Величину $1-\alpha$ называют статистической значимостью [[StSign](https://en.wikipedia.org/wiki/Statistical_significance)].  

Вероятность "принять гипотезу" даже если на самом деле она не верна называют вероятностью ошибки второго рода [[StErrors](https://en.wikipedia.org/wiki/Type_I_and_type_II_errors)] и обозначают $\beta$. Величину $1-\beta$ называют мощностью [[StPower](https://en.wikipedia.org/wiki/Power_of_a_test)]. 

|                    | $H_0$ выбрана               | $H_0$ отклонена              |
|--------------------|-----------------------------|------------------------------|
| **$H_0$ верна**    | Стат значимость $1-\alpha$  | Ошибка первого рода $\alpha$ |
| **$H_0$ не верна** | Ошибка второго рода $\beta$ | Мощность $1-\beta$           |

$$
\mbox{Стат значимость:} \quad P(p_{test} > p_{1 - \alpha} | H_0) = 1 - \alpha
\\
\mbox{Мощность:} \quad P(p_{test} < p_{1 - \beta} | H_1) = 1 - \beta
$$

### Сравнение групп: t-тест

Применение проверки статистических гипотез для сравнения групп.  

Допустим, есть две монетки с разными вероятностями выпадения орла (две серии Бернулли).   
Нужно выбрать монетку с большей вероятностью.  

В качестве проверяемой гипотезы выбирают равенство вероятностей в группах.  
Называют нулевой гипотезой $H_0$ [[HNull](https://en.wikipedia.org/wiki/Null_hypothesis)].    

Для сравнения групп смотрят на выборочные средние.  
В силу центральной предельной теоремы их распределение приближенно можно считать нормальным.  
Среднее совпадает со средним исходного распределения, стандартное отклонение определяется стандартной ошибкой среднего.

$$
p_{\bar{A}_n} = \frac{1}{n} \sum_i A_i
\\
E[p_{\bar{A}_n}] = E[A]
\\
s_{p_{\bar{A}_n}} = \frac{\sigma_A}{n_A} \approx \frac{s_A}{n_A}
\\
p_{\bar{A}_n} \sim Norm(p_A, \frac{\sigma_A}{n_A})
$$

Разность нормальных распределений также нормальное распределение. Поэтому разность также можно приближенно считать распределенной нормально.  

$$
p_{\Delta} = p_A - p_B
\\
p_{\Delta} \sim Norm(E[p_{\Delta}], \sigma_{\Delta})
\\
s_{\Delta} = \sqrt{s_A^2 + s_B^2}
$$

Если верна нулевая гипотеза, т.е. между группами нет разницы, то $E[p_{\Delta}] = 0$.  
$\sigma_{\Delta}$ можно оценить из сэмплов.

В качестве "случайной величины, распределение которой в предположении нулевой гипотезы известно", выбирают 

$$
z = \frac{E[p_A] - E[p_B]}{\sigma_{\Delta}}
$$

$\sigma_{\Delta}$ неизвестно, но можно оценить из сэмплов. Приближенно ее можно считать распределенной нормально. 

Более точно можно использовать величину 
$$
t = \frac{E[p_A] - E[p_B]}{s_{\Delta}}
$$

Ее распределение описывается $t$-распределением.
[[TDist](https://en.wikipedia.org/wiki/Student%27s_t-distribution)]  
[[TTest](https://en.wikipedia.org/wiki/Student's_t-test)]  

В случае выборок разного размера приближенно используют вариант с разными дисперсиями:
[[WelchTTest](https://en.wikipedia.org/wiki/Welch%27s_t-test)] 


Пусть есть данные $n_A, n_B, s_A, s_B$. 

In [None]:
p_a_exact = 0.7
p_b_exact = 0.67

n = 1000
sa = stats.binom.rvs(n, p_a_exact)
sb = stats.binom.rvs(n, p_b_exact)

p_a = sa/n
a_var = n * p_a * (1 - p_a)
a_stderr = np.sqrt(a_var) / n

p_b = sb/n
b_var = n * p_b * (1 - p_b)
b_stderr = np.sqrt(b_var) / n

x=np.linspace(0, 1, 1000)
fig = go.Figure()
fig.add_trace(go.Scatter(x=x, y=stats.norm.pdf(x, p_a, a_stderr),
                         name='A'))
fig.add_trace(go.Scatter(x=x, y=stats.norm.pdf(x, p_b, b_stderr),
                         name='B'))
fig.update_layout(
    title='Means Normal Dists for t-test'
)
fig.show()

In [None]:
def ttest_means_rawdata(a, b):
    t, p = stats.ttest_indep(a, b)
    return p
    

def compare_groups_ttest_binomial(sa, na, sb, nb):
    a_mean = sa/n
    a_var = n * a_mean * (1 - a_mean)
    a_stderr = np.sqrt(a_var) / n
    b_mean = sb/n
    b_var = n * b_mean * (1 - b_mean)
    b_stderr = np.sqrt(b_var) / n
    diff = a_mean - b_mean
    diff_stderr = np.sqrt(a_stderr**2 + b_stderr**2)
    pval = stats.norm.cdf(0, diff, diff_stderr)
    p_level = 0.95
    significant = (pval >= p_level) or (1 - pval) >= p_level
    if not significant:
        res = None
    elif significant and a_mean > b_mean:
        res = 'A'
    elif significant and b_mean > a_mean:
        res = 'B'
    return res

In [None]:
p_a_exact = 0.7
p_b_exact = 0.67

n = 1000
sa = stats.binom.rvs(n, p_a_exact)
sb = stats.binom.rvs(n, p_b_exact)

print(f'pa_exact={p_a_exact}, pb_exact={p_b_exact}')
print(f'n={n}, sa={sa}, sb={sb}')
print(f'Exact best group: {"A" if p_a_exact > p_b_exact else "B" if p_b_exact > p_a_exact else None}')
print(f'Group selected by bootstrap comparison: {compare_groups_ttest_binomial(sa, n, sb, n)}')

In [None]:
#https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.ttest_ind.html
#https://en.wikipedia.org/wiki/Welch%27s_t-test

a = np.zeros(n)
a[:sa] = 1
#print(sa)
#np.unique(a, return_counts=True)

b = np.zeros(n)
b[:sb] = 1

t, p = stats.ttest_ind(a, b, equal_var=False)#, alternative='less')
print(t,p)

p_a = sa/n
a_var = n * p_a * (1 - p_a)
a_stderr = np.sqrt(a_var) / n
p_b = sb/n
b_var = n * p_b * (1 - p_b)
b_stderr = np.sqrt(b_var) / n
diff = p_a - p_b
diff_stderr = np.sqrt(a_stderr**2 + b_stderr**2)
pval = stats.norm.cdf(0, diff, diff_stderr)
pval

Подход можно обобщить на случай случайных величин с произвольным распределением.

Есть две случайных величины с неизвестными распределениями.  
Нужно выбрать 

При проведении тестов для контроля за уровнями статистической значимости и мощности размер выборки расчитывают заранее.
Задают стат. значимость, мощность, минимальную величину эффекта, по этим значениям рассчитывают размер выборки n.  

Для $t$-тестов

$$
CDF(x_0) = 1 - \alpha
\\
CDF(\Delta - x_0) = \beta
$$

### Проблемы интерпретации

Вопросы, на которые нужно ответить при А/Б-тесте:

- Какой вариант лучше и насколько?
- Каковы оценки целевой метрики в каждом варианте?
- Насколько уверены в оценке?
- Сколько должен продолжаться эксперимент?

Проблема в том, что описанный метод "проверки статистических гипотез" не дает ответ на нужные вопросы.

Для ответа на вопросы **"Какой вариант лучше и насколько?"** и **"Насколько уверены в оценке?"** нужны, например, распределение и вероятность
$$
P(p_A - p_B)
\\
P(p_A - p_B > 0 | data)
$$

Реально считается 
$$
p = P(data | H_0) = P(data | p_A = p_B)
$$

$p$-значение нельзя интерпретировать как вероятность, что гипотеза верна [[StatTestMisinterpret](https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4877414/)].  


Для пересчета
$$
P(H_0 | data) = \frac{P(data | H_0) P(H_0)}{P(data)}
= \frac{P(data | H_0) P(H_0)}{P(data|H_0) P(H_0) + P(data| not H_0) P(not H_0) }
$$

*todo: Почему это важно? - Пример про теорему Байеса из другой области*

пациент обращается за мед помощью.   
есть симптомы - кашель, температура  
нужно поставить диагноз (далее - назначить лечение).  

интересует вероятность болезни при условии симптомов P(болезнь | симптомы).  

проверка гипотез - перебираются болезни.  
считается вероятность получить симптомы при болезни P(симптомы | болезнь).   
если вероятность достаточно большая, то болезнь "не отвергается" 


*todo: можно ли посчитать через $\alpha$, $\beta$*  

$$
P(H_0) = 
P(H_0 | выбор H_0) P(выбор H_0) + P(H_0| выбор H_1) P(выбор H_1)
\\
= (1-\alpha) P(выбор H_0) + \alpha P(выбор H_1)
$$

*todo: Можно предположить P(not H_0) = 0.7. Но как считать P(data| not H_0)*?

*todo: Можно посчитать отношение*

$$
\frac{P(H_0 | data)}{P(H_1 | data)} = \frac{P(data | H_0) P(H_0)}{P(data | H_1) P(H_1)}
$$

Допустим $P(H_0):P(H_1) = 3:7$. Все равно остается вопрос, как считать $P(data| H_1)$.  

Попытки посчитать $P(data| H_1)$ будут сдвигать весь подход в сторону байесовского моделирования.  
Проще тогда уже делать все в рамках этого моделирования. 

Вопрос **"Каковы оценки целевой метрики в каждом варианте?"** проверка гипотез формально не дает.  
При сравнении средних с помощью t-тестов для ответа обычно используются доверительные интервалы.  
В доверительных интервалах случайные величины - границы интервала, а не сам оцениваемый параметр.  
Вместо распределений
$$
P(p_A | data), P(p_B | data)
$$
строится
$$
l_n, r_n: P(l_n < \mu < r_n | data) = 1 - \alpha
$$

Завязаны на выборочные средние, поэтому зависят от $n$.  
Включают в себя сбор данных + процедуру построения.   

Частотная интерпретация - повторный запуск эксперимента.  

Могут быть технические сложности при их комбинировании - обычно делается разного рода поправками [[MultipleComp](https://en.wikipedia.org/wiki/Multiple_comparisons_problem), [FWER](https://en.wikipedia.org/wiki/Family-wise_error_rate), [Bonf](https://en.wikipedia.org/wiki/Bonferroni_correction)]. 

**"Сколько должен продолжаться эксперимент?"**

Размер выборки рассчитывают до эксперимента так, чтобы обеспечить $\alpha$ и $\beta$. 

### Ссылки

[[StTest](https://en.wikipedia.org/wiki/Statistical_hypothesis_testing)] - Statistical_hypothesis_testing  
[[PVal](https://en.wikipedia.org/wiki/P-value)] - P-value  
[[StErrors](https://en.wikipedia.org/wiki/Type_I_and_type_II_errors)] - Type_I_and_type_II_errors  
[[StSign](https://en.wikipedia.org/wiki/Statistical_significance)] - Statistical_significance  
[[StPower](https://en.wikipedia.org/wiki/Power_of_a_test)] - Power_of_a_test  
[[HNull](https://en.wikipedia.org/wiki/Null_hypothesis)] - Null_hypothesis  
[[ZScore](https://en.wikipedia.org/wiki/Standard_score)] - Standard_score  
[[ZTest](https://en.wikipedia.org/wiki/Z-test)] - Z-test  
[[TDist](https://en.wikipedia.org/wiki/Student%27s_t-distribution)] -    
[[TTest](https://en.wikipedia.org/wiki/Student's_t-test)] -    
[[WelchTTest](https://en.wikipedia.org/wiki/Welch%27s_t-test)] -  
[[StatTestMisinterpret](https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4877414/)] Statistical tests, P values, confidence intervals, and power: a guide to misinterpretations   
[[MultipleComp](https://en.wikipedia.org/wiki/Multiple_comparisons_problem)] -   
[[FWER](https://en.wikipedia.org/wiki/Family-wise_error_rate)] -  
[[Bonf](https://en.wikipedia.org/wiki/Bonferroni_correction)] -  

https://math.stackexchange.com/questions/2978617/derivation-degree-of-freedom-of-a-t-distribution

Дисперсия выборочных средних определяется стандартной ошибкой среднего

"Статистика с известным распределением": разность средних в единицах стандартного отклонения этой разности. Т.е. z-значение [[ZScore](https://en.wikipedia.org/wiki/Standard_score)]

$$
z = \frac{(p_A - p_B) - 0}{\sigma_{\Delta}} 
$$

Конструкция называется Z-тестом [[ZTest](https://en.wikipedia.org/wiki/Z-test)]

$$
\tilde{p} = \frac{1}{n} \sum_i A_i
\\
E[\tilde{p}] = E[A_i]
\\
Var(\tilde{p}) = Var(\frac{1}{n} \sum_i A_i) = \frac{1}{n^2} Var(\sum_i A_i) 
= \frac{1}{n^2} n Var(A_i) = \frac{Var(A_i)}{n^2}
\\
Var(A_i) = p(1-p)
\\
Var(\tilde{p})= \frac{p(1-p)}{n}
$$

Используется центральная предельная теорема: 

$$
\tilde{p} \sim Norm(E[\tilde{p}], Var[\tilde{p}])
$$

Распределение разности $p_{\Delta}$ считается нормальным. 

$$
p_{\Delta} = \tilde{p}_A - \tilde{p}_B
\\
E[p_{\Delta}] = E[ \tilde{p}_A - \tilde{p}_B ] = E[\tilde{p}_A] - E[\tilde{p}_B]
\\
Var[p_{\Delta}] = Var[ \tilde{p}_A - \tilde{p}_B ] = \sqrt{Var[\tilde{p}_A]^2 + Var[\tilde{p}_B]^2}
\\
p_{\Delta} \sim Norm(E[\tilde{p}_A] - E[\tilde{p}_B], \sqrt{Var[\tilde{p}_A]^2 + Var[\tilde{p}_B]^2})
$$

Для результатов:

$$
p_A = s_A / n_A, \quad p_B = s_B / n_B
\\
E[\tilde{p}_A] = p_A, E[\tilde{p}_B] = p_B
\\
E[\tilde{p}_A] - E[\tilde{p}_B] = p_A - p_B
\\
\sqrt{Var[\tilde{p}_A]^2 + Var[\tilde{p}_B]^2} = \sqrt{\frac{p_A^2(1-p_A)^2}{n_A^2} + \frac{p_B^2(1-p_B)^2}{n_B^2}}
$$

Для вычисления вероятности получить данные в рамках предположения об эквивалентности групп существует многообразие статистических тестов.

Тест Колмогорова-Смирнова  
https://en.wikipedia.org/wiki/Kolmogorov%E2%80%93Smirnov_test  

Еще пример:  
пациент обращается за мед помощью.   
есть симптомы - кашель, температура  
нужно поставить диагноз (далее - назначить лечение).  

интересует вероятность болезни при условии симптомов P(болезнь | симптомы).  

проверка гипотез - перебираются болезни.  
считается вероятность получить симптомы при болезни P(симптомы | болезнь).   
если вероятность достаточно большая, то болезнь "не отвергается"  

Для перехода к P(болезнь | симптомы) используются стат. значимости и мощности (?)

Полезно сравнить с байесовским подходом.  
Данные те же.  
Случайная величина с известным распределением - функция правдоподобия.  
Гипотеза - конкретное значение параметров.  
Тестовая статистика - аргумент в функции правдоподобия x_fact = f(data).   
p-значение: sum x L(x >= x_fact | H)  
Аналога априорного распределения нет.  
Иначе устроена интерпретация: в проверке стат. гипотез решение принимают по функции правдоподобия, в байесовском подходе пересчитывают в вероятность.  

Сложность с интерпретацией $p$-значения.  

Для оценки параметров проверка статистических гипотез обычно не используется.   
Используется метод максимального правдоподобия или другие предположения.  

Для оценки интервалов параметров используются "доверительные интервалы".  
Формально неопределенности в параметрах нет.  
Сложности с интерпретацией доверительных интервалов:  


Все давно сделано:  
https://michael-franke.github.io/BDACM_2018/scripts/01_estimation_pValues.pdf

U-тест  
https://en.wikipedia.org/wiki/Mann%E2%80%93Whitney_U_test  

### Перестановочный тест

https://en.wikipedia.org/wiki/Permutation_test  

Есть данные из двух групп.
Считаем среднее в каждой группе.
Считаем разницу.

Далее вопрос: насколько вероятно получить такую разницу если группы одинаковы?

Для ответа предполагаем, что группы значения пришли из общего распределения.
Из общего распределения сэмплим n_a значений, считаем среднее, потом n_b, также считаем среднее, считаем разницу между средними. 
Это повторяется по всем возможным комбинациям или пока не надоест. 
Строится распределение разностей средних.  
Определяется, где на этом распределении фактическое значение.  
Если оно "достаточно экстремально", группы объявляются разными.  

К перестановочным тестам применяют механику $p$-значений из проверки статистических гипотез (см. далее).  

In [None]:
a_mean = 3
b_mean = 3.1
sigma = 1
samp_a = stats.norm.rvs(loc=a_mean, scale=sigma, size=30)
samp_b = stats.norm.rvs(loc=b_mean, scale=sigma, size=30)

x = np.linspace(0, 5, 1000)

fig = go.Figure()
fig.add_trace(go.Scatter(x=x, y=stats.norm.pdf(x=x, loc=a_mean, scale=sigma)))
fig.add_trace(go.Histogram(x=samp_a))
fig.add_trace(go.Scatter(x=x, y=stats.norm.pdf(x=x, loc=b_mean, scale=sigma)))
fig.add_trace(go.Histogram(x=samp_b))
fig.show()

In [None]:
exp_info = pd.DataFrame([
    {'group':'A', 'a':1, 'b':1, 'sample_size':100},
    {'group':'B', 'a':1, 'b':1.25, 'sample_size':100}])
exp_info.set_index('group', inplace=True)

exact_dist_a = stats.gamma(a=exp_info['a']['A'], scale=1/exp_info['b']['A'])
exact_dist_b = stats.gamma(a=exp_info['a']['B'], scale=1/exp_info['b']['B'])
exp_info['exact_mean'] = pd.Series({'A': exact_dist_a.mean(), 'B':exact_dist_b.mean()})
display(exp_info)

samp_a = exact_dist_a.rvs(size=exp_info['sample_size']['A'])
samp_b = exact_dist_b.rvs(size=exp_info['sample_size']['B'])

x = np.linspace(0, 10, 2000)
ymax = np.max([exact_dist_a.pdf(x), exact_dist_b.pdf(x)])

fig = go.Figure()
col = 'red'
fig.add_trace(go.Scatter(x=x, y=exact_dist_a.pdf(x), 
                         mode='lines', line_color=col,
                         name=f"Exact A: a={exp_info['a']['A']}, b={exp_info['b']['A']}"))
fig.add_trace(go.Histogram(x=samp_a, histnorm='probability density',
                           name='Sample A',
                           opacity=0.3, marker_color=col))
fig.add_trace(go.Scatter(x=[exact_dist_a.mean(), exact_dist_a.mean()], y=[0, ymax], 
                         mode='lines', line_color=col, line_dash='dash',
                         name='Exact Mean A'))
col = 'blue'
fig.add_trace(go.Scatter(x=x, y=exact_dist_b.pdf(x), 
                         mode='lines', line_color=col,
                         name=f"Exact B: a={exp_info['a']['B']}, b={exp_info['b']['B']}"))
fig.add_trace(go.Histogram(x=samp_b, histnorm='probability density',
                           name='Sample B',
                           opacity=0.3, marker_color=col))
fig.add_trace(go.Scatter(x=[exact_dist_b.mean(), exact_dist_b.mean()], y=[0, ymax], 
                         mode='lines', line_color=col, line_dash='dash',
                         name='Exact Mean B'))
fig.update_layout(title='Exact Distributions and Samples',
                  xaxis_title='x',
                  yaxis_title='Prob Density',
                  hovermode="x",
                  height=550,
                  barmode='overlay')
fig.show()

In [None]:
pooled = np.concatenate([samp_a, samp_b])

n_resample = 10000
means_diff = np.empty(n_resample)

for i in range(n_resample):
    tmp = np.random.permutation(pooled)
    tmp_a = tmp[0:len(samp_a)]
    tmp_b = tmp[len(samp_a):]
    mean_diff = tmp_a.mean() - tmp_b.mean()
    means_diff[i] = mean_diff

#means_diff
diff_mean_fact = samp_a.mean() - samp_b.mean()

fig = go.Figure()
fig.add_trace(go.Histogram(x=means_diff, histnorm='probability density',
                           name='Means Diff',
                           opacity=0.3, marker_color=col))
fig.add_vline(x=diff_mean_fact)
fig.show()

pval = np.sum(means_diff[means_diff > diff_mean_fact]) / len(means_diff)
print(pval)

# Алгоритм оценки А/Б-тестов на основе проверки статистических гипотез

Общая идея:

Сформулировать нулевую гипотезу.
Выбрать уровень стат. значимости и мощности.

* Популяция
* Распределяем в 2 выборки
* Получаем 2 набора данных
* Считаем среднее и стандартное отклонение в каждом варианте
* считаем стандартную ошибку среднего для каждого варианта
* Предполагаем, что среднее по популяции каждого варианта находится вблизи среднего, посчитанного по выборке. 
* На основании центральной предельной теоремы сумма большого количества значений из одного распределения имеет нормальное распределение; среднее по выборке - сумма большого количества величин из одинакового распределения. На этом основании объявляем, что реальное среднее для каждого из вариантов распределено нормально вокруг среднего из выборки со стандартной ошибкой среднего [как это согласуется с частотной интерпретацей?] 
* Переходят к распределению для разницы двух величин: средние вычитаются, стандартные отклонения sqrt(s1^2 + s2^2).
* считают p-значение. Проверяют, достаточно ли оно мало для объявления стат. значимости.


Напоминалка:
https://towardsdatascience.com/the-math-behind-a-b-testing-with-example-code-part-1-of-2-7be752e1d06f


Вопросы: 2 категории - концептуальные и механика применения.

* Как интерпретировать доверительный интервал и стат. значимость?
* Как считается мощность? Особенно если распредления не симметричные?
* Вариантов больше 2 (групповые поправки)
* Подглядывания (и гарантии на значимость и мощность в этом случае)
* Оценка размера выборки если дисперсия не связана со средним?

### Статистические тесты, доверительные интервалы, проверка статистических гипотез.

**Статистические тесты**

Картинки про типы тестов:  
https://blog.statsols.com/types-of-statistical-tests  

https://duckduckgo.com/?q=how+to+choose+statistical+test&t=ffab&iar=images&iax=images&ia=images  

https://www.google.com/search?q=how+to+choose+statistical+test&source=lnms&tbm=isch&sa=X&ved=2ahUKEwip1s-rjuP3AhWIr4sKHY2HCHQQ_AUoAXoECAEQAw&biw=1280&bih=603&dpr=1.5 

**Доверительный интервал**

**Проверка статистических гипотез**

Проверка гипотез: https://en.wikipedia.org/wiki/Statistical_hypothesis_testing 


### t-тест и центральная предельная теорема

**Откуда берется t-тест**  

См. https://en.wikipedia.org/wiki/Student%27s_t-test и https://en.wikipedia.org/wiki/Student's_t-distribution .  

$$
\frac{X - \mu}{S/\sqrt{n}}
$$
X - sample mean, S - Bessel-corrected sample variance.

При больших N t-распределение почти совпадает с нормальным.

t-критерий:

$P(\frac{X - \mu}{S/\sqrt{n}} | \mu, \sigma) = t(...)$

**Центральная предельная теорема**



<center>
<img src="central_limit_theorem_and_t_test.png" alt="central_limit_theorem_and_t_test" width="600"/>
</center>

**Используемые предположения**

**Какой вариант лучше?**

Нужно $P(p_A > p_B)$.

Статистическая гипотеза: $p_A = p_B$.  
p-значение: $P(data | p_A = p_B) = p$

Дальше обычно говорят, что если $p$ мало, то $p_A \ne p_B$.

Как связано p-значение с нужной вероятностью $P(p_A > p_B)$?

Сложности:  
Из того, что $P(data | p_A = p_B)$ мало не следует, что $p_A \ne p_B$.  
Чтобы перейти от $P(data | p_A = p_B)$ к $P(p_A = p_B | data)$ нужно соотношение Байеса.  
Но дальше все равно непонятно, как $P(p_A = p_B | data)$ соотносится с $P(p_A > p_B)$.

**Каковы оценки метрики в каждой группе?**

Нужны оценки плотности вероятности P(p_A), P(p_B).

Есть средние в выборках.  

Для оценки неопределенности предлагается считать доверительные интервалы.  
Считаются в предположении, что выполняется центральная предельная теорема.  
$$
P(p_A) = N(p_{A, mean}, \sigma_A)
\\
P(p_B) = N(p_{B, mean}, \sigma_B)
$$
Доверительные интервалы дают оценки:  
$$
P(p_A \in [p_{A, mean} - 2\sigma_A, p_{A, mean} + 2\sigma_A]) = \alpha
\\
P(p_B \in [p_{B, mean} - 2\sigma_B, p_{B, mean} + 2\sigma_B]) = \alpha
$$


Кажется, что такие оценки занижают неопределенность.  
Не обязательно, что среднее равно именно среднему в выборке, может быть в окрестностях.  

Нужно смотреть модель

$$
P(mu, sigma | data) \\
P(data | mu, sigma) = N(mu, sigma) \\
mu - \mbox{нормальное распределение вокруг среднего значения в выборке} \\
sigma - \mbox{широкое нормальное распределение с центром на стандартной ошибке среднего для выборки}
$$

Или сравнить с бета-распределением.

Можно проверить, посэмлировав распределение.   
Если нормальное приближение делает завышенную по уверенности оценку, то при повторном применении этого приближения
не получится заявленная вероятность попадания среднего в доверительный интервал.

Фиксируется p.  
Сэмплируется.  
Считается N(mu, sigma).  
Проверяется попадание попадание p в определенный доверительный интервал.  


Нормальное или t-распределение можно рассматривать как оценку распределения P(mu | data).  
При этом приходится отказаться от претензий на установление реального среднего.  
И иметь дело с теми же проблемами, что и для любых других моделей - насколько адекватны предположения,
насколько адекватны прогнозы.  
Одна из проблем - распределение не ограничено интервалом [0,1] и есть ненулевая плотность вероятности за границами области.

t-критерий:

$P(\frac{X - \mu}{S/\sqrt{n}} | \mu, \sigma) = t(...)$

Нужно

$P(\mu, \sigma | X)$

Скорее всего можно предположить фиксированное $\sigma$.

Дальше

$$
P(\mu, \sigma | X) = \frac{P(X| \mu, \sigma) P(\mu, \sigma)}{\int d\mu P(X| \mu, \sigma) P(\mu, \sigma)}
$$

Если приближенно считать функцию правдоподобия нормальной,
можно задать сопряженное априорное распределение.  
https://en.wikipedia.org/wiki/Conjugate_prior#Continuous_distributions  
Сопряженное априорное также нормальное.  
Только не очень понятно, как выбирать параметры -- чтобы не на основе сэмпла.

In [None]:
import numpy as np
import scipy.stats as stats
import plotly.graph_objects as go

prior_conv = 0.3

a_total = 100
a_conv = a_total * prior_conv

#x = np.linspace(0, 1, 1001)
x = np.linspace(0, a_total, 10000)
fig = go.Figure()

# Norm
mu = a_conv
var = a_total * prior_conv * (1 - prior_conv)
sigma = np.sqrt(var)
stderrmean = sigma / np.sqrt(a_total)
print(mu, stderrmean)

fig.add_trace(go.Scatter(x=x, y=stats.norm.pdf(x, loc=mu, scale=stderrmean), mode='lines',
                         name=f"<br>total = {a_total}, conv = {a_conv}<br>mu={mu}, stderrmean={stderrmean}"))


#Uniform prior
# beta_prior = 1
# alpha_prior = 1

# alpha_post = alpha_prior + a_conv
# beta_post = beta_prior + (a_total - a_conv)
# fig.add_trace(go.Scatter(x=x, y=stats.beta.pdf(x, alpha_post, beta_post), mode='lines',
#                          name=f"<br>A: total = {a_total}, conv = {a_conv}<br>alpha_prior={alpha_prior}, beta_prior={beta_prior},<br>alpha_post={alpha_post}, beta_post={beta_post}"))



fig.update_layout(title='Posterior and Prior Distributions',
                  xaxis_title='p',
                  yaxis_title='Prob Density',
                  hovermode="x",
                  height=550)

fig.show()

In [None]:
import numpy as np
import scipy.stats as stats
import plotly.graph_objects as go

prior_conv = 0.4

a_total = 10
a_conv = a_total * prior_conv

x = np.linspace(0, 1, 1001)
fig = go.Figure()

# Norm
## mu = 1 * a_conv + 0 * (a_total - a_conv)
## mu_c = 1 * (a_conv / a_total) + 0 * (a_total - a_conv) / a_total = a_conv / a_total
## std_c = sqrt( ( (1 - mu_c)^2 * a_conv + (0 - mu_c)^2 * (a_total - a_conv) ) / a_total )
##       = sqrt( (1 - mu_c)^2 mu_c + mu_c^2 (1 - mu_c) )
##       = sqrt( mu_c (1 - mu_c) )

mu_c = a_conv / a_total
sigma_c = np.sqrt(mu_c * (1 - mu_c))
stderrmean_c = sigma_c / np.sqrt(a_total)
print(mu_c, stderrmean_c)

fig.add_trace(go.Scatter(x=x, y=stats.norm.pdf(x, loc=mu_c, scale=stderrmean_c), mode='lines',
                         name=f"<br>total = {a_total}, conv = {a_conv}<br>mu={mu}, stderrmean={stderrmean}"))


#Uniform prior
beta_prior = 1
alpha_prior = 1

alpha_post = alpha_prior + a_conv
beta_post = beta_prior + (a_total - a_conv)
fig.add_trace(go.Scatter(x=x, y=stats.beta.pdf(x, alpha_post, beta_post), mode='lines',
                         name=f"<br>A: total = {a_total}, conv = {a_conv}<br>alpha_prior={alpha_prior}, beta_prior={beta_prior},<br>alpha_post={alpha_post}, beta_post={beta_post}"))



fig.update_layout(title='Posterior and Prior Distributions',
                  xaxis_title='p',
                  yaxis_title='Prob Density',
                  hovermode="x",
                  height=550)

fig.show()

**Насколько один вариант лучше другого?**

Нужно $P(p_A/p_B)$ или $P(p_A - p_B)$.  
Распределение $P(p_A/p_B)$ обычно не считают - ограничиваются отношением средних в выборках $p_A/p_B$.  

Cчитают $P(p_A - p_B)$.  
С учетом предположений о нормальном распределении $p_A, p_B$
$$
P(p_A - p_B) = N(p_A - p_B; s_{AB}) 
\\
s_{AB} = \sqrt{s_A^2 / N_1 + s_B^2 / N_2} * \sqrt{N_1 + N_2} \quad \mbox{(или что-то вроде)}
$$
(См. https://mathworld.wolfram.com/NormalDifferenceDistribution.html, https://math.stackexchange.com/questions/917276/distribution-of-the-difference-of-two-normal-random-variables, https://en.wikipedia.org/wiki/Sum_of_normally_distributed_random_variables, https://en.wikipedia.org/wiki/Normal_distribution#Operations_on_normal_deviates)

При этом предположения о нормальном распределении $p_A, p_B$ излишне оптимистичны.  
Поэтому оценка разности также будет занижена.  

Можно попробовать проверить сэмплированием.

In [None]:
import numpy as np
import scipy.stats as stats
import plotly.graph_objects as go

prior_conv = 0.4

a_total = 1000
a_conv = a_total * prior_conv

b_total = 1000
b_conv = b_total * prior_conv * 1.1

x = np.linspace(-1, 1, 1001)
fig = go.Figure()

# Norm
mu_a = a_conv / a_total 
stderrmean_a = np.sqrt(mu_a * (1 - mu_a)) / np.sqrt(a_total)
print(mu_a, stderrmean_a)

mu_b = b_conv / b_total 
stderrmean_b = np.sqrt(mu_b * (1 - mu_b)) / np.sqrt(b_total)
print(mu_b, stderrmean_b)

mu_diff = mu_b - mu_a
stderrmean_diff = np.sqrt(stderrmean_a**2 + stderrmean_b**2)
print(mu_diff, stderrmean_diff)

fig.add_trace(go.Scatter(x=x, y=stats.norm.pdf(x, loc=mu_diff, scale=stderrmean_diff), mode='lines',
                         name=f"Normal Diff"))


#Beta
beta_prior = 1
alpha_prior = 1
alpha_post_a = alpha_prior + a_conv
beta_post_a = beta_prior + (a_total - a_conv)
n_post_sample = 50000
post_sample_a = np.random.beta(alpha_post_a, beta_post_a, n_post_sample)
alpha_post_b = alpha_prior + b_conv
beta_post_b = beta_prior + (b_total - b_conv)
post_sample_b = np.random.beta(alpha_post_b, beta_post_b, n_post_sample)
post_sample_diff = post_sample_b - post_sample_a


fig.add_trace(go.Histogram(x=post_sample_diff, histnorm='probability density', 
                           name='B-A', marker_color='red',
                           opacity=0.6))


fig.update_layout(title='P(B-A)',
                  xaxis_title='p',
                  yaxis_title='Prob Density',
                  hovermode="x",
                  height=550)

fig.show()

**Какой вариант лучше?**

Нужно $P(p_A > p_B)$.

Обычно пытаются проверять статистические гипотезы.  
Предполагают $p_A = p_B$ и считают, какова вероятность получить имеющиеся средние: $P(p_{mu,A}, p_{mu,B} | p_A = p_B)$.

Для t-тестов вместо статистических гипотез можно посчитать понятное значение $P(p_B > p_A)$ с помощью
кумулятивной функции распределения нормального распределения.

$$
P(p_A > p_B) = \mbox{norm.diff.cdf(x=0)}
\\
P(p_B > p_A) = 1 - \mbox{norm.diff.cdf(x=0)}.
$$

In [None]:
x = np.linspace(-0.5, 0.5, 1001)
fig = go.Figure()
# fig.add_trace(go.Scatter(x=x, y=stats.norm.pdf(x, loc=mu_diff, scale=stderrmean_diff), mode='lines',
#                          name=f"Normal Diff"))
fig.add_trace(go.Scatter(x=x, y=stats.norm.cdf(x, loc=mu_diff, scale=stderrmean_diff), mode='lines',
                         name=f"Normal Diff Accumulated"))
fig.update_layout(title='P(B-A) Accumulated',
                  xaxis_title='p',
                  yaxis_title='Prob Density',
                  hovermode="x",
                  xaxis_range=[-0.1, 0.1],
                  height=550)

fig.show()


pa_gt_pb_norm = stats.norm.cdf(x=0, loc=mu_diff, scale=stderrmean_diff)
pb_gt_pa_norm = 1 - pa_gt_pb_norm
print(f"P(pa > pb) = {pa_gt_pb_norm}, P(pb > pa) = {pb_gt_pa_norm}")

#diff = B - A
pb_gt_pa_diff = len(post_sample_diff[post_sample_diff > 0]) / len(post_sample_diff)
pa_gt_pb_diff = 1 - pb_gt_pa_diff
print(f"P(pa > pb) = {pa_gt_pb_diff}, P(pb > pa) = {pb_gt_pa_diff}")

**Проверка статистической гипотезы $p_A = p_B$**

Во-первых, вопрос о $p_A = p_B$ - это не тот вопрос, на который нужно отвечать.  
Нужно $P(p_A > p_B)$ -- см. выше.  

Во-вторых, способ проверки гипотезы вызывает вопросы.  
Предполагают $p_A = p_B$ и считают, какова вероятность получить имеющиеся средние: $P(p_{mu,A}, p_{mu,B} | p_A = p_B)$.

Выбирают уровень значимости $\alpha$.  
Обычно $\alpha = 0.95$.  
Находят симметричный относительно центра интервал, внутри которого лежит $\alpha$ плотности вероятности.  
Для $\alpha = 0.95$ это [mu_diff - 2 s_diff, mu_diff + 2 s_diff].  
По распределению разности проверяют, лежит ли точка 0 в интервале [mu_diff - 2 s_diff, mu_diff + 2 s_diff].  
Если попадает, то гипотеза не отвергается.  
Если не попадает, то отвергается.  

**Сколько должен продолжаться эксперимент?**  

Для конверсий дисперсия связана со средним.  
Можно задаться величиной эффекта.  
Оценить, как будут выглядеть распределения средних.  
На этом основании оценить, сколько нужно наблюдений для детектирования эффекта с определенной вероятностью.  


Если дисперсия заранее неизвестна, то возникают проблемы с оценкой длительности.  
Не ясно, чему равна стандартная ошибка среднего.


Еще есть проблема подглядывания.  
Оценку длительности предлагается фиксировать до начала эксперимента.  

**Как работают оценки длительности?**

Один из калькуляторов: https://www.evanmiller.org/ab-testing/sample-size.html .



In [None]:
import numpy as np
import scipy.stats as stats
import plotly.graph_objects as go

prior_conv = 0.4

a_total = 1000
a_conv = a_total * prior_conv

b_total = a_total
b_conv = b_total * prior_conv * 1.05

x = np.linspace(0, 1, 1001)
fig = go.Figure()

# Norm
## mu = 1 * a_conv + 0 * (a_total - a_conv)
## mu_c = 1 * (a_conv / a_total) + 0 * (a_total - a_conv) / a_total = a_conv / a_total
## std_c = sqrt( ( (1 - mu_c)^2 * a_conv + (0 - mu_c)^2 * (a_total - a_conv) ) / a_total )
##       = sqrt( (1 - mu_c)^2 mu_c + mu_c^2 (1 - mu_c) )
##       = sqrt( mu_c (1 - mu_c) )

mu_ca = a_conv / a_total
sigma_ca = np.sqrt(mu_ca * (1 - mu_ca))
stderrmean_ca = sigma_ca / np.sqrt(a_total)
print(mu_ca, stderrmean_ca)

fig.add_trace(go.Scatter(x=x, y=stats.norm.pdf(x, loc=mu_ca, scale=stderrmean_ca), mode='lines',
                         name=f"<br>total = {a_total}, conv = {a_conv}<br>mu={mu_ca}, stderrmean={stderrmean_ca}"))

mu_cb = b_conv / b_total
sigma_cb = np.sqrt(mu_cb * (1 - mu_cb))
stderrmean_cb = sigma_cb / np.sqrt(b_total)
print(mu_cb, stderrmean_cb)

fig.add_trace(go.Scatter(x=x, y=stats.norm.pdf(x, loc=mu_cb, scale=stderrmean_cb), mode='lines',
                         name=f"<br>total = {b_total}, conv = {b_conv}<br>mu={mu_cb}, stderrmean={stderrmean_cb}"))

fig.add_vline(x=mu_cb)

fig.update_layout(title='Posterior and Prior Distributions',
                  xaxis_title='p',
                  yaxis_title='Prob Density',
                  hovermode="x",
                  height=550)

fig.show()

pval = 1 - stats.norm.cdf(x=mu_cb, loc=mu_ca, scale=stderrmean_ca)
print(pval)


def pval(prior_conv, exp_effect, N):
    a_total = N
    a_conv = a_total * prior_conv
    b_total = a_total
    b_conv = b_total * prior_conv * exp_effect
    mu_ca = a_conv / a_total
    sigma_ca = np.sqrt(mu_ca * (1 - mu_ca))
    stderrmean_ca = sigma_ca / np.sqrt(a_total)
    mu_cb = b_conv / b_total
    pval = 1 - stats.norm.cdf(x=mu_cb, loc=mu_ca, scale=stderrmean_ca)
    return pval


N = np.linspace(100, 10000)
y = np.array([pval(prior_conv, 1.05, Ni) for Ni in N])

fig = go.Figure()
fig.add_trace(go.Scatter(x=N, y=y, mode='lines'))
fig.add_hline(y=0.05)
fig.update_layout(title='p-val',
                  xaxis_title='N',
                  yaxis_title='p-val',
                  hovermode="x",
                  height=550)

In [None]:
import numpy as np
import scipy.stats as stats
import plotly.graph_objects as go

prior_conv = 0.4

a_total = 100
a_conv = a_total * prior_conv

b_total = 100
b_conv = b_total * prior_conv * 1.1

x = np.linspace(-1, 1, 1001)
fig = go.Figure()

# Norm
mu_a = a_conv / a_total 
stderrmean_a = np.sqrt(mu_a * (1 - mu_a)) / np.sqrt(a_total)
print(mu_a, stderrmean_a)

mu_b = b_conv / b_total 
stderrmean_b = np.sqrt(mu_b * (1 - mu_b)) / np.sqrt(b_total)
print(mu_b, stderrmean_b)

mu_diff = mu_b - mu_a
stderrmean_diff = np.sqrt(stderrmean_a**2 + stderrmean_b**2)
print(mu_diff, stderrmean_diff)

fig.add_trace(go.Scatter(x=x, y=stats.norm.pdf(x, loc=mu_diff, scale=stderrmean_diff), mode='lines',
                         name=f"100"))


a_total = 500
a_conv = a_total * prior_conv

b_total = 500
b_conv = b_total * prior_conv * 1.1

# Norm
mu_a = a_conv / a_total 
stderrmean_a = np.sqrt(mu_a * (1 - mu_a)) / np.sqrt(a_total)
print(mu_a, stderrmean_a)

mu_b = b_conv / b_total 
stderrmean_b = np.sqrt(mu_b * (1 - mu_b)) / np.sqrt(b_total)
print(mu_b, stderrmean_b)

mu_diff = mu_b - mu_a
stderrmean_diff = np.sqrt(stderrmean_a**2 + stderrmean_b**2)
print(mu_diff, stderrmean_diff)

fig.add_trace(go.Scatter(x=x, y=stats.norm.pdf(x, loc=mu_diff, scale=stderrmean_diff), mode='lines',
                         name=f"{a_total}"))
fig.add_vline(x=0)
fig.update_layout(title='P(B-A)',
                  xaxis_title='p',
                  yaxis_title='Prob Density',
                  hovermode="x",
                  height=550)

fig.show()


def pval(prior_conv, exp_effect, N):
    a_total = N
    a_conv = a_total * prior_conv
    b_total = a_total
    b_conv = b_total * prior_conv * exp_effect
    mu_a = a_conv / a_total 
    stderrmean_a = np.sqrt(mu_a * (1 - mu_a)) / np.sqrt(a_total)
    mu_b = b_conv / b_total 
    stderrmean_b = np.sqrt(mu_b * (1 - mu_b)) / np.sqrt(b_total)
    mu_diff = mu_b - mu_a
    stderrmean_diff = np.sqrt(stderrmean_a**2 + stderrmean_b**2)
    if mu_diff > 0:
        pval = stats.norm.cdf(x=0, loc=mu_diff, scale=stderrmean_diff)
    else:
        pval = None
    return pval

N = np.linspace(100, 10000)
y = np.array([pval(prior_conv, 1.05, Ni) for Ni in N])

fig = go.Figure()
fig.add_trace(go.Scatter(x=N, y=y, mode='lines'))
fig.add_hline(y=0.05)
fig.update_layout(title='p-val',
                  xaxis_title='N',
                  yaxis_title='p-val',
                  hovermode="x",
                  height=550)

# Ссылки

Посмотреть:

J. Kruschke  
https://www.medicine.mcgill.ca/epidemiology/Joseph/courses/EPIB-682/Kruschke2013.pdf  
https://www.youtube.com/watch?v=fhw1j1Ru2i0