# Проверка статистических гипотез

* *Введение*  
* *Минимальный пример проверки гипотезы*  
* *Сравнение средних в группах*
* *Проблемы интерпретации*
* *Заключение*
* *Ссылки*

### Введение

Для анализа А/Б-тестов можно использовать метод проверки статистических гипотез [[StTest](https://en.wikipedia.org/wiki/Statistical_hypothesis_testing)].   
Общая идея - предположить, что между группами нет разницы, после чего посчитать, насколько такое предположение объясняет экспериментальные данные. Если вероятность получить данные мала, то считается, что предположение можно отвергнуть, т.е. между группами есть значимая разница.  

Структура следующая: вначале обсуждается минимальный пример проверки статистической гипотезы.
Далее рассматривается сравнение двух распределений. Затем обсуждается интерпретация и сложности этого метода.

### Минимальный пример проверки статистической гипотезы

Есть экспериментальные данные $data$.  
Есть гипотеза $H$ об этих данных или их свойствах.  
Есть случайная величина $Test$, распределение которой $P_{Test|H}(x)$ в предположении $H$ известно.  
По фактическим данным считается "тестовая статистика"  $x_{fact}$ .   
Считается вероятность получить "фактическое или более экстремальное" значение "тестовой статистики" $p = P_{Test|H}(x \ge x_{fact} )$ или $p = P_{Test|H}(x \le x_{fact} )$. Т.е. $p = CDF_{Test|H}(x_{fact})$ или $p = 1 - CDF_{Test|H}(x_{fact})$ . Эту вероятность называют "p-значением" [[PVal](https://en.wikipedia.org/wiki/P-value)].  
Если вероятность "достаточно мала", гипотезу $H$ "отвергают", если "не достаточно мала" - "принимают".  

Обсуждения такого способа выбора есть в разделе "Проблемы интерпретации".

*(todo: также бывает $p = P_{Test|H}(|x - x_{fact}| \ge 0 )$ )*

Пример:
- данные: в 1000 бросках монетки в 700 случаях выпал орел.  
- гипотеза: вероятность выпадения орла 0.5   
- случайная величина с известным распределением: вероятность k успехов в N попытках при вероятности $p$ успеха в одной попытке задается биномиальным распределением $Binom(p; N, k)$  
- тестовая статистика: число успехов k=700 в общих попытках N=1000
- p-значение: вероятность получить 700 или больше успехов в 1000 попытках $\sum_{i \ge 700}Binom(0.5; 1000, i)$

Вероятность "отвергнуть гипотезу" даже если на самом деле она верна называют вероятностью ошибки первого рода [[StErrors](https://en.wikipedia.org/wiki/Type_I_and_type_II_errors)] и обозначают $\alpha$. Величину $1-\alpha$ называют статистической значимостью [[StSign](https://en.wikipedia.org/wiki/Statistical_significance)].  

Вероятность "принять гипотезу" даже если на самом деле она не верна называют вероятностью ошибки второго рода [[StErrors](https://en.wikipedia.org/wiki/Type_I_and_type_II_errors)] и обозначают $\beta$. Величину $1-\beta$ называют мощностью [[StPower](https://en.wikipedia.org/wiki/Power_of_a_test)]. 

|                    | $H_0$ выбрана               | $H_0$ отклонена              |
|--------------------|-----------------------------|------------------------------|
| **$H_0$ верна**    | Стат значимость $1-\alpha$  | Ошибка первого рода $\alpha$ |
| **$H_0$ не верна** | Ошибка второго рода $\beta$ | Мощность $1-\beta$           |

$$
\mbox{Стат значимость:} \quad P(p_{test} > p_{1 - \alpha} | H_0) = 1 - \alpha
\\
\mbox{Мощность:} \quad P(p_{test} < p_{1 - \beta} | H_1) = 1 - \beta
$$

### Сравнение средних в группах

Применение проверки статистических гипотез для сравнения групп.  

Допустим, есть две монетки с разными вероятностями выпадения орла (две серии Бернулли).   
Нужно выбрать монетку с большей вероятностью.  

В качестве проверяемой гипотезы выбирают равенство вероятностей в группах.  
Называют нулевой гипотезой $H_0$ [[HNull](https://en.wikipedia.org/wiki/Null_hypothesis)].    

Для сравнения групп смотрят на выборочные средние.  
В силу центральной предельной теоремы их распределение приближенно можно считать нормальным.  
Среднее совпадает со средним исходного распределения, стандартное отклонение определяется стандартной ошибкой среднего.

$$
p_{\bar{A}_n} = \frac{1}{n} \sum_i A_i
\\
E[p_{\bar{A}_n}] = E[A]
\\
s_{p_{\bar{A}_n}} = \frac{\sigma_A}{n_A} \approx \frac{s_A}{n_A}
\\
p_{\bar{A}_n} \sim Norm(p_A, \frac{\sigma_A}{n_A})
$$

Разность нормальных распределений также нормальное распределение. Поэтому разность также можно приближенно считать распределенной нормально.  

$$
p_{\Delta} = p_A - p_B
\\
p_{\Delta} \sim Norm(E[p_{\Delta}], \sigma_{\Delta})
\\
s_{\Delta} = \sqrt{s_A^2 + s_B^2}
$$

Если верна нулевая гипотеза, т.е. между группами нет разницы, то $E[p_{\Delta}] = 0$.  
$\sigma_{\Delta}$ можно оценить из сэмплов.

В качестве "случайной величины, распределение которой в предположении нулевой гипотезы известно", выбирают 

$$
z = \frac{E[p_A] - E[p_B]}{\sigma_{\Delta}}
$$

$\sigma_{\Delta}$ неизвестно, но можно оценить из сэмплов. Приближенно ее можно считать распределенной нормально. 

Более точно можно использовать величину 
$$
t = \frac{E[p_A] - E[p_B]}{s_{\Delta}}
$$

Ее распределение описывается $t$-распределением.
[[TDist](https://en.wikipedia.org/wiki/Student%27s_t-distribution)]  
[[TTest](https://en.wikipedia.org/wiki/Student's_t-test)]  

В случае выборок разного размера приближенно используют вариант с разными дисперсиями:
[[WelchTTest](https://en.wikipedia.org/wiki/Welch%27s_t-test)] 


Пусть есть данные $n_A, n_B, s_A, s_B$. 

In [None]:
p_a_exact = 0.7
p_b_exact = 0.67

n = 1000
sa = stats.binom.rvs(n, p_a_exact)
sb = stats.binom.rvs(n, p_b_exact)

p_a = sa/n
a_var = n * p_a * (1 - p_a)
a_stderr = np.sqrt(a_var) / n

p_b = sb/n
b_var = n * p_b * (1 - p_b)
b_stderr = np.sqrt(b_var) / n

x=np.linspace(0, 1, 1000)
fig = go.Figure()
fig.add_trace(go.Scatter(x=x, y=stats.norm.pdf(x, p_a, a_stderr),
                         name='A'))
fig.add_trace(go.Scatter(x=x, y=stats.norm.pdf(x, p_b, b_stderr),
                         name='B'))
fig.update_layout(
    title='Means Normal Dists for t-test'
)
fig.show()

In [None]:
def ttest_means_rawdata(a, b):
    t, p = stats.ttest_indep(a, b)
    return p
    

def compare_groups_ttest_binomial(sa, na, sb, nb):
    a_mean = sa/n
    a_var = n * a_mean * (1 - a_mean)
    a_stderr = np.sqrt(a_var) / n
    b_mean = sb/n
    b_var = n * b_mean * (1 - b_mean)
    b_stderr = np.sqrt(b_var) / n
    diff = a_mean - b_mean
    diff_stderr = np.sqrt(a_stderr**2 + b_stderr**2)
    pval = stats.norm.cdf(0, diff, diff_stderr)
    p_level = 0.95
    significant = (pval >= p_level) or (1 - pval) >= p_level
    if not significant:
        res = None
    elif significant and a_mean > b_mean:
        res = 'A'
    elif significant and b_mean > a_mean:
        res = 'B'
    return res

In [None]:
p_a_exact = 0.7
p_b_exact = 0.67

n = 1000
sa = stats.binom.rvs(n, p_a_exact)
sb = stats.binom.rvs(n, p_b_exact)

print(f'pa_exact={p_a_exact}, pb_exact={p_b_exact}')
print(f'n={n}, sa={sa}, sb={sb}')
print(f'Exact best group: {"A" if p_a_exact > p_b_exact else "B" if p_b_exact > p_a_exact else None}')
print(f'Group selected by bootstrap comparison: {compare_groups_ttest_binomial(sa, n, sb, n)}')

In [None]:
#https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.ttest_ind.html
#https://en.wikipedia.org/wiki/Welch%27s_t-test

a = np.zeros(n)
a[:sa] = 1
#print(sa)
#np.unique(a, return_counts=True)

b = np.zeros(n)
b[:sb] = 1

t, p = stats.ttest_ind(a, b, equal_var=False)#, alternative='less')
print(t,p)

p_a = sa/n
a_var = n * p_a * (1 - p_a)
a_stderr = np.sqrt(a_var) / n
p_b = sb/n
b_var = n * p_b * (1 - p_b)
b_stderr = np.sqrt(b_var) / n
diff = p_a - p_b
diff_stderr = np.sqrt(a_stderr**2 + b_stderr**2)
pval = stats.norm.cdf(0, diff, diff_stderr)
pval

Подход можно обобщить на случай случайных величин с произвольным распределением.

Есть две случайных величины с неизвестными распределениями.  
Нужно выбрать 

При проведении тестов для контроля за уровнями статистической значимости и мощности размер выборки расчитывают заранее.
Задают стат. значимость, мощность, минимальную величину эффекта, по этим значениям рассчитывают размер выборки n.  

Для $t$-тестов

$$
CDF(x_0) = 1 - \alpha
\\
CDF(\Delta - x_0) = \beta
$$

### Проблемы интерпретации

Вопросы, на которые нужно ответить при А/Б-тесте:

- Какой вариант лучше и насколько?
- Каковы оценки целевой метрики в каждом варианте?
- Насколько уверены в оценке?
- Сколько должен продолжаться эксперимент?

Проблема в том, что описанный метод "проверки статистических гипотез" не дает ответ на нужные вопросы.

Для ответа на вопросы **"Какой вариант лучше и насколько?"** и **"Насколько уверены в оценке?"** нужны, например, распределение и вероятность
$$
P(p_A - p_B)
\\
P(p_A - p_B > 0 | data)
$$

Реально считается 
$$
p = P(data | H_0) = P(data | p_A = p_B)
$$

$p$-значение нельзя интерпретировать как вероятность, что гипотеза верна или не верна [[StatTestMisinterpret](https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4877414/)].  
Оно показывает, насколько вероятно получить данные в рамках выбранной гипотезы.  
Остается необходимость выбора между гипотезами.  



Для пересчета
$$
P(H_0 | data) = \frac{P(data | H_0) P(H_0)}{P(data)}
= \frac{P(data | H_0) P(H_0)}{P(data|H_0) P(H_0) + P(data| not H_0) P(not H_0) }
$$

*todo: Почему это важно? - Пример про теорему Байеса из другой области*

пациент обращается за мед помощью.   
есть симптомы - кашель, температура  
нужно поставить диагноз (далее - назначить лечение).  

интересует вероятность болезни при условии симптомов P(болезнь | симптомы).  

проверка гипотез - перебираются болезни.  
считается вероятность получить симптомы при болезни P(симптомы | болезнь).   
если вероятность достаточно большая, то болезнь "не отвергается" 


*todo: можно ли посчитать через $\alpha$, $\beta$*  

$$
P(H_0) = 
P(H_0 | выбор H_0) P(выбор H_0) + P(H_0| выбор H_1) P(выбор H_1)
\\
= (1-\alpha) P(выбор H_0) + \alpha P(выбор H_1)
$$

*todo: Можно предположить P(not H_0) = 0.7. Но как считать P(data| not H_0)*?

*todo: Можно посчитать отношение*

$$
\frac{P(H_0 | data)}{P(H_1 | data)} = \frac{P(data | H_0) P(H_0)}{P(data | H_1) P(H_1)}
$$

Допустим $P(H_0):P(H_1) = 3:7$. Все равно остается вопрос, как считать $P(data| H_1)$.  

Попытки посчитать $P(data| H_1)$ будут сдвигать весь подход в сторону байесовского моделирования.  
Проще тогда уже делать все в рамках этого моделирования. 

Вопрос **"Каковы оценки целевой метрики в каждом варианте?"** проверка гипотез формально не дает.  
При сравнении средних с помощью t-тестов для ответа обычно используются доверительные интервалы.  
В доверительных интервалах случайные величины - границы интервала, а не сам оцениваемый параметр.  
Вместо распределений
$$
P(p_A | data), P(p_B | data)
$$
строится
$$
l_n, u_n: P(l_n < \mu < u_n | data) = 1 - \alpha
$$

Завязаны на выборочные средние, поэтому зависят от $n$.  
Включают в себя сбор данных + процедуру построения.   

Частотная интерпретация - повторный запуск эксперимента.  

Могут быть технические сложности при их комбинировании - обычно делается разного рода поправками [[MultipleComp](https://en.wikipedia.org/wiki/Multiple_comparisons_problem), [FWER](https://en.wikipedia.org/wiki/Family-wise_error_rate), [Bonf](https://en.wikipedia.org/wiki/Bonferroni_correction)]. 

**"Сколько должен продолжаться эксперимент?"**

При использовании $t$-теста размер выборки рассчитывают до эксперимента так, чтобы обеспечить $\alpha$ и $\beta$.  

Возникают технические проблемы с оценкой вероятности на основе уже собранных данных.   
См. "проблема подглядывания" [[MillerHowNotTo](https://www.evanmiller.org/how-not-to-run-an-ab-test.html)]

### Ссылки

[[StTest](https://en.wikipedia.org/wiki/Statistical_hypothesis_testing)] - Statistical_hypothesis_testing  
[[PVal](https://en.wikipedia.org/wiki/P-value)] - P-value  
[[StErrors](https://en.wikipedia.org/wiki/Type_I_and_type_II_errors)] - Type_I_and_type_II_errors  
[[StSign](https://en.wikipedia.org/wiki/Statistical_significance)] - Statistical_significance  
[[StPower](https://en.wikipedia.org/wiki/Power_of_a_test)] - Power_of_a_test  
[[HNull](https://en.wikipedia.org/wiki/Null_hypothesis)] - Null_hypothesis  
[[ZScore](https://en.wikipedia.org/wiki/Standard_score)] - Standard_score  
[[ZTest](https://en.wikipedia.org/wiki/Z-test)] - Z-test  
[[TDist](https://en.wikipedia.org/wiki/Student%27s_t-distribution)] -    
[[TTest](https://en.wikipedia.org/wiki/Student's_t-test)] -    
[[WelchTTest](https://en.wikipedia.org/wiki/Welch%27s_t-test)] -  
[[StatTestMisinterpret](https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4877414/)] Statistical tests, P values, confidence intervals, and power: a guide to misinterpretations   
[[MultipleComp](https://en.wikipedia.org/wiki/Multiple_comparisons_problem)] -   
[[FWER](https://en.wikipedia.org/wiki/Family-wise_error_rate)] -  
[[Bonf](https://en.wikipedia.org/wiki/Bonferroni_correction)] -   
[[MillerHowNotTo](https://www.evanmiller.org/how-not-to-run-an-ab-test.html)] -  

Про t-распределение  
https://math.stackexchange.com/questions/2978617/derivation-degree-of-freedom-of-a-t-distribution  

Напоминалка про вывод  
https://towardsdatascience.com/the-math-behind-a-b-testing-with-example-code-part-1-of-2-7be752e1d06f  

Один из калькуляторов длительности  https://www.evanmiller.org/ab-testing/sample-size.html  

Картинки про типы тестов:  
https://blog.statsols.com/types-of-statistical-tests   
https://duckduckgo.com/?q=how+to+choose+statistical+test&t=ffab&iar=images&iax=images&ia=images   
https://www.google.com/search?q=how+to+choose+statistical+test&source=lnms&tbm=isch&sa=X&ved=2ahUKEwip1s-rjuP3AhWIr4sKHY2HCHQQ_AUoAXoECAEQAw&biw=1280&bih=603&dpr=1.5  

Про стат-тесты vs байесовкие методы:  
https://michael-franke.github.io/BDACM_2018/scripts/01_estimation_pValues.pdf  

Тест Колмогорова-Смирнова https://en.wikipedia.org/wiki/Kolmogorov%E2%80%93Smirnov_test  
U-тест https://en.wikipedia.org/wiki/Mann%E2%80%93Whitney_U_test  
Перестановочный тест https://en.wikipedia.org/wiki/Permutation_test   


In [None]:
import numpy as np
import scipy.stats as stats
import plotly.graph_objects as go

prior_conv = 0.4

a_total = 1000
a_conv = a_total * prior_conv

b_total = a_total
b_conv = b_total * prior_conv * 1.05

x = np.linspace(0, 1, 1001)
fig = go.Figure()

# Norm
## mu = 1 * a_conv + 0 * (a_total - a_conv)
## mu_c = 1 * (a_conv / a_total) + 0 * (a_total - a_conv) / a_total = a_conv / a_total
## std_c = sqrt( ( (1 - mu_c)^2 * a_conv + (0 - mu_c)^2 * (a_total - a_conv) ) / a_total )
##       = sqrt( (1 - mu_c)^2 mu_c + mu_c^2 (1 - mu_c) )
##       = sqrt( mu_c (1 - mu_c) )

mu_ca = a_conv / a_total
sigma_ca = np.sqrt(mu_ca * (1 - mu_ca))
stderrmean_ca = sigma_ca / np.sqrt(a_total)
print(mu_ca, stderrmean_ca)

fig.add_trace(go.Scatter(x=x, y=stats.norm.pdf(x, loc=mu_ca, scale=stderrmean_ca), mode='lines',
                         name=f"<br>total = {a_total}, conv = {a_conv}<br>mu={mu_ca}, stderrmean={stderrmean_ca}"))

mu_cb = b_conv / b_total
sigma_cb = np.sqrt(mu_cb * (1 - mu_cb))
stderrmean_cb = sigma_cb / np.sqrt(b_total)
print(mu_cb, stderrmean_cb)

fig.add_trace(go.Scatter(x=x, y=stats.norm.pdf(x, loc=mu_cb, scale=stderrmean_cb), mode='lines',
                         name=f"<br>total = {b_total}, conv = {b_conv}<br>mu={mu_cb}, stderrmean={stderrmean_cb}"))

fig.add_vline(x=mu_cb)

fig.update_layout(title='Posterior and Prior Distributions',
                  xaxis_title='p',
                  yaxis_title='Prob Density',
                  hovermode="x",
                  height=550)

fig.show()

pval = 1 - stats.norm.cdf(x=mu_cb, loc=mu_ca, scale=stderrmean_ca)
print(pval)


def pval(prior_conv, exp_effect, N):
    a_total = N
    a_conv = a_total * prior_conv
    b_total = a_total
    b_conv = b_total * prior_conv * exp_effect
    mu_ca = a_conv / a_total
    sigma_ca = np.sqrt(mu_ca * (1 - mu_ca))
    stderrmean_ca = sigma_ca / np.sqrt(a_total)
    mu_cb = b_conv / b_total
    pval = 1 - stats.norm.cdf(x=mu_cb, loc=mu_ca, scale=stderrmean_ca)
    return pval


N = np.linspace(100, 10000)
y = np.array([pval(prior_conv, 1.05, Ni) for Ni in N])

fig = go.Figure()
fig.add_trace(go.Scatter(x=N, y=y, mode='lines'))
fig.add_hline(y=0.05)
fig.update_layout(title='p-val',
                  xaxis_title='N',
                  yaxis_title='p-val',
                  hovermode="x",
                  height=550)