# Нулевые гипотезы, статистические тесты, $p$-значения

# Байесовские А/Б-тесты: связь с $p$-значениями

In [None]:
import numpy as np
import pandas as pd
import scipy.stats as stats
import plotly.graph_objects as go

np.random.seed(7)

В проверках нулевых гипотез формулируют гипотезу $H_0$ о данных $\mathcal{D}$. Выбирают статистический тест $T$ - случайную величину с известным распределением $P_{T}(x | H_0)$ в предположении $H_0$. Считают реализацию величины $T$ в данных - тестовую статистику $x_{0}$ [[TestStat](https://en.wikipedia.org/wiki/Test_statistic)]. Вероятность получить фактическое или более экстремальное значение тестовой статистики называют $p$-значением $p = P_{T}(x \ge x_{0} | H_0)$ [[PVal](https://en.wikipedia.org/wiki/P-value), [TailedTests](https://en.wikipedia.org/wiki/One-_and_two-tailed_tests)]. Если вероятность «достаточно мала», гипотезу $H_0$ «отвергают», если нет - «оставляют».

<center>
<img src="../figs/null_hypothesis.png" alt="null_hypothesis" width="800"/>
<em> В предположении гипотезы $H_0$ распределение тестовой статистики $P_{T}(x | H_0)$. Вероятность получить фактическое $x_0$ или более экстремальное значение тестовой статистики называют $p$-значением $p = P_{T}(x \ge x_{0} | H_0)$. </em>
</center>

Основная проблема метода - решение принимается по $p$-значению $p = P_{T}(x \ge x_{0} | H_0)$, тогда как для оценки гипотезы нужна вероятность $P(H_0 | x_0)$. По соотношению Байеса $P(H_0 | x_0) \propto P_{T}(x = x_{0} | H_0) P(H_0)$. Т.е. для выбора гипотезы нужно посчитать вероятности получить данные в рамках конкурирующих гипотез и сравнить друг с другом с учетом априорных вероятностей.  

В А/Б-тестах нужно выбрать группу с большим значением целевой метрики. Распространенные применения проверок нулевых гипотез к А/Б-тестам включают $t$-тест средних, $\chi^2$-тест пропорций и $U$-критерий Манна-Уитни. Для них $p$-значение численно близко вероятности метрик одной группы больше другой, хотя отличается по определению.

## Т-тест

Средние могут сравнивать $t$-тестами [[TTest](https://en.wikipedia.org/wiki/Student%27s_t-test)]. Пусть есть выборки размера $N_A, N_B$ из двух случайных величин $A, B$. По выборочным средним $\mu_A, \mu_B$ и дисперсиям $s_A^2, s_B^2$ оценивают среднее и дисперсию разности $\mu_{\Delta} = \mu_B - \mu_A$, $s^2_{\Delta} = s_A^2/N_A + s_B^2/N_B$. Считают отношение $x_0 = \mu_{\Delta}/s_{\Delta}$. Предполагают, что средние в группах одинаковы. Тогда для отношения $\mu_{\Delta}/s_{\Delta}$ ожидают $t$-распределение [[WelchT](https://en.wikipedia.org/wiki/Welch%27s_t-test)]. При достаточно большом количестве данных оно близко стандартному нормальному $\text{Norm}(0, 1)$ [[TDist](https://en.wikipedia.org/wiki/Student%27s_t-distribution)]. Вычисляют вероятность получить фактическое $x_0$ или более экстремальное отношение - $p$-значение $P_{\mu_{\Delta}/s_{\Delta}}(x > x_0 | \mu_A = \mu_B)$. Если оно "достаточно мало", считают средние в группах неравными.

$$
x_0 = \frac{\mu_{\Delta}}{s_{\Delta}},
\quad
\mu_{\Delta} = \mu_B - \mu_A,
\quad
s^2_{\Delta} = \frac{s_A^2}{N_A} + \frac{s_B^2}{N_B}
\\
P_{\mu_{\Delta}/s_{\Delta}}(x | \mu_A = \mu_B) \approx \text{Norm}(x; 0, 1)
\\
p = P_{\mu_{\Delta}/s_{\Delta}}(x > x_0 | \mu_A = \mu_B)
$$

В А/Б-тесте нужно выбрать группу с большим средним. Поэтому вместо $p$-значения $P_{\mu_{\Delta}/s_{\Delta}}(x > x_0 | \mu_A = \mu_B)$ интересна вероятность среднего $B$ больше $A$ при условии собранных данных $P(\mu_B > \mu_A | x_0 )$. Эту вероятность можно оценить байесовским моделированием. В пренебрежении априорными значениями $\mu_B - \mu_A \sim \text{Norm}(\mu_{\Delta}, s^2_{\Delta})$. Поэтому $P(\mu_B > \mu_A | x_0 ) = P(\mu_{\Delta} > 0 | x_0 )  \approx 1 - P(\text{Norm}(x < 0 | x_0, 1))$. В общем случае связь $p$-значения с этой вероятностью не очевидна. Для $t$-тестов по симметрии нормального распределения $P(\text{Norm}(x > x_0 | 0, 1)) =  P(\text{Norm}(x < 0 | x_0, 1))$. Поэтому $p$-значение одностороннего $t$-теста близко вероятности среднего одной группы больше другой.

$$
\begin{split}
p = P_{\mu_{\Delta}/s_{\Delta}}(x > x_0 | \mu_A = \mu_B)
& = P(\text{Norm}(x > x_0 | 0, 1)) 
\\
& =  P(\text{Norm}(x < 0 | x_0, 1)) 
\approx 1 - P(\mu_B > \mu_A | x_0 )
\end{split}
$$

На графике ниже 2 нормальных распределения. Одно с центром в точке 0, другое в точке $x_0 = 2$. Вероятность 
$p = P(x > x_0 | \mu_A = \mu_B)$ закрашена темным, $P(\mu_B > \mu_A | x_0 )$ закрашена светлым. По свойствам нормального распределения площади этих областей совпадают. 

In [None]:
# todo: norm(0, 1); use x0 = mud/s
mud = 2
s = 1

xaxis_min = -7
xaxis_max = 7
x = np.linspace(xaxis_min, xaxis_max, 1000)
fig = go.Figure()
fig.add_trace(go.Scatter(x=x, y=stats.norm.pdf(x, loc=0, scale=s), 
                         line_color='black', opacity=0.8, name=f'$Norm(0, 1)$'))
fig.add_trace(go.Scatter(x=[mud, mud], y=[0, max(stats.norm.pdf(x, loc=0, scale=s))*1.1], 
                         line_color='black', 
                         mode='lines+text', text=['', '$x_0$'], textposition="top center",
                         line_dash='dash', showlegend=False))
fig.add_trace(go.Scatter(x=x[x>mud], y=stats.norm.pdf(x[x>mud], loc=0, scale=s), 
                         line_color='black', opacity=0.8, name=f'$P(x > x_0 | \Delta \mu=0)$', fill="tozeroy", fillcolor="rgba(0, 0, 0, 0.7)"))
fig.add_trace(go.Scatter(x=x, y=stats.norm.pdf(x, loc=mud, scale=s), 
                         line_color='black', line_dash='solid', opacity=0.2, name=f'$Norm(x_0, 1)$'))
fig.add_trace(go.Scatter(x=[0, 0], y=[0, max(stats.norm.pdf(x, loc=0, scale=s))*1.1], 
                         line_color='black', 
                         mode='lines+text', text=['', '0'], textposition="top center", 
                         line_dash='dash', showlegend=False))
fig.add_trace(go.Scatter(x=x[x<0], y=stats.norm.pdf(x[x<0], loc=mud, scale=s), 
                         line_color="rgba(128, 128, 128, 0.2)", name=f'$P(x < 0 | \Delta \mu / s_\Delta = x_0)$', fill="tozeroy", fillcolor="rgba(128, 128, 128, 0.2)"))
fig.update_layout(title='P-значение и вероятность среднего одной группы больше другой',
                  xaxis_title='$x$',
                  yaxis_title='Плотность вероятности',
                  xaxis_range=[xaxis_min, xaxis_max],
                  hovermode="x",
                  template="plotly_white",
                  height=500)
fig.show()

Таким образом $p$-значение одностороннего $t$-теста близко байесовской оценке вероятности среднего одной группы больше другой. Для демонстрации ниже заданы два распределения Бернулли с разными конверсиями. По выборке байесовская оценка вероятности $P(p_B > p_A)$ сравнивается с $p$-значением $t$-теста. Используется односторонний $t$-тест с разными дисперсиями групп (`equal_var=False`, `alternative`). Видно, что $p$-значение численно близко байесовской оценке вероятности. Стоит помнить, что они не эквивалентны - у них разные определения. 

In [None]:
def posterior_dist_binom(ns, ntotal, a_prior=1, b_prior=1):
    a = a_prior + ns
    b = b_prior + ntotal - ns 
    return stats.beta(a=a, b=b)

def prob_pb_gt_pa(post_dist_A, post_dist_B, post_samp=100_000):
    sa = post_dist_A.rvs(size=post_samp)
    sb = post_dist_B.rvs(size=post_samp)
    b_gt_a = np.sum(sb > sa)
    return b_gt_a / post_samp

pA = 0.1
pB = pA * 1.05

exactA = stats.bernoulli(pA)
exactB = stats.bernoulli(pB)

N = 30000
sampA = exactA.rvs(size=N)
sampB = exactB.rvs(size=N)

post_dist_A = posterior_dist_binom(ns=np.sum(sampA), ntotal=N)
post_dist_B = posterior_dist_binom(ns=np.sum(sampB), ntotal=N)
pb_gt_pa = prob_pb_gt_pa(post_dist_A, post_dist_B)

a = 'greater' if np.mean(sampA) > np.mean(sampB) else 'less'
t_stat, p_value = stats.ttest_ind(sampA, sampB, equal_var=False, alternative=a)

print(f'p-value P(x>x0 | pa=pb): {p_value}')
print(f'1 - p: {1 - p_value}')
print(f'Bayes P(pb > pa): {pb_gt_pa}')

Численную близость $p$-значения вероятности среднего одной группы больше другой можно проверить по количеству правильно угаданных вариантов с большим значением конверсии в серии экспериментов. В группе А задается фиксированная конверсия `p=0.1`, в Б - случайная в диапазоне $\pm 5\%$ от `p`. В группах генерируются данные с шагом `n_samp_step`. На каждом шаге считается $t$-тест. Эксперимент останавливается, если  $p$ или $1-p$ достигает `prob_stop=0.95` или сгенерировано максимальное количество точек `n_samp_max`. Длительность эксперимента не фиксируется заранее. При остановке эксперимента для сравнения с $p$-значением считаются байесовские апострериорные распределения и вероятность $P(p_B > p_A)$. Процедура повторяется `nexps` раз, считается доля правильно угаданных групп во всех экспериментах. Байеовские вероятности близки $p$-значениям. В `nexps = 1000` правильно угадано 927 вариантов. Точность 0.927 близка `prob_stop = 0.95`. 

In [None]:
cmp = pd.DataFrame(columns=['A', 'B', 'best_exact', 'exp_samp_size', 'A_exp', 'B_exp', 'best_exp', 'p_best_bayes', 'p-val'])

p = 0.1
nexps = 100
cmp['A'] = [p] * nexps
cmp['B'] = p * (1 + stats.uniform.rvs(loc=-0.05, scale=0.1, size=nexps))
cmp['best_exact'] = cmp.apply(lambda r: 'B' if r['B'] > r['A'] else 'A', axis=1)

n_samp_max = 3_000_000
n_samp_step = 10_000
prob_stop = 0.95

for i in range(nexps):
    pA = cmp.at[i, 'A']
    pB = cmp.at[i, 'B']
    exact_dist_A = stats.bernoulli(p=pA)
    exact_dist_B = stats.bernoulli(p=pB)
    n_samp_total = 0
    ns_A = 0
    ns_B = 0
    while n_samp_total < n_samp_max:
        dA = exact_dist_A.rvs(n_samp_step)
        dB = exact_dist_B.rvs(n_samp_step)
        n_samp_total += n_samp_step
        ns_A = ns_A + np.sum(dA)
        ns_B = ns_B + np.sum(dB)
        T_A = np.zeros(n_samp_total)
        T_A[:ns_A] = 1
        T_B = np.zeros(n_samp_total)
        T_B[:ns_B] = 1
        a = 'greater' if np.mean(sampA) > np.mean(sampB) else 'less'
        t_stat, p_value = stats.ttest_ind(T_A, T_B, equal_var=False, alternative=a)
        p_best_t = 1 - p_value
        best_gr = 'B' if p_best_t >= prob_stop else 'A' if (1 - p_best_t) >= prob_stop else None
        if best_gr:
            post_dist_A = posterior_dist_binom(ns=ns_A, ntotal=n_samp_total)
            post_dist_B = posterior_dist_binom(ns=ns_B, ntotal=n_samp_total)
            pb_gt_pa_bayes = prob_pb_gt_pa(post_dist_A, post_dist_B)
            cmp.at[i, 'A_exp'] = ns_A / n_samp_total
            cmp.at[i, 'B_exp'] = ns_B / n_samp_total
            cmp.at[i, 'exp_samp_size'] = n_samp_total
            cmp.at[i, 'best_exp'] = best_gr
            cmp.at[i, 'p_best_bayes'] = max(pb_gt_pa_bayes, 1 - pb_gt_pa_bayes)
            cmp.at[i, 'p-val'] = max(p_value, 1 - p_value)
            break
    print(f'done {i}: nsamp {n_samp_total}, best_gr {best_gr}, Bayes P(b>a) {pb_gt_pa_bayes:.4f}, T-test p-val {p_value:.4f}')

cmp['correct'] = cmp['best_exact'] == cmp['best_exp']
display(cmp.head(30))
cor_guess = np.sum(cmp['correct'])
print(f"Nexp: {nexps}, Correct Guesses: {cor_guess}, Accuracy: {cor_guess / nexps}")

## Тест $\chi^2$ 

Конверсии могут сравнивать $\chi^2$-тестом [[Chi2Test](https://en.wikipedia.org/wiki/Chi-squared_test)]. Статистика $\chi^2$ Пирсона [[Chi2Pearson](https://en.wikipedia.org/wiki/Pearson%27s_chi-squared_test)] для мультиномиальных распределений определена $\chi^2 = \sum_{i=1}^k (S_i - Np_i)^2/(Np_i)$, где $N$ - общее количество наблюдений, $S_i$ - фактическое количество наблюдений $i$-категории,  $N p_i$ - ожидаемое при доле $i$-категории $p_i$. Для биномиального распределения $\chi^2=(S - Np)^2/N p (1-p)$. По центральной предельной теореме $(S - Np)/\sqrt{N p (1-p)}$ стремится к стандартному нормальному распределению. Распределение суммы квадратов $k$ нормальных случайных величин называют $\chi^2$-распределением с $k$ степенями свободы $\chi^2_k = \sum_{i=1}^{k} X_i^2,\, X_i \sim \text{Norm}(0,1)$ [[Chi2Dist](https://en.wikipedia.org/wiki/Chi-squared_distribution)]. Статистика $\chi^2$ стремится к $\chi_1^2$-распределению.

$$
\begin{split}
\chi^2 & = 
\sum_{i=1}^k \frac{(S_i - Np_i)^2}{N p_i}
\\
& =
\frac{(S - N p)^2}{N p}
+
\frac{((N - S) - N (1-p))^2}{N (1-p)}
\\
& =
\frac{(S - Np)^2}{N p (1-p)} 
\to \chi_1^2, \quad n \to \infty
\\
\chi^2_k & = \sum_{i=1}^{k} X_i^2,\, X_i \sim \text{Norm}(0,1)
\end{split}
$$

Для А/Б-теста конверсий с двумя группами в предположении одинаковых конверсий $p=(S_A + S_B)/(N_A + N_B)$ тестовая статистика $\chi^2=(S_A - N_A p)^2/N_A p (1-p) + (S_B - N_B p)^2/N_B p (1-p)$. Ее можно привести к виду $\chi^2 = (p_A - p_B)^2/(s^2 / N_A + s^2 / N_B)$, $s^2 = p (1 - p)$, $p_A = S_A / N_A$, $p_B = S_B / N_B$. При большом количестве точек распределение $\chi^2$ можно ожидать близим $\chi_1^2$. $p$-значение $p=P_{\chi_1^2}(x > \chi^2)$. Распределение $\chi^2_1$ получается при возведении в квадрат стандартного нормального распределения. Область $P_{\chi_1^2}(x > \chi^2)$ соответствует областям $P_{Norm(0,1)}(x > \chi \cup x < -\chi)$. По симметрии нормального распределения площади $x > \chi$ и $x < -\chi$ одинаковы $P_{Norm(0,1)}(x > \chi \cup x < -\chi) = 2 P_{Norm(0,1)}(x > \chi)$. Байесовская оценка вероятности конверсии одной группы больше другой с учетом собранных данных при использовании априорного бета-распределения $P(\mu_B > \mu_A | S_A, S_B, N_A, N_B) \approx P_{Norm(p_{\Delta}, s_{\Delta}^2)}(x > 0)$, $p_{\Delta} = p_B - p_A$,  $s_{\Delta} = s_A^2/N_A + s_B^2/N_B$. В пренебрежении априорным распределением $P(\mu_B > \mu_A | S_A, S_B) \approx 1 - P_{Norm(\chi, 1)}(x < 0)$. По симметрии $P_{Norm(\chi, 1)}(x < 0) = P_{Norm(0, 1)}(x > \chi)$ Поэтому $p$-значение $p \approx 2( 1 - P(\mu_B > \mu_A | S_A, S_B))$. Отсюда $P(p_B > p_A | S_A, S_B) \approx 1 - p/2$.

$$
p_A = \frac{S_A}{N_A}, \quad 
p_B = \frac{S_B}{N_B}, \quad 
p = \frac{S_A + S_B}{N_A + N_B},
\quad
s^2 = p (1 - p)
\\
\begin{split}
\chi^2 & = \frac{(S_A - N_A p)^2}{N_A p (1-p)} + \frac{(S_B - N_B p)^2}{N_B p (1-p)} 
\\
& = \frac{N_A N_B (p_A - p_B)^2}{(N_A + N_B) p (1-p)}
\\
& = \frac{(p_A - p_B)^2}{s^2 / N_A + s^2 / N_B}
\\
\end{split}
\\
p_A = p_B: \chi^2 \to \chi_1^2, \, n \to \infty
\\
\begin{split}
\text{p-val} & = P_{\chi_1^2}(x > \chi^2 | p_A = p_B)
\\
& = P_{Norm(0,1)}(x > \chi \cup x < -\chi | p_A = p_B) 
\\
& = 2 P_{Norm(0,1)}(x > \chi | p_A = p_B)
\\
& \approx 2 \left( 1 - P(p_B > p_A | S_A, S_B) \right)
\end{split}
\\
P(p_B > p_A | S_A, S_B) \approx 1 - \text{p-val}/2
$$

Распределение $\chi^2_1$ на первом графике ниже. Закрашенная область соответствует $p$-значению $p = P_{\chi_1^2}(x > \chi^2)$. На втором графике - стандартное нормальное распределение. Закрашенные темные области $x > \chi$ и $x < - \chi$ соответствуют $P_{\chi_1^2}(x > \chi^2)$ при возведении в квадрат. Серый график - нормальное распределение $Norm(\chi, 1)$. Закрашенная область серого графика приближенно равна $1 - P(p_B > p_A | S_A, S_B)$. Площади закрашенной серой и каждой из темных областей совпадают.

In [None]:
p = 0.3
#s = p * (1 - p)
#todo: N = 10000
#s = p * (1 - p) / N
s = 1
x0 = p / (p * (1 - p))

xaxis_min = 0
xaxis_max = 5
x = np.linspace(xaxis_min, xaxis_max, 1000)
fig = go.Figure()
fig.add_trace(go.Scatter(x=x, y=stats.chi.pdf(x, df=1), 
                         line_color='black', opacity=0.8, name=f'$\chi^2_1$'))
fig.add_trace(go.Scatter(x=[x0**2, x0**2], y=[0, max(stats.chi.pdf(x, df=1))*1.1], 
                         line_color='black', 
                         mode='lines+text', text=['', '$\chi^2$'], textposition="top center",
                         line_dash='dash', showlegend=False))
fig.add_trace(go.Scatter(x=x[x>x0**2], y=stats.chi.pdf(x[x>x0**2], df=1), 
                         line_color='black', opacity=0.8, name='$P_{\chi_1^2}(x > \chi^2)$', fill="tozeroy", fillcolor="rgba(0, 0, 0, 0.7)"))
fig.update_layout(title='Хи-квадрат',
                  xaxis_title='$x$',
                  yaxis_title='Плотность вероятности',
                  xaxis_range=[xaxis_min, xaxis_max],
                  hovermode="x",
                  template="plotly_white",
                  height=500)
fig.show()

xaxis_min = -5
xaxis_max = 5
x = np.linspace(xaxis_min, xaxis_max, 1000)
fig = go.Figure()
fig.add_trace(go.Scatter(x=x, y=stats.norm.pdf(x, loc=0, scale=s), 
                         line_color='black', opacity=0.8, name=f'$Norm(0, 1)$'))
fig.add_trace(go.Scatter(x=[0, 0], y=[0, max(stats.norm.pdf(x, loc=0, scale=s))*1.1], 
                         line_color='black', 
                         mode='lines+text', text=['', '0'], textposition="top center", 
                         line_dash='dash', showlegend=False))
fig.add_trace(go.Scatter(x=[x0, x0], y=[0, max(stats.norm.pdf(x, loc=0, scale=s))*1.1], 
                         line_color='black', 
                         mode='lines+text', text=['', '$\chi$'], textposition="top center",
                         line_dash='dash', showlegend=False))
fig.add_trace(go.Scatter(x=[-x0, -x0], y=[0, max(stats.norm.pdf(x, loc=0, scale=s))*1.1], 
                         line_color='black', 
                         mode='lines+text', text=['', '$-\chi$'], textposition="top center",
                         line_dash='dash', showlegend=False))
fig.add_trace(go.Scatter(x=x[x>x0], y=stats.norm.pdf(x[x>x0], loc=0, scale=s), 
                         line_color='black', opacity=0.8, name='$P_{Norm(0,1)}(x > \chi \cup x < -\chi | p_A = p_B)$', fill="tozeroy", fillcolor="rgba(0, 0, 0, 0.7)"))
fig.add_trace(go.Scatter(x=x[x<-x0], y=stats.norm.pdf(x[x<-x0], loc=0, scale=s), 
                         line_color='black', opacity=0.8, name='$P_{Norm(0,1)}(x > \chi | p_A = p_B)$', fill="tozeroy", fillcolor="rgba(0, 0, 0, 0.7)",
                         showlegend=False))
fig.add_trace(go.Scatter(x=x, y=stats.norm.pdf(x, loc=x0, scale=s), 
                         line_color='black', opacity=0.2, name='$Norm(\chi, 1)$'))
fig.add_trace(go.Scatter(x=x[x<0], y=stats.norm.pdf(x[x<0], loc=x0, scale=s), 
                         line_color="rgba(128, 128, 128, 0.2)", name='$P_{Norm(\chi,1)}(x < 0)$', fill="tozeroy", fillcolor="rgba(128, 128, 128, 0.2)"))
fig.update_layout(title='Нормальные распределения',
                  xaxis_title='$x$',
                  yaxis_title='Плотность вероятности',
                  xaxis_range=[xaxis_min, xaxis_max],
                  hovermode="x",
                  template="plotly_white",
                  height=500)
fig.show()

Соотношение $P(p_B > p_A | S_A, S_B) \approx 1 - p/2$ проверяется по выборке из двух распределений Бернулли с конверсиями $p_A = 0.1$ и $p_B = 0.105$. Данные для $\chi^2$-теста задаются в виде таблицы со строками $S_A, N_A-S_A$ и $S_B, N_B - S_B$. Только $p$-значение не позволяет выбрать между $p_A > p_B$ и $p_B > p_A$, поэтому дополнительно сравниваются конверсии $p_A$, $p_B$. Видно, что связь $p$-значения и байесовской оценки вероятности численно выполняется. 

In [None]:
def posterior_dist_binom(ns, ntotal, a_prior=1, b_prior=1):
    a = a_prior + ns
    b = b_prior + ntotal - ns 
    return stats.beta(a=a, b=b)

def prob_pb_gt_pa(post_dist_A, post_dist_B, post_samp=100_000):
    sa = post_dist_A.rvs(size=post_samp)
    sb = post_dist_B.rvs(size=post_samp)
    b_gt_a = np.sum(sb > sa)
    return b_gt_a / post_samp

pA = 0.1
pB = pA * 1.05

exactA = stats.bernoulli(pA)
exactB = stats.bernoulli(pB)

N = 30000
sampA = exactA.rvs(size=N)
sampB = exactB.rvs(size=N)
SA = np.sum(sampA)
SB = np.sum(sampB)

post_dist_A = posterior_dist_binom(ns=SA, ntotal=N)
post_dist_B = posterior_dist_binom(ns=SB, ntotal=N)
pb_gt_pa_bayes = prob_pb_gt_pa(post_dist_A, post_dist_B)

t = np.array([
    [SA,     N - SA],
    [SB,     N - SB]
])
chi2_stat, p_value_chi2, dof, expected = stats.chi2_contingency(t, correction=False)
p_A_samp = SA / N
p_B_samp = SB / N
pb_gt_pa_chi = 1 - p_value_chi2 / 2
pb_gt_pa_chi = pb_gt_pa_chi if p_B_samp > p_A_samp  else 1 - pb_gt_pa_chi

print(f'Bayes P(pb > pa): {pb_gt_pa_bayes:.5g}')
print(f"Chi2: 1-pval/2:   {pb_gt_pa_chi:.5g}")

Ниже $p$-значение $\chi^2$-теста используется для проверки количества правильно угаданных вариантов с большей конверсией в серии экспериментов. В каждом эксперименте 2 группы, конверсия $p_A=0.1$ фиксирована, $p_B$ выбирается случайно в диапазоне $\pm5\%$ от $p_A$. В каждой группе добавляются данные по 10000 точек за шаг. На каждом шаге вычисляется $p$-значение $\chi^2$-теста и $P(p_B > p_A | S_A, S_B) \approx 1 - p/2$ при $p_B > p_A$ или $P(p_B > p_A | S_A, S_B) \approx p/2$ при $p_A > p_B$. Эксперимент останавливается, если оценка вероятности конверсии одной группы больше другой превышает `prop_stop` или набрано максимальное количество точек `n_samp_max`. Всего в `nexps=1000` верно угадано 932 варианта. Доля 0.932 близка `prob_stop = 0.95`.

In [None]:
cmp = pd.DataFrame(columns=['A', 'B', 'best_exact', 'exp_samp_size', 'A_exp', 'B_exp', 'best_exp', 'p_best_bayes', 'p_best_chi'])

p = 0.1
nexps = 1000
cmp['A'] = [p] * nexps
cmp['B'] = p * (1 + stats.uniform.rvs(loc=-0.05, scale=0.1, size=nexps))
cmp['best_exact'] = cmp.apply(lambda r: 'B' if r['B'] > r['A'] else 'A', axis=1)

n_samp_max = 3_000_000
n_samp_step = 10_000
prob_stop = 0.95

for i in range(nexps):
    pA = cmp.at[i, 'A']
    pB = cmp.at[i, 'B']
    exact_dist_A = stats.bernoulli(p=pA)
    exact_dist_B = stats.bernoulli(p=pB)
    n_samp_total = 0
    ns_A = 0
    ns_B = 0
    while n_samp_total < n_samp_max:
        dA = exact_dist_A.rvs(n_samp_step)
        dB = exact_dist_B.rvs(n_samp_step)
        n_samp_total += n_samp_step
        ns_A = ns_A + np.sum(dA)
        ns_B = ns_B + np.sum(dB)
        p_A_samp = ns_A / n_samp_total
        p_B_samp = ns_B / n_samp_total
        t = np.array([
            [ns_A,     n_samp_total - ns_A],
            [ns_B,     n_samp_total - ns_B]
        ])
        chi2_stat, p_value_chi, dof, expected = stats.chi2_contingency(t, correction=False)
        pb_gt_pa_chi = 1 - p_value_chi / 2
        pb_gt_pa_chi = pb_gt_pa_chi if p_B_samp > p_A_samp  else 1 - pb_gt_pa_chi
        best_gr = 'B' if pb_gt_pa_chi >= prob_stop else 'A' if 1 - pb_gt_pa_chi >= prob_stop else None
        if best_gr:
            post_dist_A = posterior_dist_binom(ns=ns_A, ntotal=n_samp_total)
            post_dist_B = posterior_dist_binom(ns=ns_B, ntotal=n_samp_total)
            pb_gt_pa_bayes = prob_pb_gt_pa(post_dist_A, post_dist_B)
            cmp.at[i, 'A_exp'] = p_A_samp
            cmp.at[i, 'B_exp'] = p_B_samp
            cmp.at[i, 'exp_samp_size'] = n_samp_total
            cmp.at[i, 'best_exp'] = best_gr
            cmp.at[i, 'p_best_bayes'] = max(pb_gt_pa_bayes, 1 - pb_gt_pa_bayes)
            cmp.at[i, 'p_best_chi'] = max(pb_gt_pa_chi, 1 - pb_gt_pa_chi)
            break
    print(f'done {i}: nsamp {n_samp_total}, best_gr {best_gr}, P_best Bayes {max(pb_gt_pa_bayes, 1 - pb_gt_pa_bayes):.4f}, Chi (1-pval/2): {1 - p_value_chi/2:.4f}')

cmp['correct'] = cmp['best_exact'] == cmp['best_exp']
display(cmp.head(30))
cor_guess = np.sum(cmp['correct'])
print(f"Nexp: {nexps}, Correct Guesses: {cor_guess}, Accuracy: {cor_guess / nexps}")

## U-критерий Манна-Уитни

Для выборок размера $N_A, N_B$ из двух случайных величин $A, B$ статистика Манна-Уитни [[MannWhitneyU](https://en.wikipedia.org/wiki/Mann%E2%80%93Whitney_U_test)] определена через попарное сравнение элементов. Для непрерывных распределений вероятность совпадения элементов в выборках нулевая. В этом случае $U$-статистика определена как количество пар $(A_i, B_j)$, где элемент $A_i$ больше $B_j$: $U_A = \sum_{i=1}^{N_A} \sum_{j=1}^{N_B} I(A_i > B_j)$. Cтатистику также можно записать в виде $U_A = R_A - N_A (N_A + 1)/2$, где $R_A$ - сумма рангов элементов $А$ в объединенной выборке. Эквивалентность определений можно увидеть следующим образом: слагаемое $N_A (N_A + 1)/2$ соответствует минимальной сумме рангов если все элементы $A$ меньше $B$ и считается как сумма арифметической прогрессии. Если наибольший элемент $A$ больше $n$ элементов $B$, то $U_A = n$ и $R_A = N_A (N_A + 1)/2 + n$, аналогично для других элементов. При большом количестве точек отношение $U_A / N_A N_B$ будет стремиться к вероятности элемента выборки $A$ больше $B$ ($U_A$ - число пар $A$ больше $B$, $N_A N_B$ - общее количество пар).

$$
\begin{split}
A, B & - \text{непрерывные распределения}
\\
U_A & = \sum_{i=1}^{N_A} \sum_{j=1}^{N_B} I(A_i > B_j),
\quad
I(\cdot) = 1 \text{ если условие выполнено, иначе } 0 
\\
U_A & = R_A - N_A (N_A + 1)/2, \quad R_A \text{- сумма рангов элементов А в объединенной выборке}
\\
\frac{U_A}{N_A N_B} & \to P(A > B),
\quad
N_A, N_B \to \infty
\end{split}
$$

Нулевая гипотеза - распределения $A$ и $B$ одинаковы. Для выборок $N_A, N_B$ из одного распределения можно посчитать среднее и дисперсию $U$-статистики $E[U] = N_A N_B /2$, $\text{Var}(U) = N_A N_B (N_A + N_B + 1)/12$. Величина $(U - E[U])/\sqrt{Var(U)}$ будет стремиться к нормальному распределению [нужна ссылка]. $p$-значение определено как вероятность получить более экстремальное значение $p = P_{Norm(0,1)}(x > u_0)$, $u_0 = (U - E[U])/\sqrt{\text{Var}(U)}$.

$$
A = B: 
\quad
E[U] = \frac{N_A N_B}{2}, \quad
\text{Var}(U) = \frac{N_A N_B (N_A + N_B + 1)}{12}
\\
\frac{U - E[U]}{\sqrt{\text{Var}(U)}} \to Norm(0,1), \quad N_A, N_B \to \infty
\\
p = P_{Norm(0,1)}(x > u_0), 
\quad
u_0 = \frac{U - E[U]}{\sqrt{\text{Var}(U)}}
$$

На графике ниже два нормальных распределения. На втором графике - распределение $U$-статистики в предположении эквивалентности распределений и фактическое значение. Закрашенная область соответствует $p$-значению.

In [None]:
import numpy as np
import plotly.graph_objects as go
from scipy.stats import mannwhitneyu

mu1, sigma1 = 0, 1
mu2, sigma2 = -0.02, 1
exactA = stats.norm(loc=mu1, scale=sigma1)
exactB = stats.norm(loc=mu2, scale=sigma2)

p_b_gt_a_norm = 1 - stats.norm.cdf(0, loc=mu2-mu1, scale=np.sqrt(sigma1**2 + sigma2**2))

ntotal = 10000
sampA = exactA.rvs(ntotal)
sampB = exactB.rvs(ntotal)
U, p = mannwhitneyu(sampA, sampB, alternative='less')
eu = ntotal * ntotal / 2
varu = ntotal * ntotal * (ntotal + ntotal +1) / 12
u0 = (U - eu) / np.sqrt(varu)
p_b_gt_a_u = 1 - U / ntotal**2

x = np.linspace(-7, 7, 1000)
fig = go.Figure()
fig.add_trace(go.Scatter(
    x=x, y=exactA.pdf(x),
    mode='lines', name='A'
))
fig.add_trace(go.Scatter(
    x=x, y=exactB.pdf(x),
    mode='lines', name='B'
))
fig.update_layout(
    title="A, B",
    template="plotly_white",
    #yaxis_range=[0,1.1]
)
fig.show()

xaxis_min = -7
xaxis_max = 7
x = np.linspace(xaxis_min, xaxis_max, 1000)
fig = go.Figure()
fig.add_trace(go.Scatter(x=x, y=stats.norm.pdf(x, loc=0, scale=1), 
                         line_color='black', opacity=0.8, name=f'$Norm(0, 1)$'))
fig.add_trace(go.Scatter(x=[u0, u0], y=[0, max(stats.norm.pdf(x, loc=0, scale=s))*1.1], 
                         line_color='black', 
                         mode='lines+text', text=['', '$u_0$'], textposition="top center",
                         line_dash='dash', showlegend=False))
fig.add_trace(go.Scatter(x=x[x>u0], y=stats.norm.pdf(x[x>u0], loc=0, scale=s), 
                         line_color='black', opacity=0.8, name='$P(x > u_0)$', fill="tozeroy", fillcolor="rgba(0, 0, 0, 0.7)"))
fig.update_layout(
    title='U',
    template="plotly_white"
)
fig.show()

print(f'pval: {stats.norm.cdf(u0)}')
print(f'scipy pval: {p}')

print(f'P(B>A) exact: {p_b_gt_a_norm}')
print(f'P(B>A) U: {p_b_gt_a_u}')

Сравниваются не средние, а все распределение. Вероятность $U/N_A N_B$ может не доходить до 1. 

В байесовском подходе оценка P(X>Y) строится по апостериорным предиктивным распределениям, а не по параметрам.

Непонятно, чему соответствует p-значение.   
При построенных предиктивных апостериорных распределениях P(A>B) считается точно.  
Это не случайная величина.  

Для нормальных распределений построить пример.  
Исходные -> сэмпл -> параметры -> предиктивные апостериорные -> P(A > B)

Апостериорное для нормального распределения

$$
\begin{split}
P(\mathcal{D} | \mathcal{H}) & = Norm(x | \mu, \sigma_x^2) = 
\frac{1}{\sqrt{2 \pi \sigma_x^2}} e^{-\tfrac{(x - \mu)^2}{2 \sigma_x^2}}
\\
P(\mathcal{H}) & = Norm(\mu | \mu_0, \sigma_0^2) = 
\frac{1}{\sqrt{2 \pi \sigma_{0}^2}} e^{-\tfrac{(\mu-\mu_0)^2}{2 \sigma_{0}^2}} 
\\
P(\mathcal{H} | \mathcal{D}) & = Norm(\mu | \mu_N, \sigma_N^2),
\quad
\sigma_N^2 = \frac{\sigma_0^2 \sigma_x^2}{\sigma_x^2 + N \sigma_0^2},
\quad
\mu_N = \mu_0 \frac{\sigma_N^2}{\sigma_0^2} + \frac{\sigma_N^2}{\sigma_x^2} \sum_i^N x_i
\end{split}
$$

Апостериорное предиктивное:  
https://en.wikipedia.org/wiki/Conjugate_prior   
https://www.cs.ubc.ca/~murphyk/Papers/bayesGauss.pdf    
вычисление интеграла:  
https://en.wikipedia.org/wiki/Sum_of_normally_distributed_random_variables  


$$
P(x | \mathcal{D}) = Norm(x | \mu_N, \sigma_N^2 + \sigma_x^2)
$$

$$
\begin{split}
P(x | \mathcal{D}) & = 
\int Norm(x | \mu, \sigma_x^2) Norm(\mu | \mu_N, \sigma_N^2) d\mu
\\
& = \int Norm(x - \mu | 0, \sigma_x^2) Norm(\mu | \mu_N, \sigma_N^2) d\mu
\\
& = Norm(x | \mu_N, \sigma_x^2 + \sigma_N^2)
\end{split}
$$

Есть 2 апостериорных предиктивных распределения.  
Вероятность $P(A > B) = P(A - B > 0)$.  
Для нормальных распределений разность снова нормальное распределение
$$
A - B | D \sim Norm(\mu_D, \sigma_D), \quad
\mu_D = \mu_A - \mu_B, \quad
\sigma_D = \sigma_{N_A}^2 + \sigma_{x_A}^2 + \sigma_{N_B}^2 + \sigma_{x_B}^2
\\
P(A - B > 0) = F_{A-B|D}(0)
$$

Прямого аналога $p$-значения похоже нет. 
В $\sigma_D$ слагаемые $\sigma_{N_A}^2, \sigma_{N_B}^2$ убывают с ростом $N$.   
Можно попытаться придумать критерий остановки.   
Если $N$ достаточно велико, то $\sigma_D$ сильно меняться не будет.    
Поэтому $F_{A-B}(0)$ тоже близко окончательному.   
Все равно же будет из-за новых точек.  

Проверка количества правильно угаданных вариантов.

In [None]:
cmp = pd.DataFrame(columns=['A', 'B', 'best_exact', 'exp_samp_size', 'A_exp', 'B_exp', 'best_exp', 'p_best_bayes', 'p_best_u'])

mua = 0.1
nexps = 100
cmp['A'] = [mua] * nexps
cmp['B'] = mua * (1 + stats.uniform.rvs(loc=-0.05, scale=0.1, size=nexps))
cmp['best_exact'] = cmp.apply(lambda r: 'B' if r['B'] > r['A'] else 'A', axis=1)

n_samp_max = 1_000_000
n_samp_step = 10000
prob_stop = 0.95

for i in range(nexps):
    mua = cmp.at[i, 'A']
    mub = cmp.at[i, 'B']
    exact_dist_A = stats.norm(loc=mua)
    exact_dist_B = stats.norm(loc=mub)
    n_samp_total = 0
    sampA = exact_dist_A.rvs(n_samp_max)
    sampB = exact_dist_B.rvs(n_samp_max)
    while n_samp_total < n_samp_max:
        n_samp_total += n_samp_step
        U, p = mannwhitneyu(sampA[:n_samp_total], sampB[:n_samp_total], alternative='greater')
        pb_gt_pa_u = 1 - U / n_samp_total / n_samp_total
        best_gr = 'B' if p >= prob_stop else 'A' if 1 - p >= prob_stop else None
        if best_gr:
            #post_dist_A = posterior_dist_binom(ns=ns_A, ntotal=n_samp_total)
            #post_dist_B = posterior_dist_binom(ns=ns_B, ntotal=n_samp_total)
            pb_gt_pa_bayes = None #prob_pb_gt_pa(post_dist_A, post_dist_B)
            cmp.at[i, 'A_exp'] = sampA[:n_samp_total].mean()
            cmp.at[i, 'B_exp'] = sampB[:n_samp_total].mean()
            cmp.at[i, 'exp_samp_size'] = n_samp_total
            cmp.at[i, 'best_exp'] = best_gr
            cmp.at[i, 'p_best_bayes'] = None #max(pb_gt_pa_bayes, 1 - pb_gt_pa_bayes)
            cmp.at[i, 'p_best_u'] = max(pb_gt_pa_u, 1 - pb_gt_pa_u)
            break
    print(f'done {i}: nsamp {n_samp_total}, best_gr {best_gr}, P_best Bayes {None}, U P(B>A): {pb_gt_pa_u:.4f}')

cmp['correct'] = cmp['best_exact'] == cmp['best_exp']
display(cmp.head(30))
cor_guess = np.sum(cmp['correct'])
print(f"Nexp: {nexps}, Correct Guesses: {cor_guess}, Accuracy: {cor_guess / nexps}")

In [None]:
cmp = pd.DataFrame(columns=['A', 'B', 'best_exact', 'exp_samp_size', 'A_exp', 'B_exp', 'best_exp', 'p_best_bayes', 'p_best_u'])

mua = 0.1
nexps = 1000
cmp['A'] = [mua] * nexps
cmp['B'] = mua * (1 + np.random.choice([-1, 1], size=nexps) * stats.uniform.rvs(loc=0.02, scale=0.05, size=nexps))
cmp['best_exact'] = cmp.apply(lambda r: 'B' if r['B'] > r['A'] else 'A', axis=1)

n_samp_max = 200_000
n_samp_step = 10000
prob_stop = 0.95

for i in range(nexps):
    mua = cmp.at[i, 'A']
    mub = cmp.at[i, 'B']
    exact_dist_A = stats.norm(loc=mua)
    exact_dist_B = stats.norm(loc=mub)
    n_samp_total = 0
    sampA = exact_dist_A.rvs(n_samp_max)
    sampB = exact_dist_B.rvs(n_samp_max)
    U, p = mannwhitneyu(sampA, sampB, alternative='less')
    pb_gt_pa_u = 1 - U / n_samp_max**2
    best_gr = 'B' if 1 - p >= prob_stop else 'A' if p >= prob_stop else None
    if best_gr:
        #post_dist_A = posterior_dist_binom(ns=ns_A, ntotal=n_samp_total)
        #post_dist_B = posterior_dist_binom(ns=ns_B, ntotal=n_samp_total)
        pb_gt_pa_bayes = None #prob_pb_gt_pa(post_dist_A, post_dist_B)
        cmp.at[i, 'A_exp'] = sampA.mean()
        cmp.at[i, 'B_exp'] = sampB.mean()
        cmp.at[i, 'exp_samp_size'] = n_samp_max
        cmp.at[i, 'best_exp'] = best_gr
        cmp.at[i, 'p_best_bayes'] = None #max(pb_gt_pa_bayes, 1 - pb_gt_pa_bayes)
        cmp.at[i, 'p_best_u'] = max(pb_gt_pa_u, 1 - pb_gt_pa_u)
    print(f'done {i}: nsamp {n_samp_max}, best_gr {best_gr}, P_best Bayes {None}, U P(B>A): {pb_gt_pa_u:.4f}')

cmp['correct'] = cmp['best_exact'] == cmp['best_exp']
display(cmp.head(30))
cor_guess = np.sum(cmp['correct'])
print(f"Nexp: {nexps}, Correct Guesses: {cor_guess}, Accuracy: {cor_guess / nexps}")

cmpfinished = cmp[cmp['exp_samp_size'].notna()]
cor_guess = np.sum(cmpfinished['correct'])
print(f"Finished: {cmpfinished.shape[0]}, Correct Guesses: {cor_guess}, Accuracy: {cor_guess / cmpfinished.shape[0]}")

Аналитическое значение P(X > Y): интеграл по всем x от плотности вероятности f_X(x) * функцию распределения F_Y(x) * dx (конкретное x * вероятность выпадения в X * вероятность выпадения такого или меньшего значения в Y).

Для нормальных A, B аналитически: $P(B>A) = F_{B-A}(0) = \Phi(0, \mu_B - \mu_A, s_A^2 + s_B^2)$

In [None]:
import numpy as np
import plotly.graph_objects as go
from scipy.stats import mannwhitneyu

mu1, sigma1 = 0, 1
mu2, sigma2 = 0.005, 1
exactA = stats.norm(loc=mu1, scale=sigma1)
exactB = stats.norm(loc=mu2, scale=sigma2)

p_b_gt_a_norm = stats.norm.cdf(0, loc=mu2-mu1, scale=np.sqrt(sigma1**2 + sigma2**2))

nstep = 1000
nmax = 100000
u_norm_values = []
p_values = []
n = []
sampA = np.array([])
sampB = np.array([])

for ntotal in range(nstep, nmax, nstep):
    dA = exactA.rvs(nstep)
    dB = exactB.rvs(nstep)
    sampA = np.concatenate([sampA, dA])
    sampB = np.concatenate([sampB, dB])
    U, p = mannwhitneyu(sampA, sampB, alternative='less')
    n.append(ntotal)
    u_norm_values.append(U / (ntotal * ntotal))
    p_values.append(p)

    

x = np.linspace(-10, 10, 1000)
fig = go.Figure()
fig.add_trace(go.Scatter(
    x=x, y=exactA.pdf(x),
    mode='lines', name='A'
))
fig.add_trace(go.Scatter(
    x=x, y=exactB.pdf(x),
    mode='lines', name='B'
))
fig.update_layout(
    title="A, B",
    template="plotly_white",
    yaxis_range=[0,1.1]
)
fig.show()


fig = go.Figure()
fig.add_trace(go.Scatter(
    x=n, y=u_norm_values,
    mode='lines+markers',
    name='Normalized U (U / n^2)'
))
fig.add_trace(go.Scatter(x=[n[0], n[-1]], y=[p_b_gt_a_norm, p_b_gt_a_norm], name='P(B>A) exact'))
fig.add_trace(go.Scatter(
    x=n, y=p_values,
    mode='lines+markers',
    name='p-values'
))
fig.update_layout(
    title="Mann-Whitney U Statistic vs Sample Size",
    xaxis_title="Sample size (n_A = n_B)",
    yaxis_title="Normalized U",
    legend_title="Metric",
    template="plotly_white",
    yaxis_range=[0,1.1]
)
fig.show()


eu = ntotal * ntotal / 2
varu = ntotal * ntotal * (ntotal + ntotal +1) / 12
u0 = (U - eu) / np.sqrt(varu)
      
xaxis_min = -7
xaxis_max = 7
x = np.linspace(xaxis_min, xaxis_max, 1000)
fig = go.Figure()
fig.add_trace(go.Scatter(x=x, y=stats.norm.pdf(x, loc=0, scale=1), 
                         line_color='black', opacity=0.8, name=f'$Norm(0, 1)$'))
fig.add_trace(go.Scatter(x=[u0, u0], y=[0, max(stats.norm.pdf(x, loc=0, scale=s))*1.1], 
                         line_color='black', 
                         mode='lines+text', text=['', '$u_0$'], textposition="top center",
                         line_dash='dash', showlegend=False))
fig.add_trace(go.Scatter(x=x[x>u0], y=stats.norm.pdf(x[x>u0], loc=0, scale=s), 
                         line_color='black', opacity=0.8, name='$P(x > u_0)$', fill="tozeroy", fillcolor="rgba(0, 0, 0, 0.7)"))
fig.show()

print(f'pval: {stats.norm.cdf(u0)}')
print(f'scipy pval: {p_values[-1]}')

[[UStat](https://en.wikipedia.org/wiki/U-statistic)]

Можно записать через сумму рангов

$$
U_A = R_A - \frac{n_A (n_A + 1)}{2}
\\
\text{where } 
R_A = \sum_{i=1}^{n_A} \text{rank}(X_i)
\text{ is the sum of ranks of group A in the combined dataset.}
$$

$n_A (n_A + 1)/2$ - минимальный ранг если все элементы A меньше B, считается как арифметическая прогрессия.
Если наибольший элемент A больше $n$ элементов B, то $U_A = n$ и $R_A = n_A (n_A + 1)/2 + n$.

$$
\text{Let } n = n_1 + n_2,\ \{R_1,\dots,R_{n_1}\} \text{ be a simple random sample without replacement from } \{1,\dots,n\}
\\
S = \sum_{i=1}^{n_1} R_i
\\
\operatorname{Var}(S)
= \sum_{i=1}^{n_1} \operatorname{Var}(R_i)
+ 2 \sum_{i<j} \operatorname{Cov}(R_i,R_j)
\\
\mathbb{E}[R_i] = \frac{n+1}{2}
\\
\operatorname{Var}(R_i) = \frac{1}{n}\sum_{k=1}^n \left(k-\frac{n+1}{2}\right)^2 = \frac{n^2-1}{12}
\\
\operatorname{Cov}(R_i,R_j)
= -\frac{\operatorname{Var}(1,\dots,n)}{n-1}
= -\frac{n^2-1}{12(n-1)}
\\
\operatorname{Var}(S)
= n_1\frac{n^2-1}{12}
+ 2\binom{n_1}{2}\left(-\frac{n^2-1}{12(n-1)}\right)
\\
= \frac{n^2-1}{12}\left[n_1-\frac{n_1(n_1-1)}{n-1}\right]
\\
= \frac{n^2-1}{12}\cdot\frac{n_1(n-n_1)}{n-1}
\\
= \frac{n^2-1}{12}\cdot\frac{n_1 n_2}{n-1}
\\
= \frac{n_1 n_2 (n+1)}{12}
$$

$$
\text{Let A_1,...,A_{n_1} and B_1,...,B_{n_2} be two independent samples
from the same continuous distribution (H_0).}
\\
\text{Define the Mann–Whitney U statistic as}
U = \sum_{i=1}^{n_1} \sum_{j=1}^{n_2} I_{ij},
\text{where }
I_{ij} =
\begin{cases}
1, & A_i > B_j \\
0, & A_i < B_j
\end{cases}
\\
% Mean
\text{Under H_0: }
P(A_i > B_j) = 1/2
\\
E[I_{ij}] = 1/2
\\
E[U]
= \sum_{i=1}^{n_1} \sum_{j=1}^{n_2} E[I_{ij}]
= n_1 n_2 \cdot \frac{1}{2}
= \frac{n_1 n_2}{2}
\\
% Variance
Var(U)
= Var\left( \sum_{i,j} I_{ij} \right)
= \sum_{i,j} Var(I_{ij})
  + 2 \sum_{(i,j)<(k,l)} Cov(I_{ij}, I_{kl})
\\
% Single indicator variance
Var(I_{ij}) = \frac{1}{2}\left(1-\frac{1}{2}\right) = \frac{1}{4}
\\
\sum Var(I_{ij}) = \frac{n_1 n_2}{4}
\\
% Covariance terms
Cov(I_{ij}, I_{kl}) \neq 0
\iff (i=k, j\neq l) \text{ or } (i\neq k, j=l)
\\
% Example: same A_i, different B_j, B_k
Cov(I_{ij}, I_{ik})
= E[I_{ij} I_{ik}] - E[I_{ij}]E[I_{ik}]
\\
E[I_{ij} I_{ik}]
= P(A_i > B_j \cap A_i > B_k)
= \frac{1}{3}
\\
Cov(I_{ij}, I_{ik})
= \frac{1}{3} - \left(\frac{1}{2}\right)^2
= \frac{1}{12}
\\
% Counting covariance terms
\text{Number of (i=j shared) terms:}
n_1 \binom{n_2}{2}
\\
\text{Number of (j shared) terms:}
n_2 \binom{n_1}{2}
\\
% Total variance
Var(U)
= \frac{n_1 n_2}{4}
  + 2 \cdot \frac{1}{12}
    \left[
      n_1 \binom{n_2}{2}
      + n_2 \binom{n_1}{2}
    \right]
= \frac{n_1 n_2 (n_1 + n_2 + 1)}{12}
$$

Для выборок размера $N_A, N_B$ из двух случайных величин $A, B$ статистика Манна-Уитни [[MannWhitneyU](https://en.wikipedia.org/wiki/Mann%E2%80%93Whitney_U_test)] определена через попарное сравнение элементов $U_A = \sum_{i=1}^{N_A} \sum_{j=1}^{N_B} I(A_i > B_j) + \frac{1}{2} \sum_{i=1}^{N_A} \sum_{j=1}^{N_B} I(A_i = B_j)$

Пусть есть 2 случайных величины $A$ и $B$ и выборки размера $N_A, N_B$. $U$- статистика Манна-Уитни [[MannWhitneyU](https://en.wikipedia.org/wiki/Mann%E2%80%93Whitney_U_test)] определена через попарное сравнение элементов в выборках $U_A = \sum_{i=1}^{N_A} \sum_{j=1}^{N_B} I(X_i > Y_j) 
      + \frac{1}{2} \sum_{i=1}^{N_A} \sum_{j=1}^{N_B} I(X_i = Y_j)$ 

Для непрерывных распределений в выборках нет одинаковых элементов и статистику можно записать в виде $U_A = R_A - N_A (N_A + 1)/2$, где $R_A$ - сумма рангов элементов А в объединенной выборке. Слагаемое $N_A (N_A + 1)/2$ соответствует минимальнорму рангу если все элементы A меньше B и считается как сумма арифметической прогрессии. Эквивалентность определений можно увидеть следующим образом: если наибольший элемент A больше $n$ элементов B, то $U_A = n$ и $R_A = N_A (N_A + 1)/2 + n$, аналогично для других элементов. Для $U_B = N_A N_B - U_A = N_A N_B + N_A (N_A + 1) / 2 - R_A$.

Интерпретация $U$-статистики: $U_A / n_A n_B$ - вероятность элемента выборки A больше B. $U_A$ - число элементов A больше B, $n_A n_B$ - общее количество пар. $U/n_A n_B$ интерпретируется как вероятность элемента A больше B. Сравниваются не средние, а все распределение. Вероятность $U/n_A n_B$ может не доходить до 1. 

$$
U_A = \sum_{i=1}^{N_A} \sum_{j=1}^{N_B} I(X_i > Y_j) 
      + \frac{1}{2} \sum_{i=1}^{N_A} \sum_{j=1}^{N_B} I(X_i = Y_j),
\quad
I(\cdot) = 1 \text{ если условие выполнено, иначе } 0 
\\
\frac{U_A}{N_A N_B} \to P(X > Y) + \frac{1}{2} P(X = Y),
\quad
N_A, N_B \to \infty
$$

Для $U_B = N_A N_B - U_A = N_A N_B + N_A (N_A + 1) / 2 - R_A$.

Важна формулировка гипотезы. В качестве нулевой гипотезы $H_0$ часто предполагают равенство групп (нулевой эффект). В А/Б-тестах нужно проверить не равенство групп, а выбрать группу с большим значением целевой метрики. Поэтому вместо гипотез вида $H_0: p_A = p_B$ нужны $H: p_A > p_B$.

В общем случае использовать $p$-значение для оценки гипотез некорректно. 


В распространных применениях проверок нулевых гипотез к А/Б-тестам $p$-значение оказывается численно близко вероятности метрик одной группы больше другой. Ниже рассмотрены $t$-теста, $\chi^2$-теста для двух пропорций и $U$-критерия Манна-Уитни.

В проверках нулевых гипотез используют статистическую значимость $\alpha$ и мощность $1-\beta$. Они определяют вероятность P(Выбор !H0 \cap H0) и P(Выбор H0 \cap !H0). Их также называют ошибками первого и второго рода. Задание $\alpha$ и $\beta$ не достаточно для задания вероятности корректного определения гипотезы. Она также зависит от качества гипотезы $P(H_0)$. Также полезно подумать о дальнейших действиях: в А/Б - тесте оставляют вариант со значимой разницей. Т.е. нужно оставлять P(выбор !H0 \cap H0) + P(выбор !H0 \cap !H0).

In [None]:
def approx_ttest_conv_pval(sa, na, sb, nb):
    pa = sa / na
    pb = sb / nb
    stderr_a = np.sqrt(pa * (1 - pa) / na)
    stderr_b = np.sqrt(pb * (1 - pb) / nb)
    diff = pb - pa
    diff_stderr = np.sqrt(stderr_a**2 + stderr_b**2)
    pval = stats.norm.cdf(0, diff, diff_stderr)
    return pval

Основная проблема метода - решение принимается по $p$-значению $p = P_{T}(x \ge x_{0} | H_0)$, тогда как для оценки гипотезы нужна вероятность $P(H_0 | x_0)$. Ее можно получить по соотношению Байеса $P(H_0 | x_0) \propto P_{T}(x = x_{0} | H_0) P(H_0)$. Т.е. посчитать вероятности получить данные в рамках конкурирующих гипотез и сравнить друг с другом с учетом априорных вероятностей. В общем случае $p$-значение не позволяет делать корректных выводов о рассматриваемой гипотезе.

Если приходится иметь дело с проверками нулевых гипотез, важно обращать внимание на формулировку гипотезы. В качестве $H_0$ часто предполагают равенство групп (нулевой эффект). В А/Б-тестах нужно проверить не равенство групп, а выбрать группу с большим значением целевой метрики. Поэтому вместо гипотез вида $H_0: p_A = p_B$ нужны $H: p_A > p_B$.

Для анализа А/Б-тестов используют метод проверки статистических гипотез [[StTest](https://en.wikipedia.org/wiki/Statistical_hypothesis_testing)]. Чаще всего в таком подходе предполагают, что между вариантами нет разницы, после чего смотрят, насколько такое предположение объясняет экспериментальные данные. Если вероятность получить данные мала, считают, что предположение можно отвергнуть и между группами есть значимая разница.  

Есть экспериментальные данные $\mathcal{D}$ и гипотеза $H_0$ о данных. Выбирают «статистический тест» $T$ - случайную величину с известным распределением $P_{T}(x | H_0)$ в предположении $H_0$. По данным считают «тестовую статистику»  $x_{0}$ [[TestStat](https://en.wikipedia.org/wiki/Test_statistic)]. Вероятность получить «фактическое или более экстремальное» значение тестовой статистики называют «$p$-значением» [[PVal](https://en.wikipedia.org/wiki/P-value)]. В зависимости от контекста $p = P_{T}(x \ge x_{0} | H_0)$, $p = P_{T}(x \le x_{0} | H_0)$ или $p = P_{T}(|x - x_{0}| \ge 0 | H_0)$ [[TailedTests](https://en.wikipedia.org/wiki/One-_and_two-tailed_tests)]. Если вероятность «достаточно мала», гипотезу $H_0$ «отвергают», если нет - «не отвергают».

Для сравнения конверсий могут применять $\chi^2$-тест [[Chi2Test](https://en.wikipedia.org/wiki/Chi-squared_test)]. Статистика $\chi^2$ Пирсона [[Chi2Pearson](https://en.wikipedia.org/wiki/Pearson%27s_chi-squared_test)] для мультиномиальных распределений $\chi^2 = \sum_{i=1}^k (S_i - Np_i)^2/(Np_i)$, где $N$ - общее количество наблюдений, $S_i$ - фактическое количество наблюдений $i$-категории,  $N p_i$ - ожидаемое при доле $i$-категории $p_i$. Для биномиального распределения

$$
\begin{split}
\chi^2 & = 
\frac{(S - N p)^2}{N p}
+
\frac{((N - S) - N (1-p))^2}{N (1-p)}
\\
& = 
\frac{(S - N p)^2}{N p}
+
\frac{(S - Np)^2}{N (1-p)}
\\
& =
\frac{(S - Np)^2}{N p (1-p)}
\end{split}
$$

По теореме центральной предельной теореме $(S - Np)/\sqrt{N p (1-p)}$ стремится к стандартному нормальному распределению. Распределение $\chi^2$ возникает при суммировании квадратов нормальных случайных величин $\chi^2_k = \sum_{i=1}^{k} X_i^2,\, X_i \sim \text{Norm}(0,1)$ [[Chi2Dist](https://en.wikipedia.org/wiki/Chi-squared_distribution)]. Поэтому $\chi^2$-статистика стремится к $\chi^2$-распределению с 1 степенью свободы.

Для А/Б-теста конверсий с двумя группами в предположении $p_A = p_B = p$

$$
p = \frac{S_A + S_B}{N_A + N_B}
\\
\chi^2 = \frac{(S_A - N_A p)^2}{N_A p (1-p)} + \frac{(S_B - N_B p)^2}{N_B p (1-p)},
\\
=
\frac{N_A (p_A - p)^2 + N_B (p_B - p)^2}{p (1-p)}
\\
p_A - p = \frac{S_A}{N_A} - \frac{S_A + S_B}{N_A + N_B} = \frac{S_A N_B - S_B N_A}{N_A (N_A + N_B)}
 = \frac{N_B}{(N_A + N_B)}(p_A - p_B)
\\
p_B - p = \frac{N_A}{(N_A + N_B)}(p_B - p_A)
\\
\chi^2 = \frac{N_A N_B^2 (p_A - p_B)^2 + N_B N_A^2 (p_A - p_B)^2}{(N_A + N_B)^2 p (1-p)}
\\
=
\frac{N_A N_B (p_A - p_B)^2}{(N_A + N_B) p (1-p)}
\\
\frac{N_A N_B}{(N_A + N_B)} = \frac{1}{N_A} + \frac{1}{N_B}
\\
\chi^2 = \frac{(p_A - p_B)^2}{p (1-p) / N_A + p (1-p) / N_B} 
=
\frac{(p_A - p_B)^2}{s^2 / N_A + s^2 / N_B}
$$
В $t$-тесте считалось
$$
x_0 = \frac{\mu_{\Delta}}{s_{\Delta}},
\quad
\mu_{\Delta} = \mu_B - \mu_A,
\quad
s^2_{\Delta} = \frac{s_A^2}{N_A} + \frac{s_B^2}{N_B}
$$

Данные представляют в таблице вида

|            | Сконвертировались | Не сконвертировались    | Всего       |
|------------|-------------------|-------------------------|-------------|
| A          | $S_A$             | $N_A - S_A$             | $N_A$       |
| B          | $S_B$             | $N_B - S_B$             | $N_B$       |
| Всего      | $S_A + S_B$       | $N_A + N_B - S_A - S_B$ | N_A + N_B |

Данные представляют в таблице вида

|            | Сконвертировались | Не сконвертировались    |
|------------|-------------------|-------------------------|
| A          | $S_A$             | $N_A - S_A$             |
| B          | $S_B$             | $N_B - S_B$             |

|            | Converted | Not Converted | Total |
|------------|-----------|---------------|-------|
| Group A    | x_A       | n_A - x_A     | n_A   |
| Group B    | x_B       | n_B - x_B     | n_B   |
| Total      | x_A + x_B | n_A + n_B - x_A - x_B | n_A + n_B |

Статистика $\chi^2$ Пирсона [[Chi2Pearson](https://en.wikipedia.org/wiki/Pearson%27s_chi-squared_test)] вычисляется для мультиномиальных распределений $\chi^2 = \sum_{i=1}^k (O_i - E_i)^2/E_i$, где $O_i$ - фактическое количество наблюдений $i$-категории, $E_i = N p_i$ - ожидаемое при доле $i$-категории $p_i$, $N$ - общее количество наблюдений. 


$$
X \sim \text{Binomial}(n,p), \quad O = x, \quad E = np
\\
\chi^2
=
\frac{(x - np)^2}{np}
+
\frac{((n - x) - n(1-p))^2}{n(1-p)}
=
\frac{(x - np)^2}{np(1-p)}
\\
Z = \frac{x - np}{\sqrt{np(1-p)}}, \quad \chi^2 = Z^2, \quad \chi^2 \sim \chi^2_1
$$

$$
\text{Group A: } S_A \sim \mathrm{Binomial}(N_A, p_A), \quad
\text{Group B: } S_B \sim \mathrm{Binomial}(N_B, p_B)
\\
\hat p_A = \frac{S_A}{N_A}, \qquad
\hat p_B = \frac{S_B}{N_B}
\\
H_0: p_A = p_B
\\
\hat p = \frac{S_A + S_B}{N_A + N_B}
\\
\chi^2
=
\frac{(\hat p_A - \hat p_B)^2}
{\hat p(1-\hat p)\left(\frac{1}{N_A} + \frac{1}{N_B}\right)}
\\
\chi^2 \xrightarrow{d} \chi^2_1
$$

$$
\chi^2
=
\sum_{i=1}^k
\frac{(O_i - E_i)^2}{E_i}
\\
\chi^2
=
\frac{(S_A - N_A \hat p)^2}{N_A \hat p}
+
\frac{((N_A - S_A) - N_A(1-\hat p))^2}{N_A(1-\hat p)}
+
\frac{(S_B - N_B \hat p)^2}{N_B \hat p}
+
\frac{((N_B - S_B) - N_B(1-\hat p))^2}{N_B(1-\hat p)}
\\
\hat p = \frac{S_A + S_B}{N_A + N_B}
$$

$$
\chi^2
=
\frac{(S_A - N_A \hat p)^2}{N_A \hat p}
+
\frac{((N_A - S_A) - N_A(1-\hat p))^2}{N_A(1-\hat p)}
+
\frac{(S_B - N_B \hat p)^2}{N_B \hat p}
+
\frac{((N_B - S_B) - N_B(1-\hat p))^2}{N_B(1-\hat p)}
= \frac{(S_A - N_A \hat p)^2}{N_A \hat p(1-\hat p)}
  + \frac{(S_B - N_B \hat p)^2}{N_B \hat p(1-\hat p)}
= \frac{1}{\hat p(1-\hat p)}
  \left[
    \frac{(S_A - N_A \hat p)^2}{N_A}
    + \frac{(S_B - N_B \hat p)^2}{N_B}
  \right]
= \frac{1}{\hat p(1-\hat p)}
  \left[
    N_A(\hat p_A - \hat p)^2
    + N_B(\hat p_B - \hat p)^2
  \right]
= \frac{(\hat p_A - \hat p_B)^2}
       {\hat p(1-\hat p)\left(\frac{1}{N_A} + \frac{1}{N_B}\right)}
\\
\hat p_A = \frac{S_A}{N_A}, \quad
\hat p_B = \frac{S_B}{N_B}, \quad
\hat p = \frac{S_A + S_B}{N_A + N_B}
$$

Для конверсий 2 групп эквивалентен расчету разности средних.  
В итоге $p$-значение близко вероятности одной группы больше другой.  

$$
% Step 0: Setup
% Two groups, A and B
S_A, S_B = observed successes
N_A, N_B = total trials
\hat p_A = S_A / N_A, \quad \hat p_B = S_B / N_B
\hat p = (S_A + S_B) / (N_A + N_B)  % pooled proportion
\\
% Step 1: Pearson chi-square as sum of (O - E)^2 / E
\chi^2
=
\frac{(S_A - N_A \hat p)^2}{N_A \hat p}
+
\frac{((N_A - S_A) - N_A (1-\hat p))^2}{N_A (1-\hat p)}
+
\frac{(S_B - N_B \hat p)^2}{N_B \hat p}
+
\frac{((N_B - S_B) - N_B (1-\hat p))^2}{N_B (1-\hat p)}
\\
% Step 2: Simplify each group
% (S_A - N_A \hat p)^2 / (N_A \hat p) + ((N_A - S_A) - N_A (1-\hat p))^2 / (N_A (1-\hat p))
= (S_A - N_A \hat p)^2 / (N_A \hat p (1-\hat p))
\\
% Similarly for group B
= (S_B - N_B \hat p)^2 / (N_B \hat p (1-\hat p))
\\
% Step 3: Factor out 1 / (\hat p (1-\hat p))
\chi^2
= \frac{1}{\hat p (1-\hat p)} \left[ \frac{(S_A - N_A \hat p)^2}{N_A} + \frac{(S_B - N_B \hat p)^2}{N_B} \right]
\\
% Step 4: Express in terms of sample proportions
(S_A - N_A \hat p) = N_A (\hat p_A - \hat p), \quad
(S_B - N_B \hat p) = N_B (\hat p_B - \hat p)
\\
\chi^2
= \frac{N_A (\hat p_A - \hat p)^2 + N_B (\hat p_B - \hat p)^2}{\hat p (1-\hat p)}
\\
% Step 5: Express in terms of difference in proportions
\hat p_A - \hat p = \frac{N_B}{N_A + N_B} (\hat p_A - \hat p_B), \quad
\hat p_B - \hat p = - \frac{N_A}{N_A + N_B} (\hat p_A - \hat p_B)
\\
% Substitute into numerator
N_A (\hat p_A - \hat p)^2 + N_B (\hat p_B - \hat p)^2
= \frac{N_A N_B}{N_A + N_B} (\hat p_A - \hat p_B)^2
\\
% Step 6: Final simplified chi-square
\chi^2
= \frac{(\hat p_A - \hat p_B)^2}{\hat p (1-\hat p) \left( \frac{1}{N_A} + \frac{1}{N_B} \right)}
\\
% This shows the equivalence to the "pooled difference squared over variance" form.
$$

$$
\chi^2 = \frac{(S_A - N_A p)^2}{N_A p (1-p)} + \frac{(S_B - N_B p)^2}{N_B p (1-p)} =
\frac{N_A N_B (p_A - p_B)^2}{(N_A + N_B) p (1-p)}
=
\frac{(p_A - p_B)^2}{s^2 / N_A + s^2 / N_B}
\\
p_A = \frac{S_A}{N_A}, \quad 
p_B = \frac{S_B}{N_B}, \quad 
p = \frac{S_A + S_B}{N_A + N_B},
\quad
s^2 = p (1 - p)
$$