# Байесовские А/Б-тесты: связь с $p$-значениями

*Показана связь $p$-значений $t$-теста, $\chi^2$-теста и $U$-критерия Манна-Уитни в А/Б-тестах со сравнением параметров байесовских моделей. При определенных условиях $p$-значения численно близки байесовским вероятностям несмотря на различия в определениях.*

*- [$P$-значения](#$P$-значения)*  
*- [$T$-тест](#$T$-тест)*  
*- [Тест $\chi^2$](#Тест-$\chi^2$)*  
*- [U-критерий Манна-Уитни](#U-критерий-Манна-Уитни)*  
*- [Ссылки](#Ссылки)*

In [None]:
import numpy as np
import pandas as pd
import scipy.stats as stats
import plotly.graph_objects as go

np.random.seed(7)

## $P$-значения

$P$-значения используют в проверках нулевых гипотез. В этом методе формулируют гипотезу $H_0$ об изучаемом процессе и выбирают статистический тест $T$ - случайную величину с известным распределением $P_{T}(x | H_0)$ в предположении $H_0$. Считают реализацию величины $T$ в данных - тестовую статистику $x_{0}$ [[TestStat](https://en.wikipedia.org/wiki/Test_statistic)]. Вероятность получить фактическое или более экстремальное значение тестовой статистики называют односторонним $p$-значением $p = P_{T}(x \ge x_{0} | H_0)$ [[PVal](https://en.wikipedia.org/wiki/P-value), [TailedTests](https://en.wikipedia.org/wiki/One-_and_two-tailed_tests)]. Если вероятность достаточно мала, гипотезу $H_0$ отвергают, если нет - оставляют.

<center>
<img src="../figs/null_hypothesis.png" alt="null_hypothesis" width="800"/>
<em> В предположении гипотезы $H_0$ распределение тестовой статистики $P_{T}(x | H_0)$. Вероятность получить фактическое $x_0$ или более экстремальное значение тестовой статистики называют $p$-значением $p = P_{T}(x \ge x_{0} | H_0)$. </em>
</center>

Проблема метода - решение о гипотезе $H_0$ принимают по $p$-значению $p = P_{T}(x \ge x_{0} | H_0)$, тогда как вероятность гипотезы с учетом собранных данных оценивается величиной $P(H_0 | x_0)$. По соотношению Байеса $P(H_0 | x_0) \propto P_{T}(x = x_{0} | H_0) P(H_0)$. Т.е. для выбора гипотезы нужно посчитать вероятности получить данные в рамках конкурирующих гипотез и сравнить друг с другом с учетом априорных вероятностей.  

В А/Б-тестах распространены $t$-тест средних, $\chi^2$-тест пропорций и $U$-критерий Манна-Уитни. Далее показано как при определенных условиях $p$-значения этих тестов численно близки байесовским вероятностям параметров одной группы больше другой. Соотношения выполняются несмотря на различия в определениях.

## $T$-тест

Средние сравнивают $t$-тестами [[TTest](https://en.wikipedia.org/wiki/Student%27s_t-test)]. Пусть есть выборки размера $N_A, N_B$ из двух случайных величин $A, B$. В предположении одинаковых точных средних $H_0: E[A] = E[B]$ для отношения разности выборочных средних к стандартной ошибке разности средних $X = \overline{\Delta}/s_{\Delta}$ ожидают $t$-распределение [[WelchT](https://en.wikipedia.org/wiki/Welch%27s_t-test)]. При достаточно большом количестве данных оно близко стандартному нормальному $\text{Norm}(0, 1)$ [[TDist](https://en.wikipedia.org/wiki/Student%27s_t-distribution)]. По выборкам считают фактическое отношение $x_0 = \overline{\Delta}/s_{\Delta}$. Вычисляют вероятность получить $x_0$ или более экстремальное отношение - одностороннее $p$-значение $P_{X}(x \ge x_0 | H_0)$. Если оно меньше заданного уровня значимости, средние в группах считают неравными.

$$
\overline{A} = \frac{1}{N_{A}} \sum_{i=1}^{N_{A}} A_i,
\quad
s_A^2 = \frac{1}{N_A} \sum_{i=1}^{N_A} (A_i - \overline{A})^2,
\quad
\text{так же для } B
\\
X = \frac{\overline{\Delta}}{s_{\Delta}},
\quad
\overline{\Delta} = \overline{B} - \overline{A},
\quad
s^2_{\Delta} = \frac{s_A^2}{N_A} + \frac{s_B^2}{N_B}
\\
H_0: E[A] = E[B],
\quad
P_{X}(x | H_0) \approx \text{Norm}(x; 0, 1)
\\
x_0 - \text{реализация } X, \quad
p = P_{X}(x \ge x_0 | H_0)
$$

В А/Б-тесте нужно выбрать группу с большим средним. Поэтому вместо $p$-значения $P_{X}(x \ge x_0 | H_0)$ интересна вероятность среднего $B$ больше $A$ при условии собранных данных $P(\mu_B > \mu_A | A_i, B_j ) = P(\mu_{\Delta} > 0 | A_i, B_j )$, где $\mu_A, \mu_B, \mu_{\Delta}$ - оценки точных средних соответствующих распределений. Эту вероятность можно оценить байесовским моделированием. Оценка точного среднего строится с помощью центральной предельной теоремы - распределение выборочных средних предполагается нормальным. Вместо оценки средних в каждом распределении строится оценка средней разности. В качестве правдоподобия выбирается нормальное распределение $P(\overline{\Delta} | \mu_{\Delta}) = \text{Norm}(\overline{\Delta} | \mu_{\Delta}, s_{\Delta}^2)$ с одним случайным параметром - средним $\mu_{\Delta}$ . Дисперсия выбирается равной $s_{\Delta}^2$ на основе данных. Априорное распределение также выбирается нормальным для сопряженности $P(\mu_{\Delta}) = \text{Norm}(\mu_{\Delta} | \mu_0, \sigma_0^2)$. Апостериорное распределение будет нормальным с обновленными средним и дисперсией $P(\mu_{\Delta} | \overline{\Delta}) = \text{Norm}(\mu_{\Delta} | \mu_{N}, \sigma_{N}^2)$. Моделирование применяется к выборочным средним, а не к исходным выборкам. Выборочное среднее считается по всем точкам распределений разности, поэтому для обновления параметров есть только одна точка $\overline{\Delta}$. При достаточно широком априорном распределении $\sigma_{0}^2 \gg s^2_{\Delta}$ апостериорное распределение приближенно $P(\mu_{\Delta} | \overline{\Delta}) \approx 
\text{Norm}(\mu_{\Delta} | \overline{\Delta}, s^2_{\Delta})$. Поэтому $P(\mu_B > \mu_A | A_i, B_j ) = P(\mu_{\Delta} > 0 | \overline{\Delta})  \approx P(\text{Norm}(x > 0 | x_0, 1))$.

$$
\begin{split}
P(\overline{\Delta} | \mu_{\Delta}) & =
\text{Norm}(\overline{\Delta} | \mu_{\Delta}, s_{\Delta}^2),
\quad
P(\mu_{\Delta}) =
\text{Norm}(\mu_{\Delta} | \mu_0, \sigma_0^2) 
\\
P(\mu_{\Delta} | \overline{\Delta}) 
& = \text{Norm}(\mu_{\Delta} | \mu_{N}, \sigma_{N}^2),
\quad
\sigma_{N}^2 = \frac{\sigma_{0}^2 s_{\Delta}^2}{s_{\Delta}^2 + \sigma_{0}^2},
\quad
\mu_{N} = \mu_{0} \frac{\sigma_{N}^2}{\sigma_{0}^2} + \frac{\sigma_{N}^2}{s_{\Delta}^2} \overline{\Delta}
\\
\mu_0 = 0, & \, \sigma_{0}^2 \gg s^2_{\Delta}: 
\, 
\sigma_N^2 \approx s^2_{\Delta}, \, \mu_N \approx \overline{\Delta}, 
\\
P(\mu_{\Delta} | \overline{\Delta}) & \approx 
\text{Norm}(\mu_{\Delta} | \overline{\Delta}, s^2_{\Delta})
\\
P(\mu_B > \mu_A | A_i, B_j ) &= P(\mu_{\Delta} > 0 | \overline{\Delta})  \approx P(\text{Norm}(\mu_{\Delta} > 0 | \overline{\Delta}, s^2_{\Delta})) = P(\text{Norm}(x > 0 | x_0, 1))
\end{split}
$$

По симметрии нормального распределения $P(\text{Norm}(x > x_0 | 0, 1)) =  P(\text{Norm}(x < 0 | x_0, 1))$. Поэтому $p$-значение одностороннего $t$-теста близко вероятности среднего одной группы больше другой.

$$
\begin{split}
p = P_{X}(x > x_0 | H_0)
& = P(\text{Norm}(x > x_0| 0, 1))
\\
& =  P(\text{Norm}(x < 0 | x_0, 1)) 
\\
& = 1 - P(\text{Norm}(x > 0 | x_0, 1)) 
\approx 1 - P(\mu_B > \mu_A | A_i, B_j )
\end{split}
$$

На графике ниже 2 нормальных распределения. Одно с центром в точке 0, другое в точке $x_0 = 2$. Вероятность 
$p = P(x > x_0 | \mu_A = \mu_B)$ закрашена темным, $P(\text{Norm}(x < 0 | x_0, 1)) \approx 1 - P(\mu_B > \mu_A | x_0 )$ закрашена светлым. По свойствам нормального распределения площади этих областей совпадают. 

In [None]:
x0 = 2

xaxis_min = -7
xaxis_max = 7
x = np.linspace(xaxis_min, xaxis_max, 1000)
fig = go.Figure()
fig.add_trace(go.Scatter(x=x, y=stats.norm.pdf(x, loc=0, scale=1), 
                         line_color='black', opacity=0.8, name='$\mathrm{Norm}(0, 1)$'))
fig.add_trace(go.Scatter(x=[x0, x0], y=[0, max(stats.norm.pdf(x, loc=0, scale=1))*1.1], 
                         line_color='black', 
                         mode='lines+text', text=['', '$x_0$'], textposition="top center",
                         line_dash='dash', showlegend=False))
fig.add_trace(go.Scatter(x=x[x>x0], y=stats.norm.pdf(x[x>x0], loc=0, scale=1), 
                         line_color='black', opacity=0.8, name='$P(\mathrm{Norm}(x > x_0 | 0, 1))$', fill="tozeroy", fillcolor="rgba(0, 0, 0, 0.7)"))
fig.add_trace(go.Scatter(x=x, y=stats.norm.pdf(x, loc=x0, scale=1), 
                         line_color='black', line_dash='solid', opacity=0.2, name='$\mathrm{Norm}(x_0, 1)$'))
fig.add_trace(go.Scatter(x=[0, 0], y=[0, max(stats.norm.pdf(x, loc=0, scale=1))*1.1], 
                         line_color='black', 
                         mode='lines+text', text=['', '0'], textposition="top center", 
                         line_dash='dash', showlegend=False))
fig.add_trace(go.Scatter(x=x[x<0], y=stats.norm.pdf(x[x<0], loc=x0, scale=1), 
                         line_color="rgba(128, 128, 128, 0.2)", name='$P(\mathrm{Norm}(x < 0 | x_0, 1))$', fill="tozeroy", fillcolor="rgba(128, 128, 128, 0.2)"))
fig.update_layout(title='P-значение и вероятность среднего одной группы больше другой',
                  xaxis_title='$x$',
                  yaxis_title='Плотность вероятности',
                  xaxis_range=[xaxis_min, xaxis_max],
                  hovermode="x",
                  template="plotly_white",
                  height=500)
fig.show()

Таким образом $p$-значение одностороннего $t$-теста близко байесовской оценке вероятности среднего одной группы больше другой. Для демонстрации ниже заданы два нормальных распределения с разными средними. По выборке байесовская оценка вероятности $P(\mu_B > \mu_A)$ сравнивается с $p$-значением $t$-теста. Используется односторонний $t$-тест с разными дисперсиями групп (`equal_var=False`, `alternative`) [[ScipyTTestInd](https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.ttest_ind.html)]. Видно, что $p$-значение численно близко байесовской оценке вероятности. Стоит помнить, что они не эквивалентны - у них разные определения. На графике показано апостериорное байесовское распределение среднего разности и масштабированное нормальное распределение для $p$-значения. Вместо $x_0$ показано точное среднее $E[B] - E[A]$. Видно, что байесовская модель угадывает положение точного среднего.

In [None]:
def posterior_dist_diff_norm(sampA, sampB, mu0=None, s20=None):
    delta = sampB.mean() - sampA.mean()
    s2delta = sampA.var() / sampA.size + sampB.var() / sampB.size
    mu0 = mu0 or 0
    s20 = s20 or 30 * s2delta
    s2n = s2delta * s20 / (s2delta + s20)
    mun = mu0 * s2n / s20 + delta * s2n / s2delta
    return stats.norm(loc=mun, scale=np.sqrt(s2n))

muA = 0.1
muB = 0.115
sigma = 1.0

exactA = stats.norm(muA, sigma)
exactB = stats.norm(muB, sigma)
mean_diff_exact = muB - muA

N = 30000
sampA = exactA.rvs(size=N)
sampB = exactB.rvs(size=N)

post_dist_diff = posterior_dist_diff_norm(sampA, sampB)
mean_b_gt_a = 1 - post_dist_diff.cdf(0)

a = 'greater' if np.mean(sampA) > np.mean(sampB) else 'less'
t_stat, p_value = stats.ttest_ind(sampA, sampB, equal_var=False, alternative=a)
s2delta = sampA.var() / sampA.size + sampB.var() / sampB.size
t_scaled = t_stat * np.sqrt(s2delta) if np.mean(sampA) > np.mean(sampB) else -t_stat * np.sqrt(s2delta)

xaxis_min = -0.1
xaxis_max = 0.1
x = np.linspace(xaxis_min, xaxis_max, 1000)
fig = go.Figure()
fig.add_trace(go.Scatter(x=x, y=stats.norm.pdf(x, loc=0, scale=np.sqrt(s2delta)), 
                         line_color='black', opacity=0.8, name='$\mathrm{Norm}(0, s^2_{\Delta})$'))
fig.add_trace(go.Scatter(x=x[x>t_scaled], y=stats.norm.pdf(x[x>t_scaled], loc=0, scale=np.sqrt(s2delta)), 
                         line_color="rgba(0, 0, 0, 0.7)", name='$P(x>x_0 | H_0)$', fill="tozeroy", fillcolor="rgba(0, 0, 0, 0.7)"))
fig.add_trace(go.Scatter(x=x, y=post_dist_diff.pdf(x), 
                         line_color='black', opacity=0.2, name='$\mathrm{Norm}(\mu_{\Delta} | \mu_N, \sigma_N^2)$'))
fig.add_trace(go.Scatter(x=x[x<0], y=post_dist_diff.pdf(x[x<0]), 
                         line_color="rgba(128, 128, 128, 0.2)", name='$P(\mu_{\Delta} < 0)$', fill="tozeroy", fillcolor="rgba(128, 128, 128, 0.2)"))
# fig.add_trace(go.Scatter(x=[t_scaled, t_scaled], y=[0, max(post_dist_diff.pdf(x))*1.1], 
#                          line_color='black', 
#                          mode='lines',
#                          line_dash='dash', name='$t \cdot s_{\Delta}$'))
fig.add_trace(go.Scatter(x=[mean_diff_exact, mean_diff_exact], y=[0, max(post_dist_diff.pdf(x))*1.1], 
                         line_color='black', 
                         #mode='lines',
                         mode='lines+text', text=['', '$E[B] - E[A]$'], textposition="top center",
                         line_dash='dash',
                         showlegend=False,
                         name='$E[B]-E[A]$'))
fig.update_layout(title='Апостериорное распределение среднего разности',
                  xaxis_title='$x$',
                  yaxis_title='Плотность вероятности',
                  xaxis_range=[xaxis_min, xaxis_max],
                  hovermode="x",
                  template="plotly_white",
                  height=500)
fig.show()


print(f'p-value P(x>x0 | pa=pb): {p_value}')
print(f'1 - p: {1 - p_value}')
print(f'Bayes P(pb > pa): {pb_gt_pa}')

Численную близость $p$-значения вероятности среднего одной группы больше другой можно проверить по количеству правильно угаданных вариантов с большим значением конверсии в серии экспериментов. В группе А задается фиксированная конверсия `p=0.1`, в Б - случайная в диапазоне $\pm 5\%$ от `p`. В группах генерируются данные с шагом `n_samp_step`. На каждом шаге считается $t$-тест. Эксперимент останавливается, если  $p$ или $1-p$ достигает `prob_stop=0.95` или сгенерировано максимальное количество точек `n_samp_max`. Длительность эксперимента не фиксируется заранее. При остановке эксперимента для сравнения с $p$-значением считаются байесовские апострериорные распределения и вероятность $P(p_B > p_A)$. Процедура повторяется `nexps` раз, считается доля правильно угаданных групп во всех экспериментах. Байесовские вероятности близки $p$-значениям. В `nexps = 1000` правильно угадано 927 вариантов. Точность 0.927 близка `prob_stop = 0.95`. 

In [None]:
cmp = pd.DataFrame(columns=['A', 'B', 'best_exact', 'exp_samp_size', 'A_exp', 'B_exp', 'best_exp', 'p_best_bayes', 'p-val'])

mu = 0.1
nexps = 300
cmp['A'] = [mu] * nexps
cmp['B'] = mu * (1 + stats.uniform.rvs(loc=-0.05, scale=0.1, size=nexps))
cmp['best_exact'] = cmp.apply(lambda r: 'B' if r['B'] > r['A'] else 'A', axis=1)

n_samp_max = 3_000_000
n_samp_step = 10_000
n_samp_min = 50_000
prob_stop = 0.95

for i in range(nexps):
    muA = cmp.at[i, 'A']
    muB = cmp.at[i, 'B']
    exact_dist_A = stats.norm(loc=muA, scale=1)
    exact_dist_B = stats.norm(loc=muB, scale=1)
    n_samp_current = n_samp_min
    sampA = exact_dist_A.rvs(n_samp_max)
    sampB = exact_dist_B.rvs(n_samp_max)
    while n_samp_current < n_samp_max:
        n_samp_current += n_samp_step
        a = 'greater' if np.mean(sampA[:n_samp_current]) > np.mean(sampB[:n_samp_current]) else 'less'
        t_stat, p_value = stats.ttest_ind(sampA[:n_samp_current], sampB[:n_samp_current], equal_var=False, alternative=a)
        p_best_t = 1 - p_value
        best_gr = 'A' if p_best_t >= prob_stop and a == 'greater' else 'B' if p_best_t >= prob_stop and a == 'less' else None
        if best_gr:
            post_dist_diff = posterior_dist_diff_norm(sampA[:n_samp_current], sampB[:n_samp_current])
            mean_b_gt_a_bayes = 1 - post_dist_diff.cdf(0)
            cmp.at[i, 'A_exp'] = sampA[:n_samp_current].mean()
            cmp.at[i, 'B_exp'] = sampB[:n_samp_current].mean()
            cmp.at[i, 'exp_samp_size'] = n_samp_current
            cmp.at[i, 'best_exp'] = best_gr
            cmp.at[i, 'p_best_bayes'] = max(mean_b_gt_a_bayes, 1 - mean_b_gt_a_bayes)
            cmp.at[i, 'p-val'] = max(p_value, 1 - p_value)
            break
    print(f'done {i}: nsamp {n_samp_current}, best_gr {best_gr}, Bayes P(b>a) {mean_b_gt_a_bayes:.4f}, T-test p-val {p_value:.4f}')

cmp['correct'] = cmp['best_exact'] == cmp['best_exp']
display(cmp.head(30))
finished = np.sum(cmp['best_exp'].notna())
cor_guess = np.sum(cmp['correct'])
print(f"Nexp: {nexps}, Finished: {finished}, Correct Guesses: {cor_guess}, Accuracy: {cor_guess / finished}")

## Тест $\chi^2$ 

Конверсии могут сравнивать $\chi^2$-тестом [[Chi2Test](https://en.wikipedia.org/wiki/Chi-squared_test)]. Статистика $\chi^2$ Пирсона [[Chi2Pearson](https://en.wikipedia.org/wiki/Pearson%27s_chi-squared_test)] для мультиномиальных распределений определена $\chi^2 = \sum_{i=1}^k (S_i - Np_i)^2/(Np_i)$, где $N$ - общее количество наблюдений, $S_i$ и $N p_i$ - фактическое и ожидаемое количество наблюдений $i$-категории при доле $i$-категории $p_i$. Для биномиального распределения $\chi^2=(S - Np)^2/N p (1-p)$. По центральной предельной теореме $(S - Np)/\sqrt{N p (1-p)}$ стремится к стандартному нормальному распределению, квадрат величины совпадает с $\chi^2$. Распределение суммы квадратов $k$ нормальных случайных величин называют $\chi^2$-распределением с $k$ степенями свободы $\chi^2_k = \sum_{i=1}^{k} X_i^2,\, X_i \sim \text{Norm}(0,1)$ [[Chi2Dist](https://en.wikipedia.org/wiki/Chi-squared_distribution)]. Поэтому статистика $\chi^2$ стремится к $\chi_1^2$-распределению.

$$
\begin{split}
\chi^2 & = 
\sum_{i=1}^k \frac{(S_i - Np_i)^2}{N p_i}
\\
& =
\frac{(S - N p)^2}{N p}
+
\frac{((N - S) - N (1-p))^2}{N (1-p)}
\\
& =
\frac{(S - Np)^2}{N p (1-p)} 
\to \chi_1^2, \quad n \to \infty
\\
\chi^2_k & = \sum_{i=1}^{k} X_i^2,\, X_i \sim \text{Norm}(0,1)
\end{split}
$$

Для А/Б-теста конверсий с двумя группами в предположении одинаковых конверсий $p=(S_A + S_B)/(N_A + N_B)$ тестовая статистика $\chi^2=(S_A - N_A p)^2/N_A p (1-p) + (S_B - N_B p)^2/N_B p (1-p)$. Ее можно привести к виду $\chi^2 = (p_A - p_B)^2/(s^2 / N_A + s^2 / N_B)$, $s^2 = p (1 - p)$, $p_A = S_A / N_A$, $p_B = S_B / N_B$. При большом количестве точек распределение $\chi^2$ можно ожидать близим $\chi_1^2$. $p$-значение $p=P_{\chi_1^2}(x > \chi^2)$. Распределение $\chi^2_1$ получается при возведении в квадрат стандартного нормального распределения. Область $P_{\chi_1^2}(x > \chi^2)$ соответствует областям $P_{Norm(0,1)}(x > \chi \cup x < -\chi)$. По симметрии нормального распределения площади $x > \chi$ и $x < -\chi$ одинаковы. Байесовская оценка вероятности конверсии одной группы больше другой с учетом собранных данных при использовании априорного бета-распределения $P(\mu_B > \mu_A | S_A, S_B, N_A, N_B) \approx P_{Norm(p_{\Delta}, s_{\Delta}^2)}(x > 0)$, $p_{\Delta} = p_B - p_A$,  $s_{\Delta} = s_A^2/N_A + s_B^2/N_B$. В пренебрежении априорным распределением $P(\mu_B > \mu_A | S_A, S_B) \approx 1 - P_{Norm(\chi, 1)}(x < 0)$. По симметрии $P_{Norm(\chi, 1)}(x < 0) = P_{Norm(0, 1)}(x > \chi)$ Поэтому $p$-значение $p \approx 2( 1 - P(\mu_B > \mu_A | S_A, S_B))$. Отсюда $P(p_B > p_A | S_A, S_B) \approx 1 - p/2$.

$$
p_A = \frac{S_A}{N_A}, \quad 
p_B = \frac{S_B}{N_B}, \quad 
p = \frac{S_A + S_B}{N_A + N_B},
\quad
s^2 = p (1 - p)
\\
\begin{split}
p_A = p_B: \chi^2 & = \frac{(S_A - N_A p)^2}{N_A p (1-p)} + \frac{(S_B - N_B p)^2}{N_B p (1-p)} 
\\
& = \frac{N_A N_B (p_A - p_B)^2}{(N_A + N_B) p (1-p)}
\\
& = \frac{(p_A - p_B)^2}{s^2 / N_A + s^2 / N_B} \to \chi_1^2, \, n \to \infty
\end{split}
\\
\begin{split}
\text{p-val} & = P_{\chi_1^2}(x > \chi^2 | p_A = p_B)
\\
& = P_{Norm(0,1)}(x > \chi \cup x < -\chi | p_A = p_B) 
\\
& = 2 P_{Norm(0,1)}(x > \chi | p_A = p_B)
\\
& \approx 2 \left( 1 - P(p_B > p_A | S_A, S_B) \right)
\end{split}
\\
P(p_B > p_A | S_A, S_B) \approx 1 - \text{p-val}/2
$$

Распределение $\chi^2_1$ на первом графике ниже. Закрашенная область соответствует $p$-значению $p = P_{\chi_1^2}(x > \chi^2)$. На втором графике - стандартное нормальное распределение. Закрашенные темные области $x > \chi$ и $x < - \chi$ соответствуют $P_{\chi_1^2}(x > \chi^2)$ при возведении в квадрат. Серый график - нормальное распределение $Norm(\chi, 1)$. Закрашенная область серого графика приближенно равна $1 - P(p_B > p_A | S_A, S_B)$. Площади закрашенной серой и каждой из темных областей совпадают.

In [None]:
p = 0.3
#s = p * (1 - p)
#todo: N = 10000
#s = p * (1 - p) / N
s = 1
x0 = p / (p * (1 - p))

xaxis_min = 0
xaxis_max = 5
x = np.linspace(xaxis_min, xaxis_max, 1000)
fig = go.Figure()
fig.add_trace(go.Scatter(x=x, y=stats.chi.pdf(x, df=1), 
                         line_color='black', opacity=0.8, name=f'$\chi^2_1$'))
fig.add_trace(go.Scatter(x=[x0**2, x0**2], y=[0, max(stats.chi.pdf(x, df=1))*1.1], 
                         line_color='black', 
                         mode='lines+text', text=['', '$\chi^2$'], textposition="top center",
                         line_dash='dash', showlegend=False))
fig.add_trace(go.Scatter(x=x[x>x0**2], y=stats.chi.pdf(x[x>x0**2], df=1), 
                         line_color='black', opacity=0.8, name='$P_{\chi_1^2}(x > \chi^2)$', fill="tozeroy", fillcolor="rgba(0, 0, 0, 0.7)"))
fig.update_layout(title='Хи-квадрат',
                  xaxis_title='$x$',
                  yaxis_title='Плотность вероятности',
                  xaxis_range=[xaxis_min, xaxis_max],
                  hovermode="x",
                  template="plotly_white",
                  height=500)
fig.show()

xaxis_min = -5
xaxis_max = 5
x = np.linspace(xaxis_min, xaxis_max, 1000)
fig = go.Figure()
fig.add_trace(go.Scatter(x=x, y=stats.norm.pdf(x, loc=0, scale=s), 
                         line_color='black', opacity=0.8, name=f'$Norm(0, 1)$'))
fig.add_trace(go.Scatter(x=[0, 0], y=[0, max(stats.norm.pdf(x, loc=0, scale=s))*1.1], 
                         line_color='black', 
                         mode='lines+text', text=['', '0'], textposition="top center", 
                         line_dash='dash', showlegend=False))
fig.add_trace(go.Scatter(x=[x0, x0], y=[0, max(stats.norm.pdf(x, loc=0, scale=s))*1.1], 
                         line_color='black', 
                         mode='lines+text', text=['', '$\chi$'], textposition="top center",
                         line_dash='dash', showlegend=False))
fig.add_trace(go.Scatter(x=[-x0, -x0], y=[0, max(stats.norm.pdf(x, loc=0, scale=s))*1.1], 
                         line_color='black', 
                         mode='lines+text', text=['', '$-\chi$'], textposition="top center",
                         line_dash='dash', showlegend=False))
fig.add_trace(go.Scatter(x=x[x>x0], y=stats.norm.pdf(x[x>x0], loc=0, scale=s), 
                         line_color='black', opacity=0.8, name='$P_{Norm(0,1)}(x > \chi \cup x < -\chi | p_A = p_B)$', fill="tozeroy", fillcolor="rgba(0, 0, 0, 0.7)"))
fig.add_trace(go.Scatter(x=x[x<-x0], y=stats.norm.pdf(x[x<-x0], loc=0, scale=s), 
                         line_color='black', opacity=0.8, name='$P_{Norm(0,1)}(x > \chi | p_A = p_B)$', fill="tozeroy", fillcolor="rgba(0, 0, 0, 0.7)",
                         showlegend=False))
fig.add_trace(go.Scatter(x=x, y=stats.norm.pdf(x, loc=x0, scale=s), 
                         line_color='black', opacity=0.2, name='$Norm(\chi, 1)$'))
fig.add_trace(go.Scatter(x=x[x<0], y=stats.norm.pdf(x[x<0], loc=x0, scale=s), 
                         line_color="rgba(128, 128, 128, 0.2)", name='$P_{Norm(\chi,1)}(x < 0)$', fill="tozeroy", fillcolor="rgba(128, 128, 128, 0.2)"))
fig.update_layout(title='Нормальные распределения',
                  xaxis_title='$x$',
                  yaxis_title='Плотность вероятности',
                  xaxis_range=[xaxis_min, xaxis_max],
                  hovermode="x",
                  template="plotly_white",
                  height=500)
fig.show()

Соотношение $P(p_B > p_A | S_A, S_B) \approx 1 - p/2$ проверяется по выборке из двух распределений Бернулли с конверсиями $p_A = 0.1$ и $p_B = 0.105$. Данные для $\chi^2$-теста задаются в виде таблицы со строками $S_A, N_A-S_A$ и $S_B, N_B - S_B$ [[ScipyChi2Con](https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.chi2_contingency.html)]. Только $p$-значение не позволяет выбрать между $p_A > p_B$ и $p_B > p_A$, поэтому дополнительно сравниваются конверсии $p_A$, $p_B$. Видно, что связь $p$-значения и байесовской оценки вероятности численно выполняется. 

In [None]:
def posterior_dist_binom(ns, ntotal, a_prior=1, b_prior=1):
    a = a_prior + ns
    b = b_prior + ntotal - ns 
    return stats.beta(a=a, b=b)

def prob_pb_gt_pa(post_dist_A, post_dist_B, post_samp=100_000):
    sa = post_dist_A.rvs(size=post_samp)
    sb = post_dist_B.rvs(size=post_samp)
    b_gt_a = np.sum(sb > sa)
    return b_gt_a / post_samp

pA = 0.1
pB = pA * 1.05

exactA = stats.bernoulli(pA)
exactB = stats.bernoulli(pB)

N = 30000
sampA = exactA.rvs(size=N)
sampB = exactB.rvs(size=N)
SA = np.sum(sampA)
SB = np.sum(sampB)

post_dist_A = posterior_dist_binom(ns=SA, ntotal=N)
post_dist_B = posterior_dist_binom(ns=SB, ntotal=N)
pb_gt_pa_bayes = prob_pb_gt_pa(post_dist_A, post_dist_B)

t = np.array([
    [SA,     N - SA],
    [SB,     N - SB]
])
chi2_stat, p_value_chi2, dof, expected = stats.chi2_contingency(t, correction=False)
p_A_samp = SA / N
p_B_samp = SB / N
pb_gt_pa_chi = 1 - p_value_chi2 / 2
pb_gt_pa_chi = pb_gt_pa_chi if p_B_samp > p_A_samp  else 1 - pb_gt_pa_chi

print(f'Bayes P(pb > pa): {pb_gt_pa_bayes:.5g}')
print(f"Chi2: 1-pval/2:   {pb_gt_pa_chi:.5g}")

Ниже $p$-значение $\chi^2$-теста используется для проверки количества правильно угаданных вариантов с большей конверсией в серии экспериментов. В каждом эксперименте 2 группы, конверсия $p_A=0.1$ фиксирована, $p_B$ выбирается случайно в диапазоне $\pm5\%$ от $p_A$. В каждой группе добавляются данные по 10000 точек за шаг. На каждом шаге вычисляется $p$-значение $\chi^2$-теста и $P(p_B > p_A | S_A, S_B) \approx 1 - p/2$ при $p_B > p_A$ или $P(p_B > p_A | S_A, S_B) \approx p/2$ при $p_A > p_B$. Эксперимент останавливается, если оценка вероятности конверсии одной группы больше другой превышает `prop_stop` или набрано максимальное количество точек `n_samp_max`. Всего в `nexps=1000` верно угадано 932 варианта. Доля 0.932 близка `prob_stop = 0.95`.

In [None]:
cmp = pd.DataFrame(columns=['A', 'B', 'best_exact', 'exp_samp_size', 'A_exp', 'B_exp', 'best_exp', 'p_best_bayes', 'p_best_chi'])

p = 0.1
nexps = 1000
cmp['A'] = [p] * nexps
cmp['B'] = p * (1 + stats.uniform.rvs(loc=-0.05, scale=0.1, size=nexps))
cmp['best_exact'] = cmp.apply(lambda r: 'B' if r['B'] > r['A'] else 'A', axis=1)

n_samp_max = 5_000_000
n_samp_step = 10_000
prob_stop = 0.95

for i in range(nexps):
    pA = cmp.at[i, 'A']
    pB = cmp.at[i, 'B']
    exact_dist_A = stats.bernoulli(p=pA)
    exact_dist_B = stats.bernoulli(p=pB)
    n_samp_total = 0
    ns_A = 0
    ns_B = 0
    while n_samp_total < n_samp_max:
        dA = exact_dist_A.rvs(n_samp_step)
        dB = exact_dist_B.rvs(n_samp_step)
        n_samp_total += n_samp_step
        ns_A = ns_A + np.sum(dA)
        ns_B = ns_B + np.sum(dB)
        p_A_samp = ns_A / n_samp_total
        p_B_samp = ns_B / n_samp_total
        t = np.array([
            [ns_A,     n_samp_total - ns_A],
            [ns_B,     n_samp_total - ns_B]
        ])
        chi2_stat, p_value_chi, dof, expected = stats.chi2_contingency(t, correction=False)
        pb_gt_pa_chi = 1 - p_value_chi / 2
        pb_gt_pa_chi = pb_gt_pa_chi if p_B_samp > p_A_samp  else 1 - pb_gt_pa_chi
        best_gr = 'B' if pb_gt_pa_chi >= prob_stop else 'A' if 1 - pb_gt_pa_chi >= prob_stop else None
        if best_gr:
            post_dist_A = posterior_dist_binom(ns=ns_A, ntotal=n_samp_total)
            post_dist_B = posterior_dist_binom(ns=ns_B, ntotal=n_samp_total)
            pb_gt_pa_bayes = prob_pb_gt_pa(post_dist_A, post_dist_B)
            cmp.at[i, 'A_exp'] = p_A_samp
            cmp.at[i, 'B_exp'] = p_B_samp
            cmp.at[i, 'exp_samp_size'] = n_samp_total
            cmp.at[i, 'best_exp'] = best_gr
            cmp.at[i, 'p_best_bayes'] = max(pb_gt_pa_bayes, 1 - pb_gt_pa_bayes)
            cmp.at[i, 'p_best_chi'] = max(pb_gt_pa_chi, 1 - pb_gt_pa_chi)
            break
    print(f'done {i}: nsamp {n_samp_total}, best_gr {best_gr}, P_best Bayes {max(pb_gt_pa_bayes, 1 - pb_gt_pa_bayes):.4f}, Chi (1-pval/2): {1 - p_value_chi/2:.4f}')

cmp['correct'] = cmp['best_exact'] == cmp['best_exp']
display(cmp.head(30))
finished = np.sum(cmp['best_exp'].notna())
cor_guess = np.sum(cmp['correct'])
print(f"Nexp: {nexps}, Finished: {finished}, Correct Guesses: {cor_guess}, Accuracy: {cor_guess / finished}")

## U-критерий Манна-Уитни

Для выборок размера $N_A, N_B$ из двух случайных величин $A, B$ статистика Манна-Уитни [[MannWhitneyU](https://en.wikipedia.org/wiki/Mann%E2%80%93Whitney_U_test)] определена через попарное сравнение элементов. Для непрерывных распределений вероятность совпадения элементов в выборках нулевая. В этом случае $U$-статистика определена как количество пар $(A_i, B_j)$, где элемент $A_i$ больше $B_j$: $U_A = \sum_{i=1}^{N_A} \sum_{j=1}^{N_B} I(A_i > B_j)$, $I$ - индикаторная функция. Cтатистику также можно записать в виде $U_A = R_A - N_A (N_A + 1)/2$, где $R_A$ - сумма рангов элементов $А$ в объединенной выборке. Эквивалентность определений можно увидеть следующим образом: слагаемое $N_A (N_A + 1)/2$ соответствует минимальной сумме рангов если все элементы $A$ меньше $B$ и считается как сумма арифметической прогрессии. Если наибольший элемент $A$ больше $n$ элементов $B$, то $U_A = n$ и $R_A = N_A (N_A + 1)/2 + n$. При большом количестве точек отношение $U_A$ к общему количеству пар $U_A / N_A N_B$ стремится к вероятности случайной точки из распределения $A$ больше $B$.

$$
\begin{split}
A, B & - \text{непрерывные распределения}
\\
U_A & = \sum_{i=1}^{N_A} \sum_{j=1}^{N_B} I(A_i > B_j),
\quad
I(\cdot) = 1 \text{ если условие выполнено, иначе } 0 
\\
U_A & = R_A - N_A (N_A + 1)/2, \quad R_A \text{- сумма рангов элементов А в объединенной выборке}
\\
\frac{U_A}{N_A N_B} & \to P(A > B),
\quad
N_A, N_B \to \infty
\end{split}
$$

В предположении одинаковых распределений $A, B$ можно посчитать среднее $E[U]$ и дисперсию $\text{Var}(U)$ $U$-статистики. Величина $(U - E[U])/\sqrt{Var(U)}$ будет стремиться к нормальному распределению [нужна ссылка]. $p$-значение определено как вероятность получить более экстремальное значение $p = P_{Norm(0,1)}(x > u_0)$, $u_0 = (U - E[U])/\sqrt{\text{Var}(U)}$.

$$
A = B: 
\quad
E[U] = \frac{N_A N_B}{2}, \quad
\text{Var}(U) = \frac{N_A N_B (N_A + N_B + 1)}{12}
\\
\frac{U - E[U]}{\sqrt{\text{Var}(U)}} \to \text{Norm}(0,1), \quad N_A, N_B \to \infty
\\
p = P_{\text{Norm}(0,1)}(x > u_0), 
\quad
u_0 = \frac{U_A - E[U]}{\sqrt{\text{Var}(U)}}
$$

В байесовском подходе вероятность $P(B>A)$ можно оценить сравнением апостериорных предиктивных распределений. Нужно предположить модели исходных распределений, построить апостериорные распределения параметров и апостериорные предиктивные распределения. По построенным апостериорным предиктивным распределениям можно оценить $P(B>A)$. Это будет точечная оценка, а не распеделение. Такой подход требует предположения распределений.

Другой вариант - моделировать вероятность $\theta = P(B > A)$. Сравнение каждой пары $X_{ij} = I(B_i > A_j)$. Для правдоподобия можно выбрать биномиальное распределение $P(U | \theta) = \text{Binom}(U | \theta, N_A N_B)$. При сравнении каждой точки $A$ с каждой точкой $B$ результаты в парах с одинаковыми $A_i$ или $B_j$ не будут независимы. Будет использоваться упрощенная модель, в которой каждая точка из $A$ сравнивается только с одной точкой $B$. Тогда пары будут независимы. Можно ожидать более широкой дисперсии, чем в $U$. Как в конверсиях априорное распределение удобно задать бета-распределением. Апостериорное также будет бета-распределением. 

$$
\theta = P(A > B)
\\
X_{ij} = I(A_i > B_j)
\\
U = \sum X_{ij}
\\
P(X | \theta) = \text{Bernoulli}(\theta)
\\
P(U | \theta) = \text{Binom}(U | \theta, \min(N_A, N_B))
\\
P(\theta) = \text{Beta}(\alpha_0, \beta_0)
\\
P(\theta | U) = \text{Beta}(U + \alpha_0, \min(N_A, N_B) - U + \beta_0)
\approx \text{Norm}(\mu, s)
\\
\begin{split}
P(A > B) = P(\theta  > 0.5 | U) & = P(\text{Norm}(x > 0.5; \mu, s))
\end{split}
\\
P(B > A) = 1 - P(\theta  > 0.5 | U)
$$

Для нормальных распределений вероятность точки из распределения $A$ больше $B$ можно посчитать аналитически [[NormalSum](https://en.wikipedia.org/wiki/Sum_of_normally_distributed_random_variables)]

$$
A \sim \text{Norm}(\mu_A, \sigma_A^2),
\quad
B \sim \text{Norm}(\mu_B, \sigma_B^2)
\\
B - A \sim \text{Norm}(\mu_B - \mu_A, \sigma_A^2 + \sigma_B^2)
\\
P(B > A) = P_{B - A}(x > 0) = 1 - F_{B-A}(0) 
$$

На графике ниже два нормальных распределения. На втором графике - распределение $U$-статистики [[ScipyMannWhitneyU](https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.mannwhitneyu.html)] в предположении эквивалентности распределений и фактическое значение. Закрашенная область соответствует $p$-значению.

In [None]:
mu1, sigma1 = 0, 1
mu2, sigma2 = -0.1, 1
exactA = stats.norm(loc=mu1, scale=sigma1)
exactB = stats.norm(loc=mu2, scale=sigma2)

p_b_gt_a_norm = 1 - stats.norm.cdf(0, loc=mu2-mu1, scale=np.sqrt(sigma1**2 + sigma2**2))
p_a_gt_b_norm = stats.norm.cdf(0, loc=mu2-mu1, scale=np.sqrt(sigma1**2 + sigma2**2))

#U
nA = nB = 1500
sampA = exactA.rvs(nA)
sampB = exactB.rvs(nB)
U, p = stats.mannwhitneyu(sampA, sampB, alternative='greater')
eu = nA * nB / 2
varu = nA * nB * (nA + nB + 1) / 12
u0 = (U - eu) / np.sqrt(varu)
p_b_gt_a_u = 1 - U / (nA*nB)

# Ua = sum(np.sum(a > sampB) for a in sampA)
# print(f'Ua:{Ua}, U:{U}')


#P(a>b)
p_u = stats.norm(loc=eu/(nA*nB), scale=np.sqrt(varu/(nA*nA*nB*nB)))
u0_p = U / (nA*nB)
print(f'p: {p}, cdf(u0): {stats.norm.cdf(u0)}, cdf(u0p): {p_u.cdf(u0_p)}')


#elementwise
a0 = 1
b0 = 1
Ua = np.sum(sampA > sampB)
post_u_ewise = stats.beta(a0 + Ua, b0 + nA - Ua)


x = np.linspace(-7, 7, 1000)
fig = go.Figure()
fig.add_trace(go.Scatter(
    x=x, y=exactA.pdf(x),
    mode='lines', name='A', line_color='black'))
fig.add_trace(go.Scatter(
    x=x, y=exactB.pdf(x),
    mode='lines', name='B', line_color='blue', opacity=0.7))
fig.update_layout(
    title="A, B",
    template="plotly_white",
    #yaxis_range=[0,1.1]
)
fig.show()

xaxis_min = 0.4
xaxis_max = 0.6
x = np.linspace(xaxis_min, xaxis_max, 1000)
fig = go.Figure()
fig.add_trace(go.Scatter(x=x, y=p_u.pdf(x), 
                         line_color='black', opacity=0.8, name=f'$U/N_A N_B$'))
fig.add_trace(go.Scatter(x=[u0_p, u0_p], y=[0, max(p_u.pdf(x))*1.1], 
                         line_color='black', 
                         mode='lines+text', text=['', '$u_0$'], textposition="top center",
                         line_dash='dash', showlegend=False))
# fig.add_trace(go.Scatter(x=[p_a_gt_b_norm, p_a_gt_b_norm], y=[0, max(p_u.pdf(x))*1.1], 
#                          line_color='black', 
#                          mode='lines+text', 
#                          text=['', '$P(A>B)$'], textposition="top center",
#                          line_dash='solid', showlegend=False))
fig.add_trace(go.Scatter(x=x[x>u0_p], y=p_u.pdf(x[x>u0_p]), 
                         line_color='black', opacity=0.8, name='$P(x > u_0)$', 
                         fill="tozeroy", fillcolor="rgba(0, 0, 0, 0.7)"))
fig.add_trace(go.Scatter(x=x, y=post_u_ewise.pdf(x),
                         line_color='black', opacity=0.3, name=f'PostUElementwise'))
fig.add_trace(go.Scatter(x=x[x<0.5], y=post_u_ewise.pdf(x[x<0.5]), 
                         line_color='black', opacity=0.3, name='$P(x < 0.5)$', 
                         fill="tozeroy", fillcolor="rgba(0, 0, 0, 0.3)"))
fig.update_layout(
    title='P(B>A)',
    template="plotly_white"
)
fig.show()

print(f'pval: {stats.norm.cdf(u0)}')
print(f'scipy pval: {p}')
print(f'Bayes P(A>B) {1 - post_u_ewise.cdf(0.5)}')
print()
print(f'P(B>A) exact: {p_b_gt_a_norm}')
print(f'P(B>A) U: {p_b_gt_a_u}')
print(f'Bayes Mean P(B>A) {1 - post_u_ewise.mean()}')

На графике показано точное значение, динамика p и P(A>B) по мере набора данных. Сравниваются не средние, а все распределение. Вероятность $U/N_A N_B$ может не доходить до 1. 

In [None]:
mu1, sigma1 = 0, 1
mu2, sigma2 = -0.05, 1
exactA = stats.norm(loc=mu1, scale=sigma1)
exactB = stats.norm(loc=mu2, scale=sigma2)

p_b_gt_a_norm = 1 - stats.norm.cdf(0, loc=mu2-mu1, scale=np.sqrt(sigma1**2 + sigma2**2))
p_a_gt_b_norm = stats.norm.cdf(0, loc=mu2-mu1, scale=np.sqrt(sigma1**2 + sigma2**2))

nA = nB = 7000
sampA = exactA.rvs(nA)
sampB = exactB.rvs(nB)
nCur = 0
step = 100
steps = []
pvals = []
pb_gt_pa_u = []
pb_gt_pa_bayes = []
pb_gt_pa_mean = []
while nCur < nA:
    nCur += step
    steps.append(nCur)
    U, pval = stats.mannwhitneyu(sampA[:nCur], sampB[:nCur], alternative='greater')
    pb_gt_pa_u.append(1 - U / nCur / nCur)
    pvals.append(pval)
    a0 = 1
    b0 = 1
    Ub = np.sum(sampB[:nCur] > sampA[:nCur])
    post_u_ewise = stats.beta(a0 + Ub, b0 + nCur - Ub)
    pb_gt_pa_bayes.append(1 - post_u_ewise.cdf(0.5))
    pb_gt_pa_mean.append(post_u_ewise.mean())
    

#x = np.linspace(, 7, 1000)
fig = go.Figure()
fig.add_trace(go.Scatter(
    x=steps, y=[p_b_gt_a_norm]*len(steps),
    mode='lines', name='Exact', 
    line_dash='longdash', line_color='black'))
fig.add_trace(go.Scatter(
    x=steps, y=pb_gt_pa_u,
    mode='lines', name='U', line_color='black', opacity=0.7))
fig.add_trace(go.Scatter(
    x=steps, y=pb_gt_pa_mean,
    mode='lines', name='Bayes E[P(B>A)]', line_color='blue', opacity=0.5))
fig.add_trace(go.Scatter(
    x=steps, y=pvals,
    mode='lines', line_dash='dash', name='U pval', 
    line_color='black', opacity=0.7))
fig.add_trace(go.Scatter(
    x=steps, y=pb_gt_pa_bayes,
    mode='lines', line_dash='dash', name='P(P(B>A) > 0.5)', 
    line_color='blue', opacity=0.5))
fig.update_layout(
    title="P(A>B)",
    template="plotly_white",
    yaxis_range=[0, 1]
)
fig.show()    

Количество правильно угаданных вариантов. Байесовская модель: нужно задавать априорные параметры для снижения ошибок.

In [None]:
cmp = pd.DataFrame(columns=['A', 'B', 'best_exact', 'exp_samp_size', 'A_exp', 'B_exp', 'best_exp', 'p_best_bayes', 'p_best_u'])

mua = 0.1
nexps = 100
cmp['A'] = [mua] * nexps
cmp['B'] = mua * (1 + stats.uniform.rvs(loc=-0.05, scale=0.1, size=nexps))
cmp['best_exact'] = cmp.apply(lambda r: 'B' if r['B'] > r['A'] else 'A', axis=1)

n_samp_max = 5_000_000
n_samp_step = 10000
prob_stop = 0.95

for i in range(nexps):
    mua = cmp.at[i, 'A']
    mub = cmp.at[i, 'B']
    exact_dist_A = stats.norm(loc=mua)
    exact_dist_B = stats.norm(loc=mub)
    n_samp_total = 0
    sampA = exact_dist_A.rvs(n_samp_max)
    sampB = exact_dist_B.rvs(n_samp_max)
    while n_samp_total < n_samp_max:
        n_samp_total += n_samp_step
        a0 = 100000
        b0 = 100000
        Ub = np.sum(sampB[:n_samp_total] > sampA[:n_samp_total])
        post_u_ewise = stats.beta(a0 + Ub, b0 + n_samp_total - Ub)
        pb_gt_pa_bayes = 1 - post_u_ewise.cdf(0.5)
        best_gr = 'B' if pb_gt_pa_bayes >= prob_stop else 'A' if 1 - pb_gt_pa_bayes >= prob_stop else None
        if best_gr:
            U, pval = stats.mannwhitneyu(sampA[:n_samp_total], sampB[:n_samp_total], alternative='greater')
            cmp.at[i, 'A_exp'] = sampA[:n_samp_total].mean()
            cmp.at[i, 'B_exp'] = sampB[:n_samp_total].mean()
            cmp.at[i, 'exp_samp_size'] = n_samp_total
            cmp.at[i, 'best_exp'] = best_gr
            cmp.at[i, 'p_best_bayes'] = max(pb_gt_pa_bayes, 1 - pb_gt_pa_bayes)
            cmp.at[i, 'p_best_u'] = max(pval, 1 - pval)
            break
    print(f'done {i}: nsamp {n_samp_total}, best_gr {best_gr}, P_best Bayes {pb_gt_pa_bayes:.4f}, U p-val: {pval:.4f}')

cmp['correct'] = cmp['best_exact'] == cmp['best_exp']
display(cmp.head(30))
finished = np.sum(cmp['best_exp'].notna())
cor_guess = np.sum(cmp['correct'])
print(f"Nexp: {nexps}, Finished: {finished}, Correct Guesses: {cor_guess}, Accuracy: {cor_guess / finished}")

Для U-тестов выставлен больший шаг - добавляется по 500000 точек в каждой группе. Это также учитывает минимальное количество данных. Доля верно угаданных вариантов `0.96` несколько выше `prob_stop`. Превышение связано с большим шагом.

In [None]:
cmp = pd.DataFrame(columns=['A', 'B', 'best_exact', 'exp_samp_size', 'A_exp', 'B_exp', 'best_exp', 'p_best_bayes', 'p_best_u'])

mua = 0.1
nexps = 100
cmp['A'] = [mua] * nexps
cmp['B'] = mua * (1 + stats.uniform.rvs(loc=-0.05, scale=0.1, size=nexps))
cmp['best_exact'] = cmp.apply(lambda r: 'B' if r['B'] > r['A'] else 'A', axis=1)

n_samp_max = 5_000_000
n_samp_step = 200_000
prob_stop = 0.95

for i in range(nexps):
    mua = cmp.at[i, 'A']
    mub = cmp.at[i, 'B']
    exact_dist_A = stats.norm(loc=mua)
    exact_dist_B = stats.norm(loc=mub)
    n_samp_total = 0
    sampA = exact_dist_A.rvs(n_samp_max)
    sampB = exact_dist_B.rvs(n_samp_max)
    while n_samp_total < n_samp_max:
        n_samp_total += n_samp_step
        U, pval = stats.mannwhitneyu(sampA[:n_samp_total], sampB[:n_samp_total], alternative='greater')
        pb_gt_pa_u = 1 - U / n_samp_total / n_samp_total
        best_gr = 'B' if pval >= prob_stop else 'A' if 1 - pval >= prob_stop else None        
        if best_gr:
            a0 = 100000
            b0 = 100000
            Ub = np.sum(sampB[:n_samp_total] > sampA[:n_samp_total])
            post_u_ewise = stats.beta(a0 + Ub, b0 + n_samp_total - Ub)
            pb_gt_pa_bayes = 1 - post_u_ewise.cdf(0.5)
            cmp.at[i, 'A_exp'] = sampA[:n_samp_total].mean()
            cmp.at[i, 'B_exp'] = sampB[:n_samp_total].mean()
            cmp.at[i, 'exp_samp_size'] = n_samp_total
            cmp.at[i, 'best_exp'] = best_gr
            cmp.at[i, 'p_best_bayes'] = max(pb_gt_pa_bayes, 1 - pb_gt_pa_bayes)
            cmp.at[i, 'p_best_u'] = max(pval, 1 - pval)
            break
    print(f'done {i}: nsamp {n_samp_total}, best_gr {best_gr}, P_best Bayes {pb_gt_pa_bayes:.4f}, U p-val: {pval:.4f}')

cmp['correct'] = cmp['best_exact'] == cmp['best_exp']
display(cmp.head(30))
finished = np.sum(cmp['best_exp'].notna())
cor_guess = np.sum(cmp['correct'])
print(f"Nexp: {nexps}, Finished: {finished}, Correct Guesses: {cor_guess}, Accuracy: {cor_guess / finished}")

Для $p$-значений $t$-теста, $\chi^2$-теста и $U$-критерия Манна-Уитни показана связь с байесовскими вероятностями параметров одной группы больше другой. $P$-значения численно близки байесовским вероятностям несмотря на различия в определениях.

## Ссылки

[Chi2Dist] - [Chi-squared Distribution](https://en.wikipedia.org/wiki/Chi-squared_distribution), *Wikipedia.*  
[Chi2Pearson] - [Pearson’s Chi-squared Test](https://en.wikipedia.org/wiki/Pearson%27s_chi-squared_test), *Wikipedia.*  
[Chi2Test] - [Chi-squared Test](https://en.wikipedia.org/wiki/Chi-squared_test), *Wikipedia.*  
[ConjPrior] - [Conjugate Prior](https://en.wikipedia.org/wiki/Conjugate_prior#When_likelihood_function_is_a_continuous_distribution), *Wikipedia.*   
[MannWhitneyU] - [Mann–Whitney U Test](https://en.wikipedia.org/wiki/Mann%E2%80%93Whitney_U_test), *Wikipedia.*  
[NormalSum] - [Sum of Normally Distributed Random Variables](https://en.wikipedia.org/wiki/Sum_of_normally_distributed_random_variables), *Wikipedia.*  
[PVal] - [P-value](https://en.wikipedia.org/wiki/P-value), *Wikipedia.*  
[ScipyChi2Con] - [scipy.stats.chi2_contingency](https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.chi2_contingency.html), *SciPy Reference.*  
[ScipyMannWhitneyU] - [scipy.stats.mannwhitneyu](https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.mannwhitneyu.html), *SciPy Reference.*  
[ScipyTTestInd] - [scipy.stats.ttest_ind](https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.ttest_ind.html), *SciPy Reference.*  
[TailedTests] - [One- and Two-tailed Tests](https://en.wikipedia.org/wiki/One-_and_two-tailed_tests), *Wikipedia.*  
[TDist] - [Student’s t-distribution](https://en.wikipedia.org/wiki/Student%27s_t-distribution), *Wikipedia.*  
[TestStat] - [Test Statistic](https://en.wikipedia.org/wiki/Test_statistic), *Wikipedia.*  
[TTest] - [Student’s t-test](https://en.wikipedia.org/wiki/Student%27s_t-test), *Wikipedia.*  
[WelchT] - [Welch’s t-test](https://en.wikipedia.org/wiki/Welch%27s_t-test), *Wikipedia.*