# Критерии остановки и оценка длительности

In [None]:
import numpy as np
import pandas as pd
import scipy.stats as stats
import plotly.graph_objects as go

from collections import namedtuple

np.random.seed(7)

В предыдущих примерах эксперименты останавливались при достижении 95% вероятности целевой метрики одной группы больше других. Порог 95% произволен - возможны 80%, 99%, другие значения. Удобен объективный критерий остановки.

Качественные закономерности следующие. С одной стороны, продолжение эксперимента дает новые данные и уточняет метрики. С другой, часть пользователей попадает в неоптимальную группу, что ведет к потерям. Поддержка эксперимента также связана с потерями из-за усложнения разработки, хотя этот эффект тяжело оценить. Ценность новых данных убывает по мере их накопления - первые 100 точек сильнее влияют на решение, чем дополнительные 100 точек к 10 млн. Наконец, решение об остановке должно учитывать последствия выбора. Чем выше цена ошибки, тем большая нужна уверенность в одном из вариантов. Например, при тестировании лекарств нужна бОльшая уверенность в отсутствии побочек. В веб-сервисах выбранных вариант продержится, например, год до следующего эксперимента.  
  

Таким образом, цена поддержания эксперимента постоянна, ценность новых данных падает. Когда ценность новых данных падает ниже стоимости поддержания эксперимента, эксперимент пора останавливать. Ценность данных должна учитывать последствия выбора.

<center>
<img src="../figs/ab_data_value.png" alt="ab_data_value" width="600"/>
    
<em>Цена поддержания эксперимента постоянна, ценность новых данных падает. Эксперимент пора останавливать при ценности новых данных ниже их стоимости. Ценность данных должна учитывать последствия выбора одного из вариантов. </em>
</center>

Реализация этих закономерностей зависит от конкретных метрик. Далее будут рассматриваться конверсии. Для оценки вероятности успеха $p$ в серии $N$ испытаний с $n_s$ успехами правдоподобие удобно задавать биномиальным распределением $P(\mathcal{D} | \mathcal{H}) = \mbox{Binom}(n_s, N | p)$, априорное распределение - бета-распределением $P(\mathcal{H}) = \mbox{Beta}(p; \alpha, \beta)$ с параметрами $\alpha, \beta$. Тогда апостериорная вероятность также будет бета-распределением с обновленными параметрами $P(\mathcal{H} | \mathcal{D}) = \mbox{Beta}(p; \alpha + n_s, \beta + N - n_s)$. При достаточно большом количестве данных $N \gg n_s \gg \alpha, \beta$ бета-распределение близко нормальному $\mbox{Beta}(x; \alpha + n_s, \beta + N - n_s) \approx \mbox{Norm}(x; \mu, \sigma^2), \, \mu = n_s / N, \, \sigma^2 = \mu (1 - \mu) / N$.

$$
P(\mathcal{H} | \mathcal{D}) \propto P(\mathcal{D} | \mathcal{H}) P(\mathcal{H})
$$

$$
P(\mathcal{D} | \mathcal{H}) = P(n_s, N | p) = \mbox{Binom}(n_s, N | p)
$$

$$
P(\mathcal{H}) = P(p) = \mbox{Beta}(p; \alpha, \beta)
$$

$$
P(\mathcal{H} | \mathcal{D}) = P(p | n_s, N) = \mbox{Beta}(p; \alpha + n_s, \beta + N - n_s)
$$


$$
N \gg n_s \gg \alpha, \beta: \quad
\mbox{Beta}(x; \alpha + n_s, \beta + N - n_s) 
\approx \mbox{Norm}(x; \mu, \sigma^2),
\quad
\mu = n_s / N, 
\,
\sigma^2 = \mu (1 - \mu) / N
$$


$$
\mbox{Binom}(n_s, N | p) = C_{N}^{n_s} p^{n_s} (1-p)^{N-n_s}
\qquad
\mbox{Beta}(x; \alpha, \beta) = \frac{\Gamma(\alpha+\beta)}{\Gamma(\alpha)\Gamma(\beta)} x^{\alpha-1} (1 - x)^{\beta-1}
\qquad
\mbox{Norm}(x ; \mu, \sigma^2) = \frac{1}{\sqrt{2 \pi \sigma^2}} e^{-\tfrac{(x-\mu)^2}{2 \sigma^2} }
$$

По мере набора данных средние в выборках будут приближаться к точным средним, а апостериорные распределения сужаются. То же для разности.  
Задано две группы, конверсия в одной $p_A = 10\%$, в другой на 5% больше $p_B = 10.5\%$. В этих группах набираются данные с шагом 1000 точек. На первом графике показаны апостериорные распределения при 1000 и 10000 точек в каждой группе. Видно, что распределения при большем количестве точек уже. На втором графике показаны средние и 95% области наибольшей плотности вероятности по мере набора N. По мере набора данных средние в выборках приближаются к точным средним, а 95% области наибольшей плотности вероятности сужаются.

In [None]:
def posterior_dist_binom(ns, ntotal, a_prior=1, b_prior=1):
    a = a_prior + ns
    b = b_prior + ntotal - ns 
    return stats.beta(a=a, b=b)

pa = 0.1
pb = pa * 1.05

npoints = [1000, 9000]
sa = stats.binom.rvs(p=pa, n=npoints)
sb = stats.binom.rvs(p=pb, n=npoints)
npoints = np.cumsum(npoints)
sa = np.cumsum(sa)
sb = np.cumsum(sb)

xaxis_min = 0.05
xaxis_max = 0.15  
x = np.linspace(xaxis_min, xaxis_max, 1000)
fig = go.Figure()
fig.add_trace(go.Scatter(x=x, y=posterior_dist_binom(sa[-1], npoints[-1]).pdf(x), 
                         line_color='red', opacity=0.8, name=f'А, N={npoints[-1]}'))
fig.add_trace(go.Scatter(x=x, y=posterior_dist_binom(sa[0], npoints[0]).pdf(x), 
                         line_color='red', opacity=0.3, name=f'А, N={npoints[0]}'))
fig.add_trace(go.Scatter(x=x, y=posterior_dist_binom(sb[-1], npoints[-1]).pdf(x), 
                         line_color='blue', opacity=0.8, name=f'B, N={npoints[-1]}'))
fig.add_trace(go.Scatter(x=x, y=posterior_dist_binom(sb[0], npoints[0]).pdf(x), 
                         line_color='blue', opacity=0.3, name=f'B, N={npoints[0]}'))
fig.update_layout(title='Апостериорные распределения',
                  xaxis_title='$p$',
                  yaxis_title='Плотность вероятности',
                  xaxis_range=[xaxis_min, xaxis_max],
                  hovermode="x",
                  height=500)
fig.show()

Разность приближенно можно считать нормальным распределением.

$$
\begin{gather}
P_{p_A} = \mbox{Beta}(x; \alpha + n_{s_A}, \beta + N_A - n_{s_A}),
\quad
P_{p_B} = \mbox{Beta}(x; \alpha + n_{s_B}, \beta + N_B - n_{s_B})
\\
\\
P_{p_B - p_A}(x) = 
\int_{-\infty}^{\infty} dy P_{p_B}(y) P_{p_A}(y-x)
\approx \mbox{Norm}\left(x; \mu_B - \mu_A, \sigma_A^2 + \sigma_B^2\right)
\end{gather}
$$

По мере набора данных средние в выборках будут приближаться к точным средним, а апостериорные распределения сужаются. То же для разности.  
Задано две группы, конверсия в одной $p_A = 10\%$, в другой на 5% больше $p_B = 10.5\%$. В этих группах набираются данные с шагом 1000 точек. На первом графике показаны апостериорные распределения при 1000 и 10000 точек в каждой группе. Видно, что распределения при большем количестве точек уже. На втором графике показаны средние и 95% области наибольшей плотности вероятности по мере набора N. По мере набора данных средние в выборках приближаются к точным средним, а 95% области наибольшей плотности вероятности сужаются.

In [None]:
def posterior_dist_binom(ns, ntotal, a_prior=1, b_prior=1):
    a = a_prior + ns
    b = b_prior + ntotal - ns 
    return stats.beta(a=a, b=b)

def prob_pb_gt_pa(post_dist_A, post_dist_B, post_samp=100_000):
    sa = post_dist_A.rvs(size=post_samp)
    sb = post_dist_B.rvs(size=post_samp)
    b_gt_a = np.sum(sb > sa)
    return b_gt_a / post_samp

def posterior_binom_approx_95pdi(post_dist):
    lower = post_dist.ppf(0.025)
    upper = post_dist.ppf(0.975)
    return lower, upper

pa = 0.1
pb = pa * 1.05

npoints = 1000
nstep = 150
sa = stats.binom.rvs(p=pa, n=npoints, size=nstep)
sb = stats.binom.rvs(p=pb, n=npoints, size=nstep)

df = pd.DataFrame()
df['npoints'] = [npoints] * nstep
df['sa_step'] = sa
df['sb_step'] = sb
df['N'] = df['npoints'].cumsum()
df['sa'] = df['sa_step'].cumsum()
df['sb'] = df['sb_step'].cumsum()
df['pa'] = df.apply(lambda r: posterior_dist_binom(r['sa'], r['N']).mean(), axis=1)
df[['pa_lower', 'pa_upper']] = df.apply(lambda r: posterior_binom_approx_95pdi(posterior_dist_binom(r['sa'], r['N'])), axis=1, result_type="expand")
df['pb'] = df.apply(lambda r: posterior_dist_binom(r['sb'], r['N']).mean(), axis=1)
df[['pb_lower', 'pb_upper']] = df.apply(lambda r: posterior_binom_approx_95pdi(posterior_dist_binom(r['sb'], r['N'])), axis=1, result_type="expand")
df['pb_gt_pa'] = df.apply(lambda r: prob_pb_gt_pa(posterior_dist_binom(r['sa'], r['N']), posterior_dist_binom(r['sb'], r['N']), post_samp=10_000), axis=1)
df['diff_mu'] = df.apply(lambda r: r['pb'] - r['pa'], axis=1)
df['diff_s'] = df.apply(lambda r: np.sqrt(posterior_dist_binom(r['sa'], r['N']).std()**2 + posterior_dist_binom(r['sb'], r['N']).std()**2), axis=1)
df[['diff_lower', 'diff_upper']] = df.apply(lambda r: (r['diff_mu'] - 2*r['diff_s'], r['diff_mu'] + 2*r['diff_s']), axis=1, result_type="expand")
#todo: loss

xaxis_min = -0.05
xaxis_max = 0.15  
x = np.linspace(xaxis_min, xaxis_max, 1000)
fig = go.Figure()
for N, o in [(1000, 0.3), (10000, 1)]:
    dist_a = posterior_dist_binom(df[df['N'] == N]['sa'], N)
    dist_b = posterior_dist_binom(df[df['N'] == N]['sb'], N)
    fig.add_trace(go.Scatter(x=x, y=dist_a.pdf(x), line_color='red', opacity=o, name=f'А, N={N}'))
    fig.add_trace(go.Scatter(x=x, y=dist_b.pdf(x), line_color='blue', opacity=o, name=f'Б, N={N}'))
    #
    diff = stats.norm(loc=df[df['N'] == N]['diff_mu'], scale=df[df['N'] == N]['diff_s'])
    fig.add_trace(go.Scatter(x=x, y=diff.pdf(x), line_color='black', opacity=o, name=f'Diff, N={N}'))
    fig.update_layout(title='Апостериорные распределения',
                      xaxis_title='$p$',
                      yaxis_title='Плотность вероятности',
                      xaxis_range=[xaxis_min, xaxis_max],
                      hovermode="x",
                      height=500)
fig.show()


fig = go.Figure()
fig.add_trace(go.Scatter(x=df['N'], y=df['pa'], name='A',
                         line_color='red'))
fig.add_trace(go.Scatter(x=list(df['N']) + list(reversed(df['N'])), 
                         y=list(df['pa_upper']) + list(reversed(df['pa_lower'])),
                         fill="toself", name='A, 95% PDI', marker_color='red', opacity=0.2))
fig.add_trace(go.Scatter(x=df['N'], y=df['pb'], name='B',
                         line_color='blue'))
fig.add_trace(go.Scatter(x=list(df['N']) + list(reversed(df['N'])), 
                         y=list(df['pb_upper']) + list(reversed(df['pb_lower'])),
                         fill="toself", name='B, 95% PDI', marker_color='blue', opacity=0.2))
fig.add_trace(go.Scatter(x=df['N'], y=df['diff_mu'], name='Diff',
                         line_color='black'))
fig.add_trace(go.Scatter(x=list(df['N']) + list(reversed(df['N'])), 
                         y=list(df['diff_lower']) + list(reversed(df['diff_upper'])),
                         fill="toself", name='A, 95% PDI', marker_color='black', opacity=0.2))
fig.update_layout(title='$p_A, p_B$',
                  yaxis_tickformat = ',.1%',
                  xaxis_title='N',
                  height=700)
fig.show()

Дисперсия бета-распределения убывает пропорционально $1/N$. Это видно как из точного выражения для дисперсии бета-распределения, так и из приближения нормальным распределением. То же для дисперсии разности. 

$$
Var(\mbox{Beta}(x; \alpha, \beta)) = \frac{\alpha \beta}{(\alpha + \beta)^2(\alpha + \beta + 1)}
\\
N > n_s \gg \alpha, \beta:
\qquad
\alpha \approx n_s, \qquad \beta \approx N - n_s, \qquad n_s \approx p N
\\
Var(\mbox{Beta}(x; \alpha, \beta)) = \frac{n_s (N - n_s)}{N^3} = \frac{p (1 - p)}{N}
$$



На графике показано стандартное отклонение разности по сэмплам и величина $\sigma_0 \sqrt{N_0/N}$, где $\sigma_0$ и $N_0$ - стандартное отклонение и количество точек на первом шаге набора данных. Величины близки.  

In [None]:
fig = go.Figure()
fig.add_trace(go.Scatter(x=df['N'], y=df['diff_s'],
                         line_color='black', name='sigma'))
fig.add_trace(go.Scatter(x=df['N'], y=df['diff_s'][0] * np.sqrt(df['N'][0] / df['N']), 
                         line_color='black', mode='lines', line_dash='dash', name='sigma0 * sqrt(N0/N)'))
fig.update_layout(title='Стандартное отклонение pB - pA',
                  xaxis_title='$N$',
                  #yaxis_title='sigma',
                  #xaxis_range=[-0.1, 0.1],
                  hovermode="x",
                  height=500)  
fig.show()

Таким образом, по мере набора данных средние в выборках стремятся к точному среднему, разность средних стремится к точной разности. Дисперсии распределений и разности сужаются пропорционально $1/N$. Растет уверенность в лучшей группе.

Для записи критерия остановки можно рассмотреть момент, когда в каждой группе уже собрано N точек и построены оценки апостериорных распределений. Что произойдет при продолжении эксперимента? Ожидаемое значение разности средних $p_B - p_A$ изменится непредсказуемым образом. На основе текущих данных нельзя сказать, как именно оно изменится. При этом можно ожидать, что ожидаемое значение будет таким же, как и по имеющимся данным $E[p_B-p_A | N + \Delta N] \approx E[p_B -p_A | N]$. На самом деле это не так. Дисперсия будет убывать $1/N$. Т.е. распределение станет немного уже при том же среднем. Ожидаемая разность не меняется, поэтому оценка эффекта после остановки тоже не меняется. Уменьшение дисперсии дает снижение возможных потерь при том же среднем эффекте. На графике вероятность pb>pa - площадь правее нуля, ожидаемые потери - среднее в части меньше нуля.


In [None]:
x = np.linspace(-0.3, 0.3, 1000)
fig = go.Figure()
mu = pb - pa
N = 5000
s = np.sqrt((pb*(1-pb)/N) + (pa*(1-pa)/N))
d = stats.norm(loc=mu, scale=s)
fig.add_trace(go.Scatter(x=x, y=d.pdf(x), 
                         line_color='black', name=f'N={N}'))
fig.add_trace(go.Scatter(x=[0, 0], y=[0, max(d.pdf(x))*1.05], 
                         line_color='black', mode='lines', line_dash='dash', showlegend=False))
fig.add_trace(go.Scatter(x=x[x<0], y=d.pdf(x[x<0]), fill='tozeroy',
                         line_color='black', opacity=0.3, name='loss', showlegend=False))
N = 1000
s = np.sqrt((pb*(1-pb)/N) + (pa*(1-pa)/N))
d = stats.norm(loc=mu, scale=s)
fig.add_trace(go.Scatter(x=x, y=d.pdf(x), 
                         line_color='black', opacity=0.3, name=f'N={N}'))
fig.add_trace(go.Scatter(x=x[x<0], y=d.pdf(x[x<0]), fill='tozeroy',
                         line_color='black', opacity=0.3, name='loss'))
fig.update_layout(title='$p_B - p_A$',
                  xaxis_title='$x$',
                  yaxis_title='Плотность вероятности',
                  xaxis_range=[-0.05, 0.05],
                  hovermode="x",
                  height=500)
fig.show()

При одинаковом среднем меньше ожидаемых потерь лучше.  

Останавливать, если:  
Ожидаемые потери на след. шаге - Ожидаемые потери сейчас < Стоимости данных  

Стоимость данных - ожидаемые потери из-за попадания части пользователей в худшую группу.  

Потери на след. шаге и стоимость данных можно оценить исходя из того, что дисперсия будет уменьшаться 1/N при том же среднем.

Ожидаемые потери должны учитывать количество пользователей, на которых будут раскатываться изменения, и LTV. 

$$
E[L(p_B - p_A | N + \Delta N)] - E[L(p_B - p_A | N)] < Cost(\Delta N)
\\
\begin{split}
E[L(p_B - p_A | N)] & = LTV * M \int_{-\infty}^0 x P_{p_B - p_A}(x) dx
\\
& \approx LTV * M \int_{-\infty}^0 x Norm(x; \mu_B - \mu_A, \sigma_A^2 + \sigma_B^2 | N) dx
\\
& = LTV * M * I(N)
\end{split}
\\
Cost(\Delta N) \approx LTV * w_A \Delta N * E[P_{p_B - p_A}]  = LTV * w_A (\mu_B - \mu_A) \Delta N
$$

$$
LTV * M (I(N+\Delta N) - I(N)) < LTV w_A (\mu_B - \mu_A) \Delta N
\\
\frac{I(N+\Delta N) - I(N)}{\Delta N} < \frac{w_A}{M} (\mu_B - \mu_A)
$$

In [None]:
na = 1000
sa = 100
nb = 1000
sb = 110

p_dist_a = stats.beta(a=sa+1, b=na-sa+1)
p_dist_b = stats.beta(a=sb+1, b=nb-sb+1)

approx_diff_dist = stats.norm(loc=p_dist_b.mean() - p_dist_a.mean(), 
                              scale=np.sqrt(p_dist_b.std()**2 + p_dist_a.std()**2))

a, b = -np.inf, (0 - approx_diff_dist.mean()) / approx_diff_dist.std()
tr_loss = stats.truncnorm(a=a, b=b, loc=approx_diff_dist.mean(), scale=approx_diff_dist.std())

x = np.linspace(-0.3, 0.3, 1000)
fig = go.Figure()
fig.add_trace(go.Scatter(x=x, y=approx_diff_dist.pdf(x), 
                         line_color='black', name='Diff'))
fig.add_trace(go.Scatter(x=x, y=tr_loss.pdf(x), 
                         line_color='red', name='Loss'))
fig.add_trace(go.Scatter(x=[0, 0], y=[0, max(approx_diff_dist.pdf(x))*1.05], 
                         line_color='black', mode='lines', line_dash='dash', showlegend=False))
fig.update_layout(title='$p_B - p_A$',
                  xaxis_title='$x$',
                  yaxis_title='Плотность вероятности',
                  xaxis_range=[-0.1, 0.1],
                  hovermode="x",
                  height=500)
fig.show()


dN = 100

res = []
for N in range(na+nb, 100_000, dN):
    mu = approx_diff_dist.mean()
    s = approx_diff_dist.std() * np.sqrt(na+nb) / np.sqrt(N)
    new_diff_dist = stats.norm(loc=approx_diff_dist.mean(), scale=s)
    p = 1 - new_diff_dist.cdf(0)
    a, b = -np.inf, (0 - new_diff_dist.mean()) / new_diff_dist.std()
    tr_loss = stats.truncnorm(a=a, b=b, loc=new_diff_dist.mean(), scale=new_diff_dist.std())
    mean_loss = tr_loss.mean() * new_diff_dist.cdf(0)
    s2 = approx_diff_dist.std() * np.sqrt(na+nb) / np.sqrt(N+dN)
    new_diff_dist2 = stats.norm(loc=approx_diff_dist.mean(), scale=s2)
    a2, b2 = -np.inf, (0 - new_diff_dist2.mean()) / new_diff_dist2.std()
    tr_loss2 = stats.truncnorm(a=a2, b=b2, loc=new_diff_dist2.mean(), scale=new_diff_dist2.std())
    mean_loss2 = tr_loss2.mean() * new_diff_dist2.cdf(0)
    d_loss = (mean_loss2 - mean_loss) / dN
    loss_diff = new_diff_dist.pdf(0) * s**2 / (2 * N)
    #loss_diff = stats.norm.pdf(mu/s) * s / (2 * N)
    res.append((N, mu, s, p, mean_loss, d_loss, loss_diff))
    
#res = [(N, approx_diff_dist.std() * np.sqrt(na+nb) / np.sqrt(N)) for N in range(na+nb, 1000000, 100)]

df_res = pd.DataFrame(res, columns=['N', 'mu', 'std', 'p', 'mean_loss', 'd_loss', 'loss_diff'])
df_res


fig = go.Figure()
#fig.add_trace(go.Scatter(x=df['N'], y=df['std'] * 100, 
#                         line_color='blue', name='std * 100'))
fig.add_trace(go.Scatter(x=df_res['N'], y=df_res['p'], 
                         line_color='black', name='p'))
fig.add_trace(go.Scatter(x=df_res['N'], y=df_res['mean_loss'] * 100, 
                         line_color='red', name='mean_loss * 100'))
fig.add_trace(go.Scatter(x=df_res['N'], y=df_res['mu']*10, 
                         line_color='yellow', name='mu*10'))
fig.add_trace(go.Scatter(x=df_res['N'], y=df_res['d_loss'] * 1000000, 
                         line_color='green', name='d_loss * 1000000'))
fig.add_trace(go.Scatter(x=df_res['N'], y=df_res['loss_diff'] * 1000000, 
                         line_color='purple', name='loss_diff * 1000000'))
fig.show()

Ожидаемые потери аналитически 
$$
\frac{d I(N)}{dN} < \frac{w_A}{M} (\mu_B - \mu_A)
$$

$$
\begin{split}
I(N) &= \int_{-\infty}^{0} x \mathcal N(x; m, \sigma^2) dx
  = \int_{-\infty}^{0} \big(x + m - m\big) \mathcal N(x;m,\sigma^2) dx 
  \\
  & = m \int_{-\infty}^{0} \mathcal N(x;m,\sigma^2) dx + \int_{-\infty}^{0} (x-m) \mathcal N(x;m,\sigma^2) dx 
  \\
  &= m \Phi \left(\tfrac{0-m}{\sigma}\right) + \sigma \int_{-\infty}^{(0-m)/\sigma} t \varphi(t) dt 
  = m \Phi \left(-\tfrac{m}{\sigma}\right) - \sigma \varphi \left(-\tfrac{m}{\sigma}\right)
  \\
  & = m \Phi \left(-\tfrac{m}{\sigma}\right) - \sigma \varphi \left(\tfrac{m}{\sigma}\right)
\end{split}
$$

При $\sigma(N) = \sigma_0 \sqrt{N_0 / N}$:

$$
\begin{split}
I(N) &= m\,\Phi\!\left(-\tfrac{m}{\sigma(N)}\right) \;-\; \sigma(N)\,\varphi\!\left(\tfrac{m}{\sigma(N)}\right), \\[6pt]
\frac{dI}{dN}
&= m\,\varphi\!\left(\tfrac{m}{\sigma(N)}\right)\cdot\frac{m\,\sigma'(N)}{\sigma(N)^2}
\;-\;\Big[\sigma'(N)\,\varphi\!\left(\tfrac{m}{\sigma(N)}\right)
+ \sigma(N)\,\varphi'\!\left(\tfrac{m}{\sigma(N)}\right)\cdot\frac{dz}{dN}\Big], \\[6pt]
&= \frac{m^2\sigma'(N)}{\sigma(N)^2}\,\varphi\!\left(\tfrac{m}{\sigma(N)}\right)
- \sigma'(N)\,\varphi\!\left(\tfrac{m}{\sigma(N)}\right)
- \frac{m^2\sigma'(N)}{\sigma(N)^2}\,\varphi\!\left(\tfrac{m}{\sigma(N)}\right), \\[6pt]
&= -\,\sigma'(N)\,\varphi\!\left(\tfrac{m}{\sigma(N)}\right).
\end{split}
\\
\sigma'(N) = -\sigma(N) / 2 N 
\\
\frac{dI}{dN} \;=\; \frac{\sigma(N)}{2N}\,\varphi\!\left(\tfrac{m}{\sigma(N)}\right)
= \frac{\sigma(N)^2}{2N} Norm\left(0; \mu_B - \mu_A, \sigma^2 \right)
$$

Условие остановки
$$
\frac{\sigma(N)^2}{2N} Norm\left(0; \mu_B - \mu_A, \sigma^2 \right) < \frac{w_A}{M} (\mu_B - \mu_A)
\\
Norm\left(0; \mu_B - \mu_A, \sigma^2 \right) < 2 w_A \frac{N}{M} \frac{(\mu_B - \mu_A)}{\sigma(N)^2}
\\
\phi(z) < 2 w_A \frac{N}{M} z, \quad z = \frac{\mu_B - \mu_A}{\sigma}, \quad \phi(z) = \frac{1}{\sqrt{2\pi}} e^{-x^2/2}
$$

Ограничение хвостов нормального распределения https://en.wikipedia.org/wiki/Mills_ratio .  
Т.к. $u/z \ge 1, u \in [z, \infty)$

$$
\Phi(-z) 
= \frac{1}{\sqrt{2\pi}}\int_{z}^{\infty} e^{-u^{2}/2}\,du
\;\le\; \frac{1}{\sqrt{2\pi}}\int_{z}^{\infty} \frac{u}{z} e^{-u^{2}/2}\,du
= \frac{1}{z\sqrt{2\pi}} e^{-z^{2}/2}
= \frac{\varphi(z)}{z}, \qquad z>0 .
$$

Условие остановки: вероятность группа B хуже (левый хвост) ограничена сверху $Norm(x)/x$ меньше $2w_A N/M$. 

$$
F(0; \mu_B - \mu_A, \sigma^2) < \frac{\phi(z)}{z} < 2w_A \frac{N}{M}
$$

Считать время на изменение решения.  
Готовы ли держать еще столько времени?  
Это способ оценить расходы на поддержание эксперимента на глаз.

Оценки длительности

Есть оценка распределения. Или априорное распределение. Как оценить длительность эксп?

При остановке по достижении вероятности:



In [None]:
mu = pb - pa
s = np.sqrt((pb*(1-pb)/df['N']) + (pa*(1-pa)/df['N']))
pbgtpa = [1-stats.norm(loc=mu, scale=s).cdf(0) for s in s]

fig = go.Figure()
fig.add_trace(go.Scatter(x=df['N'], y=df['pb_gt_pa'],
                         line_color='red', name='pb_gt_pa, simulated'))
fig.add_trace(go.Scatter(x=df['N'], y=pbgtpa,
                         line_color='black', line_dash='dash', name='pb_gt_pa, fixed mean'))
fig.update_layout(title='P(pB > pA)',
                  xaxis_title='$N$',
                  yaxis_range=[0, 1.05],
                  hovermode="x",
                  height=500)  
fig.show()

Проверки

Фиксированный эффект.  
Оценивается длительность.  
Сравнивается с фактической в неск. эксп.  

In [None]:
mu = pb - pa
N = np.arange(1000, 150000, 1000)
s = [np.sqrt((pb*(1-pb)/n) + (pa*(1-pa)/n)) for n in N]
pbgtpa = np.array([1-stats.norm(loc=mu, scale=s).cdf(0) for s in s])

Ndr = N[pbgtpa > 0.95][0]

fig = go.Figure()
fig.add_trace(go.Scatter(x=N, y=pbgtpa,
                         line_color='black', line_dash='dash', name='pb_gt_pa, fixed mean'))
fig.add_vline(Ndr)
fig.update_layout(title='P(pB > pA)',
                  xaxis_title='$N$',
                  yaxis_range=[0, 1.05],
                  hovermode="x",
                  height=500)  
fig.show()

In [None]:
pa = 0.1
pb = pa * 1.03
p_stop = 0.95
nmax = 5000000
nstep = 100

nexp = 1000

won = []
nstop = []
for ne in range(nexp):
    N = np.arange(nstep, nmax + nstep, nstep)
    sa = stats.binom.rvs(p=pa, n=nstep, size=nmax//nstep)
    sb = stats.binom.rvs(p=pb, n=nstep, size=nmax//nstep)
    Sa = sa.cumsum()
    Sb = sb.cumsum()
    Pa = Sa / N
    Pb = Sb / N
    #for n, pa_n, pb_n in zip(N, Pa, Pb):
        #mu = pb_n - pa_n
        #sigma = np.sqrt((pb_n*(1-pb_n)/n) + (pa_n*(1-pa_n)/n))
    for n, sa_n, sb_n in zip(N, Sa, Sb):
        post_a = posterior_dist_binom(sa_n, n)
        post_b = posterior_dist_binom(sb_n, n)
        mu = post_b.mean() - post_a.mean()
        sigma = np.sqrt(post_a.std()**2 + post_b.std()**2)
        pbgtpa = 1 - stats.norm(loc=mu, scale=sigma).cdf(0)
        pbest = np.maximum(pbgtpa, 1-pbgtpa)
        if pbest > p_stop:
            #nstop.append(np.argmax(pbest > p_stop))
            nstop.append(n)
            #won.append('B' if pb_n > pa_n else 'A')
            won.append('B' if sb_n > sa_n else 'A')
            break
#nstop

fig = go.Figure()
fig.add_histogram(x=nstop, xbins={'start':0, 'size':nstep, 'end':nmax})
fig.add_vline(Ndr)
fig.show()

vals, counts = np.unique(won, return_counts=True)
print('Best gr: ', dict(zip(vals, counts)))

Много ошибок из-за ранних остановок.   
Чем меньше nstep, тем больше ошибок.  
Чем больше nstep, тем ближе доля ошибок к заявленной.  

Попробовать выставлять минимальное время для эксп.  
Но основании ожидаемого эффекта.  
Скажем, треть времени.  

In [None]:
fig = go.Figure()
fig.add_histogram(x=nstop, xbins={'start':0, 'size':nstep, 'end':nmax})
fig.add_vline(Ndr)
fig.show()

vals, counts = np.unique(won, return_counts=True)
print('Best gr: ', dict(zip(vals, counts)))

Разброс непредсказуемый.  
Даже если угадать эффект, сделанная оценка длительности говорит не ясно о чем. 

Вместо точной оценки может хватить оценки сверху.  

В реальности эффект заранее неизвестен.   
Корректировать оценку при появлении данных.  
- Предположить эффект.  
- Оценить длительность.

Что будет, если использовать другой критерий остановки?  
Какая будет точность?  

Ссылки

https://en.wikipedia.org/wiki/Expected_value_of_sample_information  

https://en.wikipedia.org/wiki/Truncated_normal_distribution  

https://en.wikipedia.org/wiki/Mills_ratio

https://en.wikipedia.org/wiki/Conjugate_prior

https://en.wikipedia.org/wiki/Posterior_predictive_distribution

https://en.wikipedia.org/wiki/Beta-binomial_distribution

$$
\begin{split}
P_{p_A}(x) = \mbox{Beta}(x; n_{s_A} + \alpha, N_A - n_{s_A} + \beta)
& \approx \mbox{Norm}(x; \mu_A, \sigma_A^2),
\quad
\mu_A = (n_{s_A} + \alpha - 1) /N_A, 
\,
\sigma_A^2 = \mu_A (1 - \mu_A) / N_A,
\quad
N_A \gg n_{s_A} \gg 1
\\
\\
P_{p_B}(x) = \mbox{Beta}(x; n_{s_B} + \alpha, N_B - n_{s_B} + \beta)
& \approx \mbox{Norm}(x; \mu_B, \sigma_B^2),
\quad
\mu_B = (n_{s_B} + \alpha - 1)/N_B, 
\,
\sigma_B^2 = \mu_B (1 - \mu_B) / N_B,
\quad
N_B \gg n_{s_B} \gg 1
\\
\\
P_{p_B - p_A}(x) = 
\int_{-\infty}^{\infty} dy P_{p_B}(y) P_{p_A}(y-x)
& \approx \mbox{Norm}\left(x; \mu_B - \mu_A, \sigma_A^2 + \sigma_B^2\right),
\quad
\mbox{Norm}(x ; \mu, \sigma^2) \equiv \frac{1}{\sqrt{2 \pi \sigma^2}} e^{-\tfrac{(x-\mu)^2}{2 \sigma^2} }
\end{split}
$$

In [None]:
def posterior_dist_binom(ns, ntotal, a_prior=1, b_prior=1):
    a = a_prior + ns
    b = b_prior + ntotal - ns 
    return stats.beta(a=a, b=b)

def prob_pb_gt_pa(post_dist_A, post_dist_B, post_samp=100_000):
    sa = post_dist_A.rvs(size=post_samp)
    sb = post_dist_B.rvs(size=post_samp)
    b_gt_a = np.sum(sb > sa)
    return b_gt_a / post_samp

def posterior_binom_approx_95pdi(post_dist):
    lower = post_dist.ppf(0.025)
    upper = post_dist.ppf(0.975)
    return lower, upper

pa = 0.1
pb = pa * 1.05

npoints = 1000
nstep = 150
sa = stats.binom.rvs(p=pa, n=npoints, size=nstep)
sb = stats.binom.rvs(p=pb, n=npoints, size=nstep)

df = pd.DataFrame()
df['npoints'] = [npoints] * nstep
df['sa_step'] = sa
df['sb_step'] = sb
df['N'] = df['npoints'].cumsum()
df['sa'] = df['sa_step'].cumsum()
df['sb'] = df['sb_step'].cumsum()
df['pa'] = df.apply(lambda r: posterior_dist_binom(r['sa'], r['N']).mean(), axis=1)
df[['pa_lower', 'pa_upper']] = df.apply(lambda r: posterior_binom_approx_95pdi(posterior_dist_binom(r['sa'], r['N'])), axis=1, result_type="expand")
df['pb'] = df.apply(lambda r: posterior_dist_binom(r['sb'], r['N']).mean(), axis=1)
df[['pb_lower', 'pb_upper']] = df.apply(lambda r: posterior_binom_approx_95pdi(posterior_dist_binom(r['sb'], r['N'])), axis=1, result_type="expand")
df['pb_gt_pa'] = df.apply(lambda r: prob_pb_gt_pa(posterior_dist_binom(r['sa'], r['N']), posterior_dist_binom(r['sb'], r['N']), post_samp=10_000), axis=1)
df['diff_mu'] = df.apply(lambda r: r['pb'] - r['pa'], axis=1)
df['diff_s'] = df.apply(lambda r: np.sqrt(posterior_dist_binom(r['sa'], r['N']).std()**2 + posterior_dist_binom(r['sb'], r['N']).std()**2), axis=1)
df[['diff_lower', 'diff_upper']] = df.apply(lambda r: (r['diff_mu'] - 2*r['diff_s'], r['diff_mu'] + 2*r['diff_s']), axis=1, result_type="expand")
#todo: loss

xaxis_min = -0.05
xaxis_max = 0.15  
#x = np.linspace(0, xaxis_max, 1000)
x = np.linspace(xaxis_min, xaxis_max, 1000)
fig = go.Figure()
for N, o in [(1000, 0.3), (10000, 1)]:
    dist_a = posterior_dist_binom(df[df['N'] == N]['sa'], N)
    dist_b = posterior_dist_binom(df[df['N'] == N]['sb'], N)
    fig.add_trace(go.Scatter(x=x, y=dist_a.pdf(x), line_color='red', opacity=o, name=f'А, N={N}'))
    fig.add_trace(go.Scatter(x=x, y=dist_b.pdf(x), line_color='blue', opacity=o, name=f'Б, N={N}'))
    #
    diff = stats.norm(loc=df[df['N'] == N]['diff_mu'], scale=df[df['N'] == N]['diff_s'])
    fig.add_trace(go.Scatter(x=x, y=diff.pdf(x), line_color='black', opacity=o, name=f'Diff, N={N}'))
    fig.update_layout(title='Апостериорные распределения',
                      xaxis_title='$p$',
                      yaxis_title='Плотность вероятности',
                      xaxis_range=[xaxis_min, xaxis_max],
                      hovermode="x",
                      height=500)
#     fig.update_layout(title='Апостериорные распределения',
#                       xaxis_title='$p$',
#                       yaxis_title='Плотность вероятности',
#                       xaxis_range=[0, xaxis_max],
#                       hovermode="x",
#                       height=500)
fig.show()


# xaxis_min = -0.05
# xaxis_max = 0.15    
# x = np.linspace(xaxis_min, xaxis_max, 1000)
# fig = go.Figure()
# for N in [1000, 10000]:
#     diff = stats.norm(loc=df[df['N'] == N]['diff_mu'], scale=df[df['N'] == N]['diff_s'])
#     fig.add_trace(go.Scatter(x=x, y=diff.pdf(x), line_color='black', name=f'Diff, N={N}'))
#     fig.update_layout(title='Апостериорные распределения',
#                       xaxis_title='$p$',
#                       yaxis_title='Плотность вероятности',
#                       xaxis_range=[xaxis_min, xaxis_max],
#                       hovermode="x",
#                       height=500)
# fig.show()


fig = go.Figure()
fig.add_trace(go.Scatter(x=df['N'], y=df['pa'], name='A',
                         line_color='red'))
fig.add_trace(go.Scatter(x=list(df['N']) + list(reversed(df['N'])), 
                         y=list(df['pa_upper']) + list(reversed(df['pa_lower'])),
                         fill="toself", name='A, 95% PDI', marker_color='red', opacity=0.2))
fig.add_trace(go.Scatter(x=df['N'], y=df['pb'], name='B',
                         line_color='blue'))
fig.add_trace(go.Scatter(x=list(df['N']) + list(reversed(df['N'])), 
                         y=list(df['pb_upper']) + list(reversed(df['pb_lower'])),
                         fill="toself", name='B, 95% PDI', marker_color='blue', opacity=0.2))
fig.add_trace(go.Scatter(x=df['N'], y=df['diff_mu'], name='Diff',
                         line_color='black'))
fig.add_trace(go.Scatter(x=list(df['N']) + list(reversed(df['N'])), 
                         y=list(df['diff_lower']) + list(reversed(df['diff_upper'])),
                         fill="toself", name='A, 95% PDI', marker_color='black', opacity=0.2))
fig.update_layout(title='$p_A, p_B$',
                  yaxis_tickformat = ',.1%',
                  xaxis_title='N',
                  height=700)
fig.show()


# fig = go.Figure()
# fig.add_trace(go.Scatter(x=df['N'], y=df['diff_mu'], name='$p_B - p_A$',
#                          line_color='black'))
# fig.add_trace(go.Scatter(x=list(df['N']) + list(reversed(df['N'])), 
#                          y=list(df['diff_lower']) + list(reversed(df['diff_upper'])),
#                          fill="toself", name='$p_B - p_A, \mbox{ 95% PDI}$', marker_color='black', opacity=0.2))
# fig.update_layout(title='$p_B - p_A$',
#                   yaxis_tickformat = ',.1%',
#                   xaxis_title='N')
# fig.show()


# fig = go.Figure()
# fig.add_trace(go.Scatter(x=df['N'], y=df['pb_gt_pa'], name='P(pb > pa)',
#                          line_color='black'))
# fig.update_layout(title='$P(p_B > p_A)$',
#                   yaxis_range=[0, 1],
#                   xaxis_title='N')
# fig.show()

In [None]:
N = 5000
approx_diff_dist = stats.norm(loc=df[df['N'] == N]['diff_mu'], scale=df[df['N'] == N]['diff_s'])

x = np.linspace(-0.3, 0.3, 1000)
fig = go.Figure()
fig.add_trace(go.Scatter(x=x, y=approx_diff_dist.pdf(x), 
                         line_color='black', name='$\mbox{Аналитическое приближение}$'))
# fig.add_trace(go.Scatter(x=[approx_diff_dist.mean()[0], approx_diff_dist.mean()[0]], 
#                          y=[0, max(approx_diff_dist.pdf(x))], 
#                          line_color='black', mode='lines', name='mean'))
fig.add_trace(go.Scatter(x=x[x<0], y=approx_diff_dist.pdf(x[x<0]), fill='tozeroy',
                         line_color='black', opacity=0.3, name='loss'))
# fig.add_trace(go.Scatter(x=x[x>=0], y=approx_diff_dist.pdf(x[x>=0]), 
#                          line_color='black', fillcolor='white', name='gain', fill='tozeroy'))
fig.add_trace(go.Scatter(x=[0, 0], y=[0, max(approx_diff_dist.pdf(x))*1.05], 
                         line_color='black', mode='lines', line_dash='dash', showlegend=False))
fig.update_layout(title='$p_B - p_A$',
                  xaxis_title='$x$',
                  yaxis_title='Плотность вероятности',
                  xaxis_range=[-0.1, 0.1],
                  hovermode="x",
                  height=500)
fig.show()

In [None]:
mu = pb - pa
s = np.sqrt((pb*(1-pb)/df['N']) + (pa*(1-pa)/df['N']))
pbgtpa = [1-stats.norm(loc=mu, scale=s).cdf(0) for s in s]

fig = go.Figure()
fig.add_trace(go.Scatter(x=df['N'], y=df['diff_s']*10,
                         line_color='red', name='s*10, simulated'))
fig.add_trace(go.Scatter(x=df['N'], y=s*10,
                         line_color='black', line_dash='dash', name='s*10, fixed mean'))
fig.add_trace(go.Scatter(x=df['N'], y=df['pb_gt_pa'],
                         line_color='red', name='pb_gt_pa, simulated'))
fig.add_trace(go.Scatter(x=df['N'], y=pbgtpa,
                         line_color='black', line_dash='dash', name='pb_gt_pa, fixed mean'))
#todo: loss
fig.update_layout(title='Стандартное отклонение pB - pA',
                  xaxis_title='$N$',
                  #yaxis_title='sigma',
                  #xaxis_range=[-0.1, 0.1],
                  hovermode="x",
                  height=500)  
fig.show()