Полный гайд по классическим АБ-тестам:

https://vkteam.medium.com/practitioners-guide-to-statistical-tests-ed2d580ef04f


# Доверительные интервалы

Для всех метрик схема построения доверительных интервалов одинакова:

1. Вычисляем метрику (например, конверсия, ARPU, число целевых событий)
2. В зависимости от метрики вычисляем стандартную ошибку (SE)
3. В зависимости от числа потенциальных вариантов сравнения выбираем квантиль распределения статистики теста


## Конверсия

p $\pm$ $z_{\alpha} * \sqrt{\frac {p * (1 - p)}{n} }$

Здесь p - вероятность конверсии

$\sqrt{\frac {p * (1 - p)}{n} }$ - SE - стандартная ошибка в тесте

$z_{\alpha}$ - квантиль стандартного нормального распределения. Например, для уровня доверия 95% мы ищем
97.5% квантиль и он равен 1.96.

Однако, в случае множественного тестирования (несколько вариантов сразу) мы должны изменять квантиль
(как именно - в конце, так как для всех тестов одинаково).

## Разница конверсий

diff_p $\pm$ $z_{\alpha} * \sqrt{\frac {p_1 * (1 - p_1)}{n_1} + \frac{p_2 * (1-p_2)}{n_2} }$


## ARPU, ARPPU

***Наблюдения независимы (юзеры из разных выборок не повторяются и не влияют на поведение друг друга)***

***в предположении, что у нас много юзеров и мы пользуемся ЦПТ,
которая нам говорит о нормальности средних***



### Предпосылки:

#### ДИСПЕРСИИ ОДИНАКОВЫ

Для **одного среднего**:

arpu $\pm t_{\alpha} * SE$

$SE = \sqrt{\sigma^2 / n}$

Для **разницы средних**:
SE= $\sqrt{ \frac{\sigma_1^2} {n_1} + \frac{\sigma_2 ^ 2}{n_2} }$

In [25]:
import statsmodels.stats.api as sms
import numpy as np
means1 = np.random.normal(loc=1, scale=2, size=50000)
means2 = np.random.normal(loc=1.05, scale=2, size=50000)
cm = sms.CompareMeans(sms.DescrStatsW(means1), sms.DescrStatsW(means2))
print(f"Доверительный интервал для разницы: {cm.tconfint_diff(usevar='unequal')}")

ci1 = (means1.mean() - 1.96 * means1.std() / np.sqrt(means1.shape[0]),
       means1.mean() + 1.96 * means1.std() / np.sqrt(means1.shape[0]))
ci2 = (means2.mean() - 1.96 * means2.std() / np.sqrt(means2.shape[0]),
       means2.mean() + 1.96 * means2.std() / np.sqrt(means2.shape[0]))
print(f"Средние: {means1.mean()}, {means2.mean()}")
print("Доверительные интервалы для средних отдельно: \n")
print(ci1)
print(ci2)

Доверительный интервал для разницы: (-0.06804949366844634, -0.01850319716212525)
Средние: 1.0031390806327471, 1.0464154260480334
Доверительные интервалы для средних отдельно: 

(0.9855693267016744, 1.0207088345638198)
(1.028950946552896, 1.0638799055431707)


In [None]:
for lower,upper,y in zip(dataset['lower'],dataset['upper'],range(len(dataset))):
    plt.plot((lower,upper),(y,y),'ro-',color='orange')
plt.yticks(range(len(dataset)),list(dataset['category']))

(-0.7795142883045612, -0.28043587826772204)
