In [49]:
# импорт необходимых библиотек
from statsmodels.stats.power import tt_ind_solve_power, zt_ind_solve_power
from statsmodels.stats.proportion import proportion_effectsize
from statsmodels.stats.meta_analysis import effectsize_smd
from typing import Union
from math import ceil

## Задача №1:
Продакт на главной mail.ru решил протестировать в рекомендательной ленте контента вместо карточек
со статьями видеоплеер с короткими видео. \
Нынешний таймспент на юзера в день в среднем равен 25 минут, а стандартная ошибка (SD) равна 156. \
Мы предполагаем, что в новой версии таймспент на юзера в день изменится на 10%. \
Средний трафик 20000 человек в день. \
Посчитайте сколько дней необходимо держать эксперимент при alpha = 5% и beta = 20% .

In [50]:
mean_control = 25
mean_test = 25 * 1.1
std_control, std_test = 156, 156 * 1.15 #### учитываем возможное увеличение SD 
n_control , n_test = 20_000, 20_000
alpha = 0.05
beta = 0.2


In [51]:
#Расчёт effect_size для непрерывных метрик встроенной функцией

es_normalized = effectsize_smd(mean_control, std_control, n_control, mean_test, std_test, n_test)[0]
es_normalized

-0.01487114483081235

In [52]:
# Функция для расчёта минимально необходимой выборки * 2(для теста и контроля) для непрерывной метрики
def calc_sample_size_continuous(effect_size: float,
                                alpha: float = .05,
                                beta: float = .2,
                                ratio: Union[float, int] = 1):
    
    n = tt_ind_solve_power(effect_size=effect_size,
                           alpha=alpha,
                           power=(1 - beta),
                           ratio=ratio,
                  )
    return int(n * 2)

In [53]:
# Расчёт минимально необходимой выборки * 2(для теста и контроля) для непрерывной метрики

sample_size = calc_sample_size_continuous(effect_size = es_normalized, alpha = alpha, beta = beta)
sample_size

141965

In [54]:
# Расчет количества дней эксперимента при среднем трафике 20000 человек в день

n_days = ceil(sample_size / 20_000) ### количество дней округляем до целого в большую сторону, чтобы размеры выборок гарантированно дали желаемый результат
n_days

8

In [55]:
f'Ответ: для получения статистически значимого результата нужно проводить эксперимент в течение {n_days} дней.'  

'Ответ: для получения статистически значимого результата нужно проводить эксперимент в течение 8 дней.'

## Задача №2:
Наша продуктовая команда в ecommerce магазине планирует запустить тест, направленный на ускорение загрузки сайта. \
Одна из основных метрик bounce rate в GA = 40%. \
Мы предполагаем, что при оптимизации сайта она изменится минимум на 20%. \
Средний трафик 4000 человек в день. \
Посчитайте сколько нам нужно дней держать эксперимент при alpha = 5% и beta = 20%.


In [56]:
br_control, br_test = 0.4, 0.4+0.2 
n_control, n_test = 4_000, 4_000
alpha = 0.05
beta = 0.2
prob_control, prob_test = br_control / n_control, br_test / n_test
print(br_control, br_test)
print(prob_control, prob_test)

0.4 0.6000000000000001
0.0001 0.00015000000000000001


In [57]:
# Расчёт effect_size для пропорций

es_prop = proportion_effectsize(prob_control, prob_test)
es_prop

-0.0044951764932720795

In [58]:
# Формула для расчёта минимально необходимой выборки * 2 (для теста и контроля) для пропорций
def calc_sample_size_proportion(effect_size: float,
                                alpha: float = .05,
                                beta: float = .2,
                                ratio: Union[float, int] = 1):
    
    n = zt_ind_solve_power(effect_size=effect_size,
                           alpha=alpha,
                           power=(1 - beta),
                           ratio=ratio,
                  )
    return int(n * 2)

In [59]:
# Расчёт минимально необходимой выборки * 2 (для теста и контроля) для пропорций

sample_size_prop = calc_sample_size_proportion(effect_size = es_prop, alpha = alpha, beta = beta)
sample_size_prop

1553721

In [60]:
# Расчет количества дней эксперимента при среднем трафике 4000 человек в день

n_days_prop = ceil(sample_size_prop / 4_000) ### количество дней округляем до целого в большую сторону, чтобы размеры выборок гарантированно дали желаемый результат
n_days_prop

389

In [67]:
print(f'Ответ: для получения статистически значимого результата нужно проводить эксперимент в течение {n_days_prop} дней. \n P.S. Срок больше года представляется очень большим. ))')

Ответ: для получения статистически значимого результата нужно проводить эксперимент в течение 389 дней. 
 P.S. Срок больше года представляется очень большим. ))
