# Домашнее задание к семинару №6
---
## Задача №1:
Продакт на главной mail.ru решил протестировать в рекомендательной ленте контента вместо карточек со статьями видеоплеер с короткими видео. Нынешний таймспент на юзера в день в среднем равен 25 минут, а стандартная ошибка (SD) равна 156. Мы предполагаем, что в новой версии таймспент на юзера в день изменится на 10%. Средний трафик  20000 человек в день. Посчитайте сколько дней необходимо держать эксперимент при alpha = 5% и beta = 20% .

### Решение:

#### Подготовка данных

- Изначальный таймспент (mean) = 25 минут
- Стандартная ошибка (SD) = 156
- Предполагаемое изменение = 10% = 2.5 минут
- Средний трафик = 20000 человек в день
- Уровень доверия (alpha) = 5% = 0.05
- Уровень мощности (beta) = 20% = 0.2 (мощность теста 1 - beta = 0.8)


In [10]:
from math import ceil
from scipy.stats import norm

# Изначальные данные
mean = 25
std_dev = 156
delta = mean * 0.1
daily_traffic = 20000
alpha = 0.05
beta = 0.2

# Расчет Z-значений
z_alpha = norm.ppf(1 - alpha / 2)
z_beta = norm.ppf(1 - beta)

# Расчет минимального размера выборки на одну группу
n_per_group = ((z_alpha + z_beta) * std_dev / delta) ** 2

# Расчет количества дней для эксперимента
days_needed = ceil(n_per_group / daily_traffic)

days_needed


2

Ответ: 2 дня

#### Альтернативные варианты расчета: T-тест|/Манна-Уитни

In [11]:
from scipy import stats
import math
import numpy as np

# Исходные данные
mean_control = 25  # среднее значение в контрольной группе
std_dev = 156  # стандартное отклонение в контрольной группе
mean_experiment = mean_control + 2.5  # среднее значение в экспериментальной группе
daily_traffic = 20000  # ежедневный трафик
alpha = 0.05  # уровень значимости
beta = 0.2  # вероятность ошибки второго рода

# T-тест
t_score = stats.t.ppf(1 - alpha / 2, df=2*daily_traffic - 2)
required_sample_ttest = (2 * (std_dev ** 2) * (t_score ** 2)) / ((mean_experiment - mean_control) ** 2)
days_ttest = required_sample_ttest / (2 * daily_traffic)

# Непараметрические тесты (Манна-Уитни)
# В этом случае мы можем использовать Z-статистику для оценки, так как размер выборки велик.
z_score = stats.norm.ppf(1 - alpha / 2)
required_sample_mannwhitney = (2 * (std_dev ** 2) * (z_score ** 2)) / ((mean_experiment - mean_control) ** 2)
days_mannwhitney = required_sample_mannwhitney / (2 * daily_traffic)

print(f"Необходимое количество дней для T-теста: {math.ceil(days_ttest)}")
print(f"Необходимое количество дней для теста Манна-Уитни: {math.ceil(days_mannwhitney)}")


Необходимое количество дней для T-теста: 1
Необходимое количество дней для теста Манна-Уитни: 1


### Задача №2:
Наша продуктовая команда в ecommerce магазине планирует запустить тест, направленный на ускорение загрузки сайта. Одна из основных метрик bounce rate в GA = 40%. Мы предполагаем, что при оптимизации сайта она изменится минимум на 20%.Средний трафик  4000 человек в день. Посчитайте сколько нам нужно дней держать эксперимент при alpha = 5% и beta = 20%


### Решение:

Для решения этой задачи мы можем использовать Z-тест для пропорций. Поскольку у нас есть предположения относительно изменений и известны текущие показатели, мы можем вычислить необходимый размер выборки, а затем определить количество дней для проведения эксперимента.

#### Исходные данные
- Текущий bounce rate: \( p1 = 0.4 \)
- Ожидаемый bounce rate: \( p2 = 0.4 \times (1 - 0.2) = 0.32 \)
- Уровень значимости (\( alpha \)): 0.05
- Уровень мощности (\( beta \)): 0.2 (или мощность \( 1 - beta = 0.8 \))
- Средний трафик: 4000 человек в день


In [23]:
from scipy.stats import norm
import math

# Исходные параметры
p1 = 0.4  # Текущий bounce rate
p2 = 0.4 * 0.8  # Ожидаемый bounce rate после уменьшения на 20%
alpha = 0.05  # Уровень значимости
beta = 0.2  # Уровень мощности
daily_traffic = 4000  # Средний дневной трафик

# Z-значения для уровней значимости и мощности
z_alpha = norm.ppf(1 - alpha / 2)
z_beta = norm.ppf(1 - beta)

# Расчет размера выборки для каждой группы
n = ((z_alpha * math.sqrt(p1 * (1 - p1) + p2 * (1 - p2)) + z_beta * math.sqrt(p1 * (1 - p1) + p2 * (1 - p2))) ** 2) / (p1 - p2) ** 2
n = math.ceil(n)

# Количество дней для эксперимента, учитывая что ежедневный трафик делится на две группы
days_required = math.ceil(n / (daily_traffic / 2))

print(f"Размер выборки для каждой группы: {n}")
print(f"Необходимое количество дней для эксперимента: {days_required}")


Размер выборки для каждой группы: 562
Необходимое количество дней для эксперимента: 1
