# A/B тестирование онлайн-сервиса "NewDesk" 

## Общие данные:
- DAU (Daily Active Users): 80,000 пользователей.
- Доля новых пользователей: 34.5%.
- Ежедневное количество новых пользователей: 80,000 × 0.345 = 27,600.
- Текущая конверсия в регистрацию (baseline_conversion): 17.2% (или 0.172).
- Уровень значимости (α): 5% (или 0.05).
- Мощность (power): 80% (или 0.8).
- Недельная сезонность: тесты должны длиться минимум 1 неделю.

## Первый тест: Скрытие контактов продавца

### Гипотеза:
- H₀: Изменение не влияет на конверсию в регистрацию (p₁ = p₂).
- H₁: Изменение увеличивает конверсию в регистрацию (p₂ > p₁).

### Сегмент пользователей:
Тест проводится только среди новых пользователей.

### Метрики:
- Основная метрика: конверсия в регистрацию.
- Второстепенные метрики:
  - Количество кликов на кнопку «Показать контакты продавца».
  - Количество звонков.
  - Количество завершенных сделок.

### Расчет размера выборки:
Используем библиотеку `statsmodels` для расчета размера выборки. Параметры:
- baseline_conversion = 0.172 (текущая конверсия).
- effect_size = 0.015 (ожидаемое улучшение).
- α = 0.05 (уровень значимости).
- power = 0.8 (мощность теста).

In [6]:
from statsmodels.stats.power import zt_ind_solve_power
from statsmodels.stats.proportion import proportion_effectsize

# Параметры
baseline_conversion = 0.172  # Текущая конверсия (17.2%)
effect_size = 0.015  # Ожидаемое улучшение (1.5%)
alpha = 0.05  # Уровень значимости (5%)
power = 0.80  # Мощность теста (80%)

# Расчет эффекта
effect = proportion_effectsize(baseline_conversion, baseline_conversion + effect_size)

# Расчет размера выборки для каждой группы
sample_size = zt_ind_solve_power(
    effect_size=effect, 
    alpha=alpha, 
    power=power, 
    alternative='two-sided'
)

print(f"Необходимый размер выборки для каждой группы: {round(sample_size)}")

Необходимый размер выборки для каждой группы: 10271


## Результат

### Необходимый размер выборки для каждой группы:
***10,271***

### Длительность теста:
Ежедневное количество новых пользователей: 27,600. Если выделить 33% аудитории для теста:

- **Количество пользователей в день для теста:** 27,600 × 0.33 ≈ 9,108.
- Разделим выборку на две группы (контрольную и тестовую):

$$
\text{Длительность теста} = \frac{10,271 \times 2}{9,108 } ≈ 2.2 \text{ дня}.

$$

## Второй тест: Изменение дизайна баннера

### Гипотеза:
- $\mathrm{H}_0$: Изменение не влияет на конверсию в регистрацию ($p_1 = p_2$).
- $\mathrm{H}_1$: Изменение увеличивает конверсию в регистрацию ($p_2 > p_1$).

### Сегмент пользователей:
Тест проводится только среди новых пользователей.

### Метрики:
- **Основная метрика**: Конверсия в регистрацию.
- **Второстепенные метрики**:
  - Количество кликов на баннер.
  - Количество завершенных сделок.

### Расчет размера выборки:
Используем те же параметры, что и в первом тесте:
- `baseline_conversion = 0.172`.
- `effect_size = 0.015`.

In [8]:
# Параметры
baseline_conversion = 0.172  # Текущая конверсия (17.2%)
effect_size = 0.015  # Ожидаемое улучшение (1.5%)
alpha = 0.05  # Уровень значимости (5%)
power = 0.80  # Мощность теста (80%)

# Расчет эффекта
effect = proportion_effectsize(baseline_conversion, baseline_conversion + effect_size)

# Расчет размера выборки для каждой группы
sample_size = zt_ind_solve_power(
    effect_size=effect, 
    alpha=alpha, 
    power=power, 
    alternative='two-sided'
)

print(f"Необходимый размер выборки для каждой группы: {round(sample_size)}")

Необходимый размер выборки для каждой группы: 10271


## Результат

### Необходимый размер выборки для каждой группы:
***10,271***

### Длительность теста:
Ежедневное количество новых пользователей: 27,600. Если выделить 33% аудитории для теста:

- **Количество пользователей в день для теста:** 27,600 × 0.33 ≈ 9,108.
- Разделим выборку на две группы (контрольную и тестовую):

$$
\text{Длительность теста} = \frac{10,271 \times 2}{9,108} ≈ 2.2 \text{ дня}.

$$

## Третий тест: Сокращение формы регистрации

### Гипотеза:
- $\mathrm{H}_0$: Изменение не влияет на конверсию в регистрацию ($p_1 = p_2$).
- $\mathrm{H}_1$: Изменение увеличивает конверсию в регистрацию ($p_2 > p_1$).

### Сегмент пользователей:
Тест проводится только среди новых пользователей.

### Метрики:
- **Основная метрика**: Конверсия в регистрацию.
- **Второстепенные метрики**:
  - Доля пользователей, которые начали регистрацию.
  - Количество завершенных сделок.

### Расчет размера выборки:
Используем следующие параметры:
- `baseline_conversion = 0.172`
- `effect_size = 0.025` (ожидаемое улучшение)

Для расчета необходимого размера выборки используем библиотеку `statsmodels`:

In [9]:
# Параметры
baseline_conversion = 0.172  # Текущая конверсия (17.2%)
effect_size = 0.025  # Ожидаемое улучшение (2.5%)
alpha = 0.05  # Уровень значимости (5%)
power = 0.80  # Мощность теста (80%)

# Расчет эффекта
effect = proportion_effectsize(baseline_conversion, baseline_conversion + effect_size)

# Расчет размера выборки для каждой группы
sample_size = zt_ind_solve_power(
    effect_size=effect, 
    alpha=alpha, 
    power=power, 
    alternative='two-sided'
)

print(f"Необходимый размер выборки для каждой группы: {round(sample_size)}")

Необходимый размер выборки для каждой группы: 3775


## Результат

### Необходимый размер выборки для каждой группы:
***3775***

### Длительность теста:
Ежедневное количество новых пользователей: 27,600. Если выделить 33% аудитории для теста:

- **Количество пользователей в день для теста:** 27,600 × 0.33 ≈ 9,108.
- Разделим выборку на две группы (контрольную и тестовую):

$$
\text{Длительность теста} = \frac{3,775 \times 2}{9,108} ≈ 0.83 \text{ дня}.

$$

## Итоговые рекомендации:

- **Первый тест:** Размер выборки ≈ 10,271, длительность ≈ 2.2 дня.
- **Второй тест:** Размер выборки ≈ 10,271, длительность ≈ 2.2 дня.
- **Третий тест:** Размер выборки ≈ 3,775, длительность ≈ 0.83 дня.

## Заключение:
**Обратить внимание**: длительность всех тестов меньше недели. При таком кратковременном проведении эксперимента мы не учтем сезонность внутри недели. Раз есть сезонность, эксперименты стоит проводить минимум на протяжении недели.

При более длительном проведении эксперимента в выборки попадет больше пользователей. Это может привести к тому, что мы тестируем фичу, ухудшающую показатели, на большем количестве пользователей, чем планировалось.

Значит, следует выделить под А/Б-тесты не 33% аудитории, а меньше, чтобы тест проводился как минимум неделю. Чтобы длительность теста была 7 дней:

- Для первого и второго тестов нужно выделить 10.63% пользователей, что составляет 27,600 × 0.1038 ≈ 2,934 человек в день.
- Для третьего теста нужно выделить 3.91% пользователей, что составляет 27,600 × 0.0376 ≈ 1,079 человек в день.

**Вывод:**  
Для всех тестов рекомендуется длительность 1 неделя с учетом сезонности.