# Сессионное задание

# Практическое задание 2.2. «Анализ взаимодействия факторов»

## Содержание задания

1. Проведите симуляцию MVT с факторами factor 3 и factor 4. Рекомендуется использовать линейную регрессию __*logit*__ из библиотеки __*statsmodels.formula.api*__

2. Определите p-value для взаимодействия факторов.

3. Оцените статистическую значимость взаимодействия факторов factor 3 и factor 4 (Как данные факторы взаимно влияют на конверсию).


## Факторы и уровни для тестирования:
1. **Главный заголовок (Heading)**
- Уровень 1: «Смартфон будущего уже здесь»
- Уровень 2: «Мощность и стиль в ваших руках»
- Уровень 3: «Выберите свой идеальный смартфон»
2. **Цвет кнопки CTA (Call-to-Action)**
- Уровень 1: Зеленый (#27ae60)
- Уровень 2: Оранжевый (#f39c12)
- Уровень 3: Синий (#3498db)
- Уровень 4: Красный (#e74c3c)
3. **Размещение отзывов (Reviews Placement)**
- Уровень 1: Отзывы под заголовком
- Уровень 2: Отзывы над кнопкой CTA
- Уровень 3: Отзывы в отдельном блоке после характеристик
4. **Форма гарантии (Guarantee Badge)**
- Уровень 1: «Гарантия 2 года»
- Уровень 2: «Вернем деньги за 30 дней»
- Уровень 3: «Рейтинг 4.9/5 на Яндекс.Маркете»
- Уровень 4: Без гарантийного бейджа


### Структура датасета:

**user_id** - уникальный идентификатор пользователя

**factor_1_Heading** - *Главный заголовок (Heading)* - 3 уровня ('Смартфон будущего уже здесь', 'Мощность и стиль в ваших руках', 'Выберите свой идеальный смартфон')

**factor_2_CTA** - *Цвет кнопки CTA (Call-to-Action)* -4 уровня ('Зеленый (#27ae60)', 'Оранжевый (#f39c12)', 'Синий (#3498db)', 'Красный (#e74c3c)')

**factor_3_Reviews_Placement** - *Размещение отзывов (Reviews Placement)* - 3 уровня ('Отзывы под заголовком', 'Отзывы над кнопкой CTA', 'Отзывы в отдельном блоке после характеристик')

**factor_4_Guarantee_Badge** - *Форма гарантии (Guarantee Badge)* - 4 уровня ('Гарантия 2 года', 'Вернем деньги за 30 дней', 'Рейтинг 4.9/5 на Яндекс.Маркете', 'Без гарантийного бейджа')

**conversion** - бинарная метрика конверсии (0/1)

**session_duration** - длительность сессии

**page_views** - количество просмотренных страниц



Проведите симуляцию MVT с факторами factor_3 и factor_4.

Определите p-value для взаимодействия факторов.

Ответ p-value (округлите до сотых).

Для анализа взаимодействия факторов factor_3 и factor_4 с помощью симуляции MVT (Multivariate Testing) и определения p-value для взаимодействия, мы можем использовать логистическую регрессию, добавив в нее член взаимодействия.

In [11]:
import pandas as pd
import statsmodels.formula.api as smf

# Загрузка датасета
df = pd.read_csv("mvt_experiment_dataset.csv")

# Логистическая регрессия с взаимодействием факторов factor_3 и factor_4
# Используем C(), так как факторы категориальные
model = smf.logit(
    formula="""
        conversion ~
        C(factor_3_Reviews_Placement) * C(factor_4_Guarantee_Badge)
    """,
    data=df
).fit(disp=False)

# Извлекаем p-value только для членов взаимодействия
interaction_pvalues = model.pvalues[
    model.pvalues.index.str.contains(":")
]

# Берем минимальный p-value взаимодействия
p_value_interaction = interaction_pvalues.min()

# Ответ -> p-value для взаимодействия факторов (округление до сотых)
round(p_value_interaction, 2)

np.float64(0.38)

# Практическое задание 2.3. «Оптимизация размера выборки»

## Содержание задания

Рассчитать минимальный размер выборки на группу для MVT-теста с 12 группами, чтобы детектировать эффект 5% с мощностью 80% и уровнем значимости 5%.

## Параметры расчета
- **Количество групп**: 12
- **Минимальный детектируемый эффект**: 5% (0.05)
- **Мощность теста**: 80% (β = 0.2)
- **Уровень значимости**: 5% (α = 0.05)
- **Тип теста**: Двусторонний

## Методология
Для решения задачи нам нужно рассчитать минимальный размер выборки на группу для MVT-теста с 12 группами, чтобы детектировать эффект 5% с мощностью 80% и уровнем значимости 5%.
Мы будем использовать формулу для расчета размера выборки в A/B-тестах (или MVT) для пропорций (конверсии). 
### Используемая формула
Для расчета размера выборки на группу используется стандартная формула для сравнения пропорций:


$n = \frac{(Z_{1-α/2} + Z_{1-β})² × (p₁(1-p₁) + p₂(1-p₂))}{(p₁ - p₂)²}$

где:
- $p₁$ - базовая конверсия (контроль)
- $p₂ = p₁ + эффект$ - конверсия с эффектом
- $Z_{1-\frac{α}{2}}$ - Z-score для уровня значимости
- $Z_{1-β}$ - Z-score для мощности

### Расчетные значения
- **$Z_{1-α/2}$** (α=0.05, двусторонний): 1.9695
- **$Z_{1-β}$** (β=0.20): 0.8416

## Результаты расчета

Из данных определяется базовая конверсия, затем рассчитывается необходимый размер выборки:

Базовая конверсия (p₁): 0.14

Целевая конверсия (p₂): 0.19

Расчетный размер выборки на группу: 862

In [12]:
import math
import pandas as pd
from scipy import stats

# --- 1. Загрузка данных ---
df = pd.read_csv("mvt_experiment_dataset.csv")

# --- 2. Проверка стратификации (12 групп = 3*4 комбинации factor_3 x factor_4) ---
# Создаем группу как комбинацию факторов factor_3 и factor_4
df["mvt_group_12"] = (
        df["factor_3_Reviews_Placement"].astype(str) + " | " + df["factor_4_Guarantee_Badge"].astype(str)
)

group_sizes = df["mvt_group_12"].value_counts().sort_index()

# Метрики равномерности распределения
min_size = int(group_sizes.min())
max_size = int(group_sizes.max())
ratio_max_min = max_size / min_size if min_size > 0 else float("inf")

print("Проверка стратификации (распределение по 12 группам):")
display(group_sizes.to_frame("n"))
print(f"min={min_size}, max={max_size}, max/min={ratio_max_min:.2f}")

# --- 3. Расчет минимального n на группу ---
# Параметры из условия
alpha = 0.05  # уровень значимости
power = 0.80  # мощность
beta = 1 - power
delta = 0.05  # MDE = 5% (абсолютный эффект)

# Базовая конверсия p1 -> берем из данных
p1 = float(df["conversion"].mean())
p2 = p1 + delta

# Z-квантили (двусторонний тест -> alpha/2)
z_alpha = stats.norm.ppf(1 - alpha / 2)
# То же самое, что stats.norm.ppf(power)
z_beta = stats.norm.ppf(1 - beta)

# Формула для сравнения двух долей
n_per_group = ((z_alpha + z_beta) ** 2 * (p1 * (1 - p1) + p2 * (1 - p2))) / ((p2 - p1) ** 2)

# Округление до большего целого
n_per_group_ceil = int(math.ceil(n_per_group))

# --- 4. Размер выборки на 12 групп ---
total_for_12_groups = n_per_group_ceil * 12

print("\nРасчет размера выборки:")
print(f"Базовая конверсия (p1): {p1:.2f}")
print(f"Целевая конверсия (p2): {p2:.2f}")
print(f"n на группу (неокругленное): {n_per_group:.2f}")
print(f"Минимальный размер на группу (округление вверх): {n_per_group_ceil}")
print(f"Итого для 12 групп: {total_for_12_groups}")

Проверка стратификации (распределение по 12 группам):


Unnamed: 0_level_0,n
mvt_group_12,Unnamed: 1_level_1
Отзывы в отдельном блоке после характеристик | Без гарантийного бейджа,74
Отзывы в отдельном блоке после характеристик | Вернем деньги за 30 дней,69
Отзывы в отдельном блоке после характеристик | Гарантия 2 года,85
Отзывы в отдельном блоке после характеристик | Рейтинг 4.9/5 на Яндекс.Маркете,79
Отзывы над кнопкой CTA | Без гарантийного бейджа,104
Отзывы над кнопкой CTA | Вернем деньги за 30 дней,93
Отзывы над кнопкой CTA | Гарантия 2 года,79
Отзывы над кнопкой CTA | Рейтинг 4.9/5 на Яндекс.Маркете,76
Отзывы под заголовком | Без гарантийного бейджа,86
Отзывы под заголовком | Вернем деньги за 30 дней,79


min=69, max=104, max/min=1.51

Расчет размера выборки:
Базовая конверсия (p1): 0.14
Целевая конверсия (p2): 0.19
n на группу (неокругленное): 861.18
Минимальный размер на группу (округление вверх): 862
Итого для 12 групп: 10344
