# Сессионное задание

# Практическое задание 2.2. «Анализ взаимодействия факторов»

## Содержание задания

1. Проведите симуляцию MVT с факторами factor 3 и factor 4. Рекомендуется использовать линейную регрессию __*logit*__ из библиотеки __*statsmodels.formula.api*__

2. Определите p-value для взаимодействия факторов.

3. Оцените статистическую значимость взаимодействия факторов factor 3 и factor 4 (Как данные факторы взаимно влияют на конверсию).


## Факторы и уровни для тестирования:
1. **Главный заголовок (Heading)**
- Уровень 1: «Смартфон будущего уже здесь»
- Уровень 2: «Мощность и стиль в ваших руках»
- Уровень 3: «Выберите свой идеальный смартфон»
2. **Цвет кнопки CTA (Call-to-Action)**
- Уровень 1: Зеленый (#27ae60)
- Уровень 2: Оранжевый (#f39c12)
- Уровень 3: Синий (#3498db)
- Уровень 4: Красный (#e74c3c)
3. **Размещение отзывов (Reviews Placement)**
- Уровень 1: Отзывы под заголовком
- Уровень 2: Отзывы над кнопкой CTA
- Уровень 3: Отзывы в отдельном блоке после характеристик
4. **Форма гарантии (Guarantee Badge)**
- Уровень 1: «Гарантия 2 года»
- Уровень 2: «Вернем деньги за 30 дней»
- Уровень 3: «Рейтинг 4.9/5 на Яндекс.Маркете»
- Уровень 4: Без гарантийного бейджа


### Структура датасета:

**user_id** - уникальный идентификатор пользователя

**factor_1_Heading** - *Главный заголовок (Heading)* - 3 уровня ('Смартфон будущего уже здесь', 'Мощность и стиль в ваших руках', 'Выберите свой идеальный смартфон')

**factor_2_CTA** - *Цвет кнопки CTA (Call-to-Action)* -4 уровня ('Зеленый (#27ae60)', 'Оранжевый (#f39c12)', 'Синий (#3498db)', 'Красный (#e74c3c)')

**factor_3_Reviews_Placement** - *Размещение отзывов (Reviews Placement)* - 3 уровня ('Отзывы под заголовком', 'Отзывы над кнопкой CTA', 'Отзывы в отдельном блоке после характеристик')

**factor_4_Guarantee_Badge** - *Форма гарантии (Guarantee Badge)* - 4 уровня ('Гарантия 2 года', 'Вернем деньги за 30 дней', 'Рейтинг 4.9/5 на Яндекс.Маркете', 'Без гарантийного бейджа')

**conversion** - бинарная метрика конверсии (0/1)

**session_duration** - длительность сессии

**page_views** - количество просмотренных страниц



Проведите симуляцию MVT с факторами factor_3 и factor_4.

Определите p-value для взаимодействия факторов.

Ответ p-value (округлите до сотых).

Для анализа взаимодействия факторов factor_3 и factor_4 с помощью симуляции MVT (Multivariate Testing) и определения p-value для взаимодействия, мы можем использовать логистическую регрессию, добавив в неё член взаимодействия.

In [None]:
import pandas as pd
import statsmodels.formula.api as smf

# Загрузка данных
df = pd.read_csv('mvt_experiment_dataset.csv')

# Логистическая регрессия с взаимодействием факторов
model = smf.logit('conversion ~ factor_3_Reviews_Placement * factor_4_Guarantee_Badge', data=df).fit(disp=False)

# Поиск p-value для членов взаимодействия
interaction_terms = [term for term in model.pvalues.index if ':' in term or '*' in term]

# Ваш код:
interaction_pvalues = model.pvalues[interaction_terms]

# Минимальное p-value взаимодействия
min_pvalue = interaction_pvalues.min()

# Округление до сотых
rounded_pvalue = round(min_pvalue, 2)

print('p-values для interaction terms:')
print(interaction_pvalues)

print('\nМинимальное p-value (interaction):', rounded_pvalue)

p-values для interaction terms:
factor_3_Reviews_Placement[T.Отзывы над кнопкой CTA]:factor_4_Guarantee_Badge[T.Вернем деньги за 30 дней]           0.729779
factor_3_Reviews_Placement[T.Отзывы под заголовком]:factor_4_Guarantee_Badge[T.Вернем деньги за 30 дней]            0.967479
factor_3_Reviews_Placement[T.Отзывы над кнопкой CTA]:factor_4_Guarantee_Badge[T.Гарантия 2 года]                    0.896685
factor_3_Reviews_Placement[T.Отзывы под заголовком]:factor_4_Guarantee_Badge[T.Гарантия 2 года]                     0.563119
factor_3_Reviews_Placement[T.Отзывы над кнопкой CTA]:factor_4_Guarantee_Badge[T.Рейтинг 4.9/5 на Яндекс.Маркете]    0.636377
factor_3_Reviews_Placement[T.Отзывы под заголовком]:factor_4_Guarantee_Badge[T.Рейтинг 4.9/5 на Яндекс.Маркете]     0.379787
dtype: float64

Минимальное p-value (interaction): 0.38


# Практическое задание 2.3. «Оптимизация размера выборки»

## Содержание задания

Рассчитать минимальный размер выборки на группу для MVT-теста с 12 группами, чтобы детектировать эффект 5% с мощностью 80% и уровнем значимости 5%.

## Параметры расчета
- **Количество групп**: 12
- **Минимальный детектируемый эффект**: 5% (0.05)
- **Мощность теста**: 80% (β = 0.2)
- **Уровень значимости**: 5% (α = 0.05)
- **Тип теста**: Двусторонний

## Методология
Для решения задачи нам нужно рассчитать минимальный размер выборки на группу для MVT-теста с 12 группами, чтобы детектировать эффект 5% с мощностью 80% и уровнем значимости 5%.
Мы будем использовать формулу для расчета размера выборки в A/B-тестах (или MVT) для пропорций (конверсии).
### Используемая формула
Для расчета размера выборки на группу используется стандартная формула для сравнения пропорций:


$n = \frac{(Z_{1-α/2} + Z_{1-β})² × (p₁(1-p₁) + p₂(1-p₂))}{(p₁ - p₂)²}$

где:
- $p₁$ - базовая конверсия (контроль)
- $p₂ = p₁ + эффект$ - конверсия с эффектом
- $Z_{1-\frac{α}{2}}$ - Z-score для уровня значимости
- $Z_{1-β}$ - Z-score для мощности

### Расчетные значения
- **$Z_{1-α/2}$** (α=0.05, двусторонний): 1.9695
- **$Z_{1-β}$** (β=0.20): 0.8416

## Результаты расчета

Из данных определяется базовая конверсия, затем рассчитывается необходимый размер выборки:

Базовая конверсия (p₁): 0.14

Целевая конверсия (p₂): 0.19

Расчетный размер выборки на группу: 862

In [10]:
import pandas as pd
import numpy as np
from scipy import stats

# Загрузка данных
df = pd.read_csv('mvt_experiment_dataset.csv')


# Ваш код:
# Исходные параметры (из условия)
alpha = 0.05                 # уровень значимости
beta = 0.20                  # вероятность ошибки II рода
power = 1 - beta             # мощность теста

p1 = 0.14                    # базовая конверсия
effect = 0.05                # минимальный детектируемый эффект
p2 = p1 + effect             # целевая конверсия


# Расчётные значения (Z-scores)
z_alpha = stats.norm.ppf(1 - alpha / 2)
z_beta = stats.norm.ppf(power)

# Расчёт размера выборки
n_per_group = ((z_alpha + z_beta) ** 2 * (p1 * (1 - p1) + p2 * (1 - p2)) / (p2 - p1) ** 2)

n_per_group_ceil = int(np.ceil(n_per_group))


# Вывод расчётных значений
print('РАСЧЁТНЫЕ ЗНАЧЕНИЯ:')
print(f'Z_(1-α/2) = {z_alpha:.4f}')
print(f'Z_(1-β)   = {z_beta:.4f}')
print(f'p1        = {p1}')
print(f'p2        = {p2}')

print('\nРЕЗУЛЬТАТ РАСЧЁТА:')
print(f'Минимальный размер выборки на группу = {n_per_group_ceil}')
print(f'Минимальный размер выборки c 12 группу = {n_per_group_ceil * 12}')

РАСЧЁТНЫЕ ЗНАЧЕНИЯ:
Z_(1-α/2) = 1.9600
Z_(1-β)   = 0.8416
p1        = 0.14
p2        = 0.19

РЕЗУЛЬТАТ РАСЧЁТА:
Минимальный размер выборки на группу = 862
Минимальный размер выборки c 12 группу = 10344


# Практическое задание 2.4. «Интерпретация результатов MVT» 
Содержание задания 
Даны результаты MVT: 
- **Фактор А:** p-value = 0,01 
- **Фактор Б:** p-value = 0,45 
- **Взаимодействие А×Б:** p-value = 0,07 
- **Фактор В:** p-value = 0,04  
  

`Какие факторы статистически значимы на уровне 5%?`

In [11]:
# Уровень значимости
alpha = 0.05

# p-values факторов MVT
p_values = {
    'Фактор A': 0.01,
    'Фактор Б': 0.45,
    'Взаимодействие A×Б': 0.07,
    'Фактор В': 0.04
}

# Определение статистической значимости
significant_factors = {
    factor: p < alpha
    for factor, p in p_values.items()
}

# Вывод результатов
print(f'Уровень значимости (alpha): {alpha}\n')

for factor, is_significant in significant_factors.items():
    status = 'СТАТИСТИЧЕСКИ ЗНАЧИМ' if is_significant else 'НЕ значим'
    print(f'{factor}: p-value = {p_values[factor]} → {status}')

# Итоговый вывод
significant_only = [
    factor for factor, is_significant in significant_factors.items()
    if is_significant
]

print('\nИтог:')
print('Статистически значимые факторы:', ', '.join(significant_only))

Уровень значимости (alpha): 0.05

Фактор A: p-value = 0.01 → СТАТИСТИЧЕСКИ ЗНАЧИМ
Фактор Б: p-value = 0.45 → НЕ значим
Взаимодействие A×Б: p-value = 0.07 → НЕ значим
Фактор В: p-value = 0.04 → СТАТИСТИЧЕСКИ ЗНАЧИМ

Итог:
Статистически значимые факторы: Фактор A, Фактор В


# Практическое задание 2.5. «Расчет длительности теста»
Содержание задания
- **Ежедневный трафик:** 5000 пользователей
- **Количество групп в MVT:** 16
- **Минимальный размер группы:** 1000 пользователей
Рассчитайте и запишите минимальную длительность теста в днях.

In [13]:
import math

# Входные данные
daily_traffic = 5000        # пользователей в день
num_groups = 16             # количество групп в MVT
min_group_size = 1000       # минимальный размер группы

# Расчёт трафика на одну группу в день
traffic_per_group_per_day = daily_traffic / num_groups

# Расчёт длительности теста (в днях)
test_duration_days = math.ceil(min_group_size / traffic_per_group_per_day)

# Вывод результатов
print(f"Трафик на одну группу в день: {traffic_per_group_per_day:.2f}")
print(f"Минимальная длительность теста: {test_duration_days} дней")

Трафик на одну группу в день: 312.50
Минимальная длительность теста: 4 дней
