<a href="https://colab.research.google.com/github/UzunDemir/10_Hybrid_Recommender_Systems/blob/main/ml_recys_ab_testing.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

Для проведения A/B-теста важно правильно структурировать подход. Вот основные шаги, которые помогут его провести:

1. Определение цели
Прежде чем начать, нужно четко понять, что вы хотите протестировать. Например:

Изменение на странице (дизайн, текст, расположение элементов).
Изменение функциональности (новая функция, улучшенная форма).
Целью может быть повышение конверсии, снижение отказов, увеличение времени на странице и т.д.

2. Формулировка гипотезы
Пример гипотезы: "Изменение кнопки призыва к действию с синей на зеленую увеличит количество кликов на 10%."

3. Выбор метрики
Необходимо выбрать одну или несколько метрик, которые будут измерять успешность эксперимента. Это могут быть:

Конверсии.
Среднее время на сайте.
CTR (click-through rate).
4. Разделение на группы
Традиционно существует две группы:

Группа A (контрольная): остается в текущем состоянии (например, синие кнопки).
Группа B (тестовая): получает новое состояние (например, зеленые кнопки).
Обе группы должны быть одинаковыми по численности, чтобы минимизировать искажения. Также важно, чтобы выбор участников был случайным.

5. Сбор данных
Тест нужно провести на достаточном объеме трафика и в течение достаточного времени, чтобы получить статистически значимые результаты. Обычно минимум — это 1–2 недели или определенное количество взаимодействий (например, 1000+ пользователей на каждую группу).

6. Анализ результатов
После завершения теста соберите и проанализируйте данные. Для анализа используется статистический тест (например, t-тест для сравнения средних значений), чтобы определить, есть ли значимые различия между группами.

In [3]:
import numpy as np

# Генерация случайных данных для двух групп
np.random.seed(42)  # Фиксация генератора случайных чисел для воспроизводимости

# Конверсии группы A (контрольная) и группы B (тестовая)
group_A = np.random.normal(loc=0.12, scale=0.02, size=10000)  # средняя конверсия 12%, стандартное отклонение 2%
group_B = np.random.normal(loc=0.14, scale=0.02, size=10000)  # средняя конверсия 14%, стандартное отклонение 2%

# Убедимся, что конверсии находятся в пределах от 0 до 1
group_A = np.clip(group_A, 0, 1)
group_B = np.clip(group_B, 0, 1)

# Выводим несколько значений для каждой группы
print("Конверсии A (первые 10 значений):", group_A[:10])
print("Конверсии B (первые 10 значений):", group_B[:10])


Конверсии A (первые 10 значений): [0.12993428 0.11723471 0.13295377 0.1504606  0.11531693 0.11531726
 0.15158426 0.13534869 0.11061051 0.1308512 ]
Конверсии B (первые 10 значений): [0.12643011 0.13389001 0.12805238 0.14220836 0.16394357 0.12457916
 0.16001641 0.12436656 0.12304746 0.15637189]


In [4]:
from scipy import stats


# t-тест для независимых выборок
t_stat, p_value = stats.ttest_ind(group_A, group_B)

print(f'T-статистика: {t_stat}, P-значение: {p_value}')


T-статистика: -71.65841242493272, P-значение: 0.0


**Конверсия** — это ключевая метрика, используемая в маркетинге, аналитике и бизнесе для оценки успешности выполнения пользователями целевого действия. Она показывает процент пользователей, которые выполнили желаемое действие из общего числа посетителей.

### Пример конверсии:

- Если на сайт зашло 1000 человек, и 50 из них совершили покупку, то конверсия равна 50 / 1000 = 5%.

### Как считать конверсию:

**Формула для расчета конверсии**:
\[
\text{Конверсия (\%)} = \left(\frac{\text{Количество пользователей, совершивших целевое действие}}{\text{Общее количество пользователей}}\right) \times 100
\]

### Основные виды конверсий:
1. **Конверсия в покупку**: Процент пользователей, совершивших покупку, от общего числа посетителей сайта.
2. **Конверсия в регистрацию**: Процент пользователей, зарегистрировавшихся на сайте.
3. **Конверсия в клик по рекламе**: Процент пользователей, кликнувших по рекламному баннеру или объявлению.
4. **Конверсия на подписку**: Процент пользователей, подписавшихся на рассылку.

### Пример расчета конверсии:

Допустим, у вас интернет-магазин, и на него за месяц зашло 5000 человек. Из них 250 человек совершили покупку.

- Общее количество посетителей: 5000
- Количество покупателей: 250

\[
\text{Конверсия (\%)} = \left(\frac{250}{5000}\right) \times 100 = 5\%
\]

### Как посчитать конверсию в Python:

```python
# Данные
total_visitors = 5000   # Общее количество посетителей
purchases = 250         # Количество совершенных покупок

# Рассчет конверсии
conversion_rate = (purchases / total_visitors) * 100

print(f'Конверсия: {conversion_rate:.2f}%')
```

### Интерпретация:
- Если конверсия **низкая**, возможно, нужно улучшить продукт, рекламу, интерфейс сайта или другие факторы.
- Если конверсия **высокая**, это свидетельствует о хорошем взаимодействии с пользователями и эффективной работе сайта или приложения.

### Применение конверсии в A/B тестах:
Конверсия — это часто используемая метрика для оценки эффективности изменений в A/B тестах. Вы можете сравнивать конверсии двух групп (контрольной и тестовой) для оценки эффекта изменений.


In [5]:
from statsmodels.stats.proportion import samplesize_proportions_2indep_onetail


In [8]:
# Пропорции конверсий в группах A и B
prop_A = 0.01  # Конверсия в контрольной группе
prop_B = 0.03  # Конверсия в тестовой группе

# Параметры теста
power = 0.8    # Мощность теста 80%
alpha = 0.05   # Уровень значимости 5%

# Расчет необходимого размера выборки
sample_size = samplesize_proportions_2indep_onetail(prop_A, prop_B, power=power, alpha=alpha)

print(f'Необходимый размер выборки для каждой группы: {sample_size:.0f}')

Необходимый размер выборки для каждой группы: 5301


In [9]:
samplesize_proportions_2indep_onetail(diff=0.01, prop2=0.03, power=0.8, alpha=0.05)

5300.739171069878

In [11]:
import numpy as np
from scipy.stats import bernoulli

# Задаем вероятность успеха (например, конверсия 12%)
p = 0.12

# 1. Вероятность конверсии
k_success = 1  # Успех (конверсия)
prob_success = bernoulli.pmf(k_success, p)
print(f'Вероятность конверсии: {prob_success:.4f}')

# 2. Кумулятивная вероятность (до 1 успеха)
k_failure = 0  # Неудача (без конверсии)
cum_prob_failure = bernoulli.cdf(k_failure, p)
print(f'Кумулятивная вероятность (неудача): {cum_prob_failure:.4f}')

# 3. Генерация случайных выборок
n = 1000  # Размер выборки
samples = bernoulli.rvs(p, size=n)

# Считаем конверсии
conversion_rate = np.mean(samples)
print(f'Сгенерированная конверсия: {conversion_rate:.4f}')


Вероятность конверсии: 0.1200
Кумулятивная вероятность (неудача): 0.8800
Сгенерированная конверсия: 0.1110


In [10]:
from scipy.stats import bernoulli

In [12]:
control_group = bernoulli.rvs(0.40, size=5300)
target_group = bernoulli.rvs(0.40, size=5400)

In [13]:
import numpy as np
from scipy.stats import bernoulli

# Генерация выборок
control_group = bernoulli.rvs(0.40, size=5300)  # Контрольная группа (5300 человек)
target_group = bernoulli.rvs(0.40, size=5400)   # Тестовая группа (5400 человек)

# Выводим статистику по группам
control_conversions = np.sum(control_group)  # Общее количество конверсий в контрольной группе
target_conversions = np.sum(target_group)    # Общее количество конверсий в тестовой группе

control_conversion_rate = control_conversions / len(control_group)  # Конверсия в контрольной группе
target_conversion_rate = target_conversions / len(target_group)     # Конверсия в тестовой группе

print(f'Контрольная группа: Конверсий = {control_conversions}, Конверсия = {control_conversion_rate:.2%}')
print(f'Тестовая группа: Конверсий = {target_conversions}, Конверсия = {target_conversion_rate:.2%}')


Контрольная группа: Конверсий = 2109, Конверсия = 39.79%
Тестовая группа: Конверсий = 2165, Конверсия = 40.09%


In [14]:
from statsmodels.stats.proportion import test_proportions_2indep


In [15]:
control_group = bernoulli.rvs(0.40, size=5300)
target_group = bernoulli.rvs(0.40, size=5400)

In [16]:
positive_cg = sum(control_group)

positive_tg = sum(target_group)

print('Доля успехов в контроле:', positive_cg/len(control_group))
print('Доля успехов в тесте:', positive_tg/len(target_group))

Доля успехов в контроле: 0.40452830188679245
Доля успехов в тесте: 0.4035185185185185


In [17]:
result = test_proportions_2indep(count1=positive_cg, nobs1=len(control_group), count2=positive_tg, nobs2=len(target_group))
result

<class 'statsmodels.stats.base.HolderTuple'>
statistic = 0.1064764522988396
pvalue = 0.9152043375308123
compare = 'diff'
method = 'agresti-caffo'
diff = 0.0010097833682739532
ratio = 1.0025024461627716
odds_ratio = 1.0042024602860233
variance = 8.99914223361457e-05
alternative = 'two-sided'
value = 0
tuple = (0.1064764522988396, 0.9152043375308123)

In [18]:
false_positive = 0
N = 1000
for i in range(N):
    control_group = bernoulli.rvs(0.40, size=5300)
    target_group = bernoulli.rvs(0.40, size=5400)

    positive_cg = sum(control_group)

    positive_tg = sum(target_group)

    result = test_proportions_2indep(count1=positive_cg, nobs1=len(control_group), count2=positive_tg, nobs2=len(target_group))

    if result.pvalue<0.05:
        false_positive+=1

false_positive/N

0.043

In [19]:
import pandas as pd

In [20]:
# Загрузка файла
url = 'https://github.com/UzunDemir/10_Hybrid_Recommender_Systems/raw/main/marketing_AB.csv'
data = pd.read_csv(url)

# Просмотр первых нескольких строк
data.head()


Unnamed: 0.1,Unnamed: 0,user id,test group,converted,total ads,most ads day,most ads hour
0,0,1069124,ad,False,130,Monday,20
1,1,1119715,ad,False,93,Tuesday,22
2,2,1144181,ad,False,21,Tuesday,18
3,3,1435133,ad,False,355,Tuesday,10
4,4,1015700,ad,False,276,Friday,14


In [21]:
#data = pd.read_csv('marketing_AB.csv')

In [22]:
data

Unnamed: 0.1,Unnamed: 0,user id,test group,converted,total ads,most ads day,most ads hour
0,0,1069124,ad,False,130,Monday,20
1,1,1119715,ad,False,93,Tuesday,22
2,2,1144181,ad,False,21,Tuesday,18
3,3,1435133,ad,False,355,Tuesday,10
4,4,1015700,ad,False,276,Friday,14
...,...,...,...,...,...,...,...
588096,588096,1278437,ad,False,1,Tuesday,23
588097,588097,1327975,ad,False,1,Tuesday,23
588098,588098,1038442,ad,False,3,Tuesday,23
588099,588099,1496395,ad,False,1,Tuesday,23


In [23]:
data[data['test group']=='ad']['user id'].nunique()

564577

In [25]:
control_group = data[data['test group']=='psa']
target_group = data[data['test group']=='ad']

positive_cg = sum(data[data['test group']=='psa'].converted)

positive_tg = sum(data[data['test group']=='ad'].converted)

print('Доля успехов в контроле:', positive_cg/len(control_group))
print('Доля успехов в тесте:', positive_tg/len(target_group))

Доля успехов в контроле: 0.01785410644448223
Доля успехов в тесте: 0.025546559636683747


In [24]:
result = test_proportions_2indep(count1=positive_cg, nobs1=len(control_group), count2=positive_tg, nobs2=len(target_group))
result

<class 'statsmodels.stats.base.HolderTuple'>
statistic = -0.8758853695063116
pvalue = 0.38109235392150087
compare = 'diff'
method = 'agresti-caffo'
diff = -0.00831586303284415
ratio = 0.9796806966618288
odds_ratio = 0.9660811629315567
variance = 9.005880774617538e-05
alternative = 'two-sided'
value = 0
tuple = (-0.8758853695063116, 0.38109235392150087)