In [None]:
import pandas as pd
import seaborn as sns
from scipy import stats
from datetime import datetime
import random
from math import floor

In [None]:
sns.set(rc={'figure.figsize':(11.7,8.27)})

In [None]:
good = pd.read_csv('good.csv')
purchase_good = pd.read_csv('purchase_good.csv')
user_purchase = pd.read_csv('user_purchase.csv')
user_ab_group = pd.read_csv('user_ab_group.csv')

<font size='5'>Прежде чем приступим к Анализу данных, необходимо убедиться в том, что A/B тест смоделирован правильно. (Проверка на наличие ошибки Sample Ratio Mismatch)<font>

In [None]:
our_diff = sum(user_ab_group['group']=='treatment')-sum(user_ab_group['group']=='control')

In [None]:
our_diff

In [None]:
diffs = []
for _ in range(1_000):
    arr = [random.randint(0,1) for i in range(len(user_ab_group))]
    diff = sum(arr) - (len(arr)-sum(arr))
    diffs.append(diff)
diffs_s = pd.Series(diffs)

In [None]:
ax = sns.histplot(diffs)

alpha = 0.05
half_alpha = floor(len(diffs_s) * alpha / 2)
diffs_cut = sorted(diffs_s)[half_alpha:-half_alpha]
ax.vlines([our_diff], 0, 150, linestyles='dashed', color='orange')
ax.vlines([diffs_cut[0], diffs_cut[-1]], 0, 150, linestyles='dashed', color='red')

<font size='3'>Ошибки SRM с большой вероятностью нет. Значит можем приступить к самому анализу данных.<font>

<font size="6">Предобработка данных</font>

In [None]:
user_purchase['date_time'] = pd.to_datetime(user_purchase['date_time'])
user_purchase = user_purchase[ user_purchase['date_time'].between('2023-10-01','2023-10-15') ]
user_purchase = user_purchase.rename(columns={'id':'purchase_id'})
user_ab_group = pd.merge(user_ab_group,user_purchase, on='user_id', how='left')

user_ab_group = pd.merge(user_ab_group,purchase_good, on='purchase_id',how='left')

good = good.rename(columns={'id':'good_id'})
user_ab_group = pd.merge(user_ab_group,good, on='good_id',how='left')

user_ab_group.drop(columns=['good_name','date_time'],inplace=True)

control_group = user_ab_group[user_ab_group['group'] == 'control'].copy()
control_group.drop(columns=['group'],inplace=True)
control_group = control_group.fillna(0)
experimental_group = user_ab_group[user_ab_group['group'] == 'treatment'].copy()
experimental_group.drop(columns=['group'],inplace=True)
experimental_group = experimental_group.fillna(0)

In [None]:
control_group['cost'] = control_group['amount']*control_group['price_per_unit']
experimental_group['cost'] = experimental_group['amount']*experimental_group['price_per_unit']

In [None]:
control_group.sort_values(by='cost')

In [None]:
experimental_group.sort_values(by='cost')

<font size="6">Данные предобработаны, теперь приступаем к вычислению метрик.</font>

<font size='4'>Рассчитаем ключевую метрику - средняя выручка с пользователя (ARPU) для всех его покупок<font>

In [None]:
ARPU_all_control_group = control_group.groupby('user_id').agg({'cost':'sum'})['cost']
ARPU_all_experimental_group = experimental_group.groupby('user_id').agg({'cost':'sum'})['cost']

In [None]:
ARPU_all_control_group.mean()

In [None]:
ARPU_all_experimental_group.mean()

In [None]:
t_stat1, p_value1 = stats.ttest_ind(ARPU_all_control_group,ARPU_all_experimental_group, equal_var=False)

In [None]:
t_stat1

In [None]:
p_value1

<font size='4'>Отвергаем нулевую гипотезу. Рост ARPU статистически значим.<font>

<font size='3'>Ниже графики распределения суммы чеков для обеих групп. Можно заметить, что в экспериментальной группе оно сместилось вправо.<font>

In [None]:
sns.histplot(control_group.groupby('user_id').agg({'cost':'sum'}).reset_index(),x='cost',binwidth=2000,color='royalblue')
sns.histplot(experimental_group.groupby('user_id').agg({'cost':'sum'}).reset_index(),x='cost',binwidth=2000,color='crimson')

<font size='6'>Интерпретация результата.<font>

<font size='5'>Посчитаем долю выручки, полученной благодаря рекомендациям для каждого человека, и возьмем от этого среднее.<font>

In [None]:
ctrl_group = control_group.dropna()
exp_group = experimental_group.dropna()
recommended_goods_control_group = ctrl_group[ctrl_group['was_in_recommended_goods'] == True]
recommended_goods_experimental_group = exp_group[exp_group['was_in_recommended_goods'] == True]

In [None]:
a = recommended_goods_control_group.groupby('user_id').agg({'cost':'sum'})/control_group.groupby('user_id').agg({'cost':'sum'})
a = a.fillna(0)
a.mean()

In [None]:
b = recommended_goods_experimental_group.groupby('user_id').agg({'cost':'sum'})/experimental_group.groupby('user_id').agg({'cost':'sum'})
b = b.fillna(0)
b.mean()

In [None]:
t_stat2, p_value2 = stats.ttest_ind(a, b, equal_var=False)

In [None]:
t_stat2

In [None]:
p_value2

<font size='3'>Отвергаем нулевую гипотезу. Рост доли выручки с рекомендаций статистически значим.<font>

<font size='5'>Рассмотрим среднее количество товаров, покупаемых пользователем.<font>

In [None]:
avg_cnt_control_group = control_group.groupby(['user_id','purchase_id']).agg({'amount':'sum'}).reset_index().groupby('user_id').agg({'amount':'mean'}).reset_index()
avg_cnt_experimental_group = experimental_group.groupby(['user_id','purchase_id']).agg({'amount':'sum'}).reset_index().groupby('user_id').agg({'amount':'mean'}).reset_index()

In [None]:
sns.histplot(avg_cnt_control_group,x='amount',binwidth=2,color='royalblue')
sns.histplot(avg_cnt_experimental_group,x='amount',binwidth=2,color='crimson')

In [None]:
t_stat3, p_value3 = stats.ttest_ind(avg_cnt_control_group['amount'],avg_cnt_experimental_group['amount'],equal_var=False)

In [None]:
t_stat3

In [None]:
p_value3

<font size='3'>Отвергаем нулевую гипотезу. Рост среднего количества товаров, покупаемых пользователем статистически значим.<font>

<font size="5">Посчитаем теперь среднюю долю рекомендованных товаров в покупках по чекам. (precision)</font>

In [None]:
precision_A = (recommended_goods_control_group.groupby('purchase_id').agg({'amount':'sum'})/control_group.groupby('purchase_id').agg({'amount':'sum'})).fillna(0).rename(columns={'amount':'precision'})
precision_control_group = precision_A.mean()
precision_B = (recommended_goods_experimental_group.groupby('purchase_id').agg({'amount':'sum'})/experimental_group.groupby('purchase_id').agg({'amount':'sum'})).fillna(0).rename(columns={'amount':'precision'})
precision_experimental_group = precision_B.mean()

<font size='3'>Ниже графики распределения precision для обеих групп. Можно увидеть выразительный прирост значения этой метрики в экспериментальной группе по сравнению с контрольной.<font>

In [None]:
sns.histplot(precision_A.reset_index(),x='precision',binwidth=0.05,color='royalblue')
sns.histplot(precision_B.reset_index(),x='precision',binwidth=0.05,color='crimson')

In [None]:
precision_control_group

In [None]:
precision_experimental_group

In [None]:
t_stat4, p_value4 = stats.ttest_ind(precision_A, precision_B,equal_var=False)

In [None]:
t_stat4

In [None]:
p_value4

<font size='3'>Отвергаем нулевую гипотезу. Наблюдаемый рост precision статистически значим — данные поддерживают предположение о его наличии.<font>

<font size='6'>Итог<font>

<font size='4.5'>Новая рекомендательная система статистически значимо увеличила среднюю выручку (ARPU) по сравнению со старой. Рост ARPU связан с увеличением среднего числа покупок и доли рекомендованных товаров в корзине.<font>