# Проект по А/B-тестированию

Задача — провести оценку результатов A/B-теста. В распоряжении есть датасет с действиями пользователей и несколько вспомогательных датасетов.

- Оценить корректность проведения теста
- Проанализирровать результаты теста

Чтобы оценить корректность проведения теста, проверим:
- пересечение тестовой аудитории с конкурирующим тестом,
- совпадение теста и маркетинговых событий, другие проблемы временных границ теста.

Оглавление :  

1. [Шаг 1. Загрузка данных и подготовка их к анализу](#step1) 

    1.1 [Календарь маркетинговых событий на 2020 год](#step1.1)  
    
    1.2 [Пользователи, зарегистрировавшиеся в интернет-магазине в период с 7 по 21 декабря 2020 года](#step1.2)
      
    1.3 [События новых пользователей в период с 7 декабря 2020 по 4 января 2021 года](#step1.3)
    
    1.4 [Таблица участников тестов](#step1.4)


2. [Шаг 2. Изучение данных](#step2)  

    2.1 [Выбор данных, удовлетворяющих условиям задачи](#step2.1)
    
    2.2 [Как количество событий на пользователя распределены в выборках? ](#step2.2) 
    
    2.3 [Конверсия в воронке на разных этапах](#step2.3) 
    
    2.4 [Распределение числа событий по дням](#step2.4) 
    
    
3. [Шаг 3. Оценка результаты A/B-тестирования](#step3)

    3.1 [Что можно сказать про результаты A/В-тестирования?](#step3.1)
    
    3.2 [Проверка статистической разницы долей z-критерием](#step3.2)
    
    
4. [Шаг 4. Выводы](#step4)    

### Шаг 1. Загрузка данных и подготовка их к анализу <a id="step1"></a> 

In [1]:
import pandas as pd
import datetime as dt
from scipy import stats as st
from plotly import graph_objects as go
import plotly.express as px
from plotly.subplots import make_subplots
import math as mth
import warnings
warnings.filterwarnings("ignore")

#### — *Календарь маркетинговых событий на 2020 год* <a id="step1.1"></a>   

In [13]:
ab_project_marketing_events = pd.read_csv('projects/datasets/ab_project_marketing_events.csv')

FileNotFoundError: [Errno 2] File projects/datasets/ab_project_marketing_events.csv does not exist: 'projects/datasets/ab_project_marketing_events.csv'

In [None]:
ab_project_marketing_events.sample(5)

In [None]:
ab_project_marketing_events.info()

Пропусков в данных нет, нужно изменить тип данных для дат и проверить дубликаты.

In [None]:
ab_project_marketing_events['start_dt'] = pd.to_datetime(ab_project_marketing_events['start_dt'])
ab_project_marketing_events['finish_dt'] = pd.to_datetime(ab_project_marketing_events['finish_dt'])

In [None]:
ab_project_marketing_events.duplicated().sum()

#### — *Пользователи, зарегистрировавшиеся в интернет-магазине в период с 7 по 21 декабря 2020 года* <a id="step1.2"></a>   

In [15]:
final_ab_new_users = pd.read_csv('/projects/datasets/final_ab_new_users.csv')

FileNotFoundError: [Errno 2] File /projects/datasets/final_ab_new_users.csv does not exist: '/projects/datasets/final_ab_new_users.csv'

In [None]:
final_ab_new_users.sample(5)

In [None]:
final_ab_new_users.info()

Пропусков в данных нет, нужно изменить тип данных для даты и проверить дубликаты.

In [None]:
final_ab_new_users['first_date'] = pd.to_datetime(final_ab_new_users['first_date'])

In [None]:
final_ab_new_users.duplicated().sum()

Проверим, какие значения могут принимать столбцы region, device и нет ли ошибок:

In [None]:
final_ab_new_users['region'].unique()

In [None]:
final_ab_new_users['device'].unique()

#### — *События новых пользователей в период с 7 декабря 2020 по 4 января 2021 года* <a id="step1.3"></a>   

In [None]:
final_ab_events = pd.read_csv('/datasets/final_ab_events.csv')

In [None]:
final_ab_events.head()

In [None]:
final_ab_events.info()

Нужно изменить тип данных для даты и проверить дубликаты. Пропуски есть в столбце details, он содержит дополнительные данные о событии. Не для всех строк столбец может быть заполнен.

In [None]:
final_ab_events['event_dt'] = pd.to_datetime(final_ab_events['event_dt'])

In [None]:
final_ab_events.duplicated().sum()

In [None]:
final_ab_events['event_name'].unique()

#### — *Таблица участников тестов* <a id="step1.4"></a> 

In [None]:
final_ab_participants = pd.read_csv('/datasets/final_ab_participants.csv')

In [None]:
final_ab_participants.head()

In [None]:
final_ab_participants.info()

Пропусков в данных нет, проверим дубликаты и уникальные значения столбца ab_test:

In [None]:
final_ab_participants.duplicated().sum()

In [None]:
final_ab_participants['ab_test'].unique()

#### Вывод:
Загрузили и обработали данные для дальнейшего анализа.

### Шаг 2. Исследовательский анализ данных <a id="step2"></a> 

#### — *Выбор данных, удовлетворяющих условиям задачи* <a id="step2.1"></a>   

Для исследования выберем только те данные, которые подходят под условиях технического задания:
- дата запуска: 2020-12-07;
- дата остановки набора новых пользователей: 2020-12-21;
- дата остановки: 2021-01-04;
- аудитория: 15% новых пользователей из региона EU;
- назначение теста: тестирование изменений, связанных с внедрением улучшенной рекомендательной системы.

1. Проверим, не было ли в период запуска AB-теста других маркетинговых событий:

In [None]:
ab_project_marketing_events_filtered = ab_project_marketing_events.query('start_dt > "2020-12-07" and finish_dt < "2021-01-04"')

In [None]:
ab_project_marketing_events_filtered

В период проведения AB-теста проходила новогодняя маркетинговая акция, которая могла исказить результаты.

2. Выберем пользователей, которые находятся в EU регионе:

In [None]:
final_ab_new_users_EU = final_ab_new_users.query('region == "EU"')

In [None]:
final_ab_new_users_EU

Проверим, какие даты регистрации у этих пользователей:

In [None]:
final_ab_new_users_EU['first_date'].min()

In [None]:
final_ab_new_users_EU['first_date'].max()

По заданию дата остановки набора новых пользователей: 2020-12-21. Выберем только тех пользователей, которые пришли до этой даты.

In [None]:
final_ab_new_users_EU = final_ab_new_users_EU.loc[final_ab_new_users_EU['first_date'] <= '2020-12-21']

In [None]:
final_ab_new_users_EU

3. Проверим, за какие даты собраны логи событий:

In [None]:
final_ab_events['event_dt'].min()

In [None]:
final_ab_events['event_dt'].max()

Исследование проводилось до 2021-01-04, а логи только до 2020-12-30. Было бы полезно получить логи ещё за 4 дня.

4. Выберем только тех пользователей, которые участвовали в тестировании изменений, связанных с внедрением улучшенной рекомендательной системы:

In [None]:
final_ab_participants_recommender_test = final_ab_participants.query('ab_test == "recommender_system_test"')

In [None]:
final_ab_participants_recommender_test

In [None]:
test_groups = final_ab_participants.groupby(['user_id', 'group']).size().reset_index()
test_groups.columns = ['user_id', 'group', 'count']
test_groups = test_groups.query('count > 1')
test_groups

826 пользователей участвовали сразу в 2 тестах, что могло повлиять на их поведение и результаты каждого из AB-тестов.  

<div class="alert alert-info" style="border:solid blue 2px; padding: 20px"> 
Выше были собраны пользователи, которые оказались в группах AA или BB. Если действовать из логики:
    
AA — для пользователя ничего не меняется, он видит первоначальную версию сервиса.

AB или BA — на пользователя раскатили изменения одного из тестов, это может повлиять и на второй, если они не независимые.

BB — на пользователя раскатили изменения двух тестов, они могут оказывать влияние друг на друга. 
    
В этом случае нам стоит избавиться от пользователей, которые в тесте interface_eu_test входят в группу B и видят сервис с изменениями:
</div>

In [None]:
users_filtered = final_ab_participants.query('ab_test == "interface_eu_test" and group =="B"')['user_id'].tolist()

In [None]:
final_ab_participants_recommender_test = final_ab_participants_recommender_test.query('user_id != @users_filtered')

5. Можно объединить таблицы и проверить данные целиком:

In [None]:
events = final_ab_participants_recommender_test.merge(final_ab_events)

In [None]:
events

In [None]:
data = events.merge(final_ab_new_users_EU)

In [None]:
data

In [None]:
data['user_id'].nunique()

Ожидаемое количество участников теста по техническому заданию 6000. В реальности в тесте участвовало 3050 пользователей.

#### Вывод:
В период проведения теста проводилась маркетинговая акция, которая могла повлиять на поведение пользователей. Количество участников теста значительно меньше ожидаемого. Логи действий пользователей не полные. Кроме того, некоторые пользователи видели сразу изменения 2 тестов.
Похоже, AB-тест был проведён некорректно и покажет неверные результаты.

#### — *Как количество событий на пользователя распределены в выборках?* <a id="step2.2"></a>   

1. Проверим, сколько всего пользователей и как они распределены по группам:

In [None]:
all_id = data['user_id'].nunique()
all_id

In [None]:
data.groupby('group')['user_id'].nunique()

Пользователей в группе A почти в 3 раза больше, чем в группе B. Проводить AB тест с такими условиями некорректно.

2. Проверим, сколько всего событий в логах и как они распределены:

In [None]:
all_event = data['event_name'].count()
all_event

In [None]:
event_type_count = data['event_name'].value_counts().reset_index()
event_type_count.columns = ['event_name','event_count']

In [None]:
event_type_count

Число покупок (`purhase`) больше, чем число просмотров корзины (`product_cart`). Вероятно, пользователи используют быстрое оформление и заказ. Посмотрим на данные в верном порядке:

In [None]:
event_type_count = event_type_count.reindex([0,1,3,2])

In [None]:
event_type_count

Построим график воронки действий пользователей, чтобы наглядно представить информацию.

In [None]:
fig = go.Figure()
fig.add_trace(go.Funnel(y=event_type_count['event_name'], x=event_type_count['event_count']))
fig.update_layout(
    title='График воронки действий пользователей',
    title_x = 0.5,
    margin=dict(l=50, r=50, t=130, b=50))
fig.show()

In [None]:
event_type_A = data.loc[data['group'] == 'A']
event_type_B = data.loc[data['group'] == 'B']

In [None]:
event_type_count_A = event_type_A['event_name'].value_counts().reset_index()
event_type_count_A.columns = ['event_name','A_events']
event_type_count_B = event_type_B['event_name'].value_counts().reset_index()
event_type_count_B.columns = ['event_name','B_events']

In [None]:
event_type_count = event_type_count.merge(event_type_count_A)
event_type_count = event_type_count.merge(event_type_count_B)

In [None]:
event_type_count

In [None]:
fig = go.Figure()
fig.add_trace(go.Bar(x=event_type_count['event_name'], y=event_type_count['A_events'], name='A_group'))
fig.add_trace(go.Bar(x=event_type_count['event_name'], y=event_type_count['B_events'], name='B_group'))
fig.update_layout(barmode='stack', title_text='Распределение количества событий по группам')
fig.show()

Группа A значительно больше, событий там зафиксировано тоже гораздо больше.

3. Проверим, как события распределены в каждой из групп:

In [None]:
fig = make_subplots(rows=1, cols=2, specs=[[{'type':'domain'}, {'type':'domain'}]])
fig.add_trace(go.Pie(labels=event_type_count['event_name'], values=event_type_count['A_events'], name="A_group"),
              1, 1)
fig.add_trace(go.Pie(labels=event_type_count['event_name'], values=event_type_count['B_events'], name="B_group"),
              1, 2)

fig.update_traces(hole=.4, hoverinfo="label+percent+name")

fig.update_layout(
    title_text='Распределение количества событий в группах',
    annotations=[dict(text='Группа А', x=0.16, y=0.5, font_size=20, showarrow=False),
                 dict(text='Группа В', x=0.84, y=0.5, font_size=20, showarrow=False)])
fig.show()

События в группах распределены похожим образом.

#### — *Конверсия в воронке на разных этапах* <a id="step2.3"></a>   

In [None]:
event_users = (data
               .groupby('event_name')
               .agg({'user_id':'nunique'})
               .sort_values(by='user_id', ascending=False)
               .rename(columns={'user_id':'total_users'})
               .reset_index())

In [None]:
event_users

Здесь тоже поправим очередность событий:

In [None]:
event_users = event_users.reindex([0,1,3,2])

In [None]:
event_users['%_of_total'] = event_users['total_users']/all_id * 100

In [None]:
event_users.loc[0, '%_of_previous'] = 100
for i in range(1,4):
    event_users['%_of_previous'][i] = (event_users['total_users'][i]/event_users['total_users'][i-1]) *100

In [None]:
event_users

Добавим разделение пользователей по группам:

In [None]:
event_users_A = (data
               .loc[data['group'] == 'A']
               .groupby('event_name')
               .agg({'user_id':'nunique'})
               .rename(columns={'user_id':'A_users'})
               .reset_index())

event_users_B = (data
               .loc[data['group'] == 'B']
               .groupby('event_name')
               .agg({'user_id':'nunique'})
               .rename(columns={'user_id':'B_users'})
               .reset_index())

In [None]:
event_users = event_users.merge(event_users_A)
event_users = event_users.merge(event_users_B)

In [None]:
event_users

Отобразим воронку пользоватей:

In [None]:
fig = go.Figure()
fig.add_trace(go.Funnel(y=event_users['event_name'], x=event_users['A_users'],
                        name = 'Group A', textinfo = "value+percent initial"))
fig.add_trace(go.Funnel(y=event_users['event_name'], x=event_users['B_users'],
                        name = 'Group B', textinfo = "value+percent initial"))
fig.update_layout(
    title='График воронки пользователей',
    title_x = 0.5,
    margin=dict(l=50, r=50, t=130, b=50))
fig.show()

#### Вывод:
В техническом задании был запланирован ожидаемый эффект: за 14 дней с момента регистрации пользователи покажут улучшение каждой метрики не менее, чем на 10%. Увы, таких показателей в воронке не видно, в тестовой группе нет улучшений метрик.

#### — *Распределение числа событий по дням* <a id="step2.4"></a>   

In [None]:
data['day'] = data['event_dt'].astype('datetime64[D]')

In [None]:
events_in_day = data.pivot_table(index=['group', 'day'], columns='event_name', values='user_id', aggfunc='count')

In [None]:
events_in_day

In [None]:
fig = go.Figure()
for i in events_in_day.columns:
    fig.add_trace(go.Bar(x=events_in_day.loc['A'].index, y=events_in_day.loc['A'][i], name=i))
fig.update_layout(barmode='stack', title_text='Распределение количества событий по дням в группе A')

fig.show()  

In [None]:
fig = go.Figure()
for i in events_in_day.columns:
    fig.add_trace(go.Bar(x=events_in_day.loc['B'].index, y=events_in_day.loc['B'][i], name=i))
fig.update_layout(barmode='stack', title_text='Распределение количества событий по дням в группе B')

fig.show()

Событий в группе B на порядок меньше. Через неделю после начала теста в группе A произошёл всплеск, в группе B такое поведение не замечено.

### Шаг 3. Оценка результатов AB-тестирования <a id="step3"></a> 

#### —*Что можно сказать про результаты A/В-тестирования?*<a id="step3.1"></a> 

In [None]:
users_per_group = data.groupby('group').agg({'user_id':'nunique'}).reset_index()
users_per_group.columns = ['group', 'users']

In [None]:
users_per_group

In [None]:
data_table = data.pivot_table(
    index='group', 
    columns='event_name', 
    values='user_id', 
    aggfunc='nunique').reset_index()

In [None]:
data_table

In [None]:
data_table = data_table.merge(users_per_group)

In [None]:
data_table

#### Вывод:
* Группы разные по размерности, число пользователей в группе A в 3 раза превышает количество пользователей в тестовой группе. 
* Общее число пользователей тоже не соответствует техническому заданию. 
* При проведении AB-теста не провели AA-тест, чтобы проверить инструмент «деления» трафика и корректность сбора данных.
* Кроме того, во время теста проводилась маркетинговая акция, которая могла повлиять на результаты.

#### —*Проверьте статистическую разницу долей z-критерием*<a id="step3.2"></a> 

Определим нулевую и альтернативную гипотезы.

*Нулевая гипотеза*: между группами нет статистически значимых различий.

*Альтернативная гипотеза*: между группами есть статистически значимые различия.

In [None]:
alpha = .01

In [None]:
def stat_group (value_1, value_2, total_1, total_2):
    p1 = value_1/total_1
    p2 = value_2/total_2
    p_combined = (value_1 + value_2) / (total_1 + total_2)
    difference = p1 - p2 
    z_value = difference / mth.sqrt(p_combined * (1 - p_combined) * (1/total_1 + 1/total_2))
    distr = st.norm(0, 1)  
    p_value = (1 - distr.cdf(abs(z_value))) * 2
    print('p-значение: ', p_value)
    if (p_value < alpha):
        print("Отвергаем нулевую гипотезу: между долями есть значимая разница")
    else:
        print("Не получилось отвергнуть нулевую гипотезу, нет оснований считать доли разными") 

In [None]:
dict = ['login', 'product_page', 'product_cart', 'purchase']

In [None]:
def test(group_1, group_2):
    for i in range(4):
        stat_group(data_table[dict[i]][group_1],
                   data_table[dict[i]][group_2],
                   data_table['users'][group_1],
                   data_table['users'][group_2])

In [None]:
test(0, 1)

#### Вывод: 
При помощи Z-критерия подтвердили, что между долями есть значимая разница. Пропорция выборок статистически значима. AB-тест нужно проводить заново с соблюдением всех условий.

### Шаг 4. Выводы <a id="step4"></a> 

AB-тест был проведён некорректно и не соответствовал условиям технического задания.

Требуется провести тест заново. Для этого:
- необходимо накопить больше пользователей (например, продлить сроки теста);
- провести AA-тест для проверки корректности проведения теста в целом и системы сбора данных;
- разбить группы на равные по количеству пользователей;
- убедиться, что пользователи в разных тестах не пересекаются или эти изменения независимые и не смогут повлиять на результат;
- проводить тест в период, когда сезонный спрос и маркетинговые акции не повлияют на результат;
- собрать логи за весь период проведения акции.