# А-В тестирование

## Содержание

1. Введение
    - описание проекта
    - цели и задачи проекта
    - описание данных
2. Загрузка и предобработка данных
    - проверка пропусков
    - проверка дубликатов
    - приведение к нужному типу/формату данных
3. Проверка данных
    - на пересечение, распределение, на полноту событий (все ли юзеры совершали покупки)
    - на соответсвие ТЗ
5. Исследовательский анализ
6. Оценка А/В-тестирования
7. Резульаты

## Введение

**Описание проекта**
Оцените корректность проведения теста и проанализируйте его результаты.

**Цель проекта**
Отследить эффективность улучшенной рекомендательной системы.

**Задача проекта**
- Проверить корреткность данных
- Провести исследовательский анализ
- Оценить результат тестирования

**Описание данных**
1. ab_project_marketing_events.csv — календарь маркетинговых событий на 2020 год.<br />
Структура файла:<br />
- name — название маркетингового события;
- regions — регионы, в которых будет проводиться рекламная кампания;
- start_dt — дата начала кампании;
- finish_dt — дата завершения кампании.

2. final_ab_new_users.csv — пользователи, зарегистрировавшиеся с 7 до 21 декабря 2020 года.<br />
Структура файла:<br />
- user_id — идентификатор пользователя;
- first_date — дата регистрации;
- region — регион пользователя;
- device — устройство, с которого происходила регистрация.

3. final_ab_events.csv — действия новых пользователей в период с 7 декабря 2020 по 4 января 2021 года.<br />
Структура файла:<br />
- user_id — идентификатор пользователя;
- event_dt — дата и время события;
- event_name — тип события;
- details — дополнительные данные о событии. Например, для покупок,
- purchase - стоимость покупки в долларах.

4. final_ab_participants.csv — таблица участников тестов.<br />
Структура файла:<br />
- user_id — идентификатор пользователя;
- ab_test — название теста;
- group — группа пользователя.

## Загрузка и предобработка данных

In [1]:
import pandas as pd
from datetime import datetime, timedelta, time
import numpy as np
from scipy import stats as st
import math as mth
import seaborn as sns
import matplotlib.pyplot as plt
import plotly.express as px
import warnings
warnings.filterwarnings("ignore") 

In [2]:
try:
    events = pd.read_csv('final_ab_events.csv')
    ads = pd.read_csv('ab_project_marketing_events.csv')
    new_users = pd.read_csv('final_ab_new_users.csv')
    participants = pd.read_csv('final_ab_participants.csv')

except:
    events = pd.read_csv('https://code.s3.yandex.net/datasets/final_ab_events.csv')
    ads = pd.read_csv('https://code.s3.yandex.net/datasets/ab_project_marketing_events.csv')  
    new_users = pd.read_csv('https://code.s3.yandex.net/datasets/final_ab_new_users.csv') 
    participants = pd.read_csv('https://code.s3.yandex.net/datasets/final_ab_participants.csv')

In [3]:
#Создадим функцию для ознакомления с данными
def data_info(data):
    print(f'Общая информация о датасете:\n {data.info()} \n \n Первые три строки датасета \n{data.head(3)}\n')
    print(f'Количество полных дубликатов: \n {data.duplicated().sum()}\n')
    print(f'Количество пропусков: \n {data.isna().mean()}\n \n ')
    

In [4]:
data_info(participants)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 18268 entries, 0 to 18267
Data columns (total 3 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   user_id  18268 non-null  object
 1   group    18268 non-null  object
 2   ab_test  18268 non-null  object
dtypes: object(3)
memory usage: 428.3+ KB
Общая информация о датасете:
 None 
 
 Первые три строки датасета 
            user_id group                  ab_test
0  D1ABA3E2887B6A73     A  recommender_system_test
1  A7A3664BD6242119     A  recommender_system_test
2  DABC14FDDFADD29E     A  recommender_system_test

Количество полных дубликатов: 
 0

Количество пропусков: 
 user_id    0.0
group      0.0
ab_test    0.0
dtype: float64
 
 


In [5]:
data_info(events)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 440317 entries, 0 to 440316
Data columns (total 4 columns):
 #   Column      Non-Null Count   Dtype  
---  ------      --------------   -----  
 0   user_id     440317 non-null  object 
 1   event_dt    440317 non-null  object 
 2   event_name  440317 non-null  object 
 3   details     62740 non-null   float64
dtypes: float64(1), object(3)
memory usage: 13.4+ MB
Общая информация о датасете:
 None 
 
 Первые три строки датасета 
            user_id             event_dt event_name  details
0  E1BDDCE0DAFA2679  2020-12-07 20:22:03   purchase    99.99
1  7B6452F081F49504  2020-12-07 09:22:53   purchase     9.99
2  9CD9F34546DF254C  2020-12-07 12:59:29   purchase     4.99

Количество полных дубликатов: 
 0

Количество пропусков: 
 user_id       0.000000
event_dt      0.000000
event_name    0.000000
details       0.857512
dtype: float64
 
 


In [6]:
#Попробуем определить природу пропусков в details
events[events['details'].isna()==True].groupby('event_name').agg({'user_id':'count'})

Unnamed: 0_level_0,user_id
event_name,Unnamed: 1_level_1
login,189552
product_cart,62462
product_page,125563


In [7]:
events.event_name.unique()

array(['purchase', 'product_cart', 'product_page', 'login'], dtype=object)

Пропущенные значения в столбце details не обнаружены только для события purchase. Следует передать ту информацию разработчикам для выявления причины отсутсвия данных.

In [8]:
data_info(new_users)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 61733 entries, 0 to 61732
Data columns (total 4 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   user_id     61733 non-null  object
 1   first_date  61733 non-null  object
 2   region      61733 non-null  object
 3   device      61733 non-null  object
dtypes: object(4)
memory usage: 1.9+ MB
Общая информация о датасете:
 None 
 
 Первые три строки датасета 
            user_id  first_date     region   device
0  D72A72121175D8BE  2020-12-07         EU       PC
1  F1C668619DFE6E65  2020-12-07  N.America  Android
2  2E1BF1D4C37EA01F  2020-12-07         EU       PC

Количество полных дубликатов: 
 0

Количество пропусков: 
 user_id       0.0
first_date    0.0
region        0.0
device        0.0
dtype: float64
 
 


In [9]:
data_info(ads)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 14 entries, 0 to 13
Data columns (total 4 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   name       14 non-null     object
 1   regions    14 non-null     object
 2   start_dt   14 non-null     object
 3   finish_dt  14 non-null     object
dtypes: object(4)
memory usage: 576.0+ bytes
Общая информация о датасете:
 None 
 
 Первые три строки датасета 
                           name                   regions    start_dt  \
0      Christmas&New Year Promo             EU, N.America  2020-12-25   
1  St. Valentine's Day Giveaway  EU, CIS, APAC, N.America  2020-02-14   
2        St. Patric's Day Promo             EU, N.America  2020-03-17   

    finish_dt  
0  2021-01-03  
1  2020-02-16  
2  2020-03-19  

Количество полных дубликатов: 
 0

Количество пропусков: 
 name         0.0
regions      0.0
start_dt     0.0
finish_dt    0.0
dtype: float64
 
 


In [10]:
events['event_dt'] = pd.to_datetime(events['event_dt'], format='%Y-%m-%d %H:%M:%S')
new_users['first_date'] = pd.to_datetime(new_users['first_date'])
ads['start_dt'] = pd.to_datetime(ads['start_dt'])
ads['finish_dt'] = pd.to_datetime(ads['finish_dt'])

In [11]:
#Создадим дополнительный столбец
events['event_date'] = pd.to_datetime(events['event_dt'].dt.date)
events['event_date'].isna().sum()

0

## Проверка данных

**Пересечения в группах**

In [12]:
#Проверим пересечения в тестах
double = participants.groupby('user_id', as_index=False).agg({'ab_test':'count'}).query('ab_test>1')['user_id']
double

2        001064FEAAB631A1
10       00341D8401F0F665
12       003B6786B4FF5B03
29       0082295A41A867B5
46       00E68F103C66C1F7
               ...       
16638    FF7BE2897FC0380D
16644    FF9A81323FA67D6E
16652    FFC53FD45DDA5EE8
16662    FFED90241D04503F
16664    FFF28D02B1EACBE1
Name: user_id, Length: 1602, dtype: object

Пересечения по тестам есть: 1602 пользователя учавствовали в целевом и конкурирющем тесте. 
Поскольку результаты другого теста могут исказить результаты целевого, но в датасете событий нельзя разделить события пользователя в рамках того или другого теста, то необходимо проверить, равномерно ли распределены задублированные пользователи группы Б другого теста в группах целевого теста:

In [13]:
#Количество пользователей в целевом тесте по группам
target_test = participants.query('ab_test == "recommender_system_test"').groupby('group', as_index=False)['user_id'].count()
target_test

Unnamed: 0,group,user_id
0,A,3824
1,B,2877


In [14]:
#определим пользователей, учавствующих в экспериментальной группе второго теста
test2_groupB= participants.query('user_id in @double and ab_test == "interface_eu_test" and group =="B"')['user_id']
#как участиники экспериментальной группе второго теста распределены в группах целевого теста
test2_groupB_in_test1 = participants.query('user_id in @test2_groupB and ab_test == "recommender_system_test"')\
                            .groupby('group').agg({'user_id':'count'})
test2_groupB_in_test1

Unnamed: 0_level_0,user_id
group,Unnamed: 1_level_1
A,439
B,344


Проведем z-тест для оценки равномерности распределения пересекающихся пользователей группы Б другого теста в двух группах целевого теста. <br />
H0: пропорции (целевые участиники и задублированные) двух групп целевого теста разные <br />
Н1: пропорции (целевые участиники и задублированные) двух групп целевого теста равны.


In [15]:
alpha = .05 # критический уровень статистической значимости

successes = np.array([test2_groupB_in_test1['user_id'][0]\
                      , test2_groupB_in_test1['user_id'][1]]) #количество задублированных пользователей
trials = np.array([target_test['user_id'][0],\
                   target_test['user_id'][1]])

print(successes, trials)

# пропорция в группе А:
p1 = successes[0]/trials[0]

# пропорция в группе В:
p2 = successes[1]/trials[1]

# пропорция во всем тесте:
p_combined = (successes[0] + successes[1]) / (trials[0] + trials[1])

# разница пропорций групп
difference = p1 - p2 

# считаем статистику в ст.отклонениях стандартного нормального распределения
z_value = difference / mth.sqrt(p_combined * (1 - p_combined) * (1/trials[0] + 1/trials[1]))

# задаем стандартное нормальное распределение (среднее 0, ст.отклонение 1)
distr = st.norm(0, 1) 

p_value = (1 - distr.cdf(abs(z_value))) * 2

print('p-значение: ', p_value)

if p_value < alpha:
    print('Отвергаем нулевую гипотезу: между группами целевого теста есть значимая разница')
else:
    print(
        'Не получилось отвергнуть нулевую гипотезу, нет оснований считать группы целевого теста разными')

[439 344] [3824 2877]
p-значение:  0.5475925169519402
Не получилось отвергнуть нулевую гипотезу, нет оснований считать группы целевого теста разными


Таким образом, влияние изменений экспериментальной группы Б другого теста равномерно распределено на группы целевого теста. Поэтому сильного искажения конверсий мы не получим, если оставим их.

**Соответствие ТЗ**

In [16]:
#Проверим даты регистрации новых пользователей
display(new_users['first_date'].min())
new_users['first_date'].max()

Timestamp('2020-12-07 00:00:00')

Timestamp('2020-12-23 00:00:00')

In [17]:
#проверим какие регионы учавствовали в тесте
new_users.groupby('region')['user_id'].count()

region
APAC          3153
CIS           3155
EU           46270
N.America     9155
Name: user_id, dtype: int64

In [18]:
#Найдем аудиторию теста recommender_system_test
participants_target_test = participants.query('ab_test == "recommender_system_test"')
right_users = new_users.query('user_id in @participants_target_test["user_id"]')

#Проверим даты регистрации новых нужным нам пользователей
display(right_users['first_date'].min())
right_users['first_date'].max()

ValueError: data type must provide an itemsize

Новые пользователи целевого теста прошли регистрацию в период, оговоренный в ТЗ, поэтому дополнительная фильтрация по дате не требуется.

In [None]:
#Добавим в таблицу данные об участниках
right_users = participants_target_test.merge(right_users, on='user_id', how='left')

#проверим из каких регионов все участники теста
right_users.groupby('region')['user_id'].count()

In [None]:
#Выберем участников теста из Европы, согласно ТЗ
right_users = right_users.query('region == "EU"')

In [None]:
#Найдем % новых пользовтелей из Европы, проверим соответствие ТЗ
display(f'Всего участников теста {len(right_users)}'),
a =(len(right_users)/len(new_users.query('first_date <="2020-12-21" and region =="EU" '))*100)
f'Из которых участников из Европы {a}%'

Объем теста превышает заявленное количество участников в ТЗ на 351 пользователя.
Требование ТЗ в количестве учавствующих и в доле новых Европейцев в тесте - выполнено.

In [None]:
#За какой период мы располагаем данными:
display(events['event_dt'].min())
events['event_dt'].max()

Период данных так же не соответствует ТЗ, поскольку тест должен содержать данные по 2021-01-04 включительно.

In [None]:
#Отфильтруем события, которые пользователи совершили до 14 дней от даты регистрации.
events_users = events.merge(right_users, on='user_id', how='right')
#Количество участников до фильтрации
events_users['user_id'].nunique()

In [None]:
#Количество участников без событий
users_without_events = events_users.groupby('user_id', as_index=False)['event_dt'].count().query('event_dt<1')['user_id']
users_without_events.count()

In [None]:
#Рассмотрим пользователей без событий внимательнее
events_users.query('user_id in @users_without_events').groupby('first_date')['user_id'].count()

In [None]:
events_users.query('user_id in @users_without_events').groupby('device')['user_id'].count().sort_values()

In [None]:
events_users.query('user_id in @users_without_events').groupby('first_date')['user_id'].count().sort_values()

In [None]:
events_users.query('user_id in @users_without_events').groupby('group')['user_id'].count().sort_values()

In [None]:
events_users.query('user_id in @users_without_events').groupby('region')['user_id'].count().sort_values()

Данные пользователи из Европы <br />
Учавствуют в тесте recommender_system_test (в группе А 1030 пользователей без событий, в группе Б - 1840) <br />
Проходили регистрацию в период с 07 декабря 2020 по 21 декабря 2020. <br />
Большая часть пользователей без событий использовали девайс на ОС андроид. <br />
Большая часть пользователей без событий прошли регистрацию 13 декабря 2020 года. <br />


In [None]:
#Количество событий до фильтрации
events_users['event_date'].count()

In [None]:
#Рассчитаем лайфтайм каждого события
events_users['lifetime'] = (events_users['event_date'] - events_users['first_date'])
#Очистим датасет от лишних событий: согласно ТЗ мы рассматриваем изменения по окончанию 14 дней с момента регистрации
events_users = events_users[events_users['lifetime'] <= "14 days"]
#Количество событий после фильтрации
events_users['event_date'].count()

In [None]:
events_users.info()

In [None]:
#Количество участников без событий
events_users.groupby('user_id', as_index=False)['event_dt'].count().query('event_dt<1').count()

In [None]:
#Отберем рекламные компании, что проводились в Европе в нужный период времени
ads['EU'] = ads['regions'].str.contains('EU')
right_ads = ads.query('EU == True and start_dt < "2021-01-04" and finish_dt > "2020-12-07"')
right_ads.info()

Необходимо оценить влияние промо на тестирование. Посмотрим, какое количество покупок могло быть спровоцировано промо:

In [None]:
#среднее время совершения покупки
f'Среднее время совершения покупки составляет {events_users[events_users["event_name"] == "purchase"]["lifetime"].median()}'

In [None]:
#Сгруппируем данные по дате и группе, чтобы посмотреть как много покупок произошли в период промо
purchase = events_users[events_users["lifetime"] >= "2 days"][events_users["event_name"] == "purchase"]
purchase = purchase.pivot_table(index=['event_date', 'group'], values='user_id', aggfunc='count').reset_index()
purchase.info()

In [None]:
purchase.info()

In [None]:
ax = px.bar(purchase, x = 'event_date', y = 'user_id', color = 'group', barmode='overlay',
                  labels=dict(event_date="Дата", user_id="Колчество событий", group="Группа тестирования"),
                              title='График совершения покупок и проведеня промо')

ax.add_vrect(x0=right_ads["start_dt"][0], x1=right_ads["finish_dt"][0], 
              annotation_text="Период проведения промо", annotation_position="top right",
             annotation=dict(font_size=20, font_family="Times New Roman"),
              fillcolor="green", opacity=0.25, line_width=0)

ax.show()

In [None]:
#какая доля покупок была совершена в период промо
perchase_percent = round(len(events_users[events_users["lifetime"] >= "2 days"]\
                             [events_users["event_name"] == "purchase"][events_users["event_date"]>=right_ads["start_dt"][0]]\
                             [events_users["event_date"]<=right_ads["finish_dt"][0]])\
                         /len(events_users[events_users["lifetime"] >= "2 days"]\
                              [events_users["event_name"] == "purchase"])*100,2)
f'{perchase_percent} % покупок было совершено в период промо участниками теста'

Четверть покупок было совершено в течение рекламы - много, поэтому есть риск искажения результатов

In [None]:
#Количество покупок, совершенных в период промо, в разрезе групп
count_purchase_per_promo = purchase[purchase["event_date"]>=right_ads["start_dt"][0]]\
[purchase["event_date"]<=right_ads["finish_dt"][0]].groupby('group')['user_id'].sum()

In [None]:
f'{round(count_purchase_per_promo[0]/purchase.groupby("group")["user_id"].sum()[0]*100, 2)}% от всех своих покупок было совершено в период промо группой А'

In [None]:
f'{round(count_purchase_per_promo[1]/purchase.groupby("group")["user_id"].sum()[1]*100, 2)}% от всех своих покупок было совершено в период промо группой B'

**Промежуточный вывод**
Максимального соответсвия ТЗ выполнить не представилось возможным из-за многочисленных нарушений проведения теста: 

 - данные содержат пользователей другого теста
 - дата окончания событий 2020-12-30, место 2021-01-04
 - аудитория теста превысила количество на 351 пользователя. после фильтрации адитория составила 3481 уникального пользователя вместо 6000 (в данных оказалось много пользователей без событий)
 - в период тестирования были проведены промоакции, которые могут исказить результаты теста.

## Исследовательский анализ

In [None]:
#За какой период мы располагаем данными:
display(events_users['event_dt'].min())
events_users['event_dt'].max()

In [None]:
#Построим гистограмму количества событий за все время теста
plt.figure(figsize=(20, 5))
events_users['event_dt'].hist(bins=30)
plt.ylabel('Количество событий')
plt.xlabel('Дата')
plt.title('График событий за время теста')
plt.show()

In [None]:
#Всего уникальных пользователей
events_users['user_id'].nunique()

In [None]:
#Количество каждого события
events_users.groupby('event_name')['user_id'].count()

In [None]:
#Количество пользователей в группах
events_users.groupby('group')['user_id'].nunique()

In [None]:
f'В среднем на пользователя приходится {events_users.groupby("user_id").agg({"event_name":"count"}).median()[0].astype(int)} событий'

In [None]:
#Посчитаем долю пользователей, которые хоть раз совершали событие
users_more_one_event = events_users.groupby(['group','user_id'], as_index=False).agg({'event_name':'count'})\
.query('event_name >= 1')
f'{(round(users_more_one_event["user_id"].count()/(events_users["user_id"].nunique()), 2)*100)} % пользователей хоть раз совершали событие'

После фильтрафии лайфтайма у нас "отпали" пользователи без событий, поэтому сейчас мы имеем 100% пользователей, которые совершали хотя бы одно событие.

In [None]:
#Сгруппируем данные по группе теста и количеству совершенных событий одним пользователем
users_more_one_event = users_more_one_event.groupby(['group','event_name'], as_index=False)['user_id'].count()
users_more_one_event = users_more_one_event.rename(columns={'event_name':'count_events', 'user_id':'count_users'})

In [None]:
#Создадим график по сгруппированным данным
plt.figure(figsize=(15,5))
ax = sns.barplot(hue="group",
                 data=users_more_one_event,
                 x='count_events',
                 y= 'count_users',
                 palette=['lightblue', 'blue'])
ax.set_title('Количество совершеных событий одним пользователем ')
ax.set(xlabel='Количество совершенных событий одним пользователем', ylabel='Количество таких наборов')

plt.show()

Чаще всего пользователи совершают 4-6 событий, как в группе А, так и в группе В.

In [None]:
#Посмотрим распределение количества событий у пользователей в день
fig = px.bar(events_users.groupby(['event_date', 'group'], as_index=False)['event_name'].count(),\
                   x='event_date', y='event_name', barmode ='overlay', color='group')

fig.update_layout(
    title= 'График количества совершенных событий в день группами теста',
    xaxis_title='Время проведения теста',
    yaxis_title='Количество событий',
    )

fig.show()

Количество совершенных событий пользователями в группе В гораздо меньше группы А, но и аудитория контрольной группы сильно превышает экспериментальую. При этом график группы В более равномерный на протяжении всего теста, без больших шоков.
В группе А - наоборот: наблюдается резкое увеличение количества событий 14 декабря и резкое уменьшение 22 декабря.

In [None]:
#Построим таблицу для анализа воронки
funnel = events_users.pivot_table(index='event_name', columns='group', values='user_id', aggfunc='nunique')
funnel = funnel.reindex(['login', 'product_page', 'product_cart', 'purchase'])
funnel 

In [None]:
#По воронке событий посчитаем, какая доля пользователей проходит на следующий шаг воронки
group = ['A', 'B']
for i in group:
    funnel['ratio' f'{i}'] = round((funnel[i] / funnel[i].shift()).fillna(1), 2)
    funnel['conv'  f'{i}'] = round(funnel[i] / events_users[events_users['group']==i]['user_id'].nunique(), 2)
funnel

In [None]:
#Построим воронку по количеству событий
plt.figure(figsize=(15,8))
fig = px.funnel(funnel, y=funnel.index, x=["A", "B"],
                template="simple_white",
                title='Воронка событий (количество событий)',)
fig.update_traces(textinfo = "value+percent initial+percent previous")
fig.show()

Провал конверсий на событии product_cart объясняется тем, что это необязательный этап при оформлении заказа.
Если обратить внимание на конверсию к исходному числу пользователей, то можно отметить разницу между группами: конверсия группы А выше на каждом событии.

**Промежуточный вывод**
С учетом нарушений проведения тестирования, подведем промежуточный итог исследовательского анализа:
- объем аудиторий групп А и В сильно отличается
- с группе А наблюдается резкий скачек событий с 14 декабря по 22 декабря
- динамика событий группы В более плавная и равномерная
- конверсия группы В на каждом этапе ниже конверсии группы А

## Статистический анализ результатов A/B тестирования

Цель статистического анализа результатов тестирования - проверить разницу в конверсии от начального этапа воронки.
У нас три события, значит мы должны провести три сравнительных теста аудитории групп А и В:
-  в событии product_cart
-  в событии product_page
-  в событии purchase

In [None]:
#Рассчитаем мощность теста
f'вероятность ни разу не ошибиться: {((1-0.05)**3)}'

In [None]:
f'вероятность ошибиться хоть раз за два сравнения: {1-((1-0.05)**3)}'

Вероятность ошибиться достачно высокая, для минимизации ошибки второго рода применим поправку Бонферрони для множественного сравнения:

In [None]:
alpha = 0.05 #Уровень значимости
bonferroni_alpha = alpha/3 #Поправка Бонферрони

In [None]:
#Поскольку количество польвателей в событии login - это объем всей аудитории тестовой группы,
#то сравнение 100% одной группы со 100% другой группы не имеет значения
test_funnel = funnel.query('event_name != "login"').reset_index()
test_funnel

In [None]:
#Объем аудиторий тестовых групп выведем в отдельную таблицу
total_users = funnel.query('event_name == "login"')[["A","B"]].reset_index()
total_users

In [None]:
#Напишем формулу для эффективности кода
def z_test(group_1, group_2, alpha):
    for i in test_funnel.index:
        
        p1 = test_funnel[group_1][i] / total_users[group_1]
        p2 = test_funnel[group_2][i] / total_users[group_2]

        p_combined = ((test_funnel[group_1][i] + test_funnel[group_2][i]) / 
                      (total_users[group_1] + total_users[group_2]))
        dif = p1-p2
        z_value = dif/ mth.sqrt(p_combined * (1-p_combined)*
                            (1/(total_users[group_1]) +
                             1/(total_users[group_2])))
        distr = st.norm(0,1)
        p_value = (1 - distr.cdf(abs(z_value)))*2
        
        print('{} p-значение: {}'.format(test_funnel['event_name'][i], p_value))
        if (p_value < alpha):
            print("Отвергаем нулевую гипотезу: между группами есть значимая разница")
        else:
            print("Не получилось отвергнуть нулевую гипотезу, нет оснований считать группы разными")

1. Проверим, находят ли статистические критерии разницу между конверсиями события product_cart в группах А и В. 
**Нулевая гипотеза:** Конверсия события product_cart группы А  **равна** конверсие события product_cart группы B.
**Альтернативная гипотеза:** Конверсия события product_cart группы А  **не равна** конверсие события product_cart группы B.

2. Проверим, находят ли статистические критерии разницу между конверсиями события product_page в группах А и В. 
**Нулевая гипотеза:** Конверсия события product_page группы А  **равна** конверсие события product_page группы B.
**Альтернативная гипотеза:** Конверсия события product_page группы А  **не равна** конверсие события product_page группы B.

3. Проверим, находят ли статистические критерии разницу между конверсиями события purchase в группах А и В. 
**Нулевая гипотеза:** Конверсия события purchase группы А  **равна** конверсие события purchase группы B.
**Альтернативная гипотеза:** Конверсия события purchase группы А  **не равна** конверсие события purchase группы B.


Уровень значимости 0,05.

In [None]:
#Проведем сравнительный тест пропорций
z_test("A", "B", alpha)

Отсутствие отличий в группах подтвердилось только в событии product_cart, но поскольку это событие является не обязательным для оформления покупки, то данное равенство не очень показательно.
В остальных событиях - разница значима. С условием, что конверсия группы А превышает конверсию группы В в этих событиях, условие ТЗ о повышении показателей на 10% - не выполняется ни на одном из событий.

## Результат исследования

В рамках анализа в представленных данных была проведена предобработка. Далее была попытка выделить аудиторию теста по пунктам требованияй ТЗ. Собрать аудиторию максимально отвечающую требованиям не представилось возможным, поскольку сам тест был проведен со множеством нарушений:
 - наличие другого тестирования
 - наличие промо в даты тестирования
 - данные не невыдерживают сроки тестирования
 - не набран объем аудитории
В связи с наличием другого теста, была проведена проверка равномерности "примесей" участников экспериментальной группы другого теста в аудитории целевого теста.
Так же были определены доли продаж, совершенных в период промоакции.

На сформированной аудитории теста был проведен исследовательский анализ, построена воронка событий, расчитаны конверсии событий. Все показатели говорят об отсутсвии успеха в экспериментальнйо группе В целевого теста.

Результаты статистического теста сравнения конверсий группы А и группы В так же подверждают вывод об отсутствии положительного эффекта от применения новой рекомендательной системы.