# Проект A\B-test #

# Содержание #
<div>
    <ol>
        <li>
            <a href="#purpose">Цель проекта</a>
        </li>
        <li>
            <a href="#specification">Техническое задание</a>
        </li>
        <li>
            <a href="#data_descriptions"></a>
        </li>
        <li>
            <a href="#setup">Установка библиотек</a>
        </li>
        <li>
            <a href="#import">Импорт библиотек</a>
        </li>
        <li>
            <a href="#load">Загрузка данных</a>
        </li>
        <ul>
            <li>
                <a href="#load_func">Функция проверки путей к файлам данных</a>
            </li>
            <li>
                <a href="#load_preview">Первичный осмотр данных</a>
            </li>
        </ul>
        <li>
            <a href="#prepare">Предобработка данных</a>
        </li>
        <ul>
            <li>
                <a href="#prepare_types">Приведение типов</a>
            </li>
            <li>
                <a href="#prepare_str">Функция обработки строковых значений</a>
            </li>
            <li>
                <a href="#prepare_lower">Перевод строковых значений в нижний регистр</a>
            </li>
            <li>
                <a href="#prepare_nan">Работа с пропусками</a>
            </li>
            <li>
                <a href="#prepare_dubl">Работа с дубликатами</a>
            </li>
        </ul>
        <li>
            <a href="#correctness">Оценка корректности проведения тестирования</a>
        </li>
        <ul>
            <li>
                <a href="#correctness_tz">Соответствие требованиям ТЗ</a>
            </li>
            <li>
                <a href="#correctness_date">Время проведения теста</a>
            </li>
            <li>
                <a href="#correctness_public">Аудитория проведения теста</a>
            </li>
        </ul>
        <li>
            <a href="#research">Исследовательский анализ данных</a>
        </li>
        <ul>
            <li>
                <a href="#research_events_dispersion">Одинаковость распределения количества событий пользователей в группах</a>
            </li>
            <li>
                <a href="#research_events_days">Распределение событий по дням</a>
            </li>
            <ul>
                <li>
                    <a href="#research_distribution_test_func">Функция проверки нормальности распределения данных</a>
                </li>
            </ul>
            <li>
                <a href="#research_conversion">Конверсия групп</a>
            </li>
        </ul>
        <li>
            <a href="#ab_test">Оценка результатов A\B тестирования</a>
        </li>
        <ul>
            <li>
                <a href="#ab_test_parts_func">Функция проверки равенства долей событий</a>
            </li>
        </ul>
        <li>
            <a href="#summary">Вывод</a>
        </li>
    </ol>
</div>

<a id='purpose'></a>
# Цель проекта #
1. оценка корректности проведения A\B-теста

2. анализ результатов A\B-теста

<a id='specification'></a>
# Техническое задание #
Название теста: recommender_system_test;

Группы:
    * А (контрольная)
    * B (новая платёжная воронка);
Дата запуска: 2020-12-07;

Дата остановки набора новых пользователей: 2020-12-21;

Дата остановки: 2021-01-04;

Аудитория: 15% новых пользователей из региона EU;

Назначение теста: тестирование изменений, связанных с внедрением улучшенной рекомендательной системы;

Ожидаемое количество участников теста: 6000.

Ожидаемый эффект: за 14 дней с момента регистрации в системе пользователи покажут улучшение каждой метрики не менее, чем на 10%:
    * конверсии в просмотр карточек товаров — событие product_page
    * просмотры корзины — product_cart
    * покупки — purchase.

<a id='data_descriptions'></a>
# Описание данных #

<b>/datasets/ab_project_marketing_events.csv — календарь маркетинговых событий на 2020 год</b>
    * name — название маркетингового события;
    * regions — регионы, в которых будет проводиться рекламная кампания;
    * start_dt — дата начала кампании;
    * finish_dt — дата завершения кампании.

<b>/datasets/final_ab_new_users.csv — все пользователи, зарегистрировавшиеся в интернет-магазине в период с 7 по 21 декабря 2020 года</b>
    * user_id — идентификатор пользователя;
    * first_date — дата регистрации;
    * region — регион пользователя;
    * device — устройство, с которого происходила регистрация.

<b>/datasets/final_ab_events.csv — все события новых пользователей в период с 7 декабря 2020 по 4 января 2021 года</b>
    * user_id — идентификатор пользователя;
    * event_dt — дата и время события;
    * event_name — тип события;
    * details — дополнительные данные о событии. Например, для покупок, purchase, в этом поле хранится стоимость покупки в долларах.

<b>/datasets/final_ab_participants.csv — таблица участников тестов</b>
    * user_id — идентификатор пользователя;
    * ab_test — название теста;
    * group — группа пользователя.

<a id='setup'></a>
# Установка библиотек #

In [1]:
!pip install --user plotly==5.8.0
!pip install --user plotly_express
## !pip install --user pandas-profiling

<a id='import'></a>
# Импорт библиотек #

In [47]:
import os
import warnings
import  pandas as pd
from IPython.core.display_functions import display
from scipy import stats as st
import plotly_express as px
import math as mth

pd.set_option('display.max_colwidth', None)
warnings.filterwarnings('ignore')

<a id='load'></a>
# Загрузка данных #

<a id='load_func'></a>
## Функция проверки путей к файлам данных ##

In [3]:
def get_path(filename):
    path_local = 'datasets/'
    path_server = '/datasets/'

    if os.path.exists(path=path_local): return path_local + filename
    elif os.path.exists(path=path_server): return path_server + filename
    else: print('Данные отсутствуют. Проверьте путь к папкам с данными')

In [4]:
marketing_events = pd.read_csv(filepath_or_buffer=get_path(filename='ab_project_marketing_events.csv'))
ab_events = pd.read_csv(filepath_or_buffer=get_path(filename='final_ab_events.csv'))
ab_new_user = pd.read_csv(filepath_or_buffer=get_path(filename='final_ab_new_users.csv'))
ab_participants = pd.read_csv(filepath_or_buffer=get_path(filename='final_ab_participants.csv'))

<a id='load_preview'></a>
## Первичный осмотр данных ##

In [5]:
display(marketing_events.head())
print(marketing_events.info())

Unnamed: 0,name,regions,start_dt,finish_dt
0,Christmas&New Year Promo,"EU, N.America",2020-12-25,2021-01-03
1,St. Valentine's Day Giveaway,"EU, CIS, APAC, N.America",2020-02-14,2020-02-16
2,St. Patric's Day Promo,"EU, N.America",2020-03-17,2020-03-19
3,Easter Promo,"EU, CIS, APAC, N.America",2020-04-12,2020-04-19
4,4th of July Promo,N.America,2020-07-04,2020-07-11


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 14 entries, 0 to 13
Data columns (total 4 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   name       14 non-null     object
 1   regions    14 non-null     object
 2   start_dt   14 non-null     object
 3   finish_dt  14 non-null     object
dtypes: object(4)
memory usage: 576.0+ bytes
None


In [6]:
display(ab_events.head())
print(ab_events.info())

Unnamed: 0,user_id,event_dt,event_name,details
0,E1BDDCE0DAFA2679,2020-12-07 20:22:03,purchase,99.99
1,7B6452F081F49504,2020-12-07 09:22:53,purchase,9.99
2,9CD9F34546DF254C,2020-12-07 12:59:29,purchase,4.99
3,96F27A054B191457,2020-12-07 04:02:40,purchase,4.99
4,1FD7660FDF94CA1F,2020-12-07 10:15:09,purchase,4.99


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 440317 entries, 0 to 440316
Data columns (total 4 columns):
 #   Column      Non-Null Count   Dtype  
---  ------      --------------   -----  
 0   user_id     440317 non-null  object 
 1   event_dt    440317 non-null  object 
 2   event_name  440317 non-null  object 
 3   details     62740 non-null   float64
dtypes: float64(1), object(3)
memory usage: 13.4+ MB
None


In [7]:
ab_events.details.unique()

array([ 99.99,   9.99,   4.99, 499.99,    nan])

In [8]:
display(ab_new_user.head())
print(ab_new_user.info())

Unnamed: 0,user_id,first_date,region,device
0,D72A72121175D8BE,2020-12-07,EU,PC
1,F1C668619DFE6E65,2020-12-07,N.America,Android
2,2E1BF1D4C37EA01F,2020-12-07,EU,PC
3,50734A22C0C63768,2020-12-07,EU,iPhone
4,E1BDDCE0DAFA2679,2020-12-07,N.America,iPhone


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 61733 entries, 0 to 61732
Data columns (total 4 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   user_id     61733 non-null  object
 1   first_date  61733 non-null  object
 2   region      61733 non-null  object
 3   device      61733 non-null  object
dtypes: object(4)
memory usage: 1.9+ MB
None


In [9]:
display(ab_participants.head())
print(ab_participants.info())

Unnamed: 0,user_id,group,ab_test
0,D1ABA3E2887B6A73,A,recommender_system_test
1,A7A3664BD6242119,A,recommender_system_test
2,DABC14FDDFADD29E,A,recommender_system_test
3,04988C5DF189632E,A,recommender_system_test
4,482F14783456D21B,B,recommender_system_test


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 18268 entries, 0 to 18267
Data columns (total 3 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   user_id  18268 non-null  object
 1   group    18268 non-null  object
 2   ab_test  18268 non-null  object
dtypes: object(3)
memory usage: 428.3+ KB
None


## Итоги предварительного осмотра данных ##
1. marketing_events:
    * start_dt - привести к типу datetime;
    * finish_dt - привести к типу datetime;
    * name - перевести значения в нижний регистр;
    * region - перевести значения в нижний регистр;
    * пропуски данных отсутсвуют;

2. ab_events:
    * user_id - перевести значения в нижний регистр;
    * event_dt - привести к типу datetime;
    * event_name - перевести значение в нижний регистр;
    * details - заменить пропуски на 0;
      Причина: из ТЗ - "дополнительные данные о событии". Заполняется опционально.

3. ab_new_user:
    * user_id - перевести значения в нижний регистр;
    * first_date - привести к типу datetime;
    * region - перевести значения в нижний регистр;
    * device - перевести значения в нижний регистр;
    * пропуски данных отсутсвуют;

4. ab_participants:
    * user_id - перевести значения в нижний регистр;
    * group_id - перевести значения в нижний регистр;
    * ab_test - перевести значения в нижний регистр;

<a id='prepare'></a>
# Предобработка данных #

<a id='prepare_types'></a>
## Приведение типов ##

In [10]:
marketing_events['start_dt'] = marketing_events['start_dt'].astype('datetime64')
marketing_events['finish_dt'] = marketing_events['finish_dt'].astype('datetime64')
ab_events['event_dt'] = ab_events['event_dt'].astype('datetime64')
ab_new_user['first_date'] = ab_new_user['first_date'].astype('datetime64')

print(marketing_events.info())
print(ab_events.info())
print(ab_new_user.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 14 entries, 0 to 13
Data columns (total 4 columns):
 #   Column     Non-Null Count  Dtype         
---  ------     --------------  -----         
 0   name       14 non-null     object        
 1   regions    14 non-null     object        
 2   start_dt   14 non-null     datetime64[ns]
 3   finish_dt  14 non-null     datetime64[ns]
dtypes: datetime64[ns](2), object(2)
memory usage: 576.0+ bytes
None
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 440317 entries, 0 to 440316
Data columns (total 4 columns):
 #   Column      Non-Null Count   Dtype         
---  ------      --------------   -----         
 0   user_id     440317 non-null  object        
 1   event_dt    440317 non-null  datetime64[ns]
 2   event_name  440317 non-null  object        
 3   details     62740 non-null   float64       
dtypes: datetime64[ns](1), float64(1), object(2)
memory usage: 13.4+ MB
None
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 61733 entries, 0

<a id='prepare_str'></a>
## Функция обработки строковых значений ##

In [11]:
def prepare_str(frame_name):
    for column in frame_name.columns:
        if frame_name.dtypes[column] == 'object':
            frame_name[column] = frame_name[column].str.strip().str.lower()

<a id='prepare_lower'></a>
## Перевод строковых значений в нижний регистр ##

In [12]:
prepare_str(frame_name=marketing_events)
prepare_str(frame_name=ab_events)
prepare_str(frame_name=ab_new_user)
prepare_str(frame_name=ab_participants)

<a id='prepare_nan'></a>
## Работа с пропусками ##

In [13]:
ab_events['details'] = ab_events['details'].fillna(0)
ab_events.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 440317 entries, 0 to 440316
Data columns (total 4 columns):
 #   Column      Non-Null Count   Dtype         
---  ------      --------------   -----         
 0   user_id     440317 non-null  object        
 1   event_dt    440317 non-null  datetime64[ns]
 2   event_name  440317 non-null  object        
 3   details     440317 non-null  float64       
dtypes: datetime64[ns](1), float64(1), object(2)
memory usage: 13.4+ MB


<a id='prepare_dubl'></a>
## Работа с дубликатами ##

In [14]:
print(marketing_events.duplicated().sum())
print(ab_events.duplicated().sum())
print(ab_new_user.duplicated().sum())
print(ab_participants.duplicated().sum())

0
0
0
0


## Итоги предобработки данных ##
1. приведены к типу datetime:
    * marketing_events['start_dt']
    * marketing_events['finish_dt']
    * ab_events['event_dt']
    * ab_new_user['first_date']

2. строковые значения переведены в нижний регистр
3. пропуски ab_events['details'] заменены на 0
4. дубликаты отсутствуют

<a id='correctness'></a>
# Оценка корректности проведения тестирования #

<a id='correctness_tz'></a>
## Соответствие требованиям ТЗ ##

### Условие: название теста: recommender_system_test +

In [15]:
ab_participants.query('ab_test == "recommender_system_test"').head()

Unnamed: 0,user_id,group,ab_test
0,d1aba3e2887b6a73,a,recommender_system_test
1,a7a3664bd6242119,a,recommender_system_test
2,dabc14fddfadd29e,a,recommender_system_test
3,04988c5df189632e,a,recommender_system_test
4,482f14783456d21b,b,recommender_system_test


### Условие: Группы: А (контрольная), B (новая платёжная воронка) +

In [16]:
ab_participants.query('ab_test == "recommender_system_test" and group.isin(["a","b"])').head()

Unnamed: 0,user_id,group,ab_test
0,d1aba3e2887b6a73,a,recommender_system_test
1,a7a3664bd6242119,a,recommender_system_test
2,dabc14fddfadd29e,a,recommender_system_test
3,04988c5df189632e,a,recommender_system_test
4,482f14783456d21b,b,recommender_system_test


### Условия:
### * дата запуска: 2020-12-07
### * дата остановки: 2021-01-04

In [17]:
task_test_users = pd.DataFrame(data=ab_participants.query('ab_test == "recommender_system_test"')['user_id'].unique(), columns=['user_id'])

ab_events.merge(task_test_users, on='user_id', how='inner').groupby(by='user_id')\
    .agg({'event_dt':'max',
          'event_dt':'min'})\
    .query('event_dt < "2020-12-07" and event_dt > "2021-01-04"')

Unnamed: 0_level_0,event_dt
user_id,Unnamed: 1_level_1


### Условие: дата остановки набора новых пользователей: 2020-12-21

In [18]:
ab_new_user.merge(task_test_users, on='user_id', how='inner').query('first_date > "2020-12-21"')

Unnamed: 0,user_id,first_date,region,device


### Условие: аудитория: 15% новых пользователей из региона EU

In [19]:
task_test_users.merge(ab_new_user, on='user_id').query('region == "eu"')['user_id'].nunique() / ab_new_user.query('region == "eu" and first_date <= "2020-12-21"')['user_id'].nunique() * 100

15.0

### Условие: ожидаемое количество участников теста: 6000

In [20]:
task_test_users['user_id'].nunique()

6701

<a id='correctness_date'></a>
## Время проведения теста ##

In [21]:
marketing_events.query('start_dt >= "2020-12-07" and finish_dt <= "2021-01-04"')

Unnamed: 0,name,regions,start_dt,finish_dt
0,christmas&new year promo,"eu, n.america",2020-12-25,2021-01-03


<a id='correctness_public'></a>
## Аудитория проведения теста ##

 Удостоверьтесь, что нет пересечений с конкурирующим тестом и нет пользователей, участвующих в двух группах теста одновременно.
Проверьте равномерность распределения пользователей по тестовым группам и правильность их формирования.

### Пересечение с другими тестами ###

In [22]:
display(ab_participants.query('user_id.isin(@task_test_users["user_id"]) and ab_test != "recommender_system_test"')['ab_test'].unique())
display(ab_participants.query('user_id.isin(@task_test_users["user_id"]) and ab_test != "interface_eu_test"')['group'].unique())

array(['interface_eu_test'], dtype=object)

array(['a', 'b'], dtype=object)

### Участие в обеих группах теста ###

In [23]:
group_a = ab_participants.query('ab_test == "recommender_system_test" and group == "a"')
group_b = ab_participants.query('ab_test == "recommender_system_test" and group == "b"')
group_a.merge(group_b, on='user_id')

Unnamed: 0,user_id,group_x,ab_test_x,group_y,ab_test_y


## Количество наблюдений ##

In [24]:
test_conditions_events = ab_events.query('user_id in @group_a["user_id"]')\
    .groupby(by='event_name', as_index=False)\
    .agg({'user_id':'count'})\
    .merge(ab_events.query('user_id in @group_b["user_id"]')\
           .groupby(by='event_name', as_index=False)\
           .agg({'user_id':'count'}),
           on='event_name', suffixes=['_a','_b']
)
test_conditions_events['part_a'] = test_conditions_events['user_id_a'] / (test_conditions_events['user_id_a'] + test_conditions_events['user_id_b']) * 100
test_conditions_events['part_b'] = test_conditions_events['user_id_b'] / (test_conditions_events['user_id_a'] + test_conditions_events['user_id_b']) * 100
test_conditions_events

Unnamed: 0,event_name,user_id_a,user_id_b,part_a,part_b
0,login,8566,2624,76.550492,23.449508
1,product_cart,2558,689,78.780413,21.219587
2,product_page,5525,1405,79.72583,20.27417
3,purchase,2655,676,79.705794,20.294206


## Результаты проверки представленных данных ##
1. Соответствие условиям ТЗ:
    * информация о тесте "recommender_system_test" в данных присутствует;
    * участники теста "recommender_system_test" разбиты на группы "а", "b";
    * события пользователей принимающих участие в тесте находятся в промежутке 2020-12-07 - 2021-01-04;
    * дата остановки набора новых пользователей <= 2020-12-21;
    * аудитория проведения тестирования из региона "eu" составляет 15% от общего кол-ва пользователей региона "eu";
    * ожидаемое количество участников теста: 6000 - не соответствует ТЗ;                            !!!
      Реальное количество участников теста 6701;

2. Время проведения теста:
    * в период проведения теста проходит маркетинговая акция "christmas&new year promo";            !!!
    * данная акция окажет влияние на результаты теста;

3. Аудитория проведение теста:
    * пользователи участвующие в тестировании, также принимают участие в тесте "interface_eu_test"; !!!
    * пересечение пользователей групп теста не зафиксировано;
    * распределение количества событий в группах почти 80/20;

4. Для расчета необходимого количества наблюдений и длительности тестирования необходимо:
    * значение базовой конверсии;

Нарушены следующие условия проведения тестирования:
    * ожидаемое количество участников теста: 6000;
    * в период проведения теста не проводятся маркетинговые акции;
    * в период проведения теста, участники теста не участвуют в другом тестировании и распределены в обе группы;
    * вероятно количество представленных наблюдений недостаточно для проведения корректного теста;
    * вероятно длительность тестирования недостаточна;

<a id='research'></a>
# Исследовательский анализ данных #

<a id='research_events_dispersion'></a>
## Одинаковость распределения количества событий пользователей в группах ##
$H_0:$ количество событий пользователей, в группах, распределены одинаково
$H_1:$ количество событий пользователей, в группах, распределены неодинаково

In [27]:
interest_events = ['product_page','product_cart','purchase']

group_a_events = ab_events.query('event_name.isin(@interest_events)')\
                    .merge(ab_participants.query('ab_test == "recommender_system_test" and group == "a"'), on='user_id')\
                    .groupby(by=['user_id', 'event_name', 'group'], as_index=False)\
                    .agg({'group':'count'})\
                    .rename(columns = {'group':'events_count'})

group_b_events = ab_events.query('event_name.isin(@interest_events)')\
                    .merge(ab_participants.query('ab_test == "recommender_system_test" and group == "b"'), on='user_id')\
                    .groupby(by=['user_id', 'event_name', 'group'], as_index=False)\
                    .agg({'group':'count'})\
                    .rename(columns = {'group':'events_count'})

### Проверка гипотезы о равенстве дисперсий ###

In [28]:
alpha = 0.05
result = st.fligner(group_a_events['events_count'], group_b_events['events_count'])

print(f'Значение p_value: {result.pvalue :.2%}')

if result.pvalue < alpha:
    print('Отвергаем нулевую гипотезу: распределение неодинаково')
else:
    print('Не получилось отвергнуть нулевую гипотезу, распределение одинаково')

Значение p_value: 0.33%
Отвергаем нулевую гипотезу: распределение неодинаково


### Проверка гипотезы о равенстве средних значений ###

In [29]:
alpha = 0.05
result = st.ttest_ind(a=group_a_events['events_count'], b=group_b_events['events_count'])

print(f'Значение p_value: {result.pvalue :.2%}')

if result.pvalue < alpha:
    print('Отвергаем нулевую гипотезу: распределение неодинаково')
else:
    print('Не получилось отвергнуть нулевую гипотезу, распределение одинаково')

Значение p_value: 0.00%
Отвергаем нулевую гипотезу: распределение неодинаково


<a id='research_events_days'></a>
## Распределение событий по дням ##

In [30]:
ab_events['date'] = ab_events['event_dt'].dt.date
ab_events_by_day = ab_events.query('event_name.isin(@interest_events)')\
                                    .merge(ab_participants.query('ab_test == "recommender_system_test"'), on='user_id')\
                                    .groupby(by=['event_name', 'date', 'group'], as_index=False)\
                                    .agg({'user_id':'count'})\
                                    .rename(columns = {'user_id':'events_count'})

Unnamed: 0,event_name,date,group,events_count
0,product_cart,2020-12-07,a,35
1,product_cart,2020-12-07,b,46
2,product_cart,2020-12-08,a,37
3,product_cart,2020-12-08,b,34
4,product_cart,2020-12-09,a,50
...,...,...,...,...
135,purchase,2020-12-27,b,19
136,purchase,2020-12-28,a,71
137,purchase,2020-12-28,b,10
138,purchase,2020-12-29,a,44


In [37]:
fig = px.bar(data_frame=ab_events_by_day.groupby(by=['date', 'group'], as_index=False)\
                                .agg({'events_count':'sum'})\
                                .sort_values(by='date'),
             x='date',
             y='events_count',
             color='group',
             template='seaborn',
             title='Распределение количества событий по дням',
             labels={'events_count':'Кол-во событий',
                     'date':'Дата',
                     'group':'Группа'})
fig.show()

<a id='research_distribution_test_func'></a>
### Функция проверки нормальности распределения данных ###
$H_0:$ Количество событий по дням, в группах, распределены нормально.
$H_1:$ Количество событий по дням, в группах, распределены ненормально.

In [44]:
def normal_ditribution(data):
    alpha = 0.05
    result = st.shapiro(x=data)

    print(f'Значение p_value: {result.pvalue :.2%}')

    if result.pvalue < alpha:
        print('Отвергаем нулевую гипотезу: распределение не нормально')
    else:
        print('Не получилось отвергнуть нулевую гипотезу, всё нормально')

In [45]:
ab_events_by_day_a = ab_events_by_day.query('group == "a"')\
    .groupby(by=['date', 'group'], as_index=False)\
    .agg({'events_count':'sum'})\
    .sort_values(by='date')
normal_ditribution(data=ab_events_by_day_a['events_count'])

ab_events_by_day_b = ab_events_by_day.query('group == "b"')\
    .groupby(by=['date', 'group'], as_index=False)\
    .agg({'events_count':'sum'})\
    .sort_values(by='date')
normal_ditribution(data=ab_events_by_day_b['events_count'])

Значение p_value: 2.32%
Отвергаем нулевую гипотезу: распределение не нормально
Значение p_value: 73.69%
Не получилось отвергнуть нулевую гипотезу, всё нормально


<a id='research_conversion'></a>
## Конверсия групп ##

In [32]:
events_funnel = ab_events.query('event_name.isin(@interest_events)')\
                    .merge(ab_participants.query('ab_test == "recommender_system_test"'), on='user_id')\
                    .groupby(by=['event_name', 'group'], as_index=False)\
                    .agg({'user_id':'count'})\
                    .rename(columns = {'user_id':'events_count'})\
                    .reindex([2,3,0,1,4,5])

In [33]:
fig = px.funnel(data_frame=events_funnel,
                y='event_name',
                x='events_count',
                color='group',
                template='seaborn',
                title='Конверсия групп',
                labels={'event_name':'Событие',
                        'group':'Группа'})

fig.update_traces(textinfo='value+percent previous', selector=dict(type='funnel'))
fig.show()

## Итоги исследовательского анализа данных ##
1. количество событий пользователей в группах распределены неодинаково;
2. количество событий пользователей группы А, по дням, распределено ненормально
3. количество событий пользователей группы B, по дням, распределено нормально
4. в группе А конверсия покупок превысила 100%
5. в группе B конверсия покупок составила 98%

<a id='ab_test'></a>
# Оценка результатов A\B тестирования #

<a id='ab_test_parts_diff'></a>
## Проверка статистической разницы долей ##

<a id='ab_test_parts_func'></a>
### Функция проверки равенства долей событий ###
$H_0:$ доли событий групп "А" и "B" не равны.
$H_1:$ доли событий групп "А" и "B" равны.

In [74]:
def part_diff(group_1, group_2):
    alpha = 0.05
    total_1 = group_1['total'][0]
    total_2 = group_2['total'][0]

    group_1 = group_1.drop(columns=['total'])
    group_2 = group_2.drop(columns=['total'])

    for column in group_1.columns:
        p1 = group_1[column][0] / total_1
        p2 = group_2[column][0] / total_2

        p_combined = (group_1[column][0] + group_2[column][0])/(total_1 + total_2)
        diff = p1 - p2

        z_value = diff / mth.sqrt(p_combined * (1 - p_combined) * (1/total_1 + 1/total_2))

        distr = st.norm(0, 1)

        p_value = (1 - distr.cdf(abs(z_value))) * 2

        if p_value < alpha:
            print(f'Для групп A и B отвергаем нулевую гипотезу - доли событий {column} НЕ РАВНЫ. P_value: {p_value :.2%}')
        else:
            print(f'Для групп A и B не получилось отвергнуть нулевую гипотезу - доли событий {column} РАВНЫ. P_value: {p_value :.2%}')

In [75]:
group_a_events_parts = ab_events_by_day.query('group == "a"')\
                            .groupby(by='event_name')\
                            .agg({'events_count': 'sum'}).T
group_a_events_parts['total'] = group_a_events_parts['product_cart'] + group_a_events_parts['product_page'] +  group_a_events_parts['purchase']

group_b_events_parts = ab_events_by_day.query('group == "b"')\
                            .groupby(by='event_name')\
                            .agg({'events_count': 'sum'}).T
group_b_events_parts['total'] = group_b_events_parts['product_cart'] + group_b_events_parts['product_page'] +  group_b_events_parts['purchase']
part_diff(group_a_events_parts, group_b_events_parts)

Для групп A и B не получилось отвергнуть нулевую гипотезу - доли событий product_cart РАВНЫ. P_value: 24.81%
Для групп A и B не получилось отвергнуть нулевую гипотезу - доли событий product_page РАВНЫ. P_value: 49.27%
Для групп A и B не получилось отвергнуть нулевую гипотезу - доли событий purchase РАВНЫ. P_value: 72.68%


<a id='summary'></a>
# Вывод #
Нарушены следующие условия проведения тестирования:
    * в период проведения теста не проводились маркетинговые акции;
    * в период проведения теста, участники теста не участвуют в другом тестировании;
    * вероятно количество представленных наблюдений недостаточно для проведения корректного теста;
    * вероятно длительность тестирования недостаточна;
    * количество событий пользователей в группах распределены неодинаково;
    * количество событий пользователей группы А, по дням, распределено ненормально
    * количество событий пользователей группы B, по дням, распределено нормально

Результаты тестирования:
    * Для групп A и B не получилось отвергнуть нулевую гипотезу - доли событий product_cart РАВНЫ.
    * Для групп A и B не получилось отвергнуть нулевую гипотезу - доли событий product_page РАВНЫ.
    * Для групп A и B не получилось отвергнуть нулевую гипотезу - доли событий purchase РАВНЫ.

Проведение тестирования:
    * тестирование проведено некорректно.
    * опираться на результаты тестирования НЕЛЬЗЯ.
