# Проведение и анализ результатов A/B-тестирования

**Цель исследования**   

Проанализировать результаты А/В-тестирования и составить рекомендации для увеличения выручки интернет-магазина. 

**Ход исследования**    





## Обзор данных

### Описание данных 

Подгружаем необходимые для работы библиотеки.

In [101]:
import pandas as pd
import os

Загружаем данные в датафреймы

**Tаблица участников тестов**
   
      
- `user_id` — идентификатор пользователя;
- `ab_test` — название теста;
- `group` — группа пользователя.     

In [102]:
final_ab_participants_path1 = 'final_ab_participants.csv'
final_ab_participants_path2 = '/datasets/final_ab_participants.csv'

if os.path.exists(final_ab_participants_path1):
    final_ab_participants = pd.read_csv(final_ab_participants_path1)
elif os.path.exists(final_ab_participants_path2):
    final_ab_participants = pd.read_csv(final_ab_participants_path2)
else:
    print('Wrong file path')

display(final_ab_participants.sample(10))
display(final_ab_participants.info())

Unnamed: 0,user_id,group,ab_test
4560,99931A66B4B8B4CF,A,recommender_system_test
15695,0313C457F07C339E,A,interface_eu_test
15438,F7268316128D33E5,A,interface_eu_test
3183,78CE39387962B153,A,recommender_system_test
5759,F7F9C521946845CE,B,recommender_system_test
16040,02DA046DE2CDD811,A,interface_eu_test
10761,C0ED8DB8F8906BC9,B,interface_eu_test
4344,D0ECAB9DA4FE2E00,A,recommender_system_test
6108,D5D10F1F92A87A1A,B,recommender_system_test
8704,AFFC4117AC279D49,B,interface_eu_test


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 18268 entries, 0 to 18267
Data columns (total 3 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   user_id  18268 non-null  object
 1   group    18268 non-null  object
 2   ab_test  18268 non-null  object
dtypes: object(3)
memory usage: 428.3+ KB


None

В таблице содержатся данные не только о пользователях, участвоваших в интересующем нас А/В тесте. Нужно будет отфильтровать лишние данные.

**Новые пользователи**     
    
Зарегистрировавшиеся с 7 по 21 декабря 2020 года.   
   
      
      
- `user_id` — идентификатор пользователя;
- `first_date` — дата регистрации;
- `region` — регион пользователя;
- `device` — устройство, с которого происходила регистрация.

In [3]:
final_ab_new_users_path1 = 'final_ab_new_users.csv'
final_ab_new_users_path2 = '/datasets/final_ab_new_users.csv'

if os.path.exists(final_ab_new_users_path1):
    final_ab_new_users = pd.read_csv(final_ab_new_users_path1)
elif os.path.final_ab_new_users(final_ab_new_users_path2):
    final_ab_participants = pd.read_csv(final_ab_new_users_path2)
else:
    print('Wrong file path')

final_ab_new_users = pd.read_csv('final_ab_new_users.csv')
display(final_ab_new_users.sample(10))
display(final_ab_new_users.info())

Unnamed: 0,user_id,first_date,region,device
36273,9A6A78BF03A0ABBE,2020-12-10,EU,Mac
6349,4A93FCB6FB260CCC,2020-12-14,EU,iPhone
29792,D3B476223ABCA0DF,2020-12-16,EU,Android
37477,06BE7D81C8AB6530,2020-12-17,EU,Mac
7913,479E6D6A1693C32E,2020-12-14,EU,iPhone
14004,BA265A075A50AB26,2020-12-21,EU,Mac
38036,6704C5B603751145,2020-12-17,CIS,PC
40557,90F275E48FD7C693,2020-12-11,APAC,Android
35187,AD137552F1FAE59D,2020-12-10,EU,Android
7121,FFC2CFB58A63BE68,2020-12-14,EU,iPhone


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 61733 entries, 0 to 61732
Data columns (total 4 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   user_id     61733 non-null  object
 1   first_date  61733 non-null  object
 2   region      61733 non-null  object
 3   device      61733 non-null  object
dtypes: object(4)
memory usage: 1.9+ MB


None

То же самое и здесь, в таблице содержатся данные о пользователях не только из нужного для исследования региона.

**Действия новых пользователей**  
   
В период с 7 декабря 2020 по 4 января 2021 года.   
    
- `user_id` — идентификатор пользователя;
- `event_dt` — дата и время покупки;
- `event_name` — тип события;
- `details` — дополнительные данные о событии. Например, для покупок, `purchase,` в этом поле хранится стоимость покупки в долларах.

In [9]:
final_ab_events = pd.read_csv('final_ab_events.csv')
display(final_ab_events.sample(10))
display(final_ab_events.info())

Unnamed: 0,user_id,event_dt,event_name,details
118412,4A1EB7F4B0355A8F,2020-12-26 00:25:12,product_cart,
144591,ADBA041F9AD515FB,2020-12-12 22:53:42,product_page,
434342,A0B9172C6816687D,2020-12-28 20:04:50,login,
60708,371F6F0F9481976D,2020-12-28 05:53:54,purchase,4.99
242306,DEF83DEA825E3E27,2020-12-27 15:46:32,product_page,
70543,55740BFAADBAC48C,2020-12-11 17:01:59,product_cart,
28287,6EEB1BCFE0FAFE50,2020-12-18 14:45:37,purchase,9.99
359814,D990FDCE9E55D39C,2020-12-20 21:08:33,login,
267286,48592DF295545AC6,2020-12-10 14:32:47,login,
147513,21A4770BA49E0FF7,2020-12-12 15:41:43,product_page,


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 440317 entries, 0 to 440316
Data columns (total 4 columns):
 #   Column      Non-Null Count   Dtype  
---  ------      --------------   -----  
 0   user_id     440317 non-null  object 
 1   event_dt    440317 non-null  object 
 2   event_name  440317 non-null  object 
 3   details     62740 non-null   float64
dtypes: float64(1), object(3)
memory usage: 13.4+ MB


None

**Календарь маркетинговых событий на 2020 год**    
    
- `name` — название маркетингового события;
- `regions` — регионы, в которых будет проводиться рекламная кампания;
- `start_dt` — дата начала кампании;
- `finish_dt` — дата завершения кампании.    

In [62]:
ab_project_marketing_events = pd.read_csv('ab_project_marketing_events.csv')
display(ab_project_marketing_events.sample(10))
display(ab_project_marketing_events.info())

Unnamed: 0,name,regions,start_dt,finish_dt
0,Christmas&New Year Promo,"EU, N.America",2020-12-25,2021-01-03
10,CIS New Year Gift Lottery,CIS,2020-12-30,2021-01-07
4,4th of July Promo,N.America,2020-07-04,2020-07-11
7,Labor day (May 1st) Ads Campaign,"EU, CIS, APAC",2020-05-01,2020-05-03
12,Single's Day Gift Promo,APAC,2020-11-11,2020-11-12
6,Chinese New Year Promo,APAC,2020-01-25,2020-02-07
11,Dragon Boat Festival Giveaway,APAC,2020-06-25,2020-07-01
5,Black Friday Ads Campaign,"EU, CIS, APAC, N.America",2020-11-26,2020-12-01
1,St. Valentine's Day Giveaway,"EU, CIS, APAC, N.America",2020-02-14,2020-02-16
8,International Women's Day Promo,"EU, CIS, APAC",2020-03-08,2020-03-10


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 14 entries, 0 to 13
Data columns (total 4 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   name       14 non-null     object
 1   regions    14 non-null     object
 2   start_dt   14 non-null     object
 3   finish_dt  14 non-null     object
dtypes: object(4)
memory usage: 576.0+ bytes


None

### Предварительный анализ данных

#### Участники теста

In [35]:
print('Rоличество уникальных пользователей: ',  final_ab_participants\
      .loc[final_ab_participants\
      .ab_test == 'recommender_system_test']['user_id']\
      .nunique())
print('')
print('Количество тестовых групп:',  final_ab_participants.\
        loc[final_ab_participants.ab_test == 'recommender_system_test']['group']\
        .nunique())
print('')
print('Тестовые группы:', final_ab_participants.\
        loc[final_ab_participants.ab_test == 'recommender_system_test']['group']\
        .unique().tolist())
print('')
print('Количество пользователей в тестовоых группах:')
print( final_ab_participants.\
        loc[final_ab_participants.ab_test == 'recommender_system_test'][['user_id','group']]\
        .groupby('group').nunique())
print('')


Rоличество уникальных пользователей:  6701

Количество тестовых групп: 2

Тестовые группы: ['A', 'B']

Количество пользователей в тестовоых группах:
       user_id
group         
A         3824
B         2877



#### Зарегистрировавшиеся пользователи

In [50]:
users=(final_ab_participants
      .loc[final_ab_participants
      .ab_test == 'recommender_system_test']
      ['user_id']
      )
 
print('Rоличество уникальных пользователей: ',  
      final_ab_new_users.query("user_id in @users and region == 'EU'")
      ['user_id']
      .nunique()
     )

print('')
print('Виды девайсов:', 
      final_ab_new_users
      .query("user_id in @users and region == 'EU'")
      ['device']
      .unique()
     )

print('')
print('Начало регистраций:', 
      final_ab_new_users
      .query("user_id in @users and region == 'EU'")
      ['first_date'].min()
     )
        
print('')
print('Конец регистраций:', 
      final_ab_new_users
      .query("user_id in @users and region == 'EU'")
      ['first_date'].max()
     )

Rоличество уникальных пользователей:  6351

Виды девайсов: ['PC' 'Android' 'iPhone' 'Mac']

Начало регистраций: 2020-12-07

Конец регистраций: 2020-12-21


Пользователей оказалось меньше, чем в писке участников теста. Возможно, в список участников теста попали в том числе пользователи, зарегистрировавшиеся после остановки набора новых польователей.

#### Действия участников теста

In [79]:
final_ab_events['event_dt'] = final_ab_events['event_dt'].astype('datetime64[ns]')

print('')
print('Событий в период А/В теста:',
   final_ab_events.query("('2020-12-07'< event_dt < '2020-12-21') and user_id in @users ").shape[0]
      )

print('')
print('Виды событий:',
   final_ab_events.query("('2020-12-07'< event_dt < '2020-12-21') and user_id in @users ")
      ['event_name'].unique()
      )

print('')
print('Пользователей:',
   final_ab_events.query("('2020-12-07'< event_dt < '2020-12-21') and user_id in @users ")
      ['user_id'].nunique()
      )


Событий в период А/В теста: 15180

Виды событий: ['purchase' 'product_cart' 'product_page' 'login']

Пользователей: 3165


Здесь пользователей стало еще меньше. Далеко не все зарегистрировавшиеся заходили на сайт и совершали покупки.

#### Рекламные кампании

In [99]:
ab_project_marketing_events['start_dt'] = ab_project_marketing_events['start_dt'].astype('datetime64[ns]')
ab_project_marketing_events['finish_dt'] = ab_project_marketing_events['finish_dt'].astype('datetime64[ns]')

print('')
print('Рекламные кампании в период регистрации новых пользователей:',
       ab_project_marketing_events.loc[ab_project_marketing_events.
       regions.str.contains('EU')]
       .query(" ('2020-12-07'< start_dt < '2020-12-21') and  ('2020-12-07'< finish_dt < '2020-12-21') ").shape[0]
     )

print('')
print('Рекламные кампании в период проведения аб теста:', 
      ab_project_marketing_events.loc[ab_project_marketing_events.
       regions.str.contains('EU')]
       .query(" ('2020-12-07'< start_dt < '2021-01-04') and  ('2020-12-07'< finish_dt < '2021-01-04') ").shape[0]
     )
display(ab_project_marketing_events
  .loc[ab_project_marketing_events.regions.str.contains('EU')]
  .query(" ('2020-12-07'< start_dt < '2021-01-04') and  ('2020-12-07'< finish_dt < '2021-01-04') ")
        )


Рекламные кампании в период регистрации новых пользователей: 0

Рекламные кампании в период проведения аб теста: 1


Unnamed: 0,name,regions,start_dt,finish_dt
0,Christmas&New Year Promo,"EU, N.America",2020-12-25,2021-01-03


Во время привлечения новых пользователей рекламные кампании не проводились. Но после набора пользователей, во время проведения тестирования, была одна Новогодняя промо-кампания.

### Вывод


## Предобработка данных

### Обработка пропусков

### Изменение типов данных

### Проверка данных на аномалии

### Обработка дубликатов

### Формирование дополнительных датафреймов 