# A/B тест маркетинговоой компании

Маркетинговые компании хотят проводить успешные кампании, но рынок сложен, и могут подойти несколько вариантов. Поэтому обычно они настраивают A/B-тесты, то есть рандомизированный процесс экспериментирования, в котором две или более версии переменной (веб-страница, элемент страницы, баннер и т. д.) одновременно показываются разным сегментам людей, чтобы определить, какая версия оказывает максимальное влияние и улучшает бизнес-показатели.
  
Компании заинтересованы в ответе на два вопроса:
- Будет ли кампания успешной?
- Если кампания окажется успешной, какая часть этого успеха может быть связана с рекламой?

В данном эксперименте посетители сайта были разделены на 2 группы:   
**the experimental group** - видели обычную рекламу,  
**the control group** - видели социальную рекламу или ничего в том месте, где обычно находится реклама.  

**Цель данного исследования:**  
    роанализировать группы, выяснить, была ли реклама успешной, сколько компания может заработать на ней и является ли разница между группами статистически значимой.

## Загрузка данных и подготовка к анализу

### Загрузка библиотек

In [19]:
import pandas as pd
import re
import matplotlib.pyplot as plt
import datetime as dt
import seaborn as sns
import numpy as np
import warnings

Уберем ограничение по выводу строк, колонок и символов в записи и включаем игнорирование ошибок Jupiter.

In [14]:
# Сброс ограничений на количество выводимых рядов
pd.set_option('display.max_rows', None)
 
# Сброс ограничений на число столбцов
pd.set_option('display.max_columns', None)
 
# Сброс ограничений на количество символов в записи
pd.set_option('display.max_colwidth', None)

#Игнорируем предупреждения Jupiter
warnings.filterwarnings('ignore')

Прописываем темы визуализации.

In [15]:
sns.set_style('darkgrid')
plt.style.use('ggplot')

### Загрузка данных

Команда для загрузки датасета из Kaggle.

In [2]:
#kaggle datasets download -d faviovaz/marketing-ab-testing

Описание датасета

In [None]:
#https://www.kaggle.com/datasets/faviovaz/marketing-ab-testing

Запишем датафреймм marketing_AB.csv в датасет df.

In [11]:
df = pd.read_csv('downloads/marketing_AB.csv', index_col=0)

In [12]:
print(df.info())
display(df.head())

<class 'pandas.core.frame.DataFrame'>
Index: 588101 entries, 0 to 588100
Data columns (total 6 columns):
 #   Column         Non-Null Count   Dtype 
---  ------         --------------   ----- 
 0   user id        588101 non-null  int64 
 1   test group     588101 non-null  object
 2   converted      588101 non-null  bool  
 3   total ads      588101 non-null  int64 
 4   most ads day   588101 non-null  object
 5   most ads hour  588101 non-null  int64 
dtypes: bool(1), int64(3), object(2)
memory usage: 27.5+ MB
None


Unnamed: 0,user id,test group,converted,total ads,most ads day,most ads hour
0,1069124,ad,False,130,Monday,20
1,1119715,ad,False,93,Tuesday,22
2,1144181,ad,False,21,Tuesday,18
3,1435133,ad,False,355,Tuesday,10
4,1015700,ad,False,276,Friday,14


В нашем распоряжении датафрейм из 6 колонок и 588100 строк.  
- `user id` - id пользователя (уникальные),
- `test group` - группа тестирования: "ad" если пользователь видел рекламу, "psa" пользователь видел социальное объявление,
- `converted`- True - если пользователь купил продукт, False - если не купил,
- `total ads` - количество рекламы, которую видел пользователь,
- `most ads day` - день, когда пользователь видел наибольшее количество рекламы,
- `most ads hour` - время (час), когда пользователь видел наибольшее количество рекламы.


Сохраним данные о размере датафрейма в перем енную start_shape.

In [16]:
start_shape = df.shape

### Предобработка данных

#### Переименование столбцов

Приведем название столбцов к "змеиному регистру".

In [29]:
# сохраним название колонок в переменную
df_columns_old = df.columns

# заменим пробелы в названиях на технический пробел
df_columns_new = [re.sub(' ', '_',  i) for i in df_columns_old]

# подготовим словарь, где каждому старому названию будет новое
change_col_dict = {k:v for k, v in zip(df_columns_old, df_columns_new)}

# изменим название колонок
df = df.rename(columns=change_col_dict)

#  проверим, что названия изменились
print(df.columns)

Index(['user_id', 'test_group', 'converted', 'total_ads', 'most_ads_day',
       'most_ads_hour'],
      dtype='object')
