Представьте, что вас срочно вызвали на новый проект, так что теперь вы — дата-сайентист в туристической фирме.

Компания планирует запустить новую акцию, чтобы продать как можно больше туров. 

Команда разработала два варианта посадочной страницы официального сайта компании и провела A/B-тестирование. 

В результате проведения эксперимента собраны данные, которые можно скачать ниже.

Вам предстоит решить настоящую бизнес-задачу:

проанализировать эффективность обоих вариантов посадочной страницы сразу по двум критериям:

конверсии покупки и среднему чеку. 


На основе проведённого анализа необходимо сделать выводы и принять решение: 

какой из вариантов дизайна более предпочтительный.

Итак, наша фирма предлагает следующие варианты туров и их соответствующие стоимости:

Таиланд — 100 000 рублей;

Турция — 60 000 рублей;

Мальдивы — 200 000 рублей;

Санкт-Петербург — 10 000 рублей;

Камчатка — 150 000 рублей.

→ Вам предстоит подготовить мини-отчёт о проделанной работе в виде Jupiter Notebook, который вы предоставите ментору для проверки. Отчёт должен содержать ответы на приведённые ниже вопросы и, там где это необходимо, выводы по результатам.

→ Для визуализации вы можете использовать любую из изученных в модуле по визуализации библиотеку.

→ Советуем вам воспользоваться ноутбуком-шаблоном для оформления своего решения.

In [6]:
# для автозагрузки изменений в модулях без необходимости перезагрузки kelner
%load_ext autoreload
%autoreload 2


# необходимо для корректного импорта своих модулей в JupyterLab
import sys
current_dir = sys.path[0]
project_dir = 'SF_DS_Pro'
last_position = current_dir.find(project_dir) + len(project_dir)
project_path = current_dir[:last_position]
sys.path.append(project_path)


%matplotlib inline
import matplotlib.pyplot as plt # библиотека визуализации
import seaborn as sns
# sns.set_style('whitegrid')
plt.style.use('ggplot')
sns.set(rc={'figure.figsize':(10, 8)})


import warnings
warnings.filterwarnings('ignore')


from IPython.core.display import HTML
HTML("""
<style>
.p-Widget.jp-OutputPrompt.jp-OutputArea-prompt:empty {
  padding: 0;
  border: 0;
}
</style>
""")

The autoreload extension is already loaded. To reload it, use:
  %reload_ext autoreload


In [7]:
import pandas as pd

In [8]:
data = pd.read_csv('data/ab_data_tourist.zip')
data.head()

Unnamed: 0,user_id,date,group,purchase,price
0,851104,2021-01-21,A,0,0
1,804228,2021-01-12,A,0,0
2,661590,2021-01-11,B,0,0
3,853541,2021-01-08,B,0,0
4,864975,2021-01-21,A,1,150000


In [9]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 294478 entries, 0 to 294477
Data columns (total 5 columns):
 #   Column    Non-Null Count   Dtype 
---  ------    --------------   ----- 
 0   user_id   294478 non-null  int64 
 1   date      294478 non-null  object
 2   group     294478 non-null  object
 3   purchase  294478 non-null  int64 
 4   price     294478 non-null  int64 
dtypes: int64(3), object(2)
memory usage: 11.2+ MB


In [11]:
# Конвертирую типы
data['date'] = pd.to_datetime(data['date'])
data = data.convert_dtypes()

Провожу анализ данных. Первоначальные мысли что когда в purchase 1 тро прошло оформление сделки и тогда в price цена тура, а не ноль.

In [14]:
data[data['price'] > 0]

Unnamed: 0,user_id,date,group,purchase,price
4,864975,2021-01-21,A,1,150000
6,679687,2021-01-19,B,1,10000
8,817355,2021-01-04,B,1,60000
9,839785,2021-01-15,B,1,10000
15,644214,2021-01-22,A,1,100000
...,...,...,...,...,...
294396,838593,2021-01-15,B,1,150000
294405,712217,2021-01-11,A,1,60000
294420,795742,2021-01-09,A,1,60000
294430,733871,2021-01-21,B,1,100000


In [15]:
data[data['purchase'] == 1]

Unnamed: 0,user_id,date,group,purchase,price
4,864975,2021-01-21,A,1,150000
6,679687,2021-01-19,B,1,10000
8,817355,2021-01-04,B,1,60000
9,839785,2021-01-15,B,1,10000
15,644214,2021-01-22,A,1,100000
...,...,...,...,...,...
294396,838593,2021-01-15,B,1,150000
294405,712217,2021-01-11,A,1,60000
294420,795742,2021-01-09,A,1,60000
294430,733871,2021-01-21,B,1,100000


In [16]:
data[(data['price'] > 0) & (data['purchase'] == 1)]

Unnamed: 0,user_id,date,group,purchase,price
4,864975,2021-01-21,A,1,150000
6,679687,2021-01-19,B,1,10000
8,817355,2021-01-04,B,1,60000
9,839785,2021-01-15,B,1,10000
15,644214,2021-01-22,A,1,100000
...,...,...,...,...,...
294396,838593,2021-01-15,B,1,150000
294405,712217,2021-01-11,A,1,60000
294420,795742,2021-01-09,A,1,60000
294430,733871,2021-01-21,B,1,100000


In [22]:
# Исследную данные, вижу что по дате что данные собраны с 2 по 24 января, но в датафырейме данные не отсортированы.
data.describe(datetime_is_numeric=True)

Unnamed: 0,user_id,date,purchase,price
count,294478.0,294478,294478.0,294478.0
mean,787974.124733,2021-01-13 01:39:48.011328,0.119659,10154.782361
min,630000.0,2021-01-02 00:00:00,0.0,0.0
25%,709032.25,2021-01-08 00:00:00,0.0,0.0
50%,787933.5,2021-01-13 00:00:00,0.0,0.0
75%,866911.75,2021-01-19 00:00:00,0.0,0.0
max,945999.0,2021-01-24 00:00:00,1.0,200000.0
std,91210.823776,,0.324563,35153.824872


In [24]:
data.sort_values('date', inplace=True)

Видно что в случае всех трех фильтров размер выборки совпадает, значит мои первоначальные идеи подтвердились.

Проверяю насколько равномерное разделение в группах

In [26]:
data[data['group'] == 'A']

Unnamed: 0,user_id,date,group,purchase,price
272484,659091,2021-01-02,A,0,0
10854,810044,2021-01-02,A,0,0
281101,638214,2021-01-02,A,0,0
173779,934736,2021-01-02,A,0,0
173777,632934,2021-01-02,A,0,0
...,...,...,...,...,...
42091,820275,2021-01-24,A,0,0
216259,918619,2021-01-24,A,0,0
239271,881686,2021-01-24,A,0,0
143992,907259,2021-01-24,A,1,60000


In [27]:
data[data['group'] == 'A']

Unnamed: 0,user_id,date,group,purchase,price
272484,659091,2021-01-02,A,0,0
10854,810044,2021-01-02,A,0,0
281101,638214,2021-01-02,A,0,0
173779,934736,2021-01-02,A,0,0
173777,632934,2021-01-02,A,0,0
...,...,...,...,...,...
42091,820275,2021-01-24,A,0,0
216259,918619,2021-01-24,A,0,0
239271,881686,2021-01-24,A,0,0
143992,907259,2021-01-24,A,1,60000


Вижу что данные разделены по группам ровно по полам. Группы максимально сбалансированны.

In [None]:
data