## Задание

Мы - онлайн магазин спортивных товаров: одежды, обуви, аксессуаров и спорт-питания. На главной странице магазина мы показываем пользователям баннеры с целью стимулирования своих продаж. Сейчас там случайно показывается один из 5 баннеров. Каждый баннер рекламирует конкретный продукт или всю компанию. Наши маркетологи считают, что опыт взаимодействия с баннерами может различаться по сегментам, а их эффективность - зависеть от особенностей пользовательского поведения.

У менеджера компании появилось предложение от партнеров продать это место для баннера и рекламировать там другой сервис (оплата предполагается по CPC-модели).

Помогите менеджеру принять решение.
Данные доступны по ссылке: https://yadi.sk/d/12cdc3yym8NksQ

### Подключение библиотек и скриптов

In [1]:
import pandas as pd
import numpy as np

import matplotlib
import matplotlib.image as img
import matplotlib.pyplot as plt
import seaborn as sns


%matplotlib inline
%config InlineBackend.figure_format = 'png'

In [2]:
plt.style.use('seaborn-bright')
plt.rcParams['figure.figsize'] = (6, 4)
matplotlib.rcParams.update({'font.size': 14})
#plt.style.available

In [3]:
pd.set_option('display.float_format', lambda x: '%.2f' % x)
pd.set_option('display.max_rows', 50)

In [4]:
import warnings
warnings.filterwarnings('ignore')
warnings.simplefilter('ignore')

#### Пути к директориям и файлам

In [5]:
DATASET_PATH = '../test_data/ha_data.csv'

### Загрузка данных

Описание датасета: У вас есть информация о том, какой баннер показался пользователю, кликнул ли он на него, а так же информация о покупках пользователей.

∙ **title** - тип события (показ, клик или покупка)  
∙ **user** - уникальный идентификатор клиента  
∙ **product** - продукт баннера/покупки  
∙ **page_id** - уникальный номер страницы для связки событий (NA для покупок)  
∙ **order_id** - уникальный номер покупки (NA для кликов и показов баннера)  
∙ **time** - время совершения действия  
∙ **site_version** - версия сайта (мобильная или десктопная)  

In [6]:
df = pd.read_csv(DATASET_PATH, sep=';')
df.head()

FileNotFoundError: [Errno 2] No such file or directory: '../test_data/ha_data.csv'

### Приведение типов

**id**

Добавляем индекс, чтобы в будущем мы могли по нему обращаться к данным

In [None]:
df['id'] = df.index.tolist()
df.set_index('id', inplace=True)

In [None]:
df[:10]

**order_id, page_id**

Нам не нужно будет узнавать статистические характеристики по столбцам **order_id, page_id** с числовыми значениями: среднее значение, среднее квадратическое отклонение, максимум, минимум, квантили - поэтому переводим их в **категориальный признак**

In [None]:
df['order_id'] = df['order_id'].astype(str)
df['page_id'] = df['page_id'].astype(str)

**time**

Преобразуем столбец time к типу "дата"

In [None]:
df['time'] = pd.to_datetime(df['time'])

### Общая информации о данных

In [None]:
df.shape

In [None]:
df.info()

In [None]:
df.nunique()

In [None]:
df.isna().sum()

### Обзор данных

#### Категориальные переменные

In [None]:
df.describe()

In [None]:
for cat_colname in df.select_dtypes(include='object').columns:
    print(str(cat_colname) + '\n\n' + str(df[cat_colname].value_counts()) + '\n' + '*' * 100 + '\n')

Как мы видим **page_id** в основном состоит только из уникальных значений, то есть каждому событию присваивается неповторящийся номер события.  
Но эти данные нам ничего не говорят и по сути дублируют обратный параметр order_id, который присваивается баннеру, через который произошла покупка. Я удаляю параметр **page_id** и мы будем работать с **order_id**.

In [None]:
df.drop("page_id", axis=1, inplace=True)

df

## Гипотезы

Я думаю, что стоит выделить гипотезы, которые мы будем проверять.

* **Гипотеза 1**: Мы верим, что опыт взаимодействия с баннерами может различаться по сегментам баннеров более чем на 20%;  


* **Гипотеза 2**: Мы верим, что эффективность баннеров равнозначна на мобильной и декстопной версии;


* **Гипотеза 3**: Если мы будем показывать товарные баннеры, а не с брендинговые, то повысим число продаж за N срок;  


* **Гипотеза 4**: Если мы продадим баннерное место под CPC-рекламу, то мы не заметим финансовых изменений, а значит продажа невыгодна 

## Product & Title  🕵🏻‍♀️

**Давайте поближе рассмотрим какие действия совершают пользователи магазина, исходя из типа продукта на баннере**

In [None]:
df.groupby(['product', 'title']).size()

Из сводки сверху мы можем заметить, что пользователи **не совершают покупки, когда видят баннеры о компании**

Создадим новый датасет **new_df** и заполним его данными по типу рекламного баннера и действиям пользователя

In [None]:
data = {
    
    'banner_product': ["accessories", "clothes", "company", "sneakers", "sports_nutrition"],
    'orders': [44551, 112715, 0, 67719, 23737],
    'banner_click': [136254, 220595, 144821, 182597, 144918],
    'banner_show': [1440954, 1453128, 1580238, 1453029, 1465970]
    
}

new_df = pd.DataFrame(data)
new_df

In [None]:
new_df.sort_values(['orders'], ascending=[False])[['banner_product', 'orders']]

Мы видим, что больше всего заказов совершено по баннеру с одеждой

### Orders - заказы 

In [None]:
plt.figure(figsize=(18,10))

sns.barplot(x='banner_product', y='orders', data = new_df[(new_df['orders'] != 0)].sort_values(['orders'], ascending=[False]), palette='YlOrBr')

plt.title('Orders quantity by banner product', weight='bold')

plt.xlabel('Banner product', fontsize=12, weight='bold')
plt.ylabel('Orders per banners', fontsize=12, weight='bold')
plt.show()

Из графика видно, что пользователи совершают больше всего покупок, когда видят рекламу позиций из категории "одежда". Почти на 40% реже баннеры типа "кроссовки" приводили пользователей к покупке на сайте. 

### Clicks - клики 

In [None]:
new_df.sort_values(['banner_click'], ascending=[False])[['banner_product', 'banner_click']]

In [None]:
plt.figure(figsize=(18,10))

sns.barplot(x='banner_product', y='banner_click', data = new_df.sort_values(['banner_click']), palette='magma')

plt.title('Clicks quantity by banner', weight='bold')

plt.xlabel('Banner product', fontsize=12, weight='bold')
plt.ylabel('Banner click', fontsize=12, weight='bold')
plt.show()

Как и в предыдущем графике лидируют баннеры типа "одежда" и "кроссовки", но мы можем заметить, что все остальные категории баннеров вызывают у пользователей примерно одинаковый интерес. На баннеры "аксессуары" кликали меньше всего, но как мы видим разница по количеству кликов с последующими двумя категориями несущественна. 

### Banner show - просмотр (охват)

In [None]:
new_df.sort_values(['banner_show'], ascending=[False])[['banner_product', 'banner_show']]

In [None]:
plt.figure(figsize=(18,8))

sns.barplot(x='banner_product', y='banner_show', data = new_df.sort_values(['banner_show']), palette='spring_r')

plt.title('Audience reach by banner', weight='bold')

plt.xlabel('Banner product', fontsize=12, weight='bold')
plt.ylabel('Banner show', fontsize=12, weight='bold')
plt.show()

#### Из графика мы видим, что охват баннеров почти везде одинаковый, но баннеры с логотипом компании просматривают чаще. В любом случае, эти просмотры не приводят нас к продажам товара.

## Site version & Title 💻📱

#### Выясним, насколько различается пользовательское поведение в зависимости от устройства. Сравниваем мобильную версию и декстоп.

In [None]:
df.groupby(['site_version', 'title']).size()

In [None]:
data = {
    
    'site_version': ["desktop", "mobile"],
    'orders': [133181, 115541],
    'banner_click': [115065, 714120],
    'banner_show': [2134640, 5258679]
    
}

new_df1 = pd.DataFrame(data)
new_df1

Мы видим, что **число заказов** различается не сильно, но пользователи охотнее **кликают и просматривают** баннеры в **мобильной версии**.  

Это наталкивает на мысль, что баннерную рекламу стоит показывать пользователям мобильной версии.  
Давайте построим графики и посмотрим на данные конкретнее.

### Orders - заказы в разрезе устройства пользователя

In [None]:
plt.figure(figsize = (18,8))

new_df1.orders.groupby(new_df1.site_version).sum().plot(kind='pie')
plt.axis('equal')

plt.show()

### Banner clicks - клики по баннеру в разрезе устройства пользователя

In [None]:
plt.figure(figsize=(18,8))

sns.barplot(x = 'banner_click', y = 'site_version',hue = 'site_version', data = new_df1, palette="Pastel2_r");

plt.title('Banner clicks by site version', weight='bold')

plt.xlabel('Clicks', fontsize=12, weight='bold')
plt.ylabel('Site version', fontsize=12, weight='bold')
plt.show()

### Banner show - просмотр баннера в разрезе устройства пользователя

In [None]:
plt.figure(figsize = (18,8))

new_df1.banner_show.groupby(new_df1.site_version).sum().plot(kind='pie')
plt.axis('equal')
plt.show()

Мы действительно увидели **огромный разрыв по кликам и просмотрам** в мобильной версии и декстопной в приоритет первой.  
Если рассматриваеть **заказы** как целевое действие, то пользователи лучше реагируют в декстопной версии сайта.

## Site version & Title & Product

In [None]:
df.groupby(['site_version', 'title', 'product']).size()

**Ниже мы видим разбиение пользовательских действий (просмотр, покупка, клик) по виду продукту (реклама магазина / товарных позиций) в разрезе версии сайта (моб/декстоп)**

In [None]:
df.groupby(['site_version', 'title', 'product']).count()[['order_id']]

In [None]:
new_df

In [None]:
new_df1

##  Day & Title ⏳

Добавим новый столбец **день недели** и изучим поведение пользователей в разрезе будних дней и выходных.

In [None]:
df['day_of_week'] = df['time'].dt.day_name()

Столбец **time** можно удалить за ненадобностью

In [None]:
df.drop("time", axis=1, inplace=True)

In [None]:
df.head()

In [None]:
days = df.groupby(['day_of_week']).size()

days.sort_values()

In [None]:
plt.figure(figsize=(18,8))

days = days.sort_values()
days.plot(kind="barh")
plt.title('Users action by days', weight='bold')
plt.xlabel('Action quantity', fontsize=12, weight='bold')
plt.ylabel('Day of week', fontsize=12, weight='bold')

plt.show()

Из значений выше мы видим, что пользователи взаимодействуют с магазином примерно одинаково: **меньше всего в четверг и больше всего во вторник**  

Теперь взглянем более детально

### День недели в разрезе пользовательских действий с баннерами

In [None]:
df.groupby(['day_of_week', 'title']).size()

### День недели в разрезе действий с категориями баннеров

In [None]:
df.groupby(['day_of_week', 'product']).size()

## Выводы

* **Гипотеза 1**: Мы верим, что опыт взаимодействия с баннерами может различаться по сегментам баннеров более чем на 20%;  


Да, гипотезу подтверждаем. Опыт взаимодействия отличается. Мы смогли заметить, что баннеры типа "компания" не приводят к продаже каких-либо товарных позиций. Баннеры, на которых изображена одежда или кроссовки наиболее часто приводят к покупкам и кликам. В любом случае, в разрезе пользовательских действий баннеры просматривают: **7393319** раз, а покупки и клики совершаются немного больше миллиона раз суммарно. Соответственно - **248722 покупок и 829185 по кликам.**

* **Гипотеза 2**: Мы верим, что эффективность баннеров равнозначна на мобильной и декстопной версии;
    
    
Как уже говорилось ранее, был замечен огромный разрыв по кликам и просмотрам в мобильной версии и декстопной версии сайта. Через мобильное устройство пользователь охотнее реагирует на рекламное предложение. 

Если рассматриваеть **заказы** то поведение пользователей не сильно отличается от версий сайта. Но на декстопной версии мы заметили небольшое увеличение количества заказов.

* **Гипотеза 3**: Если мы будем показывать товарные баннеры, а не с брендинговые, то повысим число продаж за N срок;  

Подтверждаем. Потому что баннер с информацией о компании не привел к продажам.

* **Гипотеза 4**: Если мы продадим баннерное место под CPC-рекламу, то мы не заметим финансовых изменений, а значит продажа невыгодна

К сожалению, мы не знаем средний чек по каждой товарной группе и средний чек в целом, чтобы мы могли посчитать прибыль от баннеров, которые привели к покупке. Однако, мы знаем, что показ баннеров для нас бесплатен и ROI в любом случае будет положителен.
Так же, мы не располагаем данными, какую стоимость за клик нам предлагает партнерская сеть по CPC.

Исходя из проведенного анализа, мы можем предположить, что:
* **Брендинговые баннеры для нас неэффективны**  
* **Баннеры на мобильной версии больше привлекают пользователя для взаимодействия (mobile-6088340, desktop -2382886)**
* **Партнер по CPC мог разместить свои баннеры на мобильной версии сайта. На декстоп версии сайта нам стоит оставить товарные баннеры**