In [1]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib as plt
%matplotlib inline

In [2]:
df = pd.read_csv('~/product_analytics/KC_case_data.csv', parse_dates= ['date'])
df.head()

Unnamed: 0,date,event,purchase_sum,os_name,device_id,gender,city,utm_source
0,2020-01-01,app_start,,android,669460,female,Moscow,-
1,2020-01-01,app_start,,ios,833621,male,Moscow,vk_ads
2,2020-01-01,app_start,,android,1579237,male,Saint-Petersburg,referal
3,2020-01-01,app_start,,android,1737182,female,Moscow,facebook_ads
4,2020-01-01,app_start,,ios,4029024,female,Moscow,facebook_ads


In [3]:
df.shape

(2747968, 8)

In [4]:
df.dtypes

date            datetime64[ns]
event                   object
purchase_sum           float64
os_name                 object
device_id                int64
gender                  object
city                    object
utm_source              object
dtype: object

In [5]:
df.isna().sum()

date                  0
event                 0
purchase_sum    2606585
os_name               0
device_id             0
gender                0
city                  0
utm_source            0
dtype: int64

### MAU в феврале

In [6]:
df.query('date.dt.month == 2').device_id.nunique()

75032

### Кол-во установок в январе

In [7]:
df.query("date.dt.month == 1 and event=='app_install' ").event.count()

80297

### Присвоим пользователям когорты по дню установки приложения и посчитаем для них  конверсию из установки в покупку в течение 7 дней.

Примечание: считаем пользователя сконвертировавшимся, если с момента установки до совершения первой покупки прошло не более 7 дней.

In [8]:
cohort_df = df.query("event=='app_install'").merge(df.query("event=='purchase'"), on='device_id')
cohort_df.head()

Unnamed: 0,date_x,event_x,purchase_sum_x,os_name_x,device_id,gender_x,city_x,utm_source_x,date_y,event_y,purchase_sum_y,os_name_y,gender_y,city_y,utm_source_y
0,2020-01-01,app_install,,ios,4921563,male,Moscow,vk_ads,2020-01-10,purchase,311.0,ios,male,Moscow,-
1,2020-01-01,app_install,,ios,4921563,male,Moscow,vk_ads,2020-01-19,purchase,1921.5,ios,male,Moscow,-
2,2020-01-01,app_install,,ios,4921563,male,Moscow,vk_ads,2020-02-05,purchase,322.5,ios,male,Moscow,-
3,2020-01-01,app_install,,ios,4921563,male,Moscow,vk_ads,2020-02-11,purchase,513.5,ios,male,Moscow,-
4,2020-01-01,app_install,,ios,4921563,male,Moscow,vk_ads,2020-03-15,purchase,131.5,ios,male,Moscow,-


In [9]:
cohort_df['difference']= (cohort_df.date_y - cohort_df.date_x).dt.days

In [10]:
cohort_df.query('difference<=7').groupby('date_x').agg({'device_id':'nunique'})\
         /df.query("event=='app_install'").groupby('date').agg({'device_id':'nunique'})

Unnamed: 0_level_0,device_id
date_x,Unnamed: 1_level_1
2020-01-01,0.393406
2020-01-02,0.377226
2020-01-03,0.347211
2020-01-04,0.348990
2020-01-05,0.351287
...,...
2020-03-27,0.231026
2020-03-28,0.191567
2020-03-29,0.199642
2020-03-30,0.205231


### Посмотрим с какого платного маркетингового канала пришло больше всего новых пользователей

In [11]:
df.groupby('utm_source').agg({'device_id':'nunique'}).sort_values('device_id', ascending=False)

Unnamed: 0_level_0,device_id
utm_source,Unnamed: 1_level_1
-,52273
yandex-direct,40712
google_ads,38096
vk_ads,34086
instagram_ads,31048
facebook_ads,25959
referal,15926


### На каком этапе воронки отваливается большая часть зарегистрированных пользователей

In [12]:
first_registration = df.query("event=='register'").drop_duplicates('device_id')\
                       .rename(columns={'date':'registration_date'})[['device_id', 'registration_date']]
first_registration.head()

Unnamed: 0,device_id,registration_date
2669658,294193,2020-01-01
2669659,22917617,2020-01-01
2669660,15248490,2020-01-01
2669661,252062,2020-01-01
2669662,2251583,2020-01-01


In [13]:
registered = df.merge(first_registration, on='device_id').query('registration_date < date')
#пользователь зарегестрирован, если дата регистрации ранее даты совершения события

In [14]:
registered.groupby('event').agg({'device_id':'nunique'})

Unnamed: 0_level_0,device_id
event,Unnamed: 1_level_1
app_start,40991
choose_item,37926
purchase,24880
search,40482
tap_basket,34517


In [15]:
print('Конверсия в поиск из открытия', round((40482/40991)*100,2))
print('Конверсия в добавление товара из поиска', round((37926/40482)*100,2))
print('Конверсия в переход в корзину из добавления товара', round((34517/37926)*100,2))
print('Конверсия в покупку из переход в корзину', round((24880/34517)*100,2))

Конверсия в поиск из открытия 98.76
Конверсия в добавление товара из поиска 93.69
Конверсия в переход в корзину из добавления товара 91.01
Конверсия в покупку из переход в корзину 72.08


Большинство зарегестрированных пользователей отваливаются на этапе "переход в корзину"
### Посмотрим пользователи, пришедшие с каких каналов, показали самую низкую конверсию в первую покупку

In [16]:
df.head()

Unnamed: 0,date,event,purchase_sum,os_name,device_id,gender,city,utm_source
0,2020-01-01,app_start,,android,669460,female,Moscow,-
1,2020-01-01,app_start,,ios,833621,male,Moscow,vk_ads
2,2020-01-01,app_start,,android,1579237,male,Saint-Petersburg,referal
3,2020-01-01,app_start,,android,1737182,female,Moscow,facebook_ads
4,2020-01-01,app_start,,ios,4029024,female,Moscow,facebook_ads


In [17]:
first_purchase = df.query("event=='purchase'").groupby('device_id', as_index=False)\
                   .agg({'date':'min'}).rename(columns={'date':'first_purchase'})
first_purchase

Unnamed: 0,device_id,first_purchase
0,4014,2020-02-01
1,4046,2020-01-04
2,4060,2020-03-07
3,4120,2020-01-07
4,4125,2020-01-07
...,...,...
70870,35321120,2020-03-25
70871,35326839,2020-03-28
70872,35342310,2020-03-27
70873,35367797,2020-03-29


In [18]:
first_purchase = df.merge(first_purchase, on='device_id')\
                   .query('event == "purchase" and first_purchase== date ')

In [19]:
first_purchase = first_purchase.groupby("utm_source", as_index=False).agg({'device_id':'nunique'})
first_purchase

Unnamed: 0,utm_source,device_id
0,-,14786
1,facebook_ads,7903
2,google_ads,10167
3,instagram_ads,9820
4,referal,5803
5,vk_ads,11460
6,yandex-direct,10936


In [20]:
attracted_users = df.query('event=="app_start"').groupby("utm_source", as_index=False)\
                    .agg({'device_id':'nunique'})
attracted_users

Unnamed: 0,utm_source,device_id
0,-,52268
1,facebook_ads,25957
2,google_ads,38092
3,instagram_ads,31045
4,referal,15924
5,vk_ads,34079
6,yandex-direct,40707


In [21]:
first_purchase = first_purchase.merge(attracted_users, on='utm_source')
first_purchase['CR'] = round((first_purchase.device_id_x/first_purchase.device_id_y)*100,2)

In [22]:
first_purchase.sort_values('CR')

Unnamed: 0,utm_source,device_id_x,device_id_y,CR
2,google_ads,10167,38092,26.69
6,yandex-direct,10936,40707,26.87
0,-,14786,52268,28.29
1,facebook_ads,7903,25957,30.45
3,instagram_ads,9820,31045,31.63
5,vk_ads,11460,34079,33.63
4,referal,5803,15924,36.44


### Пользователи, пришедшие с какого канала, имеют медианный первый чек выше? (будем учитывать только первые покупки пользователей)

In [23]:
df.query("event=='purchase'").sort_values('date')\
  .drop_duplicates('device_id').groupby("utm_source", as_index=False)\
  .agg({'purchase_sum':'median'})\
  .sort_values('purchase_sum', ascending=False)

Unnamed: 0,utm_source,purchase_sum
0,-,398.5
4,referal,395.5
3,instagram_ads,393.5
5,vk_ads,393.0
6,yandex-direct,392.5
2,google_ads,390.5
1,facebook_ads,389.0
