In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from datetime import date

In [2]:
df = pd.read_csv('KC_case_data.csv')

In [3]:
df.head()

Unnamed: 0,date,event,purchase_sum,os_name,device_id,gender,city,utm_source
0,2020-01-01,app_start,,android,669460,female,Moscow,-
1,2020-01-01,app_start,,ios,833621,male,Moscow,vk_ads
2,2020-01-01,app_start,,android,1579237,male,Saint-Petersburg,referal
3,2020-01-01,app_start,,android,1737182,female,Moscow,facebook_ads
4,2020-01-01,app_start,,ios,4029024,female,Moscow,facebook_ads


In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2747968 entries, 0 to 2747967
Data columns (total 8 columns):
 #   Column        Dtype  
---  ------        -----  
 0   date          object 
 1   event         object 
 2   purchase_sum  float64
 3   os_name       object 
 4   device_id     int64  
 5   gender        object 
 6   city          object 
 7   utm_source    object 
dtypes: float64(1), int64(1), object(6)
memory usage: 167.7+ MB


In [5]:
df['date'] = pd.to_datetime(df.date)

In [6]:
df['month'] = df.date.apply(lambda x: x.month)

<span style="color:SteelBlue">**1. MAU февраля:**</span>

In [7]:
df.groupby('month', as_index=False).agg(MAU=('device_id','nunique')).MAU.values[1]

75032

<span style="color:SteelBlue">**2. Количество установок в январе:**</span>

In [8]:
df.query('event == "app_install"').groupby('month', as_index=False).agg(MAU=('device_id','nunique')).MAU.values[0]

80297

<span style="color:SteelBlue">**3. Присвойте пользователям когорты по дню установки приложения и посчитайте для них конверсию из установки в покупку в течение 7 дней. Для какой когорты конверсия была наибольшей? Ответ впишите в формате: дд.мм.гггг**</span>

Примечание: считаем пользователя сконвертировавшимся, если с момента установки до совершения первой покупки прошло не более 7 дней.

In [9]:
# Создаем когорту
cohort = df.query('event == "app_install"').groupby('device_id', as_index=False).agg(install_day=('date', 'min'))

In [10]:
# Создаем список платящих пользователей
bought_users = df.query('event == "purchase"').groupby('device_id', as_index=False).agg(bought_day=('date', 'min'))

In [11]:
# Создаем dataframe в который добавляем найденную когорту по установке приложения и объединяем его с когортой совершивших покупку
cohort_df = cohort.merge(bought_users, on='device_id', how='left')
cohort_df['date_diff'] = (cohort_df.bought_day - cohort_df.install_day).dt.days
cohort_df.head()

Unnamed: 0,device_id,install_day,bought_day,date_diff
0,4013,2020-01-15,NaT,
1,4016,2020-01-04,NaT,
2,4046,2020-01-04,2020-01-04,0.0
3,4065,2020-03-19,NaT,
4,4067,2020-01-31,NaT,


In [12]:
# Добавляем колонку условия конвертации при разнице в днях между установкой и первой датой покупки до 7-и дней
cohort_df['convert_condition'] = cohort_df['date_diff'].notna()
cohort_df.head()

Unnamed: 0,device_id,install_day,bought_day,date_diff,convert_condition
0,4013,2020-01-15,NaT,,False
1,4016,2020-01-04,NaT,,False
2,4046,2020-01-04,2020-01-04,0.0,True
3,4065,2020-03-19,NaT,,False
4,4067,2020-01-31,NaT,,False


In [13]:
# Считаем количество уникальных пользователей для когорт
install_df = (cohort_df.groupby('install_day', as_index=False)
                       .agg(install=('device_id', 'count'))
                       .rename(columns={"install_day": "date"}))

purchase_df = (cohort_df[(cohort_df['date_diff'] < 8)]
               .groupby('install_day', as_index=False)
               .agg(purchase=('convert_condition', 'sum'))
               .rename(columns={"install_day": "date"}))

In [14]:
# Объединяем подсчеты из предыдущего шага
install_df = install_df.merge(purchase_df, on='date', how='left')
install_df.head()

Unnamed: 0,date,install,purchase
0,2020-01-01,3579,1408
1,2020-01-02,3144,1186
2,2020-01-03,2402,834
3,2020-01-04,1831,639
4,2020-01-05,1671,587


In [15]:
# Находим конверсию в покупку из установки в процентах
install_df['CR'] = round((install_df.purchase / install_df.install) * 100, 1)
install_df['CR'] = install_df['CR'].apply(lambda x: str(x) + '%')
install_df.head()

Unnamed: 0,date,install,purchase,CR
0,2020-01-01,3579,1408,39.3%
1,2020-01-02,3144,1186,37.7%
2,2020-01-03,2402,834,34.7%
3,2020-01-04,1831,639,34.9%
4,2020-01-05,1671,587,35.1%


In [16]:
install_df.sort_values('CR', ascending=False).date[0].strftime('%d-%m-%Y')

'01-01-2020'

<span style="color:SteelBlue">**4. Укажите значение CR из предыдущего вопроса в % (округлите до 1 цифры после запятой). Формат числа - с точкой.**</span>

In [17]:
install_df.sort_values('CR', ascending=False).CR[0]

'39.3%'

<span style="color:SteelBlue">**5. С какого платного маркетингового канала пришло больше всего новых пользователей?**</span>

In [18]:
df.groupby('utm_source').agg({'device_id':'nunique'}).sort_values('device_id', ascending=False).index[1]

'yandex-direct'

<span style="color:SteelBlue">**6. Проанализируйте на каком этапе воронки отваливается бОльшая часть клиентов. Посмотрите отдельно сценарии для зарегистрированных и для незарегистрированных пользователей. На каком шаге отваливается больше всего зарегистрированных пользователей?**</span>

In [19]:
# Создадим дату регистрации для каждого пользователя
register_date = df[df['event'] == 'register'].groupby('device_id', as_index=False).agg(register_date=('date', 'min'))

In [20]:
# Объединим датафреймы, чтобы для каждого пользователя была видна дата регистрации
df = df.merge(register_date, on='device_id', how='left')

In [21]:
# Если дата регистрации больше даты совершенного ивента, значит на момент совершения пользователь не был зарегестрирован
df['registred'] = (df['date'] > df['register_date']).astype(int)

In [22]:
# Создаем датафрейм, в котором разделим пользователей на зарегестрированных и незарегестрированных и делим на ивенты
conversion_funnel = (df.groupby(['registred', 'event'], as_index=False)
                       .agg(unique_users=('device_id', 'nunique'))
                       .sort_values('unique_users', ascending=False))

In [23]:
# Добавим следующий шаг воронки, чтобы в конечном итоге посчитать конверсию в каждый шаг
conversion_funnel['next_lvl_funnel'] = conversion_funnel['unique_users'].shift()
conversion_funnel['CR'] = round((conversion_funnel.unique_users / conversion_funnel.next_lvl_funnel)*100, 1)

In [24]:
conversion_funnel

Unnamed: 0,registred,event,unique_users,next_lvl_funnel,CR
1,0,app_start,190884,,
5,0,search,184488,190884.0,96.6
2,0,choose_item,155691,184488.0,84.4
0,0,app_install,154597,155691.0,99.3
6,0,tap_basket,125414,154597.0,81.1
4,0,register,78310,125414.0,62.4
3,0,purchase,67753,78310.0,86.5
7,1,app_start,40991,67753.0,60.5
10,1,search,40482,40991.0,98.8
8,1,choose_item,37926,40482.0,93.7


<span style="color:SteelBlue">**7. Пользователи, пришедшие с каких каналов, показали самую низкую конверсию в первую покупку?**</span>

In [25]:
# Создадим цикл, который будет пробегаться по нашим источникам рекламы и выяснять конверсию в покупку
utm_source = df.utm_source.unique().tolist()
all_sources = dict()

for source in utm_source:
    app_start = (df[(df['event'] == 'app_start') & (df['utm_source'] == source)]
                     .groupby('event', as_index=False)
                     .agg(first_step=('device_id', 'nunique')))
    purchase = (df[(df['event'] == 'purchase') & (df['utm_source'] == source)]
                     .groupby('event', as_index=False)
                     .agg(second_step=('device_id', 'nunique')))
    
    all_sources[source] = str(round(purchase.second_step[0] / app_start.first_step[0] * 100, 2)) + '%'

In [26]:
min(all_sources.items(), key=lambda x: x[1])

('yandex-direct', '29.55%')

<span style="color:SteelBlue">**8. Пользователи, пришедшие с какого канала, имеют медианный первый чек выше? (учитываются только первые покупки пользователей)**</span>

In [27]:
# Таким же способом найдем медианный чек для пришедших с каждого канала
utm_source = df.utm_source.unique().tolist()
all_sources_bills = dict()

for source in utm_source:
    purchase = (df[(df['event'] == 'purchase') & (df['utm_source'] == source)]
                     .groupby('event', as_index=False)
                     .agg(median_bill=('purchase_sum', 'median')))
    
    all_sources_bills[source] = purchase.median_bill[0]

In [28]:
all_sources_bills

{'-': 397.5,
 'vk_ads': 392.5,
 'referal': 389.0,
 'facebook_ads': 394.0,
 'google_ads': 390.0,
 'instagram_ads': 397.0,
 'yandex-direct': 393.5}

In [29]:
min(all_sources_bills.items(), key=lambda x: x[1])

('referal', 389.0)

Данные по затратам на рекламу:

Яндекс – 10 491 707 руб.

Гугл – 10 534 878 руб.

Фейсбук – 8 590 498 руб.

Инстаграм – 8 561626 руб.

ВК – 9 553 531руб.

Расходы на реферальную программу: если пользователь приведет друга и последний совершит первую покупку, то оба получат по 100 рублей.

<span style="color:SteelBlue">**9. Какой платный канал привлечения (среди рекламных) имеет самый высокий ROMI?**</span>

In [30]:
# Также циклом пробежимся по трафикам с различных каналов, узнаем валовую прибыль для рассчета ROMI
utm_source = df.utm_source.unique().tolist()
all_sources_sum = dict()

for source in utm_source:
    purchase = (df[(df['event'] == 'purchase') & (df['utm_source'] == source)]
                     .groupby('event', as_index=False)
                     .agg(median_bill=('purchase_sum', 'sum')))
    
    all_sources_sum[source] = purchase.median_bill[0]

In [31]:
# Находим количество потраченых денег на реферальную программу по формуле
referal_spent = df.query('utm_source == "referal" & event == "purchase"').device_id.nunique() * 200

In [32]:
# Запишем в словарь затраты на маркетинг
marketing = {'vk_ads': 9553531, 'referal': referal_spent, 'facebook_ads': 8590498, 'google_ads': 10534878,
             'instagram_ads': 8561626, 'yandex-direct': 10491707}

In [33]:
# Удалим из словаря неопределенный канал
del all_sources_sum['-']

In [34]:
# Найдем ROMI для каждого канала
ROMI = dict()

for key, value in all_sources_sum.items():
    ROMI[key] = round((value - marketing[key])/marketing[key], 2)

In [35]:
max(ROMI.items(), key=lambda x: x[1])

('referal', 5.95)

In [36]:
# Также найдем ROMI для каждого канала, но для этого необходимо исключить реферальную программу из рекламных кампаний
ROMI = {key: value for key, value in ROMI.items() if key != 'referal'}

In [37]:
max(ROMI.items(), key=lambda x: x[1])

('vk_ads', 0.72)