In [73]:
# импортируем библиотеки
import pandas as pd 
import requests 
from urllib.parse import urlencode 
 
# используем api 
base_url = 'https://cloud-api.yandex.net/v1/disk/public/resources/download?' 
public_key = 'https://disk.yandex.ru/d/p_UjGG_Dv8CE5Q' 
 
# получаем url 
final_url = base_url + urlencode(dict(public_key=public_key)) 
response = requests.get(final_url) 
download_url = response.json()['href'] 
 
# загружаем файл в df 
download_response = requests.get(download_url) 
df = pd.read_csv(download_url) 

In [2]:
# смотрим на то, как выглядит датасет
df.head()

Unnamed: 0,date,event,purchase_sum,os_name,device_id,gender,city,utm_source
0,2020-01-01,app_start,,android,669460,female,Moscow,-
1,2020-01-01,app_start,,ios,833621,male,Moscow,vk_ads
2,2020-01-01,app_start,,android,1579237,male,Saint-Petersburg,referal
3,2020-01-01,app_start,,android,1737182,female,Moscow,facebook_ads
4,2020-01-01,app_start,,ios,4029024,female,Moscow,facebook_ads


In [3]:
# считаем значения уникальных device_id
df.device_id.nunique()

190884

In [4]:
# добавляем колонку, которая содержит месяц события
df['month'] = pd.DatetimeIndex(df['date']).month

In [5]:
df

Unnamed: 0,date,event,purchase_sum,os_name,device_id,gender,city,utm_source,month
0,2020-01-01,app_start,,android,669460,female,Moscow,-,1
1,2020-01-01,app_start,,ios,833621,male,Moscow,vk_ads,1
2,2020-01-01,app_start,,android,1579237,male,Saint-Petersburg,referal,1
3,2020-01-01,app_start,,android,1737182,female,Moscow,facebook_ads,1
4,2020-01-01,app_start,,ios,4029024,female,Moscow,facebook_ads,1
...,...,...,...,...,...,...,...,...,...
2747963,2020-03-31,register,,android,2984778,male,Saint-Petersburg,facebook_ads,3
2747964,2020-03-31,register,,ios,27301864,male,Moscow,-,3
2747965,2020-03-31,register,,ios,1294285,female,Saint-Petersburg,google_ads,3
2747966,2020-03-31,register,,android,3010574,female,Saint-Petersburg,google_ads,3


In [6]:
# нас попросили посчитать MonthlyActiveUsers февраля, для этого фильтруем датасет по месяцу события
mau_february = df.query('month == 2')

In [7]:
mau_february

Unnamed: 0,date,event,purchase_sum,os_name,device_id,gender,city,utm_source,month
919164,2020-02-01,app_start,,android,27421,male,Saint-Petersburg,-,2
919165,2020-02-01,app_start,,android,52191,female,Saint-Petersburg,-,2
919166,2020-02-01,app_start,,android,57689,female,Saint-Petersburg,vk_ads,2
919167,2020-02-01,app_start,,ios,61236,male,Saint-Petersburg,instagram_ads,2
919168,2020-02-01,app_start,,android,118707,male,Saint-Petersburg,facebook_ads,2
...,...,...,...,...,...,...,...,...,...
2733177,2020-02-29,register,,ios,567982,female,Saint-Petersburg,facebook_ads,2
2733178,2020-02-29,register,,ios,19689619,female,Moscow,referal,2
2733179,2020-02-29,register,,ios,345024,male,Moscow,yandex-direct,2
2733180,2020-02-29,register,,android,33492617,male,Moscow,facebook_ads,2


In [8]:
# считаем кличество уникальных device_id в получившемся датасете
mau_february.device_id.nunique()

75032

In [9]:
# также нас попросили посчитать количество установок в январе
installs_january = df.query('month == 1')

In [10]:
installs_january

Unnamed: 0,date,event,purchase_sum,os_name,device_id,gender,city,utm_source,month
0,2020-01-01,app_start,,android,669460,female,Moscow,-,1
1,2020-01-01,app_start,,ios,833621,male,Moscow,vk_ads,1
2,2020-01-01,app_start,,android,1579237,male,Saint-Petersburg,referal,1
3,2020-01-01,app_start,,android,1737182,female,Moscow,facebook_ads,1
4,2020-01-01,app_start,,ios,4029024,female,Moscow,facebook_ads,1
...,...,...,...,...,...,...,...,...,...
2712599,2020-01-31,register,,android,13302215,male,Moscow,instagram_ads,1
2712600,2020-01-31,register,,android,6374870,female,Saint-Petersburg,google_ads,1
2712601,2020-01-31,register,,android,10602964,female,Saint-Petersburg,facebook_ads,1
2712602,2020-01-31,register,,ios,1492923,male,Saint-Petersburg,vk_ads,1


In [11]:
installs_january.groupby('event').device_id.count()

event
app_install     80297
app_start      268471
choose_item    196137
purchase        59208
register        42946
search         254732
tap_basket     140616
Name: device_id, dtype: int64

In [12]:
# для присвоения когорты каждому пользователю необходимо определить дату его первого события, 
# для этого сортируем значения по дате возрастания и удаляем повторяющиеся по device_id записи
mindate = df.sort_values('date').drop_duplicates('device_id')

In [13]:
# оставляем в таблице только значения device_id и date
cohorte = mindate[{'device_id', 'date'}]

In [14]:
cohorte

Unnamed: 0,date,device_id
0,2020-01-01,669460
13192,2020-01-01,17289661
13191,2020-01-01,12215118
13190,2020-01-01,9163079
13189,2020-01-01,1948894
...,...,...
2497656,2020-03-31,5682834
2499467,2020-03-31,9339041
2499780,2020-03-31,32346202
2498997,2020-03-31,23772077


In [15]:
# переименовываем колонку date
cohorte = cohorte.rename(columns = {'date': 'Когорта по первой сессии'})

In [16]:
# соединяем получившиеся таблицы
df = df.merge(cohorte, how = 'left', on = 'device_id')

In [17]:
df

Unnamed: 0,date,event,purchase_sum,os_name,device_id,gender,city,utm_source,month,Когорта по первой сессии
0,2020-01-01,app_start,,android,669460,female,Moscow,-,1,2020-01-01
1,2020-01-01,app_start,,ios,833621,male,Moscow,vk_ads,1,2020-01-01
2,2020-01-01,app_start,,android,1579237,male,Saint-Petersburg,referal,1,2020-01-01
3,2020-01-01,app_start,,android,1737182,female,Moscow,facebook_ads,1,2020-01-01
4,2020-01-01,app_start,,ios,4029024,female,Moscow,facebook_ads,1,2020-01-01
...,...,...,...,...,...,...,...,...,...,...
2747963,2020-03-31,register,,android,2984778,male,Saint-Petersburg,facebook_ads,3,2020-03-28
2747964,2020-03-31,register,,ios,27301864,male,Moscow,-,3,2020-03-31
2747965,2020-03-31,register,,ios,1294285,female,Saint-Petersburg,google_ads,3,2020-03-31
2747966,2020-03-31,register,,android,3010574,female,Saint-Petersburg,google_ads,3,2020-03-06


Нужно присвоить пользователям когорты по дню установки приложения и посчитть для них конверсию из установки в покупку в течение 7 дней. Определить, для какой когорты конверсия была наибольшей. 
Примечание: считаем пользователя сконвертировавшимся, если с момента установки до совершения первой покупки прошло не более 7 дней.

In [19]:
# определяем самые ранние даты заказов
min_date_purchase = df.query('event == "purchase"').sort_values('date').drop_duplicates('device_id')

In [20]:
# переименовывем колонку 
min_date_purchase = min_date_purchase[{'device_id', 'date'}].rename(columns = {'date': 'first_purchase'})

In [21]:
min_date_purchase

Unnamed: 0,first_purchase,device_id
7691,2020-01-01,6081155
8289,2020-01-01,1955306
8290,2020-01-01,20176327
8291,2020-01-01,28603960
8292,2020-01-01,14028316
...,...,...
2506842,2020-03-31,32122725
2506845,2020-03-31,23188703
2506848,2020-03-31,25732558
2506852,2020-03-31,17778508


In [23]:
# определяем самую раннюю дату установки
min_date_install = df.query('event == "app_install"').sort_values('date').drop_duplicates('device_id')

In [24]:
# переименовывем колонку
min_date_install = min_date_install[{'device_id', 'date'}].rename(columns = {'date': 'install_date'})

In [25]:
min_date_install

Unnamed: 0,install_date,device_id
2515061,2020-01-01,4921563
2517441,2020-01-01,33180892
2517442,2020-01-01,3331097
2517443,2020-01-01,1741756
2517444,2020-01-01,5420901
...,...,...
2669017,2020-03-31,1757461
2669018,2020-03-31,32851278
2669019,2020-03-31,8215181
2668991,2020-03-31,15401367


In [26]:
# для расчета CR необходимо соединить получившиеся таблицы
CR = min_date_install.merge(min_date_purchase, how = 'inner', on = 'device_id')

In [29]:
# приводим колонки к формату datetime
CR[['first_purchase','install_date']] = CR[['first_purchase','install_date']].apply(pd.to_datetime)

In [30]:
CR

Unnamed: 0,install_date,device_id,first_purchase
0,2020-01-01,4921563,2020-01-10
1,2020-01-01,3331097,2020-01-02
2,2020-01-01,1741756,2020-01-19
3,2020-01-01,5420901,2020-01-04
4,2020-01-01,33429,2020-02-22
...,...,...,...
57453,2020-03-31,11618898,2020-03-31
57454,2020-03-31,1620819,2020-03-31
57455,2020-03-31,804004,2020-03-31
57456,2020-03-31,1757461,2020-03-31


In [33]:
# проверяем форматы
CR.dtypes

install_date       datetime64[ns]
device_id                   int64
first_purchase     datetime64[ns]
diff_days         timedelta64[ns]
dtype: object

In [32]:
# добавляем колонку разницы между датой первой покупки и датой установки
CR['diff_days'] = CR['first_purchase'] - CR['install_date']

In [36]:
CR

Unnamed: 0,install_date,device_id,first_purchase,diff_days
0,2020-01-01,4921563,2020-01-10,9
1,2020-01-01,3331097,2020-01-02,1
2,2020-01-01,1741756,2020-01-19,18
3,2020-01-01,5420901,2020-01-04,3
4,2020-01-01,33429,2020-02-22,52
...,...,...,...,...
57453,2020-03-31,11618898,2020-03-31,0
57454,2020-03-31,1620819,2020-03-31,0
57455,2020-03-31,804004,2020-03-31,0
57456,2020-03-31,1757461,2020-03-31,0


In [35]:
# оставляем в колонке 'diff_days' только численное значение
CR['diff_days'] = CR['diff_days'].dt.days

По условию, считаем пользователя сконвертировавшимся, если с момента установки до совершения первой покупки прошло не более 7 дней

In [39]:
# оставляем в таблице только тех пользователей, у кого разница между установкой и покупкой составляет 7 или менее дней
CR = CR.query('diff_days <= 7')

In [44]:
# добавляем значения когорт путем объединения получившейся таблицы и таблицы с указанием когорт
CR_with_cohorte = CR.merge(cohorte, how = 'left', on = 'device_id')

In [45]:
CR_with_cohorte

Unnamed: 0,install_date,device_id,first_purchase,diff_days,Когорта по первой сессии
0,2020-01-01,3331097,2020-01-02,1,2020-01-01
1,2020-01-01,5420901,2020-01-04,3,2020-01-01
2,2020-01-01,28202965,2020-01-02,1,2020-01-01
3,2020-01-01,5750542,2020-01-08,7,2020-01-01
4,2020-01-01,221037,2020-01-03,2,2020-01-01
...,...,...,...,...,...
46669,2020-03-31,11618898,2020-03-31,0,2020-03-31
46670,2020-03-31,1620819,2020-03-31,0,2020-03-31
46671,2020-03-31,804004,2020-03-31,0,2020-03-31
46672,2020-03-31,1757461,2020-03-31,0,2020-03-31


In [61]:
# группируем по когортам и смотрим количество пользователей
CR_final = CR_with_cohorte.groupby(['Когорта по первой сессии'], as_index = False).agg({'device_id': 'count'})

In [62]:
# переименовываем колонку
CR_final = CR_final.rename(columns = {'device_id': 'converted_paying_users'})

In [63]:
CR_final

Unnamed: 0,Когорта по первой сессии,converted_paying_users
0,2020-01-01,1408
1,2020-01-02,1186
2,2020-01-03,834
3,2020-01-04,639
4,2020-01-05,587
...,...,...
86,2020-03-27,277
87,2020-03-28,209
88,2020-03-29,223
89,2020-03-30,204


In [64]:
# добавляем значения когорт путем объединения таблицы с минимальной датой установки и таблицы с указанием когорт
CR_installs = min_date_install.merge(cohorte, how = 'left', on = 'device_id')

In [65]:
CR_installs

Unnamed: 0,install_date,device_id,Когорта по первой сессии
0,2020-01-01,4921563,2020-01-01
1,2020-01-01,33180892,2020-01-01
2,2020-01-01,3331097,2020-01-01
3,2020-01-01,1741756,2020-01-01
4,2020-01-01,5420901,2020-01-01
...,...,...,...
154592,2020-03-31,1757461,2020-03-31
154593,2020-03-31,32851278,2020-03-31
154594,2020-03-31,8215181,2020-03-31
154595,2020-03-31,15401367,2020-03-31


In [66]:
# группируем по когортам и смотрим количество пользователей
CR_installs = CR_installs.groupby(['Когорта по первой сессии'], as_index = False).agg({'device_id': 'count'})

In [67]:
# переименовывем колонку
CR_installs = CR_installs.rename(columns = {'device_id': 'installs'})

In [68]:
CR_installs

Unnamed: 0,Когорта по первой сессии,installs
0,2020-01-01,3579
1,2020-01-02,3144
2,2020-01-03,2402
3,2020-01-04,1831
4,2020-01-05,1671
...,...,...
86,2020-03-27,1199
87,2020-03-28,1091
88,2020-03-29,1117
89,2020-03-30,994


In [69]:
# объединяем сгруппированные по когортам таблицы с количеством пользователей и их заказов
CR_final = CR_final.merge(CR_installs, how = 'left', on = 'Когорта по первой сессии')

In [70]:
CR_final

Unnamed: 0,Когорта по первой сессии,converted_paying_users,installs
0,2020-01-01,1408,3579
1,2020-01-02,1186,3144
2,2020-01-03,834,2402
3,2020-01-04,639,1831
4,2020-01-05,587,1671
...,...,...,...
86,2020-03-27,277,1199
87,2020-03-28,209,1091
88,2020-03-29,223,1117
89,2020-03-30,204,994


In [71]:
# добавляем колонку с расчетом CR
CR_final['CR'] = CR_final['converted_paying_users']/CR_final['installs']*100

In [72]:
# сортируем по возрастанию значения CR
CR_final.sort_values('CR', ascending = True)

Unnamed: 0,Когорта по первой сессии,converted_paying_users,installs,CR
65,2020-03-06,807,6358,12.692671
87,2020-03-28,209,1091,19.156737
81,2020-03-22,251,1261,19.904837
88,2020-03-29,223,1117,19.964190
77,2020-03-18,235,1171,20.068318
...,...,...,...,...
1,2020-01-02,1186,3144,37.722646
13,2020-01-14,1973,5173,38.140344
14,2020-01-15,1650,4310,38.283063
8,2020-01-09,558,1424,39.185393


In [33]:
# для дальейшей работы в Tableau необходимо выгрузить получившийся датасет
df.to_csv('data_for_lesson_3.csv', index = False)