In [332]:
!pip install sorted_months_weekdays

Defaulting to user installation because normal site-packages is not writeable


### Задача: разобраться, как изменилась выручка от продукта компании и почему.

#### Конкретные шаги (формализованная задача):
  - Определить, как менялась выручка и ARPU по месяцам.
  - Определить вклад новых и старых клиентов в это изменение.
  - Провести когортный анализ выручки и ARPU.

In [333]:
import pandas as pd
import os
import datetime
import numpy as np
from sort_dataframeby_monthorweek import *

In [334]:
# преобразовываем данные в DataFrame
THIS_FOLDER = os.path.join(os.path.dirname("__file__"))
my_file = os.path.join(THIS_FOLDER, 'SDA_2_6_clients.csv')
clients = pd.read_csv(my_file, engine='python', index_col='id')
my_file = os.path.join(THIS_FOLDER, 'SDA_2_6_orders.csv')
orders = pd.read_csv(my_file, engine='python', index_col='id')

In [335]:
clients

Unnamed: 0_level_0,client_id,client_start_date
id,Unnamed: 1_level_1,Unnamed: 2_level_1
1,167072,2017-10-28T00:00:00.000Z
2,177094,2018-02-15T00:00:00.000Z
3,145974,2017-02-05T00:00:00.000Z
4,186332,2018-05-02T00:00:00.000Z
5,130238,2016-08-27T00:00:00.000Z
...,...,...
1116,210866,2019-05-18T00:00:00.000Z
1117,226300,2020-04-03T00:00:00.000Z
1118,226206,2020-03-30T00:00:00.000Z
1119,226414,2020-04-04T00:00:00.000Z


In [336]:
orders

Unnamed: 0_level_0,client_id,date,revenue
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,121566,2020-01-01T00:00:00.000Z,508000
2,123406,2020-01-01T00:00:00.000Z,464500
3,125208,2020-01-01T00:00:00.000Z,425800
4,126396,2020-01-01T00:00:00.000Z,135500
5,126870,2020-01-01T00:00:00.000Z,264500
...,...,...,...
12473,223536,2020-04-30T00:00:00.000Z,358600
12474,224330,2020-04-30T00:00:00.000Z,150800
12475,224600,2020-04-30T00:00:00.000Z,140800
12476,224946,2020-04-30T00:00:00.000Z,274300


In [337]:
# преобразовываем даты, выручку, создаем новые колонки
# для сортировки по месяцам
orders['date'] = pd.to_datetime(
    orders['date']).dt.strftime('%B')
clients['client_start_date'] = pd.to_datetime(
    clients['client_start_date'], errors='coerce').dt.to_period('M')
orders['revenue'] = orders.revenue.str.replace(',', '.'). \
 astype('float')



In [338]:
# сумма выручки за весь период наблюдений, с округлением
round(sum(orders.revenue))

54413572

In [339]:
# объединяем orders и clients по колонке clients_id
merg = orders.merge(clients)
merg

Unnamed: 0,client_id,date,revenue,client_start_date
0,121566,January,5080.0,2016-05
1,121566,January,5080.0,2016-05
2,121566,January,5080.0,2016-05
3,121566,January,5080.0,2016-05
4,121566,January,5080.0,2016-05
...,...,...,...,...
12472,226280,April,4400.0,2020-04
12473,226316,April,2733.0,2020-04
12474,226316,April,2733.0,2020-04
12475,226078,March,1967.0,2020-03


In [340]:
# рассчитаем выручку для каждого месяца
rev_month = merg.groupby('date').sum().reset_index()
del rev_month['client_id']
rev_month = rev_month.sort_values(by='date')
rev_month = Sort_Dataframeby_MonthandNumeric_cols(df=rev_month, 
        monthcolumn='date', numericcolumn='revenue')
rev_month['revenue'] = rev_month['revenue'].round()

In [352]:
# абсолютное и относительное изменение в выручке
rev_month['absolute'] =rev_month['revenue'] - \
    rev_month['revenue'].shift(1)
rev_month['relative'] = round(rev_month['absolute'] / \
    rev_month['revenue'].shift(1) * 100, 2)
rev_month

Unnamed: 0,date,revenue,absolute,relative,count_clients,ARPU
0,January,13389664.0,,,993,13484.05
1,February,13486600.0,96936.0,0.72,988,13650.4
2,March,13570001.0,83401.0,0.62,1032,13149.23
3,April,13967307.0,397306.0,2.93,1018,13720.34


In [342]:
# определяем ARPU
merg1 = merg.groupby('date').agg(
    {'client_id': pd.Series.nunique}).reset_index()
rev_month = rev_month.merge(merg1)
rev_month = rev_month.rename(
    columns={'client_id': 'count_clients'})
rev_month['ARPU'] = round(rev_month['revenue'] / \
    rev_month['count_clients'], 2)
rev_month

Unnamed: 0,date,revenue,absolute,relative,count_clients,ARPU
0,January,13389664.0,,,993,13484.05
1,February,13486600.0,96936.0,0.72,988,13650.4
2,March,13570001.0,83401.0,0.62,1032,13149.23
3,April,13967307.0,397306.0,2.93,1018,13720.34


In [343]:
# Насколько изменилось количество клиентов с заказами 
# в апреле по сравнению с мартом (в процентах)
round(((rev_month['count_clients'] - rev_month['count_clients'] \
     .shift(1)) / rev_month['count_clients'].shift(1) 
     * 100)[3], 2)

-1.36

In [354]:
# На сколько процентов изменился ARPU в апреле 
# по сравнению с мартом?
round(((rev_month['ARPU'] - rev_month['ARPU'].shift(1)) / \
    rev_month['ARPU'].shift(1) * 100)[3], 2)

4.34

### Узнать, сколько выручки приносят старые и новые клиенты

In [355]:
merg

Unnamed: 0,client_id,date,revenue,client_start_date
0,121566,January,5080.0,2016-05
1,121566,January,5080.0,2016-05
2,121566,January,5080.0,2016-05
3,121566,January,5080.0,2016-05
4,121566,January,5080.0,2016-05
...,...,...,...,...
12472,226280,April,4400.0,2020-04
12473,226316,April,2733.0,2020-04
12474,226316,April,2733.0,2020-04
12475,226078,March,1967.0,2020-03


In [361]:
# получаем сводную таблицу по когортам 
# когорты разделены по месяцу и году первой покупки)
piv_merg = merg.pivot_table(values='revenue', 
                            index='client_start_date',
                           columns='date', aggfunc='sum'
                           ).fillna(0)
cols = ['January', 'February', 'March', 'April']
piv_merg = piv_merg[cols]
piv_merg

date,January,February,March,April
client_start_date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2016-05,35367.0,47637.0,30122.0,36372.0
2016-06,229594.0,239844.0,248849.0,281218.0
2016-07,561279.0,658048.0,438229.0,401267.0
2016-08,179284.0,261439.0,228754.0,229104.0
2016-09,119222.0,89377.0,170105.0,154612.0
2016-10,566627.0,598594.0,719034.0,726783.0
2016-11,270605.0,349967.0,262730.0,202034.0
2016-12,188000.0,233286.0,397703.0,261719.0
2017-01,299847.0,165858.0,252412.0,170383.0
2017-02,254747.0,289577.0,275221.0,225690.0


In [None]:
# вычислим ARPU
# piv_merg['ARPU']