##### Домашнее задание

## Урок №6 - Множества и операции над ними

#### Работу выполнил: Зензеров Никита Евгеньевич

На основании двух таблиц вам нужно будет построить несколько когортных метрик.
+ ___User install___ — количество установок в этот день (по сути, размер когорты).
+ ___Paying Users___ — количество платящих (заплативших хотя бы раз) пользователей, установивших игру в этот день.
+ ___Revenue___ — выручка от всех пользователей, установивших игру в этот день.
+ ___ARPU (average revenue per user)___ — средний чек на пользователя. 
    + считается по формуле ARPU =  Revenue/Users Installs.
+ ___ARPPU (average revenue per paying user)___ — средний чек платящего пользователя.
    + считается как ARPPU = Revenue/Paying users.


In [1]:
# Импортируем библиотеку Pandas
import pandas as pd

# Импортируем библиотеку NumPy
import numpy as np

In [2]:
# Подгружаем данные и выводим их, чтобы понять, с чем работаем
payments = pd.read_csv('payments.csv', index_col=0)

installs = pd.read_csv('installs.csv', index_col=0)

payments

Unnamed: 0,event_timestamp,client_id,revenue,purchase_type,is_tester,is_youtuber
351,2021-01-01,4660245999561852056,853.0,pack,0,0
439,2021-01-01,4905393702707182978,277.0,hard,0,0
472,2021-01-01,613720643259957998,2151.0,pack,0,0
498,2021-01-02,5041691475431075286,1153.0,hard,0,0
516,2021-01-02,1334726919424607014,1616.0,hard,0,0
...,...,...,...,...,...,...
54660,2021-04-27,8455091682614093260,312.0,hard,0,0
54789,2021-04-28,2065676150963494089,227.0,hard,0,0
54797,2021-04-28,237060470191682003,253.0,hard,0,0
54846,2021-04-28,2082825185959655615,1043.0,pack,0,0


In [3]:
# Проверяем тип данных, с которыми предстоит работать
payments.dtypes

event_timestamp     object
client_id            int64
revenue            float64
purchase_type       object
is_tester            int64
is_youtuber          int64
dtype: object

In [4]:
installs

Unnamed: 0,client_id,install_date
0,4324237485864989747,2021-01-29
1,2614649573193308458,2021-01-29
2,5216305460009860018,2021-01-29
3,9005903977217811684,2021-01-29
4,8800689291083556692,2021-01-29
...,...,...
28432,309458290455152256,2021-01-21
28433,4144340611081689365,2021-01-21
28434,3385466057804283325,2021-01-21
28435,39574897776864490,2021-01-21


In [5]:
installs.dtypes

client_id        int64
install_date    object
dtype: object

## User install

In [7]:
# Группируем по дате установки и количеству уникальных пользователей, тем самым формируя когорты
# Заодно для наглядности переименуем столбец
installs_cohort = installs.groupby(['install_date'], as_index=False).agg({'client_id':'nunique'}
                                                                        ).rename(columns={'client_id':'users_installs'})
installs_cohort

Unnamed: 0,install_date,users_installs
0,2021-01-01,779
1,2021-01-02,993
2,2021-01-03,1063
3,2021-01-04,1115
4,2021-01-05,1065
5,2021-01-06,1029
6,2021-01-07,998
7,2021-01-08,1051
8,2021-01-09,1029
9,2021-01-10,1095


## Paying Users

In [8]:
# Скеливаем две таблицы по user_id, тем самым получая для каждого платящего его дату установки. 
# Затем группируем по дате установке, аггрегируем кол-во уникальный пользователей ну и "косметика" в виде ренейма
# Так же сохраняем в новую переменную для дальнейшей работы

payments_cohort = payments.merge(
    installs,
    on='client_id',
    how='inner'
).groupby(['install_date'], as_index=False).agg({'client_id':'nunique'}
                                               ).rename(columns={'client_id':'paying_users'})
payments_cohort

Unnamed: 0,install_date,paying_users
0,2021-01-01,31
1,2021-01-02,42
2,2021-01-03,49
3,2021-01-04,32
4,2021-01-05,39
5,2021-01-06,31
6,2021-01-07,46
7,2021-01-08,30
8,2021-01-09,35
9,2021-01-10,40


## Revenue

In [9]:
# Склеиваем уже полученную таблицу с количеством платящих и выручку от каждого пользователя.
# Группируем по дате, ренейм для наглядности

payments_cohort = payments.merge(
    installs,
    on='client_id',
    how='inner'
).groupby(['install_date'], as_index=False).agg({'client_id':'nunique',
                                                 'revenue':'sum'}
                                               ).rename(columns={'client_id':'paying_users'})

# payments_cohort['revenue'] = payments_cohort['revenue'].astype('int')
payments_cohort

Unnamed: 0,install_date,paying_users,revenue
0,2021-01-01,31,43235.0
1,2021-01-02,42,145236.0
2,2021-01-03,49,112920.0
3,2021-01-04,32,74144.0
4,2021-01-05,39,45698.0
5,2021-01-06,31,52275.0
6,2021-01-07,46,51869.0
7,2021-01-08,30,48225.0
8,2021-01-09,35,60553.0
9,2021-01-10,40,70181.0


## ARPU

In [10]:
# Рассчитываем ARPU, зная доход и количество установок в когорте

payments_cohort['ARPU'] = payments_cohort['revenue'] / installs_cohort['users_installs']
payments_cohort.drop(['revenue'], axis=1)

Unnamed: 0,install_date,paying_users,ARPU
0,2021-01-01,31,55.500642
1,2021-01-02,42,146.259819
2,2021-01-03,49,106.227658
3,2021-01-04,32,66.496861
4,2021-01-05,39,42.90892
5,2021-01-06,31,50.801749
6,2021-01-07,46,51.972946
7,2021-01-08,30,45.884872
8,2021-01-09,35,58.846453
9,2021-01-10,40,64.092237


## ARPPU

In [11]:
# Рассчитываем ARPPU, зная доход и количество платящих в когорте

payments_cohort['ARPPU'] = payments_cohort['revenue'] / payments_cohort['paying_users']
payments_cohort.drop(['ARPU','revenue'], axis=1)

Unnamed: 0,install_date,paying_users,ARPPU
0,2021-01-01,31,1394.677419
1,2021-01-02,42,3458.0
2,2021-01-03,49,2304.489796
3,2021-01-04,32,2317.0
4,2021-01-05,39,1171.74359
5,2021-01-06,31,1686.290323
6,2021-01-07,46,1127.586957
7,2021-01-08,30,1607.5
8,2021-01-09,35,1730.085714
9,2021-01-10,40,1754.525


# Сводная таблица

In [12]:
# В конце решил показать одну общую таблицу, чтоб бы нагляднее были видны все метрики.
# Заодно добавил метрику доля платящих для наглядности.

installs_cohort = installs_cohort.merge(
    payments_cohort,
    on='install_date',
    how='outer'
)
installs_cohort['Paying_share'] = (installs_cohort['paying_users'] / installs_cohort['users_installs'] * 100).round(2)
installs_cohort

Unnamed: 0,install_date,users_installs,paying_users,revenue,ARPU,ARPPU,Paying_share
0,2021-01-01,779,31,43235.0,55.500642,1394.677419,3.98
1,2021-01-02,993,42,145236.0,146.259819,3458.0,4.23
2,2021-01-03,1063,49,112920.0,106.227658,2304.489796,4.61
3,2021-01-04,1115,32,74144.0,66.496861,2317.0,2.87
4,2021-01-05,1065,39,45698.0,42.90892,1171.74359,3.66
5,2021-01-06,1029,31,52275.0,50.801749,1686.290323,3.01
6,2021-01-07,998,46,51869.0,51.972946,1127.586957,4.61
7,2021-01-08,1051,30,48225.0,45.884872,1607.5,2.85
8,2021-01-09,1029,35,60553.0,58.846453,1730.085714,3.4
9,2021-01-10,1095,40,70181.0,64.092237,1754.525,3.65
