## Задание
Используя данные из выгрузки посчитать метрики:

* Число уникальных пользователей
* Конверсия (в покупку)
* ARPU
* ARPPU
* Средний чек
* Повторные покупки (среднее количество покупок на пользователя)

## Описание данных
Коллега прислал вам следующие данные:

* ga:date – дата
* ga:clientid – идентификатор пользователя (из основной системы аналитики)
* userID – идентификатор пользователя (из другой системы)
* ga:transaction_id – id транзакции
* ga:revenue – доход
* ga:user – колонка с единственной ячейкой, в ней хранится число уникальных пользователей

In [1]:
import pandas as pd
import seaborn as sns
import matplotlib as plt
import numpy as np

%matplotlib inline

In [2]:
data = pd.read_csv('https://stepik.org/media/attachments/lesson/423116/august_data.csv', parse_dates=[0])

In [3]:
data.columns = [x.replace('ga:','') for x in data.columns]

## 1. Уникальные пользователи

In [4]:
data.head()

Unnamed: 0,date,clientid,userID,transaction_id,revenue,Unnamed: 5,user
0,2019-08-28 12:29:24,280250900.0,7186054,383919,28103,,141000.0
1,2019-08-28 12:27:12,819663700.0,7186010,97225,177697,,
2,2019-08-28 11:43:24,1751156000.0,7184859,385087,64892,,
3,2019-08-28 11:40:50,551533300.0,7186029,385392,38816,,
4,2019-08-28 11:25:31,452793500.0,7183548,385871,3112,,


In [5]:
data = data.drop(columns=['userID','Unnamed: 5']) #удаляем идентифиактор из другой системы аналитики и пустой столбец, они нам не нужны для расчет

In [6]:
data.head()

Unnamed: 0,date,clientid,transaction_id,revenue,user
0,2019-08-28 12:29:24,280250900.0,383919,28103,141000.0
1,2019-08-28 12:27:12,819663700.0,97225,177697,
2,2019-08-28 11:43:24,1751156000.0,385087,64892,
3,2019-08-28 11:40:50,551533300.0,385392,38816,
4,2019-08-28 11:25:31,452793500.0,385871,3112,


In [7]:
unique_users = int(data.iloc[0,4])
print(f'Количество уникальных пользователей равняется = {unique_users}')

Количество уникальных пользователей равняется = 141000


## 2. Количество платящих пользователей(клиентов)

In [8]:
payer_user = int(data.query('revenue > 0').clientid.nunique())
print(f"Количество клиентов равняется = {payer_user}")

Количество клиентов равняется = 685


## 3. Конверсия

In [9]:
conversion = np.round(payer_user / unique_users * 100, 2)
print(f"Конверсия равняется = {conversion}%")

Конверсия равняется = 0.49%


## 4. Средний чек

In [20]:
np.round(data.revenue.sum() / data.query('revenue > 0').revenue.count(), 0)

34458.0

In [21]:
avg_check = np.round(np.round(data.revenue.sum() / data.query('revenue > 0').revenue.count(), 0), 0)
print(f"Средний чек равняется = {int(avg_check)}")

Средний чек равняется = 34458


## 5. Повторные покупки

In [24]:
repeat_purschase = data.query('revenue > 0').revenue.count() / payer_user
print(f"Количество повторных покупок равняется = {np.round(repeat_purschase, 2)}")

Количество повторных покупок равняется = 1.36


## 6. Средний доход на платящего пользователя (ARPPU)

In [26]:
arppu = repeat_purschase * avg_check
print(f"Средний доход на платящего пользователя равняется = {np.round(arppu, 0)}")

Количество повторных покупок равняется = 46883.0


## 7. Средний доход на пользователя (ARPU)

In [35]:
arpu = (payer_user / unique_users) * (data.revenue.sum() / payer_user)
print(f"Средний доход на пользователя равняется = {np.round(arpu, 0)}")

Средний доход на пользователя равняется = 228.0
