# Задание
Вопрос 3, отдел трафика  
За каждого пользователя, который совершил платеж на проекте, мы платим рекламной сети. Какую сумму мы можем себе позволить платить за каждого привлеченного пользователя, если учесть, что горизонт окупаемости должен быть не больше 1 месяца?

# Подключаемся к БД

In [1]:
from sqlalchemy import create_engine

import pandas as pd
import numpy as np

import matplotlib.pyplot as plt
import seaborn as sns

In [2]:
# Connecting to the db
engine = create_engine('postgresql://reader:34gfj3i@3.69.174.228:3467/data_db')

# Посмотрим на таблицы

In [3]:
users = pd.read_sql("SELECT * FROM users", engine)

In [4]:
users.tail()

Unnamed: 0,id,login,sex,created_at,is_test,date_bd
996,100996,db0c97eb8e@example.com,,2022-01-17 14:47:23.543703,False,1995-11-21
997,100997,23061c0572@example.com,m,2021-09-30 14:47:23.543703,False,1973-11-20
998,100998,8196869d71@example.com,,2022-09-11 14:47:23.543703,False,1976-10-15
999,100999,5cf3a6c7df@example.com,f,2021-12-25 14:47:23.543703,False,1981-11-13
1000,101000,d6dd503179@example.com,m,2021-11-19 14:47:23.543703,False,1996-05-18


In [5]:
transactions = pd.read_sql("SELECT * FROM transactions", engine)

In [6]:
transactions.tail()

Unnamed: 0,id,user_id,status,amount,created_at,updated_at
5996,9102,100766,fail,25.0,2022-09-02 05:21:30.633303,
5997,14997,100955,success,25.0,2022-07-17 02:17:18.172503,
5998,14998,100955,success,25.0,2022-05-18 03:30:37.055703,
5999,14999,100955,success,25.0,2022-08-14 17:56:49.161303,
6000,15000,100955,success,25.0,2022-07-29 07:54:30.287703,


# Вопрос 3, отдел трафика

За каждого пользователя, который совершил платеж на проекте, мы платим рекламной сети. Какую сумму мы можем себе позволить платить за каждого привлеченного пользователя, если учесть, что горизонт окупаемости должен быть не больше 1 месяца?

Нужно найти ARPU (средний чек) за первый месяц пользователя в приложении. Сумма, которую мы можем позволить платить за пользователя (CAC) должна быть меньше ARPU.

##### 1. Выберем пользователей, совершивших транзакции в первый месяц после регистрации

In [9]:
# Выберем тех, кто совершил покупку в первые 30 дней после регистрации 
q = '''
    SELECT
        user_id, date_start, date_purchase, amount, 
        AGE(date_purchase, date_start) AS date_diff
    FROM
        (SELECT
            user_id, amount, created_at as date_purchase
        FROM
            transactions) t
    LEFT JOIN
        (SELECT
            id, created_at as date_start
        FROM
            users) u
    ON t.user_id = u.id   
    WHERE
        AGE(date_purchase, date_start) < INTERVAL '31 day'
    
    '''

df = pd.read_sql(q, engine)

In [10]:
df

Unnamed: 0,user_id,date_start,date_purchase,amount,date_diff
0,100163,2022-03-29 14:47:23.543703,2022-04-10 21:08:16.430103,132.0,12 days 06:20:52.886400
1,100737,2022-01-19 14:47:23.543703,2022-01-23 18:06:32.447703,25.0,4 days 03:19:08.904000
2,100745,2022-08-07 14:47:23.543703,2022-08-07 21:49:54.340503,25.0,0 days 07:02:30.796800
3,100144,2022-09-12 14:47:23.543703,2022-09-15 14:10:10.017303,25.0,2 days 23:22:46.473600
4,100016,2021-12-13 14:47:23.543703,2021-12-17 20:33:36.522903,25.0,4 days 05:46:12.979200
...,...,...,...,...,...
2076,100616,2022-06-25 14:47:23.543703,2022-06-26 15:41:11.145303,25.0,1 days 00:53:47.601600
2077,100971,2021-12-08 14:47:23.543703,2021-12-09 19:08:12.398103,25.0,1 days 04:20:48.854400
2078,100412,2022-07-19 14:47:23.543703,2022-08-15 10:56:20.102103,231.0,26 days 20:08:56.558400
2079,100833,2021-09-29 14:47:23.543703,2021-10-19 18:33:38.452503,127.0,20 days 03:46:14.908800


##### 2. Рассчитаем средний чек пользователя в первый месяц

In [11]:
q = '''
    WITH 
        first_month_users AS
            (SELECT
                user_id, date_start, date_purchase, amount, 
                AGE(date_purchase, date_start) AS date_diff
            FROM
                (SELECT
                    user_id, amount, created_at as date_purchase
                FROM
                    transactions) t
            LEFT JOIN
                (SELECT
                    id, created_at as date_start
                FROM
                    users) u
            ON t.user_id = u.id   
            WHERE
                AGE(date_purchase, date_start) < INTERVAL '31 day'), 
         -- сумма транзакций пользователя в первый месяц
         total_by_user AS    
            (SELECT
                user_id, SUM(amount) AS total_amount
            FROM
                first_month_users
            GROUP BY
                user_id)
    -- среднее выручки с пользователя за месяц
    SELECT
        AVG(total_amount) as arpmau
    FROM
        total_by_user
    '''

df = pd.read_sql(q, engine)

In [12]:
df

Unnamed: 0,arpmau
0,315.911504


Хорошим соотношением месячного дохода с пользователя к стоимости его привлечения будем считать коэффициент **3**.

In [13]:
# Таким образом:
cac = df.arpmau.values[0] / 3
print("Mы можем себе позволить платить за каждого привлеченного пользователя:", cac)

Mы можем себе позволить платить за каждого привлеченного пользователя: 105.30383480825958


# Рекомендация
Средняя выручка с пользователя в первый месяц составляет около 316 ед.

Соответственно, на привлечение нового пользователя нам лучше тратить **меньше 105** ед.

Fin.