# Задание
Вопрос 2, отдел маркетинга  
Мы хотим запустить программу лояльности с 5 уровнями. Уровень присваивается в зависимости от суммы потраченных пользователем денег. Какие пороги уровней сделать и почему?

# Подключаемся к БД

In [1]:
from sqlalchemy import create_engine

import pandas as pd
import numpy as np

import matplotlib.pyplot as plt
import seaborn as sns

In [2]:
# Connecting to the db
engine = create_engine('postgresql://reader:34gfj3i@3.69.174.228:3467/data_db')

# Посмотрим на таблицы

In [3]:
users = pd.read_sql("SELECT * FROM users", engine)

In [4]:
users.tail()

Unnamed: 0,id,login,sex,created_at,is_test,date_bd
996,100996,db0c97eb8e@example.com,,2022-01-17 14:47:23.543703,False,1995-11-21
997,100997,23061c0572@example.com,m,2021-09-30 14:47:23.543703,False,1973-11-20
998,100998,8196869d71@example.com,,2022-09-11 14:47:23.543703,False,1976-10-15
999,100999,5cf3a6c7df@example.com,f,2021-12-25 14:47:23.543703,False,1981-11-13
1000,101000,d6dd503179@example.com,m,2021-11-19 14:47:23.543703,False,1996-05-18


In [5]:
transactions = pd.read_sql("SELECT * FROM transactions", engine)

In [6]:
transactions.tail()

Unnamed: 0,id,user_id,status,amount,created_at,updated_at
5996,9102,100766,fail,25.0,2022-09-02 05:21:30.633303,
5997,14997,100955,success,25.0,2022-07-17 02:17:18.172503,
5998,14998,100955,success,25.0,2022-05-18 03:30:37.055703,
5999,14999,100955,success,25.0,2022-08-14 17:56:49.161303,
6000,15000,100955,success,25.0,2022-07-29 07:54:30.287703,


# Вопрос 2, отдел маркетинга
Мы хотим запустить программу лояльности с 5 уровнями. Уровень присваивается в зависимости от суммы потраченных пользователем денег. Какие пороги уровней сделать и почему?

## 2.1. Разобъем по процентилям
Допущение: кто потратил больше медианного значения (50%), уже может претендовать на участие в программе лояльности. 

Разбить на уровни можно равномерно (50-60-70-80-90). А я, в рамках эксперимента, сделаю так: 

Уровень 1 - между 50-м и 70-м процентилем.  
Уровень 2 - между 70-м и 80-м процентилем.  
Уровень 3 - между 80-м и 90-м процентилем.  
Уровень 4 - между 90-м и 95-м процентилем.  
Уровень 5 - между 95-м и 100-м (max) процентилем.

In [7]:
# Сумма трат на пользователя
q = '''
    SELECT
         user_id, SUM(amount) as total
     FROM 
         transactions
     WHERE
         status = 'success'
     GROUP BY
         user_id
     ORDER BY
         total DESC
    '''

df = pd.read_sql(q, engine)

In [8]:
df

Unnamed: 0,user_id,total
0,100955,21120.0
1,100206,9531.0
2,100438,8773.0
3,100124,8420.0
4,100051,8392.0
...,...,...
498,100999,25.0
499,100027,25.0
500,100243,25.0
501,100415,25.0


In [9]:
# Процентили
q = '''
    WITH users_total AS
        (SELECT
             user_id, SUM(amount) as total
         FROM 
             transactions
         WHERE
             status = 'success'
         GROUP BY
             user_id
         ORDER BY
             total DESC)
    SELECT 
        PERCENTILE_DISC(0.5) WITHIN GROUP (ORDER BY total) AS lvl_1, 
        PERCENTILE_DISC(0.7) WITHIN GROUP (ORDER BY total) AS lvl_2, 
        PERCENTILE_DISC(0.8) WITHIN GROUP (ORDER BY total) AS lvl_3, 
        PERCENTILE_DISC(0.9) WITHIN GROUP (ORDER BY total) AS lvl_4, 
        PERCENTILE_DISC(0.95) WITHIN GROUP (ORDER BY total) AS lvl_5
    FROM
        users_total
    '''

df = pd.read_sql(q, engine)

In [10]:
df

Unnamed: 0,lvl_1,lvl_2,lvl_3,lvl_4,lvl_5
0,50.0,153.0,262.0,762.0,1389.0


Выбранные процентили оказались не очень удачны, т.к. первые три уровня требуют траты очень маленькой суммы.  
Попробуем так:  
Уровень 1 - между 80-м и 85-м процентилем.  
Уровень 2 - между 85-м и 90-м процентилем.  
Уровень 3 - между 90-м и 95-м процентилем.  
Уровень 4 - между 95-м и 99-м процентилем.  
Уровень 5 - между 99-м и 100-м (max) процентилем.

In [11]:
# Процентили
q = '''
    WITH users_total AS
        (SELECT
             user_id, SUM(amount) as total
         FROM 
             transactions
         WHERE
             status = 'success'
         GROUP BY
             user_id
         ORDER BY
             total DESC)
    SELECT 
        PERCENTILE_DISC(0.8) WITHIN GROUP (ORDER BY total) AS lvl_1, 
        PERCENTILE_DISC(0.85) WITHIN GROUP (ORDER BY total) AS lvl_2, 
        PERCENTILE_DISC(0.9) WITHIN GROUP (ORDER BY total) AS lvl_3, 
        PERCENTILE_DISC(0.95) WITHIN GROUP (ORDER BY total) AS lvl_4, 
        PERCENTILE_DISC(0.99) WITHIN GROUP (ORDER BY total) AS lvl_5
    FROM
        users_total
    '''

df = pd.read_sql(q, engine)

In [12]:
df

Unnamed: 0,lvl_1,lvl_2,lvl_3,lvl_4,lvl_5
0,262.0,440.0,762.0,1389.0,7964.0


Таким образом, выбранные уровни:  
Level 1 - от 262  
Level 2 - от 440  
Level 3 - от 762  
Level 4 - от 1389  
Level 5 - от 7964

## 2.2. Кто потратил больше среднего чека

In [13]:
# Сумма трат на пользователя
q = '''
    SELECT
         user_id, SUM(amount) as total
     FROM 
         transactions
     WHERE
         status = 'success'
     GROUP BY
         user_id
     ORDER BY
         total DESC
    '''

df = pd.read_sql(q, engine)

In [14]:
df.head()

Unnamed: 0,user_id,total
0,100955,21120.0
1,100206,9531.0
2,100438,8773.0
3,100124,8420.0
4,100051,8392.0


Предлагаю не учитывать в дальнейших расчетах лидера трат, т.к. он потратил в 2.2 раза больше денег!, чем второе место. Лидер по покупкам будет получать максимальный уровень программы лояльности.  

Level 5 - от 21120 (или просто лидер по покупкам).

In [15]:
# Средний чек всех пользователей (за вычетом аномального лидера)
q = '''
    WITH users_total AS
        (SELECT
             user_id, SUM(amount) as total
         FROM 
             transactions
         WHERE
             status = 'success'
         GROUP BY
             user_id
         ORDER BY
             total DESC)
    SELECT 
        AVG(total)
    FROM
        users_total
    WHERE
        total < (SELECT MAX(total) FROM users_total)
    '''

df = pd.read_sql(q, engine)

In [16]:
df

Unnamed: 0,avg
0,380.418327


Level 1 >= 380.42

И так еще 3 раза.

In [17]:
q = '''
    WITH users_total AS
        (SELECT
             user_id, SUM(amount) as total
         FROM 
             transactions
         WHERE
             status = 'success'
         GROUP BY
             user_id
         ORDER BY
             total DESC)
    SELECT 
        AVG(total)
    FROM
        users_total
    WHERE
        total < (SELECT MAX(total) FROM users_total) AND 
        total > 380.42
    '''

df = pd.read_sql(q, engine)

In [18]:
df

Unnamed: 0,avg
0,1988.025316


Level 2 >= 1988.03

In [19]:
q = '''
    WITH users_total AS
        (SELECT
             user_id, SUM(amount) as total
         FROM 
             transactions
         WHERE
             status = 'success'
         GROUP BY
             user_id
         HAVING
             SUM(amount) > 2298.56
         ORDER BY
             total DESC)
    SELECT 
        AVG(total)
    FROM
        users_total
    WHERE
        total < (SELECT MAX(total) FROM users_total) AND 
        total > 1988.03
    '''

df = pd.read_sql(q, engine)

In [20]:
df

Unnamed: 0,avg
0,5818.0


Level 3 >= 5818

In [21]:
q = '''
    WITH users_total AS
        (SELECT
             user_id, SUM(amount) as total
         FROM 
             transactions
         WHERE
             status = 'success'
         GROUP BY
             user_id
         HAVING
             SUM(amount) > 6623.37
         ORDER BY
             total DESC)
    SELECT 
        AVG(total)
    FROM
        users_total
    WHERE
        total < (SELECT MAX(total) FROM users_total) AND 
        total > 5818
    '''

df = pd.read_sql(q, engine)

In [22]:
df

Unnamed: 0,avg
0,8492.833333


Level 4 >= 8492.83

По методу "выше среднего" получилось:

Level 1 >= 380.42  
Level 2 >= 1988.03  
Level 3 >= 5818  
Level 4 >= 8492.83  
Level 5 >= 21120 (или лидер по покупкам).

## 2.3. Loyalty score

Процент трат пользователя. 

In [23]:
# loyalty_score = отношение суммы трат пользователя к общей сумме трат. Для удобства умножим на 100 
# Первые 20 пользователей по тратам
q = '''
    WITH users_total_amount AS
        (SELECT
             user_id, SUM(amount) as total
         FROM 
             transactions
         WHERE
             status = 'success'
         GROUP BY
             user_id
         ORDER BY
             total DESC)
    SELECT
        user_id, total, 
        ROUND((total / (SELECT SUM(total) FROM users_total_amount))*100, 2) AS loyalty_score
    FROM
        users_total_amount
    LIMIT 20
    '''

df = pd.read_sql(q, engine)

In [24]:
df

Unnamed: 0,user_id,total,loyalty_score
0,100955,21120.0,9.96
1,100206,9531.0,4.49
2,100438,8773.0,4.14
3,100124,8420.0,3.97
4,100051,8392.0,3.96
5,100519,7964.0,3.76
6,100163,7877.0,3.71
7,100025,6383.0,3.01
8,100737,5965.0,2.81
9,100588,5799.0,2.73


Установим необходимый минимум loyalty score в 1%. Тогда:  
Level 1 >= 1% loyalty score  
Level 2 >= 1.5% loyalty score  
Level 3 >= 2% loyalty score  
Level 4 >= 3% loyalty score  
Level 5 >= 4% loyalty score

# Рекомендация

2.1. По **процентилям** (80-85-90-95-99):  

Level 1 - от 262  
Level 2 - от 440  
Level 3 - от 762  
Level 4 - от 1389  
Level 5 - от 7964

2.2. По методу **"выше среднего"**:   

Level 1 >= 380.42  
Level 2 >= 1988.03  
Level 3 >= 5818  
Level 4 >= 8492.83  
Level 5 = 21120 (или лидер по покупкам)

2.3. По **loyalty score**:   

Level 1 >= 1% loyalty score  
Level 2 >= 1.5% loyalty score  
Level 3 >= 2% loyalty score  
Level 4 >= 3% loyalty score  
Level 5 >= 4% loyalty score

2.4. В конце концов, можно просто взять **круглые суммы** - так пользователям будет проще и понятнее, куда стремиться (чтобы стать участником программы лояльности):  

Level 1 >= 500  
Level 2 >= 2000  
Level 3 >= 5000  
Level 4 >= 8000  
Level 5 >= 20000

Fin.