## Разработка SQL-скрипта

In [1]:
import pandas as pd
import seaborn as sns
import sqlalchemy
from sqlalchemy import create_engine
import configparser

In [2]:
import configparser

# Загружаем конфиг
config = configparser.ConfigParser()
config.read('config_rfm.ini')
db_params = config['postgresql']

connection_string = f"postgresql://{db_params['user']}:{db_params['password']}@{db_params['host']}:{db_params['port']}/{db_params['database']}"

# Подключение через %sql
%load_ext sql
%sql $connection_string

Cоздаем временную таблицу **rfm_status**, в которую собираем все необходимые для анализа данные:
- Выбираем колонку с номерами карт пользователей card, даем ей название **customer**.
- Считаем общую сумму продаж по каждой карте по полю summ_with_disc, даем название **monetary**.
- По каждой карте считаем количество транзакций - поле **frequency**.
- Находим дату самого последнего заказа по каждому клиенту - **most_recent_customer_order_date**.
- Вычисляем дату самого последнего заказа по предоставленной базе - **last_order_date**.
- Если в момент покупки касса была в оффлайн-режиме, то вместо номера карты записывается зашифрованная последовательность символов. Отфильтровываем реальные номера карт (имеют длину 13 символов).

In [3]:
%%sql
drop table if exists rfm_status;
create temp table rfm_status as
select card as customer,
	sum(summ_with_disc) as monetary,
	count(card) as frequency,
	date_trunc('day', max(datetime)) as most_recent_customer_order_date,
	(select date_trunc('day', max(datetime)+interval '1' day) as last_order_date
		from bonuscheques
		order by 1 desc
		limit 1) as most_recent_order_date
from bonuscheques
where length(card) = 13
group by card
order by 2 desc;

 * postgresql://student:***@95.163.241.236:5432/apteka
Done.
5926 rows affected.


[]

Cоздаем временную таблицу **rfm**, в которой:
 - Выбираем колонки customer, monetary, frequency, most_recent_customer_order_date и most_recent_order_date из предыдущей таблицы.  
 - Рассчитываем метрику recency как разницу между следующим днем от последней даты заказа по предоставленному датасету (поле most_recent_customer_order_date) и датой последнего заказа каждого клиента (поле last_order_date). 
 - Исключаем из анализа аномальные значения метрики frequency 3∗𝐼𝑄𝑅. см. раздел EDA.

In [4]:
%%sql
drop table if exists rfm;
create temp table rfm as
select
	customer,
	monetary,
	frequency,
	most_recent_customer_order_date,
	most_recent_order_date,
	date_part('day', most_recent_order_date - most_recent_customer_order_date) as Recency
from rfm_status
where frequency <= 13
group by 1, 2, 3, 4, 5, 6
order by 2 desc;

 * postgresql://student:***@95.163.241.236:5432/apteka
Done.
5690 rows affected.


[]

Cоздаем временную таблицу **rfm_calculation_ntile**, в которой:
- Выбираем все колонки из предыдущей таблицы.  
- Установливаем границы сегментов recency и monetary по квартилям в 25% и 75%.  
Для frequency указаны фиксированные бизнес-пороги (1 покупка, 2-3 покупки, 4 и более).  
- Проводим сегментацию клиентов по метрикам recency, frequency и monetary.   

In [5]:
%%sql
drop table if exists rfm_calculation_ntile;
create temp table rfm_calculation_ntile as
with bounds as (
    select
        percentile_cont(0.25) within group (order by recency) as r25,
        percentile_cont(0.75) within group (order by recency) as r75,
        percentile_cont(0.25) within group (order by monetary) as m25,
        percentile_cont(0.75) within group (order by monetary) as m75
    from rfm
)
select r.*,
       case 
           when r.recency <= b.r25 then 3
           when r.recency > b.r25 and r.recency <= b.r75 then 2
           else 1
       end as rfm_recency,
       case 
           when r.frequency = 1 then 1
           when r.frequency between 2 and 3 then 2
           else 3
       end as rfm_frequency,
       case 
           when r.monetary <= b.m25 then 1
           when r.monetary > b.m25 and r.monetary <= b.m75 then 2
           else 3
       end as rfm_monetary
from rfm r
cross join bounds b;


 * postgresql://student:***@95.163.241.236:5432/apteka
Done.
5690 rows affected.


[]

Cоздаем временную таблицу **rfm_calculation_ntile**, в которой:  
- Выбираем все колонки из предыдущей таблицы.  
- Формируем сегменты, присваиваем комбинированный RFM-код.  

In [6]:
%%sql
drop table if exists rfm_value_points;
create temp table rfm_value_points as
select
	rcn.*,
	(rcn.rfm_recency + rcn.rfm_frequency + rcn.rfm_monetary) as rfm_value,
	cast(rcn.rfm_recency as varchar) || cast(rcn.rfm_frequency as varchar) || cast(rcn.rfm_monetary as varchar) as rfm_points
from rfm_calculation_ntile as rcn;

 * postgresql://student:***@95.163.241.236:5432/apteka
Done.
5690 rows affected.


[]

Cоздаем временную таблицу **rfm_customer_categories**, в которой:  
- Выбираем колонки customer_card и rfm_points из предыдущей таблицы.  
- Группируем сегменты в категории.  

In [7]:
%%sql
drop table if exists rfm_customer_categories;
create temp table rfm_customer_categories as
select
	rfmm.customer as customer_card,
	rfmm.rfm_points,
	case
		when rfmm.rfm_points in ('333', '233') then 'Champions'
		when rfmm.rfm_points in ('332', '331', '223', '323') then 'Loyal'
		when rfmm.rfm_points in ('322', '232', '231') then 'Potential Loyalist'
		when rfmm.rfm_points in ('311', '211') then 'New Customers'
		when rfmm.rfm_points in ('221', '321', '313', '312', '222', '213', '212') then 'Promising'
		when rfmm.rfm_points in ('131', '122', '121') then 'At Risk'
		when rfmm.rfm_points in ('133', '132', '113', '123') then 'Cannot Lose Them'
		when rfmm.rfm_points in ('112', '111') then 'Hibernating Customers'
	end as rfm_categories
from rfm_value_points as rfmm;

 * postgresql://student:***@95.163.241.236:5432/apteka
Done.
5690 rows affected.


[]

Cоздаем временную таблицу **rfm_stat**, в которой:
- Рассчитываем минимальное, максимальное и медианное значение метрик.
- Формируем статистики по каждому итоговому сегменту.

In [8]:
%%sql
drop table if exists rfm_stat;
create temp table rfm_stat as
select 
    cc.rfm_categories,
    min(recency) as min_recency, 
    max(recency) as max_recency,
    min(frequency) as min_frequency, 
    max(frequency) as max_frequency,
    round(avg(monetary)) as mean_monetary,   -- среднее значение вместо медианы
    count(customer) as cnt
from rfm_customer_categories as cc
join rfm as r
    on cc.customer_card = r.customer
group by cc.rfm_categories;


 * postgresql://student:***@95.163.241.236:5432/apteka
Done.
8 rows affected.


[]

**Статистика по сегментам:**

In [9]:
df_rfm_stat = %sql select * from rfm_stat;
df_rfm_stat = df_rfm_stat.DataFrame()

 * postgresql://student:***@95.163.241.236:5432/apteka
8 rows affected.


In [10]:
df_rfm_stat.sort_values(by='mean_monetary', ascending=False)

Unnamed: 0,rfm_categories,min_recency,max_recency,min_frequency,max_frequency,mean_monetary,cnt
5,Champions,1.0,186.0,4,13,6996,900
3,Cannot Lose Them,188.0,332.0,1,12,4181,197
2,Loyal,1.0,187.0,2,10,3898,398
4,Potential Loyalist,1.0,185.0,2,11,1769,507
6,Promising,1.0,187.0,1,3,1541,1736
7,At Risk,188.0,327.0,2,3,1350,266
0,Hibernating Customers,188.0,333.0,1,1,881,955
1,New Customers,1.0,187.0,1,1,414,731
