## Разработка SQL-скрипта

In [1]:
import pandas as pd
import seaborn as sns
import sqlalchemy
from sqlalchemy import create_engine


In [2]:
import configparser

# Загрузка и чтение конфиг файла
config = configparser.ConfigParser()
config.read('config_rfm.ini')
db_params = config['postgresql']

connection_string = f"postgresql://{db_params['user']}:{db_params['password']}@{db_params['host']}:{db_params['port']}/{db_params['database']}"

# Подключение через %sql
%load_ext sql
%sql $connection_string

Cоздаем временную таблицу **rfm_status**, в которую собираем все необходимые для анализа данные:
- Выбираем колонку с номерами карт пользователей card, даем ей название **customer**.
- Считаем общую сумму продаж по каждой карте по полю summ_with_disc, даем название **monetary**.
- По каждой карте считаем количество транзакций - поле **frequency**.
- Находим дату самого последнего заказа по каждому клиенту - **most_recent_customer_order_date**.
- Вычисляем дату самого последнего заказа по предоставленной базе - **last_order_date**.
- Если в момент покупки касса была в оффлайн-режиме, то вместо номера карты записывается зашифрованная последовательность символов. Отфильтровываем реальные номера карт (имеют длину 13 символов).

In [3]:
%%sql
drop table if exists rfm_status;
create temp table rfm_status as
select card as customer,
	sum(summ_with_disc) as monetary,
	count(card) as frequency,
	date_trunc('day', max(datetime)) as most_recent_customer_order_date,
	(select date_trunc('day', max(datetime)+interval '1' day) as last_order_date
		from bonuscheques
		order by 1 desc
		limit 1) as most_recent_order_date
from bonuscheques
where length(card) = 13
group by card
order by 2 desc;

 * postgresql://student:***@95.163.241.236:5432/apteka
Done.
5926 rows affected.


[]

Cоздаем временную таблицу **rfm**, в которой:
 - Выбираем колонки customer, monetary, frequency, most_recent_customer_order_date и most_recent_order_date из предыдущей таблицы.  
 - Рассчитываем метрику recency как разницу между следующим днем от последней даты заказа по предоставленному датасету (поле most_recent_customer_order_date) и датой последнего заказа каждого клиента (поле last_order_date). 
 - Исключаем из анализа аномальные значения метрики frequency 3∗𝐼𝑄𝑅. см. раздел EDA.

In [4]:
%%sql
drop table if exists rfm;
create temp table rfm as
select
	customer,
	monetary,
	frequency,
	most_recent_customer_order_date,
	most_recent_order_date,
	date_part('day', most_recent_order_date - most_recent_customer_order_date) as Recency
from rfm_status
where frequency <= 13
group by 1, 2, 3, 4, 5, 6
order by 2 desc;

 * postgresql://student:***@95.163.241.236:5432/apteka
Done.
5690 rows affected.


[]

Cоздаем временную таблицу **rfm_calculation_ntile**, в которой:
- Выбираем все колонки из предыдущей таблицы.  
- Проводим сегментацию клиентов по метрикам recency, frequency и monetary.   
Установливаем границы сегментов по квартилям в 25% и 75%.   

In [5]:
%%sql
drop table if exists rfm_calculation_ntile;
create temp table rfm_calculation_ntile as
select rfm.*,
	case when recency <= 34 then 3
      when recency between 35 and 187 then 2
      when recency >= 188 then 1
  end as rfm_recency,
  case when frequency <= 1 then 1
      when frequency between 2 and 3 then 2
      when frequency >= 4 then 3
  end as rfm_frequency,
  case when monetary <= 700 then 1
      when monetary between 701 and 3261 then 2
      when monetary >= 3262 then 3
  end as rfm_monetary
from rfm;

 * postgresql://student:***@95.163.241.236:5432/apteka
Done.
5690 rows affected.


[]

Cоздаем временную таблицу **rfm_calculation_ntile**, в которой:  
- Выбираем все колонки из предыдущей таблицы.  
- Формируем сегменты, присваиваем комбинированный RFM-код.  

In [6]:
%%sql
drop table if exists rfm_value_points;
create temp table rfm_value_points as
select
	rcn.*,
	(rcn.rfm_recency + rcn.rfm_frequency + rcn.rfm_monetary) as rfm_value,
	cast(rcn.rfm_recency as varchar) || cast(rcn.rfm_frequency as varchar) || cast(rcn.rfm_monetary as varchar) as rfm_points
from rfm_calculation_ntile as rcn;

 * postgresql://student:***@95.163.241.236:5432/apteka
Done.
5690 rows affected.


[]

Cоздаем временную таблицу **rfm_customer_categories**, в которой:  
- Выбираем колонки customer_card и rfm_points из предыдущей таблицы.  
- Группируем сегменты в категории.  

In [7]:
%%sql
drop table if exists rfm_customer_categories;
create temp table rfm_customer_categories as
select
	rfmm.customer as customer_card,
	rfmm.rfm_points,
	case
		when rfmm.rfm_points in ('333', '233') then 'Champions'
		when rfmm.rfm_points in ('332', '331', '223', '323') then 'Loyal'
		when rfmm.rfm_points in ('322', '232', '231') then 'Potential_Loyalist'
		when rfmm.rfm_points in ('311', '211') then 'New Customers'
		when rfmm.rfm_points in ('221', '321', '313', '312', '222', '213', '212') then 'Promising'
		when rfmm.rfm_points in ('131', '122', '121') then 'At_Risk'
		when rfmm.rfm_points in ('133', '132', '113', '123') then 'Cannot_Lose_Them'
		when rfmm.rfm_points in ('112', '111') then 'Hibernating_customers'
	end as rfm_categories
from rfm_value_points as rfmm;

 * postgresql://student:***@95.163.241.236:5432/apteka
Done.
5690 rows affected.


[]

Cоздаем временную таблицу **rfm_stat**, в которой:
- Рассчитываем минимальное, максимальное и медианное значение метрик.
- Формируем статистики по каждому итоговому сегменту.

In [8]:
%%sql
drop table if exists rfm_stat;
create temp table rfm_stat as
select cc.rfm_categories,
  min(Recency) as min_R, max(Recency) as max_R,
  min(frequency) as min_F, max(frequency) as max_F,
  round(percentile_cont(0.5) within group (order by monetary asc)) as mean_M,
  count(customer) as cnt
from rfm_customer_categories as cc
join rfm as r
on cc.customer_card = r.customer
group by cc.rfm_categories
;

 * postgresql://student:***@95.163.241.236:5432/apteka
Done.
8 rows affected.


[]

In [9]:
df_rfm_stat = %sql select * from rfm_stat;
df_rfm_stat = df_rfm_stat.DataFrame()

 * postgresql://student:***@95.163.241.236:5432/apteka
8 rows affected.


**Статистика по сегментам:**

In [10]:
df_rfm_stat.sort_values(by='mean_m', ascending=False)

Unnamed: 0,rfm_categories,min_r,max_r,min_f,max_f,mean_m,cnt
2,Champions,1.0,186.0,4,13,5802.0,842
1,Cannot_Lose_Them,189.0,329.0,1,12,3922.0,172
4,Loyal,1.0,187.0,2,10,3558.0,371
6,Potential_Loyalist,1.0,185.0,2,11,1886.0,558
7,Promising,1.0,187.0,1,3,1278.0,1770
0,At_Risk,188.0,327.0,2,3,1266.0,277
3,Hibernating_customers,188.0,333.0,1,1,718.0,969
5,New Customers,1.0,187.0,1,1,451.0,731
