<a href="https://colab.research.google.com/github/valerymamontov/colab_notebooks/blob/main/RFM_analysis.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## RFM-сегментация пользователей  
  
Для сегментации использовался тестовый набор, взятый в Интернете.  
Датасет и описание - [ссылка](https://archive.ics.uci.edu/ml/datasets/online+retail#)  
Загрузил себе в ВК - [ссылка](https://vk.com/doc526127569_581872137)  
Данные датированы 2010-2011 годом.  
Для обработки они загружены в бесплатный кластер DataBricks.  

In [None]:
# загрузка в databricks файла с данными выполнена через GUI
# после загрузки файл попадет в папку dbfs:/FileStore/tables
# такой путь нельзя использовать в pandas (возвращает ошибку, что файл не найден)
# требуется скопировать файл в другой каталог, например, в file:/databricks/driver/
# ссылка на документацию - https://kb.databricks.com/python/dbfs-file-size-limit.html

# команды, вводить каждую в отдельной строке

# %fs ls "dbfs:/FileStore/tables" - проверка файла после загрузки
# %fs cp dbfs:/FileStore/tables/online_retail.csv file:/databricks/driver/data.csv - копирование файла
# %fs ls "file:/databricks/driver/" - проверка после копирования

In [None]:
# %fs cp dbfs:/FileStore/tables/online_retail.csv file:/databricks/driver/data.csv

In [None]:
import pandas as pd
import numpy as np
from datetime import datetime, timedelta

In [None]:
# ссылка на файл и схема (описание полей)
# url = "https://vk.com/doc526127569_581872137"
file = "file:/databricks/driver/data.csv"

schema = {
    'InvoiceNo': np.str, 
    'StockCode': np.str,
    'Description': np.str, 
    'Quantity': np.int64, 
    'InvoiceDate': np.str,
    'UnitPrice': np.float64, 
    'CustomerID': np.float64, 
    'Country': np.str,
}

In [None]:
# создание датафрейма
df = pd.read_csv(file, dtype=schema, delimiter=",")
df.head()

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country
0,536365,85123A,WHITE HANGING HEART T-LIGHT HOLDER,6,01.12.2010 8:26:00,2.55,17850.0,United Kingdom
1,536365,71053,WHITE METAL LANTERN,6,01.12.2010 8:26:00,3.39,17850.0,United Kingdom
2,536365,84406B,CREAM CUPID HEARTS COAT HANGER,8,01.12.2010 8:26:00,2.75,17850.0,United Kingdom
3,536365,84029G,KNITTED UNION FLAG HOT WATER BOTTLE,6,01.12.2010 8:26:00,3.39,17850.0,United Kingdom
4,536365,84029E,RED WOOLLY HOTTIE WHITE HEART.,6,01.12.2010 8:26:00,3.39,17850.0,United Kingdom


In [None]:
# анализ датафрейма на наличие пустых значений
df.isnull().sum()

In [None]:
# удаление строк с пустыми значениями в столбце CustomerID
df.dropna(subset=["CustomerID"], inplace=True)

In [None]:
# преобразование столбца InvoiceDate в дату
df["InvoiceDate2"] = df.InvoiceDate.apply(lambda x: datetime.strptime(x.split(" ")[0], "%d.%m.%Y"))

In [None]:
# как оказалось, в столбце Quantity (количество) присутствует большое число отрицательных чисел
df.query("Quantity < 0")

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country,InvoiceDate2
141,C536379,D,Discount,-1,01.12.2010 9:41:00,27.50,14527.0,United Kingdom,2010-12-01
154,C536383,35004C,SET OF 3 COLOURED FLYING DUCKS,-1,01.12.2010 9:49:00,4.65,15311.0,United Kingdom,2010-12-01
235,C536391,22556,PLASTERS IN TIN CIRCUS PARADE,-12,01.12.2010 10:24:00,1.65,17548.0,United Kingdom,2010-12-01
236,C536391,21984,PACK OF 12 PINK PAISLEY TISSUES,-24,01.12.2010 10:24:00,0.29,17548.0,United Kingdom,2010-12-01
237,C536391,21983,PACK OF 12 BLUE PAISLEY TISSUES,-24,01.12.2010 10:24:00,0.29,17548.0,United Kingdom,2010-12-01
...,...,...,...,...,...,...,...,...,...
540449,C581490,23144,ZINC T-LIGHT HOLDER STARS SMALL,-11,09.12.2011 9:57:00,0.83,14397.0,United Kingdom,2011-12-09
541541,C581499,M,Manual,-1,09.12.2011 10:28:00,224.69,15498.0,United Kingdom,2011-12-09
541715,C581568,21258,VICTORIAN SEWING BOX LARGE,-5,09.12.2011 11:57:00,10.95,15311.0,United Kingdom,2011-12-09
541716,C581569,84978,HANGING HEART JAR T-LIGHT HOLDER,-1,09.12.2011 11:58:00,1.25,17315.0,United Kingdom,2011-12-09


In [None]:
# очевидно это отмененные заказы
df.query("CustomerID == 12346.0")

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country,InvoiceDate2
61619,541431,23166,MEDIUM CERAMIC TOP STORAGE JAR,74215,18.01.2011 10:01:00,1.04,12346.0,United Kingdom,2011-01-18
61624,C541433,23166,MEDIUM CERAMIC TOP STORAGE JAR,-74215,18.01.2011 10:17:00,1.04,12346.0,United Kingdom,2011-01-18


In [None]:
# при группировке такие заказы схлопнутся, в сумме дадут ноль
# однако, если столбец Quantity в сумме даст ноль, то столбец  UnitPrice - нет

# для решения этой проблемы будет добавлен новый столбец (Quantity*UnitPrice)
df["Price"] = df["Quantity"] * df["UnitPrice"]
df.head()

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country,InvoiceDate2,Price
0,536365,85123A,WHITE HANGING HEART T-LIGHT HOLDER,6,01.12.2010 8:26:00,2.55,17850.0,United Kingdom,2010-12-01,15.3
1,536365,71053,WHITE METAL LANTERN,6,01.12.2010 8:26:00,3.39,17850.0,United Kingdom,2010-12-01,20.34
2,536365,84406B,CREAM CUPID HEARTS COAT HANGER,8,01.12.2010 8:26:00,2.75,17850.0,United Kingdom,2010-12-01,22.0
3,536365,84029G,KNITTED UNION FLAG HOT WATER BOTTLE,6,01.12.2010 8:26:00,3.39,17850.0,United Kingdom,2010-12-01,20.34
4,536365,84029E,RED WOOLLY HOTTIE WHITE HEART.,6,01.12.2010 8:26:00,3.39,17850.0,United Kingdom,2010-12-01,20.34


In [None]:
# группировка данных (из датафрейма отбираются только нужные столбцы)
orders = df.groupby(by=["InvoiceNo", "CustomerID", "InvoiceDate2"]).agg({"Price": lambda x: x.sum()}).reset_index()

# переименование столбца 
orders.rename(columns={"InvoiceDate2": "InvoiceDate"}, inplace=True)

# проверка нового датафрейма
print(len(orders))
orders.head()

Unnamed: 0,InvoiceNo,CustomerID,InvoiceDate,Price
0,536365,17850.0,2010-12-01,139.12
1,536366,17850.0,2010-12-01,22.2
2,536367,13047.0,2010-12-01,278.73
3,536368,13047.0,2010-12-01,70.05
4,536369,13047.0,2010-12-01,17.85


In [None]:
# Recency (давность последней покупки)

# получение максимальной даты и прибавление к ней одного дня, затем подсчёт разницы
now = orders["InvoiceDate"].max() + timedelta(days=1)
orders["Recency"] = orders["InvoiceDate"].apply(lambda x: (now - x).days)

# альтернативный вариант (ручной):
# вывод максимальной даты и прибавление к ней одного дня, потом расчёт давности
# print(orders.InvoiceDate.max()) 
# 2011-12-09 00:00:00
# orders["Recency"] = orders.InvoiceDate.apply(lambda x: (datetime.strptime("2011-12-10", "%Y-%m-%d") - x).days)
orders.sample(7)

Unnamed: 0,InvoiceNo,CustomerID,InvoiceDate,Price,Recency
11810,566018,13137.0,2011-09-08,473.29,93
18122,580667,15031.0,2011-12-05,175.53,5
16053,575899,16133.0,2011-11-11,359.9,29
11053,564060,17073.0,2011-08-22,453.79,110
8088,556876,16241.0,2011-06-15,173.82,178
16401,576672,12731.0,2011-11-16,1497.52,24
5872,551535,17615.0,2011-05-01,153.75,223


In [None]:
# словарь с тремя функциями для агрегации при группировке
aggr = {
  "InvoiceDate": lambda x: len([d for d in x]),    # создаётся список из всех дат по заказам пользователя, считается его длина
  "Recency": lambda x: x.min(),                    # из всех дней выбирается ближайший день, т.е. минимальное значение
  "Price": lambda x: sum([p for p in x])           # суммирование
}
rfm = orders.groupby(by="CustomerID").agg(aggr).reset_index()

# переименование и сдвиг столбцов
rfm.rename(columns={"InvoiceDate": "Frequency", "Price": "Monetary"}, inplace=True)
rfm = rfm[["CustomerID", "Recency", "Frequency", "Monetary"]]
rfm.head()

Unnamed: 0,CustomerID,Recency,Frequency,Monetary
0,12346.0,326,2,0.0
1,12347.0,3,7,4310.0
2,12348.0,76,4,1797.24
3,12349.0,19,1,1757.55
4,12350.0,311,1,334.4


In [None]:
# проверка на наличие в столбцах отрицательных значений
print(rfm.query("Recency < 0"))
print(rfm.query("Frequency < 0"))
print(rfm.query("Monetary < 0"))

# print(rfm.query("Monetary < 0")["Monetary"].count())
# итог: в столбце M всё-равно почему-то присутствуют отрицательные значения - 43 строки

In [None]:
# вычисление квантилей
quintiles = rfm[["Recency", "Frequency", "Monetary"]].quantile([.2, .4, .6, .8]).to_dict()
quintiles

In [None]:
# функция для присвоения каждому пользователю нужной группы (ранга)
def score_rfm(x, c):
  rank = [1, 2, 3, 4, 5]
  if c == "Recency":
    rank = rank[::-1]     # для Recency (Давности) нужно "развернуть" ранжирование
    
  if x <= quintiles[c][.2]:
    return rank[0]
  elif x <= quintiles[c][.4]:
    return rank[1]
  elif x <= quintiles[c][.6]:
    return rank[2]
  elif x <= quintiles[c][.8]:
    return rank[3]
  else:
    return rank[4]

In [None]:
# присвоение рангов
rfm["R"] = rfm["Recency"].apply(lambda x: score_rfm(x, "Recency"))
rfm["F"] = rfm["Frequency"].apply(lambda x: score_rfm(x, "Frequency"))
rfm["M"] = rfm["Monetary"].apply(lambda x: score_rfm(x, "Monetary"))
rfm["RFM"] = rfm["R"].map(str) + rfm["F"].map(str) + rfm["M"].map(str)
rfm.head()

Unnamed: 0,CustomerID,Recency,Frequency,Monetary,R,F,M,RFM
0,12346.0,326,2,0.0,1,2,1,121
1,12347.0,3,7,4310.0,5,4,5,545
2,12348.0,76,4,1797.24,2,3,4,234
3,12349.0,19,1,1757.55,4,1,4,414
4,12350.0,311,1,334.4,1,1,2,112


In [None]:
# карта (словарь) для сегментации пользователей
segm_map = {
  r"[1-2][1-2][1-5]": "hibernating",
  r"[1-2][3-4][1-5]": "at risk",
  r"[1-2][5][1-5]": "can\'t loose",
  r"[3][1-2][1-5]": "about to sleep",
  r"[3][3][1-5]": "need attention",
  r"[3-4][4-5][1-5]": "loyal customers",
  r"[4][1][1-5]": "promising",
  r"[5][1][1-5]": "new customers",
  r"[4-5][2-3][1-5]": "potential loyalists",
  r"[5][4-5][1-5]": "champions"
}
# параметр "Monetary" не используется для определения пользователя в тот или иной сегмент
# поэтому третья цифра исключена (одинакова для всех групп) - [1-5]

In [None]:
# текстовое описание сегмента
rfm["Segment"] = rfm["RFM"].replace(segm_map, regex=True)
rfm.head()

Unnamed: 0,CustomerID,Recency,Frequency,Monetary,R,F,M,RFM,Segment
0,12346.0,326,2,0.0,1,2,1,121,hibernating
1,12347.0,3,7,4310.0,5,4,5,545,champions
2,12348.0,76,4,1797.24,2,3,4,234,at risk
3,12349.0,19,1,1757.55,4,1,4,414,promising
4,12350.0,311,1,334.4,1,1,2,112,hibernating


In [None]:
# небольшой анализ
print(f"Всего пользователей: {len(rfm)}")
print("--" * 15)
rfm.groupby(by="Segment")["Segment"].count().sort_values()

In [None]:
# выгрузка данных в csv (через кнопку)
display(rfm)

In [None]:
# ссылка на дашборд в Tableau
# https://public.tableau.com/profile/valerii.mamontov#!/vizhome/RMF_16089053326860/Dashboard