Что такое рфм?

R (от англ. recency – давность) – определяет, как давно была совершена сделка. Показывает, сколько прошло времени с последней покупки. 

F (от англ. frequency – частота) – показывает, насколько часто клиент покупает товар или пользуется определенной услугой. 

M (от англ. monetary – деньги) – общая вложенность средств в продукт или услугу. Также это можно понимать как общую активность на сайте либо длительность посещения. 
    
Гипотеза - значение 1 - это значит что сделка была совершена давно/редко/неприбыльно

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import warnings

warnings.filterwarnings('ignore')
sns.set_theme()

In [2]:
df = pd.read_csv("tele2_dataset.csv", parse_dates=['date', 'event_time'], )

In [34]:
df['r'] = (df['rfm_index'] // 100)
df['f'] = (df['rfm_index'] // 10 % 10)
df['m'] = (df['rfm_index'] % 10)

In [35]:
df.tail()

Unnamed: 0,date,campaign,source,medium,device,client_id,session_id,event_time,event_name,current_tariff,...,user_auth,user_type,region_name,age,gender,rfm_index,have_home_inet,r,f,m
174180,2022-11-30,(not set),yandex.ru,referral,mobile,5638055.166979679,2443287409402186791,2022-11-30 08:31:17,Посещение корзины с добавленными товарами,Мой разговор 09_2021,...,1,B2C,SPB,25 - 39 лет,Male,332.0,0.0,3.0,3.0,2.0
174181,2022-11-30,(not set),(direct),(none),mobile,1171786665.166982,7572068840188511854,2022-11-30 14:56:35,Посещение корзины с добавленными товарами,Супер онлайн+,...,1,B2C,PERM,54+,Male,213.0,0.0,2.0,1.0,3.0
174182,2022-11-30,(not set),yandex.ru,referral,mobile,373789213.1669794,8347549649336024298,2022-11-30 07:47:07,Посещение корзины с добавленными товарами,,...,0,,MSK,18 - 24 года,Female,,,,,
174183,2022-11-30,(not set),(direct),(none),mobile,346641068.1669796,3716363740063803780,2022-11-30 08:12:14,Посещение корзины с добавленными товарами,Мой разговор 12_2019,...,1,B2C,KRASNOYARSK,18 - 24 года,Female,332.0,1.0,3.0,3.0,2.0
174184,2022-11-30,(not set),(direct),(none),set-top box,934745616.166976,3035487505006267650,2022-11-29 22:50:17,Посещение корзины с добавленными товарами,Мой онлайн+ 12_2021,...,1,B2C,YAR,25 - 39 лет,Female,312.0,0.0,3.0,1.0,2.0


# Рассмотрим различные значения f и сред кол-во покупок у данных выборок

In [108]:
f_more_2 = df[df['f'] > 2]

In [109]:
cnt_people = f_more_2.client_id.unique().shape[0] 
cnt_buy = f_more_2[f_more_2['event_name'] == 'Покупка'].shape[0]
print(f'Количество людей с f > 2: {cnt_people},\nКоличество покупок {cnt_buy}\nСреднее количество покупок {round((cnt_buy/cnt_people), 2)}')

Количество людей с f > 2: 4863,
Количество покупок 637
Среднее количество покупок 0.13


In [110]:
f_less_3 = df[df['f'] <= 2]

In [111]:
cnt_people = f_less_3.client_id.unique().shape[0] 
cnt_buy = f_less_3[f_less_3['event_name'] == 'Покупка'].shape[0]
print(f'Количество людей с f < 3: {cnt_people},\nКоличество покупок {cnt_buy}\nСреднее количество покупок {round((cnt_buy/cnt_people), 2)}')

Количество людей с f < 3: 5582,
Количество покупок 902
Среднее количество покупок 0.16


In [112]:
f_eq_1 = df[df['f'] == 1]

In [113]:
cnt_people = f_eq_1.client_id.unique().shape[0] 
cnt_buy = f_eq_1[f_eq_1['event_name'] == 'Покупка'].shape[0]
print(f'Количество людей с f = 1: {cnt_people},\nКоличество покупок {cnt_buy}\nСреднее количество покупок {round((cnt_buy/cnt_people), 2)}')

Количество людей с f = 1: 2929,
Количество покупок 398
Среднее количество покупок 0.14


In [114]:
f_eq_4 = df[df['f'] == 4]

In [115]:
cnt_people = f_eq_4.client_id.unique().shape[0] 
cnt_buy = f_eq_4[f_eq_4['event_name'] == 'Покупка'].shape[0]
print(f'Количество людей с f = 4: {cnt_people},\nКоличество покупок {cnt_buy}\nСреднее количество покупок {round((cnt_buy/cnt_people), 2)}')

Количество людей с f = 4: 2329,
Количество покупок 320
Среднее количество покупок 0.14


# Значения похожи, значит посмотрим для тех, кто совершил хотя бы одну покупку

In [116]:
f_more_2_and_buy = df[(df['f'] > 2) & (df['event_name'] == 'Покупка')]

In [117]:
data = f_more_2_and_buy
cnt_people = data.client_id.unique().shape[0] 
cnt_buy = data.shape[0]
print(f'Количество людей с f > 2: {cnt_people},\nКоличество покупок {cnt_buy}\nСреднее количество покупок {round((cnt_buy/cnt_people), 2)}')

Количество людей с f > 2: 265,
Количество покупок 637
Среднее количество покупок 2.4


In [118]:
f_less_3_and_buy = df[(df['f'] < 3) & (df['event_name'] == 'Покупка')]

In [119]:
data = f_less_3_and_buy
cnt_people = data.client_id.unique().shape[0] 
cnt_buy = data.shape[0]
print(f'Количество людей с f < 3: {cnt_people},\nКоличество покупок {cnt_buy}\nСреднее количество покупок {round((cnt_buy/cnt_people), 2)}')

Количество людей с f < 3: 353,
Количество покупок 902
Среднее количество покупок 2.56


In [120]:
f_eq_1_buy = df[(df['f'] == 1) & (df['event_name'] == 'Покупка')]

In [121]:
data = f_eq_1_buy
cnt_people = data.client_id.unique().shape[0] 
cnt_buy = data.shape[0]
print(f'Количество людей с f = 1: {cnt_people},\nКоличество покупок {cnt_buy}\nСреднее количество покупок {round((cnt_buy/cnt_people), 2)}')

Количество людей с f = 1: 180,
Количество покупок 398
Среднее количество покупок 2.21


In [122]:
f_eq_2_buy = df[(df['f'] == 2) & (df['event_name'] == 'Покупка')]

In [123]:
data = f_eq_2_buy
cnt_people = data.client_id.unique().shape[0] 
cnt_buy = data.shape[0]
print(f'Количество людей с f = 2: {cnt_people},\nКоличество покупок {cnt_buy}\nСреднее количество покупок {round((cnt_buy/cnt_people), 2)}')

Количество людей с f = 2: 176,
Количество покупок 504
Среднее количество покупок 2.86


In [124]:
f_eq_3_buy = df[(df['f'] == 3) & (df['event_name'] == 'Покупка')]

In [125]:
data = f_eq_3_buy
cnt_people = data.client_id.unique().shape[0] 
cnt_buy = data.shape[0]
print(f'Количество людей с f = 3: {cnt_people},\nКоличество покупок {cnt_buy}\nСреднее количество покупок {round((cnt_buy/cnt_people), 2)}')

Количество людей с f = 3: 145,
Количество покупок 317
Среднее количество покупок 2.19


In [126]:
f_eq_4_buy = df[(df['f'] == 4) & (df['event_name'] == 'Покупка')]

In [127]:
data = f_eq_4_buy
cnt_people = data.client_id.unique().shape[0] 
cnt_buy = data.shape[0]
print(f'Количество людей с f = 4: {cnt_people},\nКоличество покупок {cnt_buy}\nСреднее количество покупок {round((cnt_buy/cnt_people), 2)}')

Количество людей с f = 4: 123,
Количество покупок 320
Среднее количество покупок 2.6


In [128]:
f_eq_1 = df[(df['f'] == 1)]

In [129]:
data = f_eq_1
cnt_people = data.client_id.unique().shape[0] 
cnt_buy = data[data['event_name'] == 'Покупка'].shape[0]
print(f'Количество людей с f = 1: {cnt_people},\nКоличество покупок {cnt_buy}\nСреднее количество покупок {round((cnt_buy/cnt_people), 2)}')

Количество людей с f = 1: 2929,
Количество покупок 398
Среднее количество покупок 0.14


In [130]:
f_eq_2 = df[(df['f'] == 2)]

In [131]:
data = f_eq_2
cnt_people = data.client_id.unique().shape[0] 
cnt_buy = data[data['event_name'] == 'Покупка'].shape[0]
print(f'Количество людей с f = 2: {cnt_people},\nКоличество покупок {cnt_buy}\nСреднее количество покупок {round((cnt_buy/cnt_people), 2)}')

Количество людей с f = 2: 2678,
Количество покупок 504
Среднее количество покупок 0.19


In [132]:
f_eq_3 = df[(df['f'] == 3)]

In [133]:
data = f_eq_3
cnt_people = data.client_id.unique().shape[0] 
cnt_buy = data[data['event_name'] == 'Покупка'].shape[0]
print(f'Количество людей с f = 3: {cnt_people},\nКоличество покупок {cnt_buy}\nСреднее количество покупок {round((cnt_buy/cnt_people), 2)}')

Количество людей с f = 3: 2551,
Количество покупок 317
Среднее количество покупок 0.12


In [134]:
f_eq_4 = df[(df['f'] == 4)]

In [135]:
data = f_eq_4
cnt_people = data.client_id.unique().shape[0] 
cnt_buy = data[data['event_name'] == 'Покупка'].shape[0]
print(f'Количество людей с f = 4: {cnt_people},\nКоличество покупок {cnt_buy}\nСреднее количество покупок {round((cnt_buy/cnt_people), 2)}')

Количество людей с f = 4: 2329,
Количество покупок 320
Среднее количество покупок 0.14


# Просмотр f ничего не дало, попробуем найти корреляцию с m. Сначала рассмотрим для всех людей

In [170]:
m_eq_1 = df[df['m'] == 1]

In [171]:
cnt_people = m_eq_1.client_id.unique().shape[0] 
cnt_buy = m_eq_1[m_eq_1['event_name'] == 'Покупка'].shape[0]
print(f'Количество людей с m = 1: {cnt_people},\nКоличество покупок {cnt_buy}\nСреднее количество покупок {round((cnt_buy/cnt_people), 2)}')

Количество людей с m = 1: 2389,
Количество покупок 379
Среднее количество покупок 0.16


In [172]:
m_eq_2 = df[df['m'] == 2]

In [173]:
cnt_people = m_eq_2.client_id.unique().shape[0] 
cnt_buy = m_eq_2[m_eq_2['event_name'] == 'Покупка'].shape[0]
print(f'Количество людей с m = 2: {cnt_people},\nКоличество покупок {cnt_buy}\nСреднее количество покупок {round((cnt_buy/cnt_people), 2)}')

Количество людей с m = 2: 3493,
Количество покупок 434
Среднее количество покупок 0.12


In [174]:
m_eq_3 = df[df['m'] == 3]

In [175]:
cnt_people = m_eq_3.client_id.unique().shape[0] 
cnt_buy = m_eq_3[m_eq_3['event_name'] == 'Покупка'].shape[0]
print(f'Количество людей с m = 3: {cnt_people},\nКоличество покупок {cnt_buy}\nСреднее количество покупок {round((cnt_buy/cnt_people), 2)}')

Количество людей с m = 3: 2649,
Количество покупок 485
Среднее количество покупок 0.18


In [176]:
m_eq_4 = df[df['m'] == 4]

In [177]:
cnt_people = m_eq_4.client_id.unique().shape[0] 
cnt_buy = m_eq_4[m_eq_4['event_name'] == 'Покупка'].shape[0]
print(f'Количество людей с m = 4: {cnt_people},\nКоличество покупок {cnt_buy}\nСреднее количество покупок {round((cnt_buy/cnt_people), 2)}')

Количество людей с m = 4: 1951,
Количество покупок 241
Среднее количество покупок 0.12


# Посмотрим для тех, кто совершил хоть 1 покупку

In [178]:
m_eq_1_buy = df[(df['m'] == 1) & (df['event_name'] == 'Покупка')]

In [179]:
data = m_eq_1_buy
cnt_people = data.client_id.unique().shape[0] 
cnt_buy = data.shape[0]
print(f'Количество людей с m = 1: {cnt_people},\nКоличество покупок {cnt_buy}\nСреднее количество покупок {round((cnt_buy/cnt_people), 2)}')

Количество людей с m = 1: 129,
Количество покупок 379
Среднее количество покупок 2.94


In [180]:
m_eq_2_buy = df[(df['m'] == 2) & (df['event_name'] == 'Покупка')]

In [181]:
data = m_eq_2_buy
cnt_people = data.client_id.unique().shape[0] 
cnt_buy = data.shape[0]
print(f'Количество людей с m = 2: {cnt_people},\nКоличество покупок {cnt_buy}\nСреднее количество покупок {round((cnt_buy/cnt_people), 2)}')

Количество людей с m = 2: 215,
Количество покупок 434
Среднее количество покупок 2.02


In [182]:
m_eq_3_buy = df[(df['m'] == 3) & (df['event_name'] == 'Покупка')]

In [183]:
data = m_eq_3_buy
cnt_people = data.client_id.unique().shape[0] 
cnt_buy = data.shape[0]
print(f'Количество людей с m = 3: {cnt_people},\nКоличество покупок {cnt_buy}\nСреднее количество покупок {round((cnt_buy/cnt_people), 2)}')

Количество людей с m = 3: 164,
Количество покупок 485
Среднее количество покупок 2.96


In [184]:
m_eq_4_buy = df[(df['m'] == 4) & (df['event_name'] == 'Покупка')]

In [185]:
data = m_eq_4_buy
cnt_people = data.client_id.unique().shape[0] 
cnt_buy = data.shape[0]
print(f'Количество людей с m = 4: {cnt_people},\nКоличество покупок {cnt_buy}\nСреднее количество покупок {round((cnt_buy/cnt_people), 2)}')

Количество людей с m = 4: 118,
Количество покупок 241
Среднее количество покупок 2.04
