# Stratégie pour mettre à jour le clustering au fur et à mesure des nouvelles transactions

In [32]:
import pandas as pd
import numpy as np
import seaborn as sns
from sklearn.cluster import KMeans
import plotly.graph_objects as go
import datetime
import matplotlib.pyplot as plt

La stratégie va être de développer une fonction qui prends en entrée l'ensemble des données (anciennes + nouvelles) et qui calculetoutes les features (TotalInvoices, TotalQuantity, TotalPrice, Recency, CancellationPercentage, AvgItemsPerOrder)

In [33]:
df_ = pd.read_csv('dataset/clean_online_retail.csv')
df_all = df_.copy()

df_ = pd.read_csv('dataset/rfm_2009-2010.csv', index_col="Customer ID")
df_rfm_spe_2009_2010 = df_.copy()

df_ = pd.read_csv('dataset/rfm.csv', index_col="Customer ID")
df_rfm_spe_all = df_.copy()

df_2011 = df_all[df_all['InvoiceDate'].dt.year >=2011]
df_2009_2010 = df_all[df_all['InvoiceDate'].dt.year <= 2010]

df_all["InvoiceDate"] = pd.to_datetime(df_all["InvoiceDate"])

In [60]:
import pandas as pd

def calculate_rfm(df):
    last_date = df["InvoiceDate"].max()
    recency = (last_date - df.groupby("Customer ID")["InvoiceDate"].max()).dt.days

    df_gp_cancellation = df.groupby("Customer ID").agg({"cancelled": "sum", "Invoice": "count"})
    df_gp_cancellation = df_gp_cancellation.rename(columns={"cancelled": "TotalCancelled", "Invoice": "TotalInvoices"})
    df_gp_cancellation["CancellationPercentage"] = (df_gp_cancellation["TotalCancelled"] / df_gp_cancellation["TotalInvoices"]) * 100

    df_gp_nb_articles_mean = df.groupby(['Customer ID', 'Invoice']).agg({'Quantity': 'sum'})
    df_gp_nb_articles_mean = df_gp_nb_articles_mean.groupby('Customer ID').mean()
    df_gp_nb_articles_mean.columns = ['AvgItemsPerOrder']

    df_rfm_spe = df.groupby('Customer ID').agg({'Invoice': 'nunique', 'Quantity': 'sum', 'TotalPrice': 'sum'})
    df_rfm_spe.columns = ['TotalInvoices', 'TotalQuantity', 'TotalPrice']
    df_rfm_spe["Recency"] = recency
    df_rfm_spe = df_rfm_spe.merge(df_gp_cancellation["CancellationPercentage"], on="Customer ID")
    df_rfm_spe = df_rfm_spe.merge(df_gp_nb_articles_mean["AvgItemsPerOrder"], on="Customer ID")

    return df_rfm_spe


In [61]:
df = pd.concat([df_2009_2010, df_2011])
df_rfm_spe_updated = calculate_rfm(df)


Pour vérifier que la fonction fonctionne correctement, voici une comparaison des résultats

d'abord les résultats obtenus avec la fonction

In [62]:
df_rfm_spe_updated.describe()

Unnamed: 0,TotalInvoices,TotalQuantity,TotalPrice,Recency,CancellationPercentage,AvgItemsPerOrder
count,5939.0,5939.0,5939.0,5939.0,5939.0,5939.0
mean,7.555144,1690.684627,2742.884541,201.784812,3.688378,200.18512
std,15.970199,8480.714144,13679.955199,211.727459,11.943487,1221.908065
min,1.0,-1085.0,-25111.09,0.0,0.0,-393.0
25%,2.0,177.0,321.365,24.0,0.0,74.875
50%,4.0,462.0,823.53,95.0,0.0,130.0
75%,8.0,1309.5,2143.28,380.0,2.647082,215.391667
max,510.0,364580.0,570380.61,738.0,100.0,87167.0


maintenant les résultats obtenus précédements dans le notebook ou les features sont calculés pour l'ensemble du dataset

In [63]:
df_rfm_spe_all.describe()

Unnamed: 0,TotalInvoices,TotalQuantity,TotalPrice,Recency,CancellationPercentage,AvgItemsPerOrder
count,5939.0,5939.0,5939.0,5939.0,5939.0,5939.0
mean,7.555144,1690.684627,2742.884541,201.784812,3.688378,200.18512
std,15.970199,8480.714144,13679.955199,211.727459,11.943487,1221.908065
min,1.0,-1085.0,-25111.09,0.0,0.0,-393.0
25%,2.0,177.0,321.365,24.0,0.0,74.875
50%,4.0,462.0,823.53,95.0,0.0,130.0
75%,8.0,1309.5,2143.28,380.0,2.647082,215.391667
max,510.0,364580.0,570380.61,738.0,100.0,87167.0


Les statistiques sont identiques, on a bien obtenus le même résultats.

On peut ensuite imaginer d'autres fonctions :
- la normalisation des données
- la méthode du coude
- le clustering avec le nombre de coude trouvé
- PCA
- la supression des lignes dans les clusters de moins de x clients (ces clients seront à traité ultérierement, dans ce clustering on les considèrera comme des valeurs abérrantes, on notera leur id pour de futures analyses)
- nouveau clustering avec moins de cluster
- PCA
- analyse statistique des cluster

Toutes ces fonctions pourront être utilisées dans un script lancé régulièrement pour mettre à jours la segmentation