In [None]:
# Importation et chargement des biblioth√®ques
import pandas as pd
import matplotlib.pyplot as plt
from sklearn import preprocessing, cluster

In [None]:
# Chargement du dataset
retail_df = pd.read_csv("../data/online_retail_II.csv")
retail_df.info()

In [None]:
retail_df.head()

In [None]:
# Conversion de la colonne InnvoiceDate en "datetime"
retail_df["InvoiceDateTime"] = pd.to_datetime(retail_df["InvoiceDate"], errors="coerce")
retail_df.info()
retail_df.head()

In [None]:
# Cleaning du dataframe
# Suppression des clients non identfi√©s
retail_df.dropna(subset=["Customer ID"], inplace=True)

# Suppression des doublons
retail_df.drop_duplicates(inplace=True)

# Filtrage du dataset pour √©carter les valeurs n√©gatives (les retours de produits) sur les colonnes "Quantity" et "Price"
df_filtred = retail_df[(retail_df["Quantity"] > 0) & (retail_df["Price"] > 0)]

# Affichage des modifications
print(f"Les nouvelles dimensions du dataframe filtr√© : {df_filtred.shape}")
df_filtred.info()
df_filtred.head()

In [None]:
# Cr√©ation de la colonne "TotalAmount"
df_filtred["TotalAmount"] = df_filtred["Quantity"] * df_filtred["Price"]

# D√©finition de la date r√©f√©rence de calcul
ref_date = df_filtred["InvoiceDateTime"].max() + pd.Timedelta(days=1)
print(f"Date de r√©f√©rence pour l'analyse : {ref_date}")

# D√©termination du RFM
rfm = df_filtred.groupby("Customer ID").agg({
    "InvoiceDateTime": lambda x : (ref_date - x.max()).days,
    "Invoice":"nunique",
    "TotalAmount":"sum"
})

# Renommage des colonnes pour plus de clart√©
rfm.rename(columns={
    "InvoiceDateTime":"Recency",    # RECENCY : Date Ref - Date Max du client
    "Invoice":"Frequency",          # FREQUENCY : Compte les factures UNIQUES
    "TotalAmount":"Monetary"},      # MONETARY : Somme des montants
    inplace=True)

# Affichage
rfm.head()

In [None]:
# Standardisation du dataset
# Instanciation du Scaler
scaler = preprocessing.StandardScaler()

# Transformation des donn√©es
rfm_scaled_array = scaler.fit_transform(rfm)

# Transformation des donn√©es standardis√©es en dataframes
rfm_scaled = pd.DataFrame(data=rfm_scaled_array, index=rfm.index, columns=rfm.columns)

# Affichage
rfm_scaled.head()

In [None]:
# Clustering avec KMeans : Recherche du nombre de cluster id√©al avec la methode elbow
# D√©finition du nombre de cluster
range_min = 2
range_max = 11
k_range=range(range_min, range_max)

inertia = []

# Recherche du nombre de cluster id√©al
for k in k_range :
    kmeans = cluster.KMeans(n_clusters=k, random_state=42)
    kmeans.fit(rfm_scaled)
    inertia.append(kmeans.inertia_)

# Afichage du graphe
plt.figure(figsize=(10,6))
plt.plot(k_range, inertia, marker='o')
plt.title('M√©thode du Coude (Elbow Method)')
plt.xlabel('Nombre de clusters (k)')
plt.ylabel('Inertie')
plt.show()

In [None]:
# Clustering avec KMeans : Choix de 5 comme nombre de cluster id√©al
kmeans_final = cluster.KMeans(n_clusters=5, random_state=42)

# Entrainement du mod√®le avec le nombre de cluster id√©al
kmeans_final.fit(rfm_scaled)

# Ajout des labels des clusters au dataset de base (rfm)
rfm["Cluster"] = kmeans_final.labels_

# Affichage
print(rfm["Cluster"].value_counts())
rfm.head()


In [None]:
# Reformatage du dataframe
rfm.reset_index(inplace=True)

# Identification des clusters
cluster_summary = rfm.groupby("Cluster").agg({
    "Recency": "mean",
    "Frequency": "mean",
    "Monetary": "mean",
    "Customer ID": "count" 
}).round(2) 

# Renommage des colonnes
cluster_summary.rename(columns={"Customer ID":"Count"}, inplace=True)

# Trie et Affichage
print(cluster_summary.sort_values("Monetary", ascending=False))

In [None]:
# Profilages des clusters
# Dictionnaire de correspondance
segment_names = {
    3: "Champions üèÜ",
    2: "Loyal Customers ü•à",
    1: "Prometteurs üå±",
    4: "√Ä Risque ‚ö†Ô∏è",
    0: "Perdus üí§"
}

# On applique les noms dans une nouvelle colonne
rfm['Segment'] = rfm['Cluster'].map(segment_names)

# V√©rification finale
print(rfm[['Customer ID', 'Segment', 'Recency', 'Frequency', 'Monetary']].head())

In [None]:
# Sauvegarde du r√©sultat final dans le dossier data
rfm.to_csv('../data/rfm_segmented.csv', index=False)