# Analyse de Campagne Marketing - Grande Distribution

---

## Contexte et Objectifs

**Client :** Direction Marketing d'une multinationale de la grande distribution

### Objectifs Principaux
1. **Analyser, visualiser et interpr√©ter** les donn√©es de campagne marketing
2. **D√©finir les KPIs pertinents** pour √©valuer l'efficacit√© des campagnes
3. **Pr√©dire la r√©ponse client** aux futures campagnes

### Objectifs Finaux
- Chiffrer l'efficacit√© des campagnes marketing
- R√©aliser des KPIs et fournir des chiffres cl√©s
- Cerner la cible client et comprendre le public cibl√©

### Livrables
- Analyses exploratoires compl√®tes
- Mod√®les pr√©dictifs de r√©ponse client
- Segmentation client (clustering)
- Justification du feature engineering

## Table des Mati√®res

1. **Importation des Biblioth√®ques**
2. **Chargement et D√©couverte des Donn√©es**
3. **Nettoyage et Pr√©traitement des Donn√©es**
4. **Feature Engineering**
5. **D√©finition et Calcul des KPIs**
6. **Segmentation Client (Clustering)**
7. **Mod√©lisation Pr√©dictive**
8. **Conclusions et Recommandations**

---
## 1) Importation des Biblioth√®ques

In [25]:
import pandas as pd
import numpy as np

# Visualisation
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots

# Machine Learning - Preprocessing
from sklearn.preprocessing import StandardScaler, LabelEncoder

# Machine Learning - Clustering
from sklearn.cluster import KMeans
from sklearn.decomposition import PCA

# Machine Learning - Mod√©lisation
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier, GradientBoostingClassifier
from sklearn.tree import DecisionTreeClassifier

# Machine Learning - √âvaluation
from sklearn.metrics import (
    classification_report, confusion_matrix, 
    accuracy_score, precision_score, recall_score, f1_score,
    roc_auc_score, roc_curve, precision_recall_curve
)

# Ignorer les warnings
import warnings 
warnings.filterwarnings('ignore')

# Configuration des graphiques
plt.style.use('seaborn-v0_8-darkgrid')
sns.set_palette("husl")
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', 100)

print("‚úÖ Toutes les biblioth√®ques ont √©t√© import√©es avec succ√®s !")

‚úÖ Toutes les biblioth√®ques ont √©t√© import√©es avec succ√®s !


---
## 2Ô∏è) Chargement et D√©couverte des Donn√©es

In [None]:
# Chargement des donn√©es
df = pd.read_csv('Camp_Market.csv', sep=';')

print("üìä Dimensions du dataset :")
print(f"   Nombre de lignes : {df.shape[0]}")
print(f"   Nombre de colonnes : {df.shape[1]}")
print("\n" + "="*80 + "\n")

# Affichage des premi√®res lignes
print("üìã Aper√ßu des donn√©es :")
df.head(10)

In [None]:
# Informations g√©n√©rales sur le dataset
print("‚ÑπÔ∏è Informations sur le dataset :")
print(df.info())
print("\n" + "="*80 + "\n")

# Statistiques descriptives
print("Statistiques descriptives :")
df.describe()

---
## 3Ô∏è) Nettoyage et Pr√©traitement des Donn√©es

In [None]:
#1 Dans Marital Status, remplacer "Alone" par "Single" et "Absurd" et "YOLO" par "Other"

new_value = {
    'Alone': 'Single',
    'Absurd': 'Other',
    'YOLO': 'Other'
}
df['Marital_Status'] = df['Marital_Status'].replace(new_value)
print("Valeurs dans 'Marital_Status' remplac√©es avec succ√®s.")
print(df['Marital_Status'].head())  
df.head()

print("\n" + "="*80 + "\n")

# 1.5 Dans la colonne Income, change les , en .
df['Income'] = df['Income'].astype(str).str.replace(',', '.').astype(float)
print("Virgules dans 'Income' remplac√©es par des points avec succ√®s.")
print(df['Income'].head())

print("\n" + "="*80 + "\n")

#2 Supprimer la ligne avec income = 666666

df = df[df['Income'] != 666666]
print("Ligne avec 'Income' = 666666 supprim√©e avec succ√®s.")
# print(df['Income'].head())

print("\n" + "="*80 + "\n")

                                                



#4 Supprimer les lignes si la somme des canaux de distrib (NumDealsPurchases + NumWebPurchases + NumCatalogPurchases + NumStorePurchases) = 0

df['Total_Purchases'] = df['NumDealsPurchases'] + df['NumWebPurchases'] + df['NumCatalogPurchases'] + df['NumStorePurchases']
df = df[df['Total_Purchases'] != 0]
df = df.drop(columns=['Total_Purchases'])
print("Lignes avec somme des canaux de distribution √©gale √† 0 supprim√©es avec succ√®s.")
# print(df.head())

print("\n" + "="*80 + "\n")


#5 Supprimer les lignes o√π la somme store/web/catalog < deals

df['Sum_Other_Purchases'] = df['NumWebPurchases'] + df['NumCatalogPurchases'] + df['NumStorePurchases']
df = df[df['Sum_Other_Purchases'] >= df['NumDealsPurchases']]
df = df.drop(columns=['Sum_Other_Purchases'])
print("Lignes o√π la somme store/web/catalog < deals supprim√©es avec succ√®s.")
# print(df.head())   

print("\n" + "="*80 + "\n")


#6 Trier visuelement les campagnes Marketing dans le bon ordre
# ID - Year_birth - Education - Marital_Status - Income - Kidhome - Teenhome - Dt_Customer - Recency - MntWines - MntFruits - MntMeatProducts - MntFishProducts - MntSweetProducts - MntGoldProds - NumDealsPurchases - NumWebPurchases - NumCatalogPurchases - NumStorePurchases - NumWebVisitsMonth - AcceptedCmp1 - AcceptedCmp2 - AcceptedCmp3 - AcceptedCmp4 - AcceptedCmp5 - Response - Complain
# Suppresion des colonnes Z_CostContact et Z_Revenue car elles ne sont pas utiles pour l'analyse

desired_order = [
    'ID', 'Year_Birth', 'Education', 'Marital_Status', 'Income', 
    'Kidhome', 'Teenhome', 'Dt_Customer', 'Recency', 
    'MntWines', 'MntFruits', 'MntMeatProducts', 'MntFishProducts', 
    'MntSweetProducts', 'MntGoldProds', 
    'NumDealsPurchases', 'NumWebPurchases', 'NumCatalogPurchases', 
    'NumStorePurchases', 'NumWebVisitsMonth', 
    'AcceptedCmp1', 'AcceptedCmp2', 'AcceptedCmp3', 
    'AcceptedCmp4', 'AcceptedCmp5', 'Response', 'Complain'
]
df = df[desired_order]
print("Colonnes tri√©es dans l'ordre souhait√© avec succ√®s.")

# print("\n" + "="*80 + "\n")


#7 Afficher la somme du total des income

total_income = df['Income'].sum()
print(f"La somme totale des revenus (Income) est : {total_income}")

# V√©rifier le nombre de valeurs manquantes avant
print(f"Nombre de valeurs manquantes dans Income avant : {df['Income'].isna().sum()}")

total_income = df['Income'].sum()
print(f"La somme totale des revenus (Income) est : {total_income}")




---
## 4Ô∏è) Feature Engineering

Cr√©ation de nouvelles variables pertinentes pour l'analyse

In [None]:
#1 Ajout champ "age"

actuel_year = 2014
df['Age'] = actuel_year - df['Year_Birth']
print("Champ 'Age' ajout√© avec succ√®s.")
print(df[['Year_Birth', 'Age']].head(10))

print("\n" + "="*80 + "\n")

#2 Ajout champ "enfant totaux"

df['Total_Children'] = df['Kidhome'] + df['Teenhome']
print("Champ 'Total_Children' ajout√© avec succ√®s.")
print(df[['Kidhome', 'Teenhome', 'Total_Children']].head(10))

print("\n" + "="*80 + "\n")

#3 Ajout champ "achats totaux"

df['Total_Purchases'] = (df['MntWines'] + df['MntFruits'] + df['MntMeatProducts'] + 
                          df['MntFishProducts'] + df['MntSweetProducts'] + df['MntGoldProds'])
print("Champ 'Total_Purchases' ajout√© avec succ√®s.")
print(df[['MntWines', 'MntFruits', 'MntMeatProducts', 'MntFishProducts', 
          'MntSweetProducts', 'MntGoldProds', 'Total_Purchases']].head(10))

print("\n" + "="*80 + "\n")

#4 Ajout du caract√®re $ dans les champs Mnt

money_columns = ['MntWines', 'MntFruits', 'MntMeatProducts', 'MntFishProducts', 'MntSweetProducts', 'MntGoldProds', 'Total_Purchases']
for col in money_columns:
    df[col] = pd.to_numeric(df[col], errors='coerce')  
    df[col] = df[col].apply(lambda x: f"${x:.2f}" if pd.notnull(x) else "")
print("Caract√®re '$' ajout√© aux champs Mnt avec succ√®s.")
print(df[money_columns].head())

print(df[money_columns].head(10))
print(df[money_columns].dtypes)


print("\n" + "="*80 + "\n")

#5 Ajout champ somme store/web/catalog

df['Total_Num_Purchases'] = df['NumStorePurchases'] + df['NumWebPurchases'] + df['NumCatalogPurchases']
print("Champ 'Total_Num_Purchases' ajout√© avec succ√®s.")
print(df[['NumStorePurchases', 'NumWebPurchases', 'NumCatalogPurchases', 'Total_Num_Purchases']].head(10))

print("\n" + "="*80 + "\n")

#5. ajout statuts conjugal simple (vie seul ou pas) couple ou single
#6. total aux foyer
# nombre de jours depuis l'inscription (se bas√© sur 30 juin 2014)

---
## 6Ô∏è) D√©finition et Calcul des KPIs

### KPIs Cl√©s pour √âvaluer l'Efficacit√© des Campagnes

In [None]:
# ========== CALCUL DES KPIs PRINCIPAUX ==========

print("="*80)
print("üìä CALCUL DES KPIs - INDICATEURS DE PERFORMANCE CL√âS")
print("="*80 + "\n")

# ----- KPI 1 : TAUX DE R√âPONSE PAR CAMPAGNE -----
print("1Ô∏è‚É£ TAUX DE R√âPONSE PAR CAMPAGNE")
print("-" * 80)

campagnes = ['AcceptedCmp1', 'AcceptedCmp2', 'AcceptedCmp3', 'AcceptedCmp4', 'AcceptedCmp5', 'Response']
taux_reponse = {}

for campagne in campagnes:
    total_clients = len(df)
    acceptations = df[campagne].sum()
    taux = (acceptations / total_clients) * 100
    taux_reponse[campagne] = taux
    print(f"   {campagne:20s} : {acceptations:4d} acceptations | Taux: {taux:6.2f}%")

print(f"\n   üìà Meilleure campagne : {max(taux_reponse, key=taux_reponse.get)} avec {max(taux_reponse.values()):.2f}%")
print(f"   üìâ Moins bonne campagne : {min(taux_reponse, key=taux_reponse.get)} avec {min(taux_reponse.values()):.2f}%")

print("\n" + "="*80 + "\n")

# ----- KPI 2 : TAUX DE CONVERSION GLOBAL -----
print("2Ô∏è‚É£ TAUX DE CONVERSION GLOBAL")
print("-" * 80)

df['Total_Acceptations'] = df[['AcceptedCmp1', 'AcceptedCmp2', 'AcceptedCmp3', 'AcceptedCmp4', 'AcceptedCmp5', 'Response']].sum(axis=1)
clients_ayant_accepte = (df['Total_Acceptations'] > 0).sum()
taux_conversion_global = (clients_ayant_accepte / len(df)) * 100

print(f"   Nombre total de clients : {len(df)}")
print(f"   Clients ayant accept√© au moins une campagne : {clients_ayant_accepte}")
print(f"   üìä TAUX DE CONVERSION GLOBAL : {taux_conversion_global:.2f}%")

print("\n" + "="*80 + "\n")

# ----- KPI 3 : REVENU MOYEN PAR CLIENT -----
print("3Ô∏è‚É£ REVENU MOYEN PAR CLIENT (PANIER MOYEN)")
print("-" * 80)

# Calculer le total des achats par client si pas d√©j√† fait
if 'Total_Purchases' not in df.columns:
    df['Total_Purchases'] = (df['MntWines'] + df['MntFruits'] + df['MntMeatProducts'] + 
                              df['MntFishProducts'] + df['MntSweetProducts'] + df['MntGoldProds'])

revenu_moyen = df['Total_Purchases'].mean()
revenu_median = df['Total_Purchases'].median()
revenu_total = df['Total_Purchases'].sum()

print(f"   Revenu total g√©n√©r√© : ${revenu_total:,.2f}")
print(f"   üìä REVENU MOYEN par client : ${revenu_moyen:,.2f}")
print(f"   üìä REVENU M√âDIAN par client : ${revenu_median:,.2f}")

print("\n" + "="*80 + "\n")

# ----- KPI 4 : ANALYSE PRODUITS PREMIUM (VIN & VIANDE) -----
print("4Ô∏è‚É£ üç∑ü•© PERFORMANCE PRODUITS PREMIUM (VIN & VIANDE)")
print("-" * 80)
print("   üí° Insight : Corr√©lation forte avec TotalMnt (0.89 vin / 0.84 viande)")
print()

part_vin = (df['MntWines'].sum() / df['Total_Purchases'].sum()) * 100
part_viande = (df['MntMeatProducts'].sum() / df['Total_Purchases'].sum()) * 100
part_premium = part_vin + part_viande

print(f"   üç∑ Part du VIN dans CA total : {part_vin:.1f}%")
print(f"   ü•© Part de la VIANDE dans CA total : {part_viande:.1f}%")
print(f"   ‚≠ê Part PRODUITS PREMIUM total : {part_premium:.1f}%")

# Identifier les clients "Premium" (gros acheteurs de vin/viande)
df['Premium_Purchases'] = df['MntWines'] + df['MntMeatProducts']
seuil_premium = df['Premium_Purchases'].quantile(0.75)
clients_premium = (df['Premium_Purchases'] > seuil_premium).sum()
pct_premium = (clients_premium / len(df)) * 100

print(f"\n   üëë Clients PREMIUM (top 25% vin+viande) : {clients_premium} clients ({pct_premium:.1f}%)")
print(f"   üí∞ Revenu moyen Premium : ${df[df['Premium_Purchases'] > seuil_premium]['Total_Purchases'].mean():,.2f}")
print(f"   üí° STRAT√âGIE : Cibler ces clients avec offres exclusives vin/viande")

print("\n" + "="*80 + "\n")

# ----- KPI 5 : PERFORMANCE PAR CANAL (FOCUS CATALOGUE & MAGASIN) -----
print("5Ô∏è‚É£ PERFORMANCE PAR CANAL DE DISTRIBUTION")
print("-" * 80)
print("   üí° Insight : Magasin = 82% volume | Catalogue = clients √† forte valeur (0.78)")
print()

achats_web = df['NumWebPurchases'].sum()
achats_catalog = df['NumCatalogPurchases'].sum()
achats_store = df['NumStorePurchases'].sum()
achats_deals = df['NumDealsPurchases'].sum()
total_achats = achats_web + achats_catalog + achats_store + achats_deals

print(f"   üåê Web : {achats_web:5d} achats ({(achats_web/total_achats)*100:5.2f}%)")
print(f"   üìñ Catalogue : {achats_catalog:5d} achats ({(achats_catalog/total_achats)*100:5.2f}%)")
print(f"   üè™ Magasin : {achats_store:5d} achats ({(achats_store/total_achats)*100:5.2f}%)")
print(f"   üí∞ Promotions : {achats_deals:5d} achats ({(achats_deals/total_achats)*100:5.2f}%)")
print(f"   üìä TOTAL : {total_achats} achats")

# Analyse clients catalogue (haute valeur)
clients_catalogue = df[df['NumCatalogPurchases'] > 0]
print(f"\n   üìñ Clients achetant via CATALOGUE : {len(clients_catalogue)} ({len(clients_catalogue)/len(df)*100:.1f}%)")
print(f"   üí∞ Revenu moyen Catalogue : ${clients_catalogue['Total_Purchases'].mean():,.2f}")
print(f"   üí∞ Revenu moyen Autres : ${df[df['NumCatalogPurchases'] == 0]['Total_Purchases'].mean():,.2f}")
print(f"   üìà Lift Catalogue : +{((clients_catalogue['Total_Purchases'].mean() / df[df['NumCatalogPurchases'] == 0]['Total_Purchases'].mean()) - 1) * 100:.1f}%")
print(f"   üí° STRAT√âGIE : Clients catalogue = haute valeur, investir dans ce canal")

print("\n" + "="*80 + "\n")

# ----- KPI 6 : ROI PAR CAMPAGNE (Return On Investment) -----
print("6Ô∏è‚É£ ROI - RETOUR SUR INVESTISSEMENT PAR CAMPAGNE")
print("-" * 80)
print("   üí° Insight : Faible corr√©lation inter-campagnes = profils clients diff√©rents")
print()

# Revenu moyen des clients ayant accept√© vs n'ayant pas accept√©
for campagne in campagnes:
    revenu_accepte = df[df[campagne] == 1]['Total_Purchases'].mean()
    revenu_refuse = df[df[campagne] == 0]['Total_Purchases'].mean()
    diff = revenu_accepte - revenu_refuse
    lift = ((revenu_accepte / revenu_refuse) - 1) * 100 if revenu_refuse > 0 else 0
    
    print(f"   {campagne:20s}:")
    print(f"      Revenu moyen (accept√©) : ${revenu_accepte:,.2f}")
    print(f"      Revenu moyen (refus√©)  : ${revenu_refuse:,.2f}")
    print(f"      üìà Lift : +{lift:.1f}% | Diff√©rence : ${diff:,.2f}")
    print()

print("   üí° STRAT√âGIE : Personnaliser chaque campagne selon le profil cible")

print("="*80 + "\n")

# ----- KPI 7 : R√âCENCE ET ACTIVIT√â CLIENT -----
print("7Ô∏è‚É£ R√âCENCE ET ACTIVIT√â CLIENT")
print("-" * 80)

recence_moyenne = df['Recency'].mean()
visites_web_moyennes = df['NumWebVisitsMonth'].mean()

print(f"   üìÖ R√©cence moyenne : {recence_moyenne:.1f} jours depuis le dernier achat")
print(f"   üåê Visites web moyennes : {visites_web_moyennes:.1f} visites/mois")

# Clients actifs (achat r√©cent < 30 jours)
clients_actifs = (df['Recency'] <= 30).sum()
taux_clients_actifs = (clients_actifs / len(df)) * 100
print(f"   ‚úÖ Clients actifs (<30j) : {clients_actifs} ({taux_clients_actifs:.2f}%)")

print("\n" + "="*80 + "\n")

# ----- KPI 8 : SEGMENTATION PAR VALEUR CLIENT -----
print("8Ô∏è‚É£ SEGMENTATION PAR VALEUR CLIENT")
print("-" * 80)

# Cr√©er des segments bas√©s sur les achats totaux
df['Segment_Valeur'] = pd.cut(df['Total_Purchases'], 
                                bins=[0, 100, 500, 1000, float('inf')],
                                labels=['Low Value', 'Medium Value', 'High Value', 'VIP'])

segment_counts = df['Segment_Valeur'].value_counts()
for segment in ['Low Value', 'Medium Value', 'High Value', 'VIP']:
    if segment in segment_counts.index:
        count = segment_counts[segment]
        pct = (count / len(df)) * 100
        avg_revenue = df[df['Segment_Valeur'] == segment]['Total_Purchases'].mean()
        print(f"   {segment:15s} : {count:4d} clients ({pct:5.2f}%) | Revenu moyen: ${avg_revenue:,.2f}")

print("\n" + "="*80)
print("‚úÖ CALCUL DES KPIs TERMIN√â")
print("="*80 + "\n")

# ----- R√âSUM√â STRAT√âGIQUE BAS√â SUR LES CORR√âLATIONS -----
print("="*80)
print("üéØ R√âSUM√â STRAT√âGIQUE - INSIGHTS CORR√âLATIONS")
print("="*80)
print()
print("1Ô∏è‚É£  PRODUITS PREMIUM (Vin 0.89 / Viande 0.84)")
print(f"    ‚Üí Repr√©sentent {part_premium:.1f}% du CA")
print(f"    ‚Üí {clients_premium} clients Premium √† cibler avec offres exclusives")
print()
print("2Ô∏è‚É£  CANAL CATALOGUE (Corr√©lation 0.78)")
print(f"    ‚Üí Clients √† haute valeur (+{((clients_catalogue['Total_Purchases'].mean() / df[df['NumCatalogPurchases'] == 0]['Total_Purchases'].mean()) - 1) * 100:.0f}% vs autres)")
print(f"    ‚Üí Investir davantage dans ce canal rentable")
print()
print("3Ô∏è‚É£  CANAL MAGASIN (82% du volume)")
print(f"    ‚Üí Canal principal, optimiser l'exp√©rience en magasin")
print()
print("4Ô∏è‚É£  CAMPAGNES MARKETING (Corr√©lation inter-campagnes faible)")
print(f"    ‚Üí Chaque campagne attire un profil diff√©rent")
print(f"    ‚Üí N√©cessit√© de PERSONNALISER chaque campagne")
print()
print("="*80)

In [None]:
# ====== ANALYSE CROIS√âE : CAMPAGNES x CANAUX DE DISTRIBUTION ======
print("="*80)
print("üîé ANALYSE CROIS√âE : PERFORMANCE DES CAMPAGNES PAR CANAL DE DISTRIBUTION")
print("="*80 + "\n")

# Pour chaque campagne, calculer le nombre moyen d'achats par canal pour les clients ayant accept√© vs refus√©
campagnes = ['AcceptedCmp1', 'AcceptedCmp2', 'AcceptedCmp3', 'AcceptedCmp4', 'AcceptedCmp5', 'Response']
canaux = ['NumWebPurchases', 'NumCatalogPurchases', 'NumStorePurchases', 'NumDealsPurchases']

resultats = []
for campagne in campagnes:
    for canal in canaux:
        mean_accepted = df[df[campagne] == 1][canal].mean()
        mean_refused = df[df[campagne] == 0][canal].mean()
        resultats.append({
            'Campagne': campagne,
            'Canal': canal,
            'Moyenne_Accept√©': mean_accepted,
            'Moyenne_Refus√©': mean_refused,
            'Lift (%)': ((mean_accepted / mean_refused - 1) * 100) if mean_refused > 0 else None
        })

df_croise = pd.DataFrame(resultats)

print("Tableau comparatif : Achats moyens par canal selon acceptation/refus de chaque campagne\n")
display(df_croise.pivot(index='Campagne', columns='Canal', values=['Moyenne_Accept√©', 'Moyenne_Refus√©', 'Lift (%)']).round(2))

print("\nInterpr√©tation :")
print("- Ce tableau permet d'identifier pour chaque campagne quels canaux sont les plus efficaces pour convertir les clients.")
print("- Un lift positif indique que les clients ayant accept√© la campagne ach√®tent plus via ce canal que ceux qui l'ont refus√©e.")
print("- Cela aide √† adapter la strat√©gie de distribution pour chaque campagne.")
print("\n" + "="*80 + "\n")

---
## 5Ô∏è) R√©duction de la dimensionnalit√© (PCA) et Clustering

### 5.1 Pr√©paration des donn√©es et projection PCA (3D)

In [None]:
# 5.1 Pr√©paration des donn√©es et PCA (3D)
import numpy as np
import pandas as pd
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA
import plotly.express as px
import plotly.graph_objects as go

# S'assurer que le DataFrame df est charg√© (fallback au CSV brut si besoin)
if 'df' not in globals():
    df = pd.read_csv('Campagne_Market.csv', sep=';')
    print("‚ö†Ô∏è df n'√©tait pas en m√©moire; chargement direct depuis le CSV.")

# 1) S√©lection des colonnes num√©riques uniquement
X_num = df.select_dtypes(include=[np.number]).copy()

# 2) Retirer les identifiants et variables √† forte fuite potentielle (optionnel)
drop_cols = [col for col in ['ID'] if col in X_num.columns]
X_num = X_num.drop(columns=drop_cols, errors='ignore')

# 3) Imputation simple (m√©diane) pour valeurs manquantes
for c in X_num.columns:
    if X_num[c].isna().any():
        X_num[c] = X_num[c].fillna(X_num[c].median())

# 4) Standardisation
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X_num)

# 5) PCA en 3 composantes
pca = PCA(n_components=3, random_state=42)
X_pca = pca.fit_transform(X_scaled)
df_pca = pd.DataFrame(X_pca, columns=['PC1','PC2','PC3'])

explained = pca.explained_variance_ratio_
print("Variance expliqu√©e par composante (PC1, PC2, PC3) :", np.round(explained, 4))
print(f"Variance expliqu√©e cumul√©e (3D) : {explained.cumsum()[-1]:.3f}")

# 6) Visualisation 3D de la projection PCA
# Couleur informative si dispo: pr√©f√©rer Total_Purchases, sinon Income, sinon aucune couleur
color_col = None
for cand in ['Total_Purchases','Income']:
    if cand in df.columns:
        color_col = cand
        break

if color_col is not None:
    fig = px.scatter_3d(df_pca, x='PC1', y='PC2', z='PC3',
                        color=df[color_col],
                        color_continuous_scale='Viridis',
                        title='Projection PCA (3D)')
else:
    fig = px.scatter_3d(df_pca, x='PC1', y='PC2', z='PC3', title='Projection PCA (3D)')
fig.update_traces(marker=dict(size=4, opacity=0.8))
fig.show()

### 5.2 D√©termination du nombre optimal de clusters et choix de m√©thode (Silhouette)

In [None]:
# 5.2 Choix du nombre de clusters et de la m√©thode (Silhouette)
from sklearn.cluster import KMeans, AgglomerativeClustering
from sklearn.metrics import silhouette_score
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np

# V√©rifier que X_pca existe (sinon relancer 5.1)
if 'X_pca' not in globals():
    raise RuntimeError("X_pca introuvable. Ex√©cutez d'abord la cellule 5.1 (PCA).")

n_samples = X_pca.shape[0]
k_max_possible = max(2, min(10, n_samples - 1))
k_values = list(range(2, k_max_possible + 1))

results = []
for k in k_values:
    # KMeans
    km = KMeans(n_clusters=k, random_state=42, n_init=10)
    labels_km = km.fit_predict(X_pca)
    sil_km = silhouette_score(X_pca, labels_km)
    results.append({'method':'KMeans','k':k,'silhouette':sil_km})
    
    # Agglomerative (Ward)
    ag = AgglomerativeClustering(n_clusters=k, linkage='ward')
    labels_ag = ag.fit_predict(X_pca)
    sil_ag = silhouette_score(X_pca, labels_ag)
    results.append({'method':'Agglomerative','k':k,'silhouette':sil_ag})

df_scores = pd.DataFrame(results)
best_row = df_scores.loc[df_scores['silhouette'].idxmax()]
best_method = best_row['method']
best_k = int(best_row['k'])
best_score = best_row['silhouette']

print("Scores de silhouette par m√©thode et k :\n", df_scores.pivot(index='k', columns='method', values='silhouette').round(3))
print()
print(f"‚úÖ Meilleur choix: {best_method} avec k={best_k} (silhouette={best_score:.3f})")

# Visualisation des scores
plt.figure(figsize=(7,4))
for method in ['KMeans','Agglomerative']:
    subset = df_scores[df_scores['method']==method]
    plt.plot(subset['k'], subset['silhouette'], marker='o', label=method)
plt.title('Silhouette vs k (PCA 3D)')
plt.xlabel('k')
plt.ylabel('Score de silhouette')
plt.grid(True, alpha=0.3)
plt.legend()
plt.show()

# Conserver le meilleur choix en variables globales
best_model_name = best_method
best_n_clusters = best_k

### 5.3 Application du clustering sur l'espace PCA et visualisation 3D

In [None]:
# 5.3 Application du clustering choisi et 3D-plot
from sklearn.cluster import KMeans, AgglomerativeClustering
from sklearn.metrics import silhouette_score
import plotly.express as px
import numpy as np
import pandas as pd

# S√©curiser les pr√©requis
if 'X_pca' not in globals():
    raise RuntimeError("X_pca introuvable. Ex√©cutez d'abord la cellule 5.1 (PCA).")
if 'best_model_name' not in globals() or 'best_n_clusters' not in globals():
    raise RuntimeError("Meilleur mod√®le non d√©fini. Ex√©cutez d'abord la cellule 5.2.")

# Fit final du meilleur mod√®le
if best_model_name == 'KMeans':
    model = KMeans(n_clusters=best_n_clusters, random_state=42, n_init=10)
elif best_model_name == 'Agglomerative':
    model = AgglomerativeClustering(n_clusters=best_n_clusters, linkage='ward')
else:
    raise ValueError(f"M√©thode non reconnue: {best_model_name}")

labels = model.fit_predict(X_pca)
sil = silhouette_score(X_pca, labels)

# Ajouter les labels au df et √† df_pca
df['Cluster'] = labels
df_pca['Cluster'] = labels

print(f"Clusters obtenus: {np.bincount(labels)} (k={best_n_clusters})")
print(f"Score de silhouette final: {sil:.3f}")

# Visualisation 3D des clusters sur l'espace PCA
fig = px.scatter_3d(df_pca, x='PC1', y='PC2', z='PC3',
                    color=df_pca['Cluster'].astype(str),
                    title=f'Clustering {best_model_name} sur PCA (k={best_n_clusters})',
                    labels={'color':'Cluster'})
fig.update_traces(marker=dict(size=4, opacity=0.85))
fig.show()

# Optionnel: centroids en 3D (pour KMeans)
try:
    centers = model.cluster_centers_  # disponible pour KMeans
    centers_df = pd.DataFrame(centers, columns=['PC1','PC2','PC3'])
    import plotly.graph_objects as go
    fig_centers = px.scatter_3d(df_pca, x='PC1', y='PC2', z='PC3', color=df_pca['Cluster'].astype(str),
                                title=f'Clusters + Centroides (KMeans, k={best_n_clusters})')
    fig_centers.add_trace(go.Scatter3d(x=centers_df['PC1'], y=centers_df['PC2'], z=centers_df['PC3'],
                                       mode='markers', marker=dict(size=8, color='black', symbol='x'),
                                       name='Centroids'))
    fig_centers.show()
except Exception:
    pass

---
## 8Ô∏è) Mod√©lisation Pr√©dictive

### 8.1 Pr√©paration des donn√©es pour la pr√©diction

### 8.2 Entra√Ænement de plusieurs mod√®les

### 8.3 Comparaison des performances

### 8.4 Analyse d√©taill√©e du meilleur mod√®le

---
## 9Ô∏è) Conclusions et Recommandations

### 9.1 Synth√®se des R√©sultats

### 9.2 Recommandations Strat√©giques

---

## Conclusion Finale

Cette analyse compl√®te a permis de :


### Points Forts de l'Analyse
