Ce notebook est un projet complet de Data Science appliqué au marketing de personnalisation. Il couvre l'ensemble du pipeline d'analyse de données clients, de la segmentation à la prédiction et à la stratégie marketing personnalisée.
Objectif principal : Utiliser les données clients et transactionnelles pour segmenter la clientèle, prédire les risques de churn, estimer la valeur client (CLV), et proposer des stratégies marketing ciblées.
Contexte : Introduction conceptuelle à la personnalisation marketing.
Contenu :
-
Définition de la personnalisation marketing : adapter messages, offres et canaux selon les profils clients
-
Enjeux majeurs :
- Fidélisation du client
- Meilleure connaissance client
- Optimisation des campagnes marketing
- Utilisation des données (datasets)
-
Analyse SWOT :
- Forces : Données clients disponibles, capacité à segmenter, amélioration du taux de conversion, automatisation possible
- Faiblesses : Insuffisance de données, manque de compétences, faible budget
- Opportunités : Utilisation croissante de l'IA, outils simples d'exploitation, différenciation concurrentielle
- Menaces : RGPD/confidentialité, forte concurrence, matériel défectueux
-
Modèle 5P Marketing appliqué :
- Produit : Vêtements
- Prix : Dans la colonne
pricedes données produits - Place : New York, Los Angeles, Chicago, Houston, Phoenix
- Promotion : "Ayez le look"
- People : Jeunes, hommes et femmes avec pouvoir d'achat
Objectif : Exploración et nettoyage des données clients, ventes et produits.
Données utilisées :
Customer.csv: Informations clients (ID, Nom, Âge, Montant Total Dépensé)Sale.csv: Historique des ventes (ID Vente, ID Client, Quantité, Prix, Date)Product.csv: Catalogue produits (ID Produit, Nom, Prix)
Analyses réalisées :
-
Détection des valeurs aberrantes (Outliers) :
- Box-plots pour
Sale_PriceetPrice - Conclusion : Aucune valeur aberrante détectée
- Box-plots pour
-
Visualisations clés :
- Dépenses totales par client (graphique barplot)
- Segmentation des clients par tranches de dépense (< 400€, 400-600€, 600-800€)
- Quantité totale vendue par produit (barplot)
- Évolution du chiffre d'affaires dans le temps (lineplot)
Méthode : K-Means Clustering + PCA (Analyse en Composantes Principales)
Étapes :
-
Agrégation des données :
- Fusion Customer + Sales
- Calcul de métriques par client : âge, dépense totale, montant acheté, quantité achetée
-
Normalisation :
- StandardScaler pour les 4 variables numériques
-
K-Means :
- 3 segments identifiés (Cluster 0, 1, 2)
- Assignation de chaque client à son cluster
-
PCA pour visualisation :
- Réduction à 2 dimensions
- PC1 explique ~66.6% de la variance
- PC2 explique ~33.3% de la variance
- Graphique scatter plot coloré par cluster
-
Export :
segmentation_clients_pca.csv
Interprétation :
- Clients proches sur le graphique = profils similaires
- Clients éloignés = profils très différents (ex. Charlie très à gauche = jeune, faible dépense)
Objectif : Caractériser chaque segment et ses préférences produit.
Analyses :
-
Profil moyen par segment :
- Âge moyen, montant dépensé, quantité achetée, nombre de clients
- Sauvegarde :
segment_profile.csv
-
Préférences produits par segment :
- Produits les plus achetés dans chaque segment
- Sauvegarde :
product_preferences.csv
-
Interprétation des segments :
- Segment Budget : Faible dépense (< 400€) → "Client économique"
- Segment Moyen : Dépense 400-700€ → "Client moyen"
- Segment Premium : Dépense > 700€ → "Gros dépensier"
Objectif : Calculer les KPIs marketing et identifier les canaux les plus performants.
Données : Marketing.csv (Campaign_ID, Channel, Budget, Impressions, Clicks, Conversions)
KPIs calculés :
- CTR (%) = (Clicks / Impressions) × 100 → Taux de clics
- Conversion_Rate (%) = (Conversions / Clicks) × 100 → Taux de conversion
- CPC (€) = Budget / Clicks → Coût par clic
- CPA (€) = Budget / Conversions → Coût par acquisition
- ROI (%) = ((Revenue - Budget) / Budget) × 100 → Retour sur investissement
- Revenue (€) = Conversions × 20€ (valeur estimée par conversion)
Visualisation :
- ROI par canal marketing (barplot)
- Identification du meilleur et pire canal
Export : marketing_kpis.csv (trié par ROI décroissant)
Ce module contient deux modèles d'apprentissage machine :
Objectif : Identifier quels clients risquent de partir (Churn = 1) ou rester (Churn = 0).
Méthode RFM :
- Recency : Nombre de jours depuis le dernier achat
- Frequency : Nombre de transactions
- Monetary : Montant total dépensé
- Cible Churn : Recency > 15 jours = risque de churn
Modèle : Random Forest Classifier
- Pipeline complet avec ColumnTransformer
- Normalisation des variables numériques
- Encodage des variables catégorielles (Gender, Location)
- GridSearchCV pour optimiser les hyperparamètres
Métriques :
- AUC-ROC
- F1-Score
- Classification Report
- Confusion Matrix
Visualisations :
- Courbe ROC
- Matrice de confusion
- Top 10 variables importantes
Exports :
customers_fideles.csv: Clients fidèles (non à risque)customers_a_risque.csv: Clients à risque
Objectif : Estimer la valeur financière future qu'un client apportera.
Méthode :
- Calcul de CLV simple = Somme des ventes par client
- Agrégation par client avec métriques : Revenue total, Quantité, Nombre de transactions, Durée de vie, Canal principal
Modèle : Random Forest Regressor
- Comparaison avec Linear Regression
- Pipeline avec preprocessing (normalisation + encodage)
- GridSearchCV pour optimiser
Métriques :
- R² Score
- RMSE
Exports & Analyses :
- Top 10 clients les plus prometteurs
- Clients à haut potentiel mais actuellement peu rentables
- Graphe de comparaison CLV observé vs prédit
Objective : Définir la stratégie de marketing personnalisée par segment.
- Charlie : Low value (jeune, peu dépensier)
- Alice & Diana : Medium value (profil mixte)
- Bob : High value (fidèle, gros acheteur)
| Composant | Description |
|---|---|
| Besoin client | Offres ciblées selon dépense, fréquence, âge |
| Proposition de valeur | Expérience d'achat adaptée au budget et préférences |
| Canaux | Email, Réseaux sociaux, Online, In-store |
| Relation client | Newsletters personnalisées, promotions ciblées |
| Flux de revenus | Augmentation panier moyen, rétention, ventes croisées |
| Ressources clés | CRM, données transactionnelles, automation marketing |
| Activités clés | Segmentation, personnalisation, campagnes multi-canal |
| Partenaires clés | Agences digitales, plateformes emailing, influenceurs |
| Structure des coûts | Créa contenu, pub online, CRM, data analysis |
1. Segment Charlie (Client jeune, peu dépensier)
- Objectif : Éduquer et inciter à l'achat
- Canaux : Instagram, TikTok, Email
- Contenu : Vidéos courtes, tutos produits, offres d'entrée de gamme
- Budget : Faible à moyen (A/B testing)
- Campagne type : -10% premier achat / parrainage
2. Segment Bob (Client fidèle, gros acheteur)
- Objectif : Fidéliser + ventes premium
- Canaux : Email personnalisé, In-Store, téléphone VIP
- Contenu : Programmes fidélité, avant-premières, offres exclusives
- Budget : Élevé (fort ROI attendu)
- Campagne type : Accès VIP / abonnement / événement privé
3. Segment Alice & Diana (Profil mixte)
- Objectif : Maintenir engagement + Upselling
- Canaux : Email + Social Ads + Online
- Contenu : Newsletter produit, recommandations personnalisées, promos selon historique
- Budget : Moyen
- Campagne type : "Produits similaires", "Vu récemment", ventes flash
Statut : Placeholder pour futur développement.
├── Customer.csv # Clients (Customer_ID, Name, Age, Total_Spent, Gender, Location, Join_Date)
├── Sale.csv # Ventes (Sale_ID, Customer_ID, Product_ID, Quantity, Sale_Price, Date, Channel)
├── Product.csv # Produits (Product_ID, Product_Name, Price)
└── Marketing.csv # Campagnes (Campaign_ID, Channel, Budget, Impressions, Clicks, Conversions)
| Fichier | Contenu |
|---|---|
segmentation_clients_pca.csv |
Clusters PCA, projections PCA1/PCA2 |
segment_profile.csv |
Profil moyen par segment |
product_preferences.csv |
Préférences produits par segment |
marketing_kpis.csv |
KPIs marketing (CTR, CPC, CPA, ROI) |
customer_rfm.csv |
Métriques RFM + Recency + Tenure |
clients_fideles.csv |
Clients avec faible risque de churn |
clients_a_risque.csv |
Clients avec risque de churn élevé |
pandas # Manipulation de données
numpy # Calculs numériques
matplotlib # Visualisation basique
seaborn # Visualisation statistique
scikit-learn # ML (KMeans, PCA, RandomForest, preprocessing)
warnings # Suppression des avertissements1. IMPORTATION DES DONNÉES
↓
2. NETTOYAGE & EXPLORATION (Boxplots, statistiques)
↓
3. SEGMENTATION (K-Means + PCA)
↓
4. PROFILAGE DES SEGMENTS
↓
5. ANALYSE MARKETING (KPIs)
↓
6. PRÉDICTIONS (Churn + CLV)
↓
7. STRATÉGIE MARKETING PERSONNALISÉE
↓
8. DASHBOARD (À développer)
- 3 segments identifiés avec des profils distincts
- PCA explique 100% de la variance (PC1: 66.6%, PC2: 33.3%)
- Churn : Random Forest avec GridSearchCV optimisé
- Métriques : AUC-ROC, F1-Score, Confusion Matrix
- CLV : Random Forest Regressor
- Métriques : R² Score, RMSE
- 3 stratégies différentes adaptées aux 3 segments
- Canaux prioritaires identifiés (Email, Social, In-Store)
- Plans d'action concrets pour chaque segment
- Fidélisation : Identifier et retenir les clients à risque de churn
- Ventes croisées : Recommander des produits selon le segment
- Allocation budgétaire : Investir davantage dans les segments high-value
- Optimisation campagnes : Choisir les meilleurs canaux par segment
- Prédiction : Estimer le potentiel de chaque nouveau client
Module 1 (Contexte)
↓
Module 2 (Données)
↓
Module 3 (Segmentation)
↓
Module 4 (Profils)
↓
Module 5 (Marketing KPIs)
↓
Module 6 (Prédictions Churn + CLV)
↓
Module 7 (Stratégie)
↓
Module 8 (Dashboard)
- Les dates sont parsées avec
dayfirst=True(format européen) - Valeurs manquantes gérées avec SimpleImputer (médiane pour numériques, mode pour catégorielles)
- Standardisation appliquée avant clustering et modélisation
- GridSearchCV utilisé pour optimiser tous les modèles
- Tous les résultats sont exportés en CSV pour analyse ultérieure
- Projet : Master 2, ML/DL, ENI Datascience
- Focus : Personnalisation marketing basée sur la segmentation et prédiction
Bon à savoir : Ce notebook offre une base solide pour une stratégie de marketing data-driven. Les exports CSV permettent une intégration facile dans des outils CRM ou de BI.