DataScience.ipynb - Guide de Personnalisation Marketing

📋 Vue d'ensemble

Ce notebook est un projet complet de Data Science appliqué au marketing de personnalisation. Il couvre l'ensemble du pipeline d'analyse de données clients, de la segmentation à la prédiction et à la stratégie marketing personnalisée.

Objectif principal : Utiliser les données clients et transactionnelles pour segmenter la clientèle, prédire les risques de churn, estimer la valeur client (CLV), et proposer des stratégies marketing ciblées.

📚 Structure du Notebook (8 Modules)

Module 1 : Identifier les enjeux de la personnalisation marketing

Contexte : Introduction conceptuelle à la personnalisation marketing.

Contenu :

Définition de la personnalisation marketing : adapter messages, offres et canaux selon les profils clients
Enjeux majeurs :
- Fidélisation du client
- Meilleure connaissance client
- Optimisation des campagnes marketing
- Utilisation des données (datasets)
Analyse SWOT :
- Forces : Données clients disponibles, capacité à segmenter, amélioration du taux de conversion, automatisation possible
- Faiblesses : Insuffisance de données, manque de compétences, faible budget
- Opportunités : Utilisation croissante de l'IA, outils simples d'exploitation, différenciation concurrentielle
- Menaces : RGPD/confidentialité, forte concurrence, matériel défectueux
Modèle 5P Marketing appliqué :
- Produit : Vêtements
- Prix : Dans la colonne price des données produits
- Place : New York, Los Angeles, Chicago, Houston, Phoenix
- Promotion : "Ayez le look"
- People : Jeunes, hommes et femmes avec pouvoir d'achat

Module 2 : Nettoyage, visualisation et résumé des données

Objectif : Exploración et nettoyage des données clients, ventes et produits.

Données utilisées :

Customer.csv : Informations clients (ID, Nom, Âge, Montant Total Dépensé)
Sale.csv : Historique des ventes (ID Vente, ID Client, Quantité, Prix, Date)
Product.csv : Catalogue produits (ID Produit, Nom, Prix)

Analyses réalisées :

Détection des valeurs aberrantes (Outliers) :
- Box-plots pour Sale_Price et Price
- Conclusion : Aucune valeur aberrante détectée
Visualisations clés :
- Dépenses totales par client (graphique barplot)
- Segmentation des clients par tranches de dépense (< 400€, 400-600€, 600-800€)
- Quantité totale vendue par produit (barplot)
- Évolution du chiffre d'affaires dans le temps (lineplot)

Module 3 : Segmentation client

Méthode : K-Means Clustering + PCA (Analyse en Composantes Principales)

Étapes :

Agrégation des données :
- Fusion Customer + Sales
- Calcul de métriques par client : âge, dépense totale, montant acheté, quantité achetée
Normalisation :
- StandardScaler pour les 4 variables numériques
K-Means :
- 3 segments identifiés (Cluster 0, 1, 2)
- Assignation de chaque client à son cluster
PCA pour visualisation :
- Réduction à 2 dimensions
- PC1 explique ~66.6% de la variance
- PC2 explique ~33.3% de la variance
- Graphique scatter plot coloré par cluster
Export : segmentation_clients_pca.csv

Interprétation :

Clients proches sur le graphique = profils similaires
Clients éloignés = profils très différents (ex. Charlie très à gauche = jeune, faible dépense)

Module 4 : Profilage des segments

Objectif : Caractériser chaque segment et ses préférences produit.

Analyses :

Profil moyen par segment :
- Âge moyen, montant dépensé, quantité achetée, nombre de clients
- Sauvegarde : segment_profile.csv
Préférences produits par segment :
- Produits les plus achetés dans chaque segment
- Sauvegarde : product_preferences.csv
Interprétation des segments :
- Segment Budget : Faible dépense (< 400€) → "Client économique"
- Segment Moyen : Dépense 400-700€ → "Client moyen"
- Segment Premium : Dépense > 700€ → "Gros dépensier"

Module 5 : Analyse des performances des campagnes marketing

Objectif : Calculer les KPIs marketing et identifier les canaux les plus performants.

Données : Marketing.csv (Campaign_ID, Channel, Budget, Impressions, Clicks, Conversions)

KPIs calculés :

CTR (%) = (Clicks / Impressions) × 100 → Taux de clics
Conversion_Rate (%) = (Conversions / Clicks) × 100 → Taux de conversion
CPC (€) = Budget / Clicks → Coût par clic
CPA (€) = Budget / Conversions → Coût par acquisition
ROI (%) = ((Revenue - Budget) / Budget) × 100 → Retour sur investissement
Revenue (€) = Conversions × 20€ (valeur estimée par conversion)

Visualisation :

ROI par canal marketing (barplot)
Identification du meilleur et pire canal

Export : marketing_kpis.csv (trié par ROI décroissant)

Module 6 : Prédiction du Churn et CLV

Ce module contient deux modèles d'apprentissage machine :

6a. Prédiction du Churn (Fidélité Client)

Objectif : Identifier quels clients risquent de partir (Churn = 1) ou rester (Churn = 0).

Méthode RFM :

Recency : Nombre de jours depuis le dernier achat
Frequency : Nombre de transactions
Monetary : Montant total dépensé
Cible Churn : Recency > 15 jours = risque de churn

Modèle : Random Forest Classifier

Pipeline complet avec ColumnTransformer
Normalisation des variables numériques
Encodage des variables catégorielles (Gender, Location)
GridSearchCV pour optimiser les hyperparamètres

Métriques :

AUC-ROC
F1-Score
Classification Report
Confusion Matrix

Visualisations :

Courbe ROC
Matrice de confusion
Top 10 variables importantes

Exports :

customers_fideles.csv : Clients fidèles (non à risque)
customers_a_risque.csv : Clients à risque

6b. Prédiction du CLV (Customer Lifetime Value)

Objectif : Estimer la valeur financière future qu'un client apportera.

Méthode :

Calcul de CLV simple = Somme des ventes par client
Agrégation par client avec métriques : Revenue total, Quantité, Nombre de transactions, Durée de vie, Canal principal

Modèle : Random Forest Regressor

Comparaison avec Linear Regression
Pipeline avec preprocessing (normalisation + encodage)
GridSearchCV pour optimiser

Métriques :

R² Score
RMSE

Exports & Analyses :

Top 10 clients les plus prometteurs
Clients à haut potentiel mais actuellement peu rentables
Graphe de comparaison CLV observé vs prédit

Module 7 : Business Model Canvas & Stratégie Marketing

Objective : Définir la stratégie de marketing personnalisée par segment.

Segments identifiés :

Charlie : Low value (jeune, peu dépensier)
Alice & Diana : Medium value (profil mixte)
Bob : High value (fidèle, gros acheteur)

Business Model Canvas :

Composant	Description
Besoin client	Offres ciblées selon dépense, fréquence, âge
Proposition de valeur	Expérience d'achat adaptée au budget et préférences
Canaux	Email, Réseaux sociaux, Online, In-store
Relation client	Newsletters personnalisées, promotions ciblées
Flux de revenus	Augmentation panier moyen, rétention, ventes croisées
Ressources clés	CRM, données transactionnelles, automation marketing
Activités clés	Segmentation, personnalisation, campagnes multi-canal
Partenaires clés	Agences digitales, plateformes emailing, influenceurs
Structure des coûts	Créa contenu, pub online, CRM, data analysis

Plan Stratégique par Segment :

1. Segment Charlie (Client jeune, peu dépensier)

Objectif : Éduquer et inciter à l'achat
Canaux : Instagram, TikTok, Email
Contenu : Vidéos courtes, tutos produits, offres d'entrée de gamme
Budget : Faible à moyen (A/B testing)
Campagne type : -10% premier achat / parrainage

2. Segment Bob (Client fidèle, gros acheteur)

Objectif : Fidéliser + ventes premium
Canaux : Email personnalisé, In-Store, téléphone VIP
Contenu : Programmes fidélité, avant-premières, offres exclusives
Budget : Élevé (fort ROI attendu)
Campagne type : Accès VIP / abonnement / événement privé

3. Segment Alice & Diana (Profil mixte)

Objectif : Maintenir engagement + Upselling
Canaux : Email + Social Ads + Online
Contenu : Newsletter produit, recommandations personnalisées, promos selon historique
Budget : Moyen
Campagne type : "Produits similaires", "Vu récemment", ventes flash

Module 8 : Dashboard

Statut : Placeholder pour futur développement.

🗂️ Fichiers de données requis

├── Customer.csv        # Clients (Customer_ID, Name, Age, Total_Spent, Gender, Location, Join_Date)
├── Sale.csv            # Ventes (Sale_ID, Customer_ID, Product_ID, Quantity, Sale_Price, Date, Channel)
├── Product.csv         # Produits (Product_ID, Product_Name, Price)
└── Marketing.csv       # Campagnes (Campaign_ID, Channel, Budget, Impressions, Clicks, Conversions)

📊 Fichiers de sortie générés

Fichier	Contenu
`segmentation_clients_pca.csv`	Clusters PCA, projections PCA1/PCA2
`segment_profile.csv`	Profil moyen par segment
`product_preferences.csv`	Préférences produits par segment
`marketing_kpis.csv`	KPIs marketing (CTR, CPC, CPA, ROI)
`customer_rfm.csv`	Métriques RFM + Recency + Tenure
`clients_fideles.csv`	Clients avec faible risque de churn
`clients_a_risque.csv`	Clients avec risque de churn élevé

🛠️ Librairies utilisées

pandas           # Manipulation de données
numpy            # Calculs numériques
matplotlib       # Visualisation basique
seaborn          # Visualisation statistique
scikit-learn     # ML (KMeans, PCA, RandomForest, preprocessing)
warnings         # Suppression des avertissements

🚀 Workflow complet

1. IMPORTATION DES DONNÉES
   ↓
2. NETTOYAGE & EXPLORATION (Boxplots, statistiques)
   ↓
3. SEGMENTATION (K-Means + PCA)
   ↓
4. PROFILAGE DES SEGMENTS
   ↓
5. ANALYSE MARKETING (KPIs)
   ↓
6. PRÉDICTIONS (Churn + CLV)
   ↓
7. STRATÉGIE MARKETING PERSONNALISÉE
   ↓
8. DASHBOARD (À développer)

📈 Résultats clés

Segmentation

3 segments identifiés avec des profils distincts
PCA explique 100% de la variance (PC1: 66.6%, PC2: 33.3%)

Modèles Prédictifs

Churn : Random Forest avec GridSearchCV optimisé
- Métriques : AUC-ROC, F1-Score, Confusion Matrix
CLV : Random Forest Regressor
- Métriques : R² Score, RMSE

Stratégie Marketing

3 stratégies différentes adaptées aux 3 segments
Canaux prioritaires identifiés (Email, Social, In-Store)
Plans d'action concrets pour chaque segment

💡 Cas d'usage

Fidélisation : Identifier et retenir les clients à risque de churn
Ventes croisées : Recommander des produits selon le segment
Allocation budgétaire : Investir davantage dans les segments high-value
Optimisation campagnes : Choisir les meilleurs canaux par segment
Prédiction : Estimer le potentiel de chaque nouveau client

🔗 Dépendances entre modules

Module 1 (Contexte)
   ↓
Module 2 (Données)
   ↓
Module 3 (Segmentation)
   ↓
Module 4 (Profils)
   ↓
Module 5 (Marketing KPIs)
   ↓
Module 6 (Prédictions Churn + CLV)
   ↓
Module 7 (Stratégie)
   ↓
Module 8 (Dashboard)

⚙️ Notes techniques

Les dates sont parsées avec dayfirst=True (format européen)
Valeurs manquantes gérées avec SimpleImputer (médiane pour numériques, mode pour catégorielles)
Standardisation appliquée avant clustering et modélisation
GridSearchCV utilisé pour optimiser tous les modèles
Tous les résultats sont exportés en CSV pour analyse ultérieure

📝 Auteur & Date

Projet : Master 2, ML/DL, ENI Datascience
Focus : Personnalisation marketing basée sur la segmentation et prédiction

Bon à savoir : Ce notebook offre une base solide pour une stratégie de marketing data-driven. Les exports CSV permettent une intégration facile dans des outils CRM ou de BI.

Name		Name	Last commit message	Last commit date
Latest commit History 2 Commits
DataScience.ipynb		DataScience.ipynb
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

DataScience.ipynb - Guide de Personnalisation Marketing

📋 Vue d'ensemble

📚 Structure du Notebook (8 Modules)

Module 1 : Identifier les enjeux de la personnalisation marketing

Module 2 : Nettoyage, visualisation et résumé des données

Module 3 : Segmentation client

Module 4 : Profilage des segments

Module 5 : Analyse des performances des campagnes marketing

Module 6 : Prédiction du Churn et CLV

6a. Prédiction du Churn (Fidélité Client)

6b. Prédiction du CLV (Customer Lifetime Value)

Module 7 : Business Model Canvas & Stratégie Marketing

Segments identifiés :

Business Model Canvas :

Plan Stratégique par Segment :

Module 8 : Dashboard

🗂️ Fichiers de données requis

📊 Fichiers de sortie générés

🛠️ Librairies utilisées

🚀 Workflow complet

📈 Résultats clés

Segmentation

Modèles Prédictifs

Stratégie Marketing

💡 Cas d'usage

🔗 Dépendances entre modules

⚙️ Notes techniques

📝 Auteur & Date

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

DataScience.ipynb - Guide de Personnalisation Marketing

📋 Vue d'ensemble

📚 Structure du Notebook (8 Modules)

Module 1 : Identifier les enjeux de la personnalisation marketing

Module 2 : Nettoyage, visualisation et résumé des données

Module 3 : Segmentation client

Module 4 : Profilage des segments

Module 5 : Analyse des performances des campagnes marketing

Module 6 : Prédiction du Churn et CLV

6a. Prédiction du Churn (Fidélité Client)

6b. Prédiction du CLV (Customer Lifetime Value)

Module 7 : Business Model Canvas & Stratégie Marketing

Segments identifiés :

Business Model Canvas :

Plan Stratégique par Segment :

Module 8 : Dashboard

🗂️ Fichiers de données requis

📊 Fichiers de sortie générés

🛠️ Librairies utilisées

🚀 Workflow complet

📈 Résultats clés

Segmentation

Modèles Prédictifs

Stratégie Marketing

💡 Cas d'usage

🔗 Dépendances entre modules

⚙️ Notes techniques

📝 Auteur & Date

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages