Skip to content

Fafa008/Data-Science

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

2 Commits
 
 
 
 

Repository files navigation

DataScience.ipynb - Guide de Personnalisation Marketing

📋 Vue d'ensemble

Ce notebook est un projet complet de Data Science appliqué au marketing de personnalisation. Il couvre l'ensemble du pipeline d'analyse de données clients, de la segmentation à la prédiction et à la stratégie marketing personnalisée.

Objectif principal : Utiliser les données clients et transactionnelles pour segmenter la clientèle, prédire les risques de churn, estimer la valeur client (CLV), et proposer des stratégies marketing ciblées.


📚 Structure du Notebook (8 Modules)

Module 1 : Identifier les enjeux de la personnalisation marketing

Contexte : Introduction conceptuelle à la personnalisation marketing.

Contenu :

  • Définition de la personnalisation marketing : adapter messages, offres et canaux selon les profils clients

  • Enjeux majeurs :

    • Fidélisation du client
    • Meilleure connaissance client
    • Optimisation des campagnes marketing
    • Utilisation des données (datasets)
  • Analyse SWOT :

    • Forces : Données clients disponibles, capacité à segmenter, amélioration du taux de conversion, automatisation possible
    • Faiblesses : Insuffisance de données, manque de compétences, faible budget
    • Opportunités : Utilisation croissante de l'IA, outils simples d'exploitation, différenciation concurrentielle
    • Menaces : RGPD/confidentialité, forte concurrence, matériel défectueux
  • Modèle 5P Marketing appliqué :

    • Produit : Vêtements
    • Prix : Dans la colonne price des données produits
    • Place : New York, Los Angeles, Chicago, Houston, Phoenix
    • Promotion : "Ayez le look"
    • People : Jeunes, hommes et femmes avec pouvoir d'achat

Module 2 : Nettoyage, visualisation et résumé des données

Objectif : Exploración et nettoyage des données clients, ventes et produits.

Données utilisées :

  • Customer.csv : Informations clients (ID, Nom, Âge, Montant Total Dépensé)
  • Sale.csv : Historique des ventes (ID Vente, ID Client, Quantité, Prix, Date)
  • Product.csv : Catalogue produits (ID Produit, Nom, Prix)

Analyses réalisées :

  1. Détection des valeurs aberrantes (Outliers) :

    • Box-plots pour Sale_Price et Price
    • Conclusion : Aucune valeur aberrante détectée
  2. Visualisations clés :

    • Dépenses totales par client (graphique barplot)
    • Segmentation des clients par tranches de dépense (< 400€, 400-600€, 600-800€)
    • Quantité totale vendue par produit (barplot)
    • Évolution du chiffre d'affaires dans le temps (lineplot)

Module 3 : Segmentation client

Méthode : K-Means Clustering + PCA (Analyse en Composantes Principales)

Étapes :

  1. Agrégation des données :

    • Fusion Customer + Sales
    • Calcul de métriques par client : âge, dépense totale, montant acheté, quantité achetée
  2. Normalisation :

    • StandardScaler pour les 4 variables numériques
  3. K-Means :

    • 3 segments identifiés (Cluster 0, 1, 2)
    • Assignation de chaque client à son cluster
  4. PCA pour visualisation :

    • Réduction à 2 dimensions
    • PC1 explique ~66.6% de la variance
    • PC2 explique ~33.3% de la variance
    • Graphique scatter plot coloré par cluster
  5. Export : segmentation_clients_pca.csv

Interprétation :

  • Clients proches sur le graphique = profils similaires
  • Clients éloignés = profils très différents (ex. Charlie très à gauche = jeune, faible dépense)

Module 4 : Profilage des segments

Objectif : Caractériser chaque segment et ses préférences produit.

Analyses :

  1. Profil moyen par segment :

    • Âge moyen, montant dépensé, quantité achetée, nombre de clients
    • Sauvegarde : segment_profile.csv
  2. Préférences produits par segment :

    • Produits les plus achetés dans chaque segment
    • Sauvegarde : product_preferences.csv
  3. Interprétation des segments :

    • Segment Budget : Faible dépense (< 400€) → "Client économique"
    • Segment Moyen : Dépense 400-700€ → "Client moyen"
    • Segment Premium : Dépense > 700€ → "Gros dépensier"

Module 5 : Analyse des performances des campagnes marketing

Objectif : Calculer les KPIs marketing et identifier les canaux les plus performants.

Données : Marketing.csv (Campaign_ID, Channel, Budget, Impressions, Clicks, Conversions)

KPIs calculés :

  • CTR (%) = (Clicks / Impressions) × 100 → Taux de clics
  • Conversion_Rate (%) = (Conversions / Clicks) × 100 → Taux de conversion
  • CPC (€) = Budget / Clicks → Coût par clic
  • CPA (€) = Budget / Conversions → Coût par acquisition
  • ROI (%) = ((Revenue - Budget) / Budget) × 100 → Retour sur investissement
  • Revenue (€) = Conversions × 20€ (valeur estimée par conversion)

Visualisation :

  • ROI par canal marketing (barplot)
  • Identification du meilleur et pire canal

Export : marketing_kpis.csv (trié par ROI décroissant)


Module 6 : Prédiction du Churn et CLV

Ce module contient deux modèles d'apprentissage machine :

6a. Prédiction du Churn (Fidélité Client)

Objectif : Identifier quels clients risquent de partir (Churn = 1) ou rester (Churn = 0).

Méthode RFM :

  • Recency : Nombre de jours depuis le dernier achat
  • Frequency : Nombre de transactions
  • Monetary : Montant total dépensé
  • Cible Churn : Recency > 15 jours = risque de churn

Modèle : Random Forest Classifier

  • Pipeline complet avec ColumnTransformer
  • Normalisation des variables numériques
  • Encodage des variables catégorielles (Gender, Location)
  • GridSearchCV pour optimiser les hyperparamètres

Métriques :

  • AUC-ROC
  • F1-Score
  • Classification Report
  • Confusion Matrix

Visualisations :

  • Courbe ROC
  • Matrice de confusion
  • Top 10 variables importantes

Exports :

  • customers_fideles.csv : Clients fidèles (non à risque)
  • customers_a_risque.csv : Clients à risque

6b. Prédiction du CLV (Customer Lifetime Value)

Objectif : Estimer la valeur financière future qu'un client apportera.

Méthode :

  • Calcul de CLV simple = Somme des ventes par client
  • Agrégation par client avec métriques : Revenue total, Quantité, Nombre de transactions, Durée de vie, Canal principal

Modèle : Random Forest Regressor

  • Comparaison avec Linear Regression
  • Pipeline avec preprocessing (normalisation + encodage)
  • GridSearchCV pour optimiser

Métriques :

  • R² Score
  • RMSE

Exports & Analyses :

  • Top 10 clients les plus prometteurs
  • Clients à haut potentiel mais actuellement peu rentables
  • Graphe de comparaison CLV observé vs prédit

Module 7 : Business Model Canvas & Stratégie Marketing

Objective : Définir la stratégie de marketing personnalisée par segment.

Segments identifiés :

  • Charlie : Low value (jeune, peu dépensier)
  • Alice & Diana : Medium value (profil mixte)
  • Bob : High value (fidèle, gros acheteur)

Business Model Canvas :

Composant Description
Besoin client Offres ciblées selon dépense, fréquence, âge
Proposition de valeur Expérience d'achat adaptée au budget et préférences
Canaux Email, Réseaux sociaux, Online, In-store
Relation client Newsletters personnalisées, promotions ciblées
Flux de revenus Augmentation panier moyen, rétention, ventes croisées
Ressources clés CRM, données transactionnelles, automation marketing
Activités clés Segmentation, personnalisation, campagnes multi-canal
Partenaires clés Agences digitales, plateformes emailing, influenceurs
Structure des coûts Créa contenu, pub online, CRM, data analysis

Plan Stratégique par Segment :

1. Segment Charlie (Client jeune, peu dépensier)

  • Objectif : Éduquer et inciter à l'achat
  • Canaux : Instagram, TikTok, Email
  • Contenu : Vidéos courtes, tutos produits, offres d'entrée de gamme
  • Budget : Faible à moyen (A/B testing)
  • Campagne type : -10% premier achat / parrainage

2. Segment Bob (Client fidèle, gros acheteur)

  • Objectif : Fidéliser + ventes premium
  • Canaux : Email personnalisé, In-Store, téléphone VIP
  • Contenu : Programmes fidélité, avant-premières, offres exclusives
  • Budget : Élevé (fort ROI attendu)
  • Campagne type : Accès VIP / abonnement / événement privé

3. Segment Alice & Diana (Profil mixte)

  • Objectif : Maintenir engagement + Upselling
  • Canaux : Email + Social Ads + Online
  • Contenu : Newsletter produit, recommandations personnalisées, promos selon historique
  • Budget : Moyen
  • Campagne type : "Produits similaires", "Vu récemment", ventes flash

Module 8 : Dashboard

Statut : Placeholder pour futur développement.


🗂️ Fichiers de données requis

├── Customer.csv        # Clients (Customer_ID, Name, Age, Total_Spent, Gender, Location, Join_Date)
├── Sale.csv            # Ventes (Sale_ID, Customer_ID, Product_ID, Quantity, Sale_Price, Date, Channel)
├── Product.csv         # Produits (Product_ID, Product_Name, Price)
└── Marketing.csv       # Campagnes (Campaign_ID, Channel, Budget, Impressions, Clicks, Conversions)

📊 Fichiers de sortie générés

Fichier Contenu
segmentation_clients_pca.csv Clusters PCA, projections PCA1/PCA2
segment_profile.csv Profil moyen par segment
product_preferences.csv Préférences produits par segment
marketing_kpis.csv KPIs marketing (CTR, CPC, CPA, ROI)
customer_rfm.csv Métriques RFM + Recency + Tenure
clients_fideles.csv Clients avec faible risque de churn
clients_a_risque.csv Clients avec risque de churn élevé

🛠️ Librairies utilisées

pandas           # Manipulation de données
numpy            # Calculs numériques
matplotlib       # Visualisation basique
seaborn          # Visualisation statistique
scikit-learn     # ML (KMeans, PCA, RandomForest, preprocessing)
warnings         # Suppression des avertissements

🚀 Workflow complet

1. IMPORTATION DES DONNÉES
   ↓
2. NETTOYAGE & EXPLORATION (Boxplots, statistiques)
   ↓
3. SEGMENTATION (K-Means + PCA)
   ↓
4. PROFILAGE DES SEGMENTS
   ↓
5. ANALYSE MARKETING (KPIs)
   ↓
6. PRÉDICTIONS (Churn + CLV)
   ↓
7. STRATÉGIE MARKETING PERSONNALISÉE
   ↓
8. DASHBOARD (À développer)

📈 Résultats clés

Segmentation

  • 3 segments identifiés avec des profils distincts
  • PCA explique 100% de la variance (PC1: 66.6%, PC2: 33.3%)

Modèles Prédictifs

  • Churn : Random Forest avec GridSearchCV optimisé
    • Métriques : AUC-ROC, F1-Score, Confusion Matrix
  • CLV : Random Forest Regressor
    • Métriques : R² Score, RMSE

Stratégie Marketing

  • 3 stratégies différentes adaptées aux 3 segments
  • Canaux prioritaires identifiés (Email, Social, In-Store)
  • Plans d'action concrets pour chaque segment

💡 Cas d'usage

  1. Fidélisation : Identifier et retenir les clients à risque de churn
  2. Ventes croisées : Recommander des produits selon le segment
  3. Allocation budgétaire : Investir davantage dans les segments high-value
  4. Optimisation campagnes : Choisir les meilleurs canaux par segment
  5. Prédiction : Estimer le potentiel de chaque nouveau client

🔗 Dépendances entre modules

Module 1 (Contexte)
   ↓
Module 2 (Données)
   ↓
Module 3 (Segmentation)
   ↓
Module 4 (Profils)
   ↓
Module 5 (Marketing KPIs)
   ↓
Module 6 (Prédictions Churn + CLV)
   ↓
Module 7 (Stratégie)
   ↓
Module 8 (Dashboard)

⚙️ Notes techniques

  • Les dates sont parsées avec dayfirst=True (format européen)
  • Valeurs manquantes gérées avec SimpleImputer (médiane pour numériques, mode pour catégorielles)
  • Standardisation appliquée avant clustering et modélisation
  • GridSearchCV utilisé pour optimiser tous les modèles
  • Tous les résultats sont exportés en CSV pour analyse ultérieure

📝 Auteur & Date

  • Projet : Master 2, ML/DL, ENI Datascience
  • Focus : Personnalisation marketing basée sur la segmentation et prédiction

Bon à savoir : Ce notebook offre une base solide pour une stratégie de marketing data-driven. Les exports CSV permettent une intégration facile dans des outils CRM ou de BI.

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors