# Analyse de Campagne Marketing - Grande Distribution

---

## Contexte et Objectifs

**Client :** Direction Marketing d'une multinationale de la grande distribution

### Objectifs Principaux
1. **Analyser, visualiser et interpréter** les données de campagne marketing
2. **Définir les KPIs pertinents** pour évaluer l'efficacité des campagnes
3. **Prédire la réponse client** aux futures campagnes

### Objectifs Finaux
- Chiffrer l'efficacité des campagnes marketing
- Réaliser des KPIs et fournir des chiffres clés
- Cerner la cible client et comprendre le public ciblé

### Livrables
- Analyses exploratoires complètes
- Modèles prédictifs de réponse client
- Segmentation client (clustering)
- Justification du feature engineering

## Table des Matières

1. **Importation des Bibliothèques**
2. **Chargement et Découverte des Données**
3. **Nettoyage et Prétraitement des Données**
4. **Feature Engineering**
5. **Analyse Exploratoire des Données (EDA)**
6. **Définition et Calcul des KPIs**
7. **Segmentation Client (Clustering)**
8. **Modélisation Prédictive**
9. **Conclusions et Recommandations**

---
## 1) Importation des Bibliothèques

In [1]:
# Manipulation de données
import pandas as pd
import numpy as np

# Visualisation
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots

# Machine Learning - Preprocessing
from sklearn.preprocessing import StandardScaler, LabelEncoder

# Machine Learning - Clustering
from sklearn.cluster import KMeans
from sklearn.decomposition import PCA

# Machine Learning - Modélisation
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier, GradientBoostingClassifier
from sklearn.tree import DecisionTreeClassifier

# Machine Learning - Évaluation
from sklearn.metrics import (
    classification_report, confusion_matrix, 
    accuracy_score, precision_score, recall_score, f1_score,
    roc_auc_score, roc_curve, precision_recall_curve
)

# Ignorer les warnings
import warnings 
warnings.filterwarnings('ignore')

# Configuration des graphiques
plt.style.use('seaborn-v0_8-darkgrid')
sns.set_palette("husl")
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', 100)

print("✅ Toutes les bibliothèques ont été importées avec succès !")

✅ Toutes les bibliothèques ont été importées avec succès !


---
## 2️) Chargement et Découverte des Données

In [2]:
# Chargement des données
df = pd.read_csv('Campagne_Market.csv', sep=';')

print("📊 Dimensions du dataset :")
print(f"   Nombre de lignes : {df.shape[0]}")
print(f"   Nombre de colonnes : {df.shape[1]}")
print("\n" + "="*80 + "\n")

# Affichage des premières lignes
print("📋 Aperçu des données :")
df.head(10)

📊 Dimensions du dataset :
   Nombre de lignes : 2240
   Nombre de colonnes : 29


📋 Aperçu des données :


Unnamed: 0,ID,Year_Birth,Education,Marital_Status,Income,Kidhome,Teenhome,Dt_Customer,Recency,MntWines,MntFruits,MntMeatProducts,MntFishProducts,MntSweetProducts,MntGoldProds,NumDealsPurchases,NumWebPurchases,NumCatalogPurchases,NumStorePurchases,NumWebVisitsMonth,AcceptedCmp3,AcceptedCmp4,AcceptedCmp5,AcceptedCmp1,AcceptedCmp2,Complain,Z_CostContact,Z_Revenue,Response
0,5524,1957,Graduation,Single,58138.0,0,0,2012-09-04,58,635,88,546,172,88,88,3,8,10,4,7,0,0,0,0,0,0,3,11,1
1,2174,1954,Graduation,Single,46344.0,1,1,2014-03-08,38,11,1,6,2,1,6,2,1,1,2,5,0,0,0,0,0,0,3,11,0
2,4141,1965,Graduation,Together,71613.0,0,0,2013-08-21,26,426,49,127,111,21,42,1,8,2,10,4,0,0,0,0,0,0,3,11,0
3,6182,1984,Graduation,Together,26646.0,1,0,2014-02-10,26,11,4,20,10,3,5,2,2,0,4,6,0,0,0,0,0,0,3,11,0
4,5324,1981,PhD,Married,58293.0,1,0,2014-01-19,94,173,43,118,46,27,15,5,5,3,6,5,0,0,0,0,0,0,3,11,0
5,7446,1967,Master,Together,62513.0,0,1,2013-09-09,16,520,42,98,0,42,14,2,6,4,10,6,0,0,0,0,0,0,3,11,0
6,965,1971,Graduation,Divorced,55635.0,0,1,2012-11-13,34,235,65,164,50,49,27,4,7,3,7,6,0,0,0,0,0,0,3,11,0
7,6177,1985,PhD,Married,33454.0,1,0,2013-05-08,32,76,10,56,3,1,23,2,4,0,4,8,0,0,0,0,0,0,3,11,0
8,4855,1974,PhD,Together,30351.0,1,0,2013-06-06,19,14,0,24,3,3,2,1,3,0,2,9,0,0,0,0,0,0,3,11,1
9,5899,1950,PhD,Together,5648.0,1,1,2014-03-13,68,28,0,6,1,1,13,1,1,0,0,20,1,0,0,0,0,0,3,11,0


In [3]:
# Informations générales sur le dataset
print("ℹ️ Informations sur le dataset :")
print(df.info())
print("\n" + "="*80 + "\n")

# Statistiques descriptives
print("Statistiques descriptives :")
df.describe()

ℹ️ Informations sur le dataset :
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2240 entries, 0 to 2239
Data columns (total 29 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   ID                   2240 non-null   int64  
 1   Year_Birth           2240 non-null   int64  
 2   Education            2240 non-null   object 
 3   Marital_Status       2240 non-null   object 
 4   Income               2216 non-null   float64
 5   Kidhome              2240 non-null   int64  
 6   Teenhome             2240 non-null   int64  
 7   Dt_Customer          2240 non-null   object 
 8   Recency              2240 non-null   int64  
 9   MntWines             2240 non-null   int64  
 10  MntFruits            2240 non-null   int64  
 11  MntMeatProducts      2240 non-null   int64  
 12  MntFishProducts      2240 non-null   int64  
 13  MntSweetProducts     2240 non-null   int64  
 14  MntGoldProds         2240 non-null   int64  
 15  NumDe

Unnamed: 0,ID,Year_Birth,Income,Kidhome,Teenhome,Recency,MntWines,MntFruits,MntMeatProducts,MntFishProducts,MntSweetProducts,MntGoldProds,NumDealsPurchases,NumWebPurchases,NumCatalogPurchases,NumStorePurchases,NumWebVisitsMonth,AcceptedCmp3,AcceptedCmp4,AcceptedCmp5,AcceptedCmp1,AcceptedCmp2,Complain,Z_CostContact,Z_Revenue,Response
count,2240.0,2240.0,2216.0,2240.0,2240.0,2240.0,2240.0,2240.0,2240.0,2240.0,2240.0,2240.0,2240.0,2240.0,2240.0,2240.0,2240.0,2240.0,2240.0,2240.0,2240.0,2240.0,2240.0,2240.0,2240.0,2240.0
mean,5592.159821,1968.805804,52247.251354,0.444196,0.50625,49.109375,303.935714,26.302232,166.95,37.525446,27.062946,44.021875,2.325,4.084821,2.662054,5.790179,5.316518,0.072768,0.074554,0.072768,0.064286,0.013393,0.009375,3.0,11.0,0.149107
std,3246.662198,11.984069,25173.076661,0.538398,0.544538,28.962453,336.597393,39.773434,225.715373,54.628979,41.280498,52.167439,1.932238,2.778714,2.923101,3.250958,2.426645,0.259813,0.262728,0.259813,0.245316,0.114976,0.096391,0.0,0.0,0.356274
min,0.0,1893.0,1730.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,3.0,11.0,0.0
25%,2828.25,1959.0,35303.0,0.0,0.0,24.0,23.75,1.0,16.0,3.0,1.0,9.0,1.0,2.0,0.0,3.0,3.0,0.0,0.0,0.0,0.0,0.0,0.0,3.0,11.0,0.0
50%,5458.5,1970.0,51381.5,0.0,0.0,49.0,173.5,8.0,67.0,12.0,8.0,24.0,2.0,4.0,2.0,5.0,6.0,0.0,0.0,0.0,0.0,0.0,0.0,3.0,11.0,0.0
75%,8427.75,1977.0,68522.0,1.0,1.0,74.0,504.25,33.0,232.0,50.0,33.0,56.0,3.0,6.0,4.0,8.0,7.0,0.0,0.0,0.0,0.0,0.0,0.0,3.0,11.0,0.0
max,11191.0,1996.0,666666.0,2.0,2.0,99.0,1493.0,199.0,1725.0,259.0,263.0,362.0,15.0,27.0,28.0,13.0,20.0,1.0,1.0,1.0,1.0,1.0,1.0,3.0,11.0,1.0


---
## 3️) Nettoyage et Prétraitement des Données

In [None]:
#1 Dans Marital Status, remplacer "Alone" par "Single" et "Absurd" et "YOLO" par "Other"

new_value = {
    'Alone': 'Single',
    'Absurd': 'Other',
    'YOLO': 'Other'
}
df['Marital_Status'] = df['Marital_Status'].replace(new_value)
print("Valeurs dans 'Marital_Status' remplacées avec succès.")
print(df['Marital_Status'].head())  
df.head()

print("\n" + "="*80 + "\n")


#2 Supprimer la ligne avec income = 666666

df = df[df['Income'] != 666666]
print("Ligne avec 'Income' = 666666 supprimée avec succès.")
print(df['Income'].head())

print("\n" + "="*80 + "\n")

                                                
#3 Ajout du caractère $ dans les champs Mnt

money_columns = ['MntWines', 'MntFruits', 'MntMeatProducts', 'MntFishProducts', 'MntSweetProducts', 'MntGoldProds']
for col in money_columns:
    df[col] = pd.to_numeric(df[col], errors='coerce')  
    df[col] = df[col].apply(lambda x: f"${x:.2f}" if pd.notnull(x) else "")
print("Caractère '$' ajouté aux champs Mnt avec succès.")
print(df[money_columns].head())

print(df[money_columns].head(10))
print(df[money_columns].dtypes)


print("\n" + "="*80 + "\n")


#4 Supprimer les lignes si la somme des canaux de distrib (NumDealsPurchases + NumWebPurchases + NumCatalogPurchases + NumStorePurchases) = 0

df['Total_Purchases'] = df['NumDealsPurchases'] + df['NumWebPurchases'] + df['NumCatalogPurchases'] + df['NumStorePurchases']
df = df[df['Total_Purchases'] != 0]
df = df.drop(columns=['Total_Purchases'])
print("Lignes avec somme des canaux de distribution égale à 0 supprimées avec succès.")
print(df.head())

print("\n" + "="*80 + "\n")


#5 Supprimer les lignes où la somme store/web/catalog < deals

df['Sum_Other_Purchases'] = df['NumWebPurchases'] + df['NumCatalogPurchases'] + df['NumStorePurchases']
df = df[df['Sum_Other_Purchases'] >= df['NumDealsPurchases']]
df = df.drop(columns=['Sum_Other_Purchases'])
print("Lignes où la somme store/web/catalog < deals supprimées avec succès.")
print(df.head())   

print("\n" + "="*80 + "\n")


#6 Trier visuelement les campagnes Marketing dans le bon ordre
# ID - Year_birth - Education - Marital_Status - Income - Kidhome - Teenhome - Dt_Customer - Recency - MntWines - MntFruits - MntMeatProducts - MntFishProducts - MntSweetProducts - MntGoldProds - NumDealsPurchases - NumWebPurchases - NumCatalogPurchases - NumStorePurchases - NumWebVisitsMonth - AcceptedCmp1 - AcceptedCmp2 - AcceptedCmp3 - AcceptedCmp4 - AcceptedCmp5 - Response

df = df[['ID', 'Year_Birth', 'Education', 'Marital_Status', 'Income', 'Kidhome', 'Teenhome', 'Dt_Customer', 'Recency', 'MntWines', 'MntFruits', 'MntMeatProducts', 'MntFishProducts', 'MntSweetProducts', 'MntGoldProds', 'NumDealsPurchases', 'NumWebPurchases', 'NumCatalogPurchases', 'NumStorePurchases', 'NumWebVisitsMonth', 'AcceptedCmp1', 'AcceptedCmp2', 'AcceptedCmp3', 'AcceptedCmp4', 'AcceptedCmp5', 'Response']]
print("Colonnes triées avec succès.")
print(df.head())

print("\n" + "="*80 + "\n")


#7 Remplissage des cellules vides de Income par la médianne des Income de la tranche d'âge (<26 , 26-35, 36-45, 46-55, 56-65, >65) + de la même Education + du statut marital




print("\n" + "="*80 + "\n")




Valeurs dans 'Marital_Status' remplacées avec succès.
0      Single
1      Single
2    Together
3    Together
4     Married
Name: Marital_Status, dtype: object


Ligne avec 'Income' = 666666 supprimée avec succès.
0    58138.0
1    46344.0
2    71613.0
3    26646.0
4    58293.0
Name: Income, dtype: float64


Caractère '$' ajouté aux champs Mnt avec succès.
  MntWines MntFruits MntMeatProducts MntFishProducts MntSweetProducts  \
0                                                                       
1                                                                       
2                                                                       
3                                                                       
4                                                                       

  MntGoldProds  
0               
1               
2               
3               
4               
  MntWines MntFruits MntMeatProducts MntFishProducts MntSweetProducts  \
0                          

---
## 4️) Feature Engineering

Création de nouvelles variables pertinentes pour l'analyse

In [None]:
#1 Ajout champ "age"

actuel_year = 2014
df['Age'] = actuel_year - df['Year_Birth']
print("Champ 'Age' ajouté avec succès.")
print(df[['Year_Birth', 'Age']].head(10))

print("\n" + "="*80 + "\n")

#2 Ajout champ "enfant totaux"

df['Total_Children'] = df['Kidhome'] + df['Teenhome']
print("Champ 'Total_Children' ajouté avec succès.")
print(df[['Kidhome', 'Teenhome', 'Total_Children']].head(10))

print("\n" + "="*80 + "\n")

#3 Ajout champ "achats totaux"

df['Total_Purchases'] = (df['MntWines'] + df['MntFruits'] + df['MntMeatProducts'] + 
                          df['MntFishProducts'] + df['MntSweetProducts'] + df['MntGoldProds'])
print("Champ 'Total_Purchases' ajouté avec succès.")
print(df[['MntWines', 'MntFruits', 'MntMeatProducts', 'MntFishProducts', 
          'MntSweetProducts', 'MntGoldProds', 'Total_Purchases']].head(10))

print("\n" + "="*80 + "\n")

#4 Ajout champ somme store/web/catalog

df['Total_Num_Purchases'] = df['NumStorePurchases'] + df['NumWebPurchases'] + df['NumCatalogPurchases']
print("Champ 'Total_Num_Purchases' ajouté avec succès.")
print(df[['NumStorePurchases', 'NumWebPurchases', 'NumCatalogPurchases', 'Total_Num_Purchases']].head(10))

print("\n" + "="*80 + "\n")

Champ 'Age' ajouté avec succès.
   Year_Birth  Age
0        1957   58
1        1954   61
2        1965   50
3        1984   31
4        1981   34
5        1967   48
6        1971   44
7        1985   30
8        1974   41
9        1950   65


Champ 'Total_Children' ajouté avec succès.
   Kidhome  Teenhome  Total_Children
0        0         0               0
1        1         1               2
2        0         0               0
3        1         0               1
4        1         0               1
5        0         1               1
6        0         1               1
7        1         0               1
8        1         0               1
9        1         1               2


Champ 'Total_Purchases' ajouté avec succès.
  MntWines MntFruits MntMeatProducts MntFishProducts MntSweetProducts  \
0  $635.00    $88.00         $546.00         $172.00           $88.00   
1   $11.00     $1.00           $6.00           $2.00            $1.00   
2  $426.00    $49.00         $127.00      

---
## 5️) Analyse Exploratoire des Données (EDA)

### 5.1 Analyse Univariée

### 5.2 Analyse des Campagnes Marketing

### 5.3 Analyse Bivariée - Relations entre variables

---
## 6️) Définition et Calcul des KPIs

### KPIs Clés pour Évaluer l'Efficacité des Campagnes

---
## 7️) Segmentation Client (Clustering)

### 7.1 Préparation des données pour le clustering

### 7.2 Détermination du nombre optimal de clusters (Méthode du Coude)

### 7.3 Application du K-Means Clustering

---
## 8️) Modélisation Prédictive

### 8.1 Préparation des données pour la prédiction

### 8.2 Entraînement de plusieurs modèles

### 8.3 Comparaison des performances

### 8.4 Analyse détaillée du meilleur modèle

---
## 9️) Conclusions et Recommandations

### 9.1 Synthèse des Résultats

### 9.2 Recommandations Stratégiques

---

## Conclusion Finale

Cette analyse complète a permis de :


### Points Forts de l'Analyse
