In [None]:
# ===============================================================
# 🎯 Projet : Analyse marketing et segmentation client
# Auteur : Aïdan Bouaïcha & Omar [Data Cleaning]
# Objectif : Nettoyer et analyser les données marketing
# ===============================================================

# --- 1. Importation des librairies nécessaires -----------------
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.preprocessing import StandardScaler
from sklearn.cluster import KMeans
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report, confusion_matrix
import warnings
warnings.filterwarnings("ignore")

pd.set_option("display.max_columns", None)
plt.rcParams["figure.figsize"] = (10,5)
sns.set(style="whitegrid")

# --- 2. Chargement des données brutes ---------------------------
df = pd.read_csv("Camp_Market_Brut.csv", sep=",")
print("✅ Données brutes chargées :", df.shape)
display(df.head())

# --- 3. Nettoyage des données (code Omar simplifié) -------------
print("\n🧹 Nettoyage des données en cours...")

# Suppression des doublons
df = df.drop_duplicates()

# Remplacement des valeurs manquantes
df["Income"] = df["Income"].fillna(df["Income"].median())

# Création d’une colonne 'Age' à partir de l’année de naissance
df["Age"] = 2025 - df["Year_Birth"]

# Suppression des valeurs incohérentes (revenus négatifs, âges extrêmes)
df = df[(df["Income"] > 0) & (df["Age"] < 100) & (df["Age"] > 18)]

# Calcul du total dépensé par client
depenses = [col for col in df.columns if "Mnt" in col]
df["TotalSpent"] = df[depenses].sum(axis=1)

# Gestion des colonnes inutiles
cols_to_drop = ["Z_CostContact", "Z_Revenue", "Dt_Customer"]
df = df.drop(columns=[c for c in cols_to_drop if c in df.columns], errors="ignore")

# Nettoyage des valeurs catégorielles
df["Education"] = df["Education"].replace({
    "2n Cycle": "Graduate", "Basic": "Basic", "PhD": "Postgraduate", 
    "Master": "Postgraduate"
})
df["Marital_Status"] = df["Marital_Status"].replace({
    "Together": "Married", "Alone": "Single", "Absurd": "Single",
    "YOLO": "Single", "Widow": "Single"
})

# Suppression des NaN restants
df = df.dropna()

# Export du fichier nettoyé
df.to_csv("Camp_Market_cleaned_omar.csv", index=False)
print("✅ Données nettoyées et sauvegardées dans 'Camp_Market_cleaned_omar.csv'")
display(df.head())

# --- 4. Analyse exploratoire et visualisation -------------------
print("\n📊 Analyse exploratoire :")

print("\n📏 Dimensions du dataset :", df.shape)
display(df.describe())

sns.histplot(df["Income"], bins=30, kde=True, color="skyblue")
plt.title("Distribution du revenu des clients")
plt.xlabel("Revenu (€)")
plt.ylabel("Nombre de clients")
plt.show()

sns.histplot(df["Age"], bins=30, kde=True, color="orange")
plt.title("Distribution de l'âge des clients")
plt.xlabel("Âge")
plt.ylabel("Nombre de clients")
plt.show()

plt.figure(figsize=(12,8))
sns.heatmap(df.corr(numeric_only=True), cmap="coolwarm", center=0, annot=True, fmt=".2f")
plt.title("Corrélation entre les variables numériques")
plt.show()

# --- 5. Analyse de la réponse aux campagnes ---------------------
if "Response" in df.columns:
    print("\n🎯 Analyse de la réponse aux campagnes :")

    response_rate = df["Response"].mean() * 100
    print(f"Taux de réponse global : {response_rate:.2f}%")

    sns.boxplot(x="Response", y="Income", hue="Response", data=df, palette="Set2", legend=False)
    plt.title("Revenu selon la réponse à la campagne")
    plt.show()

    sns.boxplot(x="Response", y="Age", hue="Response", data=df, palette="Set3", legend=False)
    plt.title("Âge selon la réponse à la campagne")
    plt.show()

# --- 6. Segmentation client (Clustering) ------------------------
print("\n👥 Segmentation client (K-Means) :")

features = ["Income", "Age", "Recency", "TotalSpent", "NumWebPurchases", "NumStorePurchases"]
X = df[features].dropna()

scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

inertia = []
for k in range(2,8):
    model = KMeans(n_clusters=k, random_state=42)
    model.fit(X_scaled)
    inertia.append(model.inertia_)

plt.plot(range(2,8), inertia, marker='o')
plt.title("Méthode du coude pour déterminer le nombre de clusters")
plt.xlabel("Nombre de clusters")
plt.ylabel("Inertie")
plt.show()

kmeans = KMeans(n_clusters=4, random_state=42)
df["Cluster"] = kmeans.fit_predict(X_scaled)

sns.pairplot(df, hue="Cluster", vars=["Income", "Age", "TotalSpent", "Recency"])
plt.suptitle("Visualisation des clusters clients", y=1.02)
plt.show()

# --- 7. Modélisation prédictive --------------------------------
print("\n🤖 Modélisation prédictive :")

X = df.select_dtypes(include=[np.number]).drop(columns=["Response", "Cluster"], errors='ignore')
y = df["Response"]

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
model = RandomForestClassifier(random_state=42)
model.fit(X_train, y_train)
y_pred = model.predict(X_test)

print("\n📈 Matrice de confusion :")
print(confusion_matrix(y_test, y_pred))

print("\n📊 Rapport de classification :")
print(classification_report(y_test, y_pred))

# --- 8. Exportation des résultats -------------------------------
print("\n💾 Exportation des résultats :")

df["Predicted_Response"] = model.predict(X)
df.to_csv("Camp_Market_Resultats.csv", index=False)
print("✅ 'Camp_Market_Resultats.csv' exporté avec succès.")

# --- 9. Conclusion ----------------------------------------------
print("\n🧠 Conclusion :")
print("""
- Le nettoyage des données a permis d’obtenir un jeu cohérent et prêt à l’analyse.
- Les clients à revenu moyen/élevé répondent davantage aux campagnes.
- Le clustering distingue plusieurs segments de clientèle selon âge, revenu et dépenses.
- Le modèle prédictif aide à cibler efficacement les futurs clients.
""")
