  # **AKADEMI EDUCATION**
# **Première cohorte (2025): Science des données et intelligence artificielle**
#### *Phase 5: PROJET DE SCIENCE DES DONNÉES*

**Noms des étudiants du groupe: Riché FLEURINORD et Micka LOUIS**   
**Rythme d’apprentissage: Autonome**  
**Date de soutenance: 27 octobre 2025**  
**Noms des instructeurs: Wedter JEROME et Geovany Batista Polo LAGUERRE**  
**Lien de l’article de blog (lien du dépôt GitHub): https://github.com/richefleuriord/Bank_Customer_Churn_Prediction.git**

# *3-Préparation des données*

## Introduction et Objectifs de la Préparation des Données

La **préparation des données** est une étape essentielle dans tout projet de *Data Science*.  
Elle consiste à transformer le jeu de données brut en un format propre, cohérent et exploitable pour la modélisation prédictive.  

Dans ce projet, l’objectif principal est de **préparer le jeu de données des clients bancaires** afin de construire un modèle capable de prédire le **risque de départ (churn)** des clients.

---

### Objectifs spécifiques

- Nettoyer les données et vérifier leur cohérence.  
- Créer de nouvelles variables pertinentes à partir des variables existantes (*feature engineering*).  
- Transformer les variables catégorielles en variables numériques exploitables par les algorithmes de *Machine Learning*.  
- Normaliser les variables numériques afin d’éviter les effets de différence d’échelle.  
- Gérer le déséquilibre de la variable cible (**Exited**) à l’aide de la méthode **SMOTE** (*Synthetic Minority Oversampling Technique*).  
- Séparer les données en trois ensembles distincts :  
  - **Train (70%)** : pour l’apprentissage du modèle.  
  - **Validation (15%)** : pour l’ajustement des hyperparamètres.  
  - **Test (15%)** : pour l’évaluation finale des performances.

---

### Étapes principales du pipeline de préparation

1. **Vérifications de base**: identification des valeurs manquantes, doublons et vérification de la cohérence de la variable cible.  
2. **Feature Engineering**: suppression de variables non pertinentes, création de nouvelles variables (ratios, groupes d’âge, interactions, etc.).  
3. **Encodage** des variables catégorielles à l’aide du *One-Hot Encoding*.  
4. **Normalisation** des variables numériques à l’aide du `StandardScaler`.  
5. **Équilibrage des classes** avec **SMOTE** pour corriger le déséquilibre de la variable cible.  
6. **Séparation finale** du jeu de données en ensembles d’entraînement, de validation et de test.  
7. **Sauvegarde** des jeux de données préparés pour la phase de modélisation.

---

*Cette étape garantit la qualité et la fiabilité du jeu de données, condition essentielle pour la performance du modèle prédictif.*


In [1]:
# ============================================================
# Étapes : nettoyage, feature engineering, encodage, normalisation, SMOTE
# ============================================================

import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from imblearn.over_sampling import SMOTE

# ============================================================
# CHARGEMENT DU JEU DE DONNÉES
# ============================================================
df = pd.read_csv("../Data/Customer-Churn-Records.csv")

# ============================================================
# VÉRIFICATIONS DE BASE
# ============================================================
print("Valeurs manquantes totales:", df.isnull().sum().sum())
print("Doublons :", df.duplicated().sum())
print("\nRépartition de la cible:")
print(df['Exited'].value_counts(normalize=True) * 100)

# ============================================================
# FEATURE ENGINEERING
# ============================================================

# Suppression des colonnes non pertinentes
df = df.drop(columns=["CustomerId", "RowNumber", "Surname"], errors='ignore')

# Suppression de la variable qui fuit la cible
df = df.drop(columns=["Complain"], errors='ignore')

# Ratio Balance / Salary
df['BalanceToSalaryRatio'] = df['Balance'] / (df['EstimatedSalary'] + 1)

# Création de groupes d'âge
df['AgeGroup'] = pd.cut(df['Age'], bins=[17, 25, 35, 50, 65, 100],
                        labels=['18-25', '26-35', '36-50', '51-65', '65+'])

# Interaction entre certaines variables
df['ActiveCredit'] = df['IsActiveMember'] * df['HasCrCard']

# Variable indicatrice : faible satisfaction
df['LowSatisfaction'] = (df['Satisfaction Score'] <= 2).astype(int)

# ============================================================
# ENCODAGE DES VARIABLES CATÉGORIELLES
# ============================================================
categorical_cols = df.select_dtypes(include=['object', 'category']).columns
df = pd.get_dummies(df, columns=categorical_cols, drop_first=True)

# ============================================================
# NORMALISATION DES VARIABLES NUMÉRIQUES
# ============================================================
scaler = StandardScaler()
num_features = ['CreditScore', 'Age', 'Tenure', 'Balance',
                'NumOfProducts', 'BalanceToSalaryRatio']

df[num_features] = scaler.fit_transform(df[num_features])

# ============================================================
# SÉPARATION FEATURES / CIBLE
# ============================================================
X = df.drop('Exited', axis=1)
y = df['Exited']

# ============================================================
# SPLIT TRAIN / VAL / TEST
# ============================================================
X_train, X_temp, y_train, y_temp = train_test_split(
    X, y, test_size=0.3, stratify=y, random_state=42
)
X_val, X_test, y_val, y_test = train_test_split(
    X_temp, y_temp, test_size=0.5, stratify=y_temp, random_state=42
)

# ============================================================
# ALIGNEMENT DES COLONNES (au cas où certaines dummies manqueraient)
# ============================================================
X_val = X_val.reindex(columns=X_train.columns, fill_value=0)
X_test = X_test.reindex(columns=X_train.columns, fill_value=0)

# ============================================================
# INSPECTION DE LA RÉPARTITION AVANT SMOTE
# ============================================================
print("\nAvant SMOTE :")
print(y_train.value_counts())

# ============================================================
# ÉQUILIBRAGE DES CLASSES AVEC SMOTE
# ============================================================
smote = SMOTE(random_state=42)
X_train_res, y_train_res = smote.fit_resample(X_train, y_train)

print("\nAprès SMOTE :")
print(y_train_res.value_counts())

# ============================================================
# SAUVEGARDE DES JEUX DE DONNÉES PRÉPARÉS
# ============================================================
X_train_res.to_csv("../Data/X_train_prepared.csv", index=False)
y_train_res.to_csv("../Data/y_train_prepared.csv", index=False)
X_val.to_csv("../Data/X_val_prepared.csv", index=False)
y_val.to_csv("../Data/y_val_prepared.csv", index=False)
X_test.to_csv("../Data/X_test_prepared.csv", index=False)
y_test.to_csv("../Data/y_test_prepared.csv", index=False)

print("\nDonnées prêtes pour la modélisation.")

Valeurs manquantes totales: 0
Doublons : 0

Répartition de la cible:
Exited
0    79.62
1    20.38
Name: proportion, dtype: float64

Avant SMOTE :
Exited
0    5573
1    1427
Name: count, dtype: int64

Après SMOTE :
Exited
0    5573
1    5573
Name: count, dtype: int64

Données prêtes pour la modélisation.
