  # **AKADEMI EDUCATION**
# **Première cohorte (2025): Science des données et intelligence artificielle**
#### *Phase 5: PROJET DE SCIENCE DES DONNÉES*

**Noms des étudiants du groupe: Riché FLEURINORD et Micka LOUIS**   
**Rythme d’apprentissage: Autonome**  
**Date de soutenance: 27 octobre 2025**  
**Noms des instructeurs: Wedter JEROME et Geovany Batista Polo LAGUERRE**  
**Lien de l’article de blog (lien du dépôt GitHub): https://github.com/richefleuriord/Bank_Customer_Churn_Prediction.git**

# *3-Préparation des données*

## Création d’un pipeline de préparation des données

Ce notebook prépare le dataset pour l'entraînement des modèles de prédiction du churn.  
Les étapes incluent :
1. Suppression des colonnes inutile
2. Encodage des variables catégorielles
3. Standardisation des variables numériques
4. Séparation train / validation / test
5. Pipeline complet pour faciliter la modélisation et la validation croisée


In [7]:
# Import des bibliothèques
import pandas as pd
import joblib
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline

# 1️⃣ Recharger le dataset
df = pd.read_csv("../Data/Customer-Churn-Records.csv")

# 2️⃣ Suppression des colonnes inutiles
df = df.drop(['RowNumber', 'CustomerId', 'Surname'], axis=1)

# 3️⃣ Séparation features / target
X = df.drop('Exited', axis=1)
y = df['Exited']

# 4️⃣ Définition des colonnes numériques et catégorielles
cat_cols = ['Geography', 'Card Type', 'Gender']
num_cols = ['CreditScore','Age','Tenure','Balance','NumOfProducts','EstimatedSalary','Satisfaction Score','Point Earned']

# Encodage binaire pour Gender
X['Gender'] = X['Gender'].map({'Female': 0, 'Male': 1})
cat_cols.remove('Gender')  # déjà encodée

# 5️⃣ Création des transformations
numeric_transformer = StandardScaler()
categorical_transformer = OneHotEncoder(drop='first', sparse_output=False)

preprocessor = ColumnTransformer(
    transformers=[
        ('num', numeric_transformer, num_cols),
        ('cat', categorical_transformer, cat_cols)
    ]
)

# 6️⃣ Création du pipeline complet
pipeline = Pipeline(steps=[('preprocessor', preprocessor)])

# 7️⃣ Séparation train+val / test (80% / 20%)
X_temp, X_test, y_temp, y_test = train_test_split(X, y, test_size=0.2, stratify=y, random_state=42)

# 8️⃣ Séparation train / validation (75% train, 25% val)
X_train, X_val, y_train, y_val = train_test_split(X_temp, y_temp, test_size=0.25, stratify=y_temp, random_state=42)

# 9️⃣ Application du pipeline
X_train_prepared = pipeline.fit_transform(X_train)
X_val_prepared = pipeline.transform(X_val)
X_test_prepared = pipeline.transform(X_test)


# Sauvegarde du pipeline complet
joblib.dump(pipeline, 'preprocessing_pipeline.pkl')


# Vérification des shapes
print("X_train_prepared shape :", X_train_prepared.shape)
print("X_val_prepared shape :", X_val_prepared.shape)
print("X_test_prepared shape :", X_test_prepared.shape)


X_train_prepared shape : (6000, 13)
X_val_prepared shape : (2000, 13)
X_test_prepared shape : (2000, 13)
