# üìö Notebook d'Entra√Ænement des Mod√®les de Pr√©diction du Churn

## üéØ Objectif
Ce notebook impl√©mente un pipeline complet de machine learning pour pr√©dire le churn (d√©sabonnement) des clients. Il couvre toutes les √©tapes essentielles :

1. **Chargement et exploration des donn√©es**
2. **Analyse exploratoire (EDA)**
3. **Pr√©traitement et feature engineering**
4. **Entra√Ænement de plusieurs mod√®les**
5. **Optimisation des hyperparam√®tres**
6. **√âvaluation et comparaison des mod√®les**
7. **S√©lection et sauvegarde du meilleur mod√®le**

## üìä Donn√©es
Le dataset contient des informations sur les clients d'une entreprise de t√©l√©communications, incluant leurs caract√©ristiques d√©mographiques, les services souscrits, et leur statut de churn.

## üéì Contexte Business
Le churn (taux d'attrition client) est un indicateur critique pour les entreprises. Perdre des clients co√ªte g√©n√©ralement plus cher que d'en acqu√©rir de nouveaux. Ce mod√®le permet d'identifier proactivement les clients √† risque pour mettre en place des actions de r√©tention cibl√©es.


---
## 1. Configuration et Imports

Cette section initialise l'environnement de travail en important toutes les biblioth√®ques n√©cessaires pour :
- La manipulation de donn√©es (pandas, numpy)
- La visualisation (matplotlib, seaborn)
- Le machine learning (scikit-learn)
- La persistance des mod√®les (joblib)
- Le logging des op√©rations


In [33]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import os
import itertools
import logging

# Pr√©traitement et mod√©lisation
from sklearn.preprocessing import StandardScaler, OrdinalEncoder, OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.metrics import classification_report, confusion_matrix, roc_auc_score, roc_curve

# Mod√®les
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.svm import SVC

# Sauvegarde des mod√®les et des m√©triques
import joblib
import json

# Ignorer les warnings
import warnings
warnings.filterwarnings('ignore')


### 1.1 Organisation des Fichiers

Cr√©ation d'une structure de dossiers pour organiser les artefacts du projet :
- **`data/`** : Donn√©es interm√©diaires et transform√©es
- **`figures/`** : Graphiques et visualisations
- **`models/`** : Mod√®les entra√Æn√©s (.pkl)
- **`metrics/`** : M√©triques d'√©valuation et rapports
- **`logs/`** : Logs d'ex√©cution du projet


In [34]:
# Cr√©ation des dossiers pour organiser les artefacts
folders = ['data', 'figures', 'models', 'metrics', 'logs']
for folder in folders:
    os.makedirs(folder, exist_ok=True)


### 1.2 Configuration du Logging

Le syst√®me de logging permet de tracer toutes les op√©rations importantes du pipeline. Les logs sont enregistr√©s dans `logs/project_logs.log` pour faciliter le debugging et l'audit des entra√Ænements.


In [35]:
# Configuration du logger
logging.basicConfig(
    filename='logs/project_logs.log',
    level=logging.INFO,
    format='%(asctime)s:%(levelname)s:%(message)s'
)

logging.info('Initialisation du projet de pr√©diction du churn client.')


---
## 2. Chargement et Exploration des Donn√©es

### 2.1 Chargement des Donn√©es

Les donn√©es sont charg√©es depuis le fichier CSV et des aper√ßus sont g√©n√©r√©s :
- **`data.head()`** : Les 5 premi√®res lignes pour inspection rapide
- **`data.info()`** : Types de donn√©es et valeurs manquantes
- **`data.describe()`** : Statistiques descriptives des variables num√©riques

Ces exports permettent une analyse rapide sans avoir √† relancer le notebook.


In [36]:
# Chargement des donn√©es depuis un fichier CSV
data = pd.read_csv('../data/data.csv')

# Affichage des premi√®res lignes pour un aper√ßu rapide
print("üìä Aper√ßu des donn√©es:")
print(data.head())
print(f"\n‚úÖ Donn√©es charg√©es avec succ√®s: {data.shape[0]} lignes et {data.shape[1]} colonnes")

# Enregistrement de l'aper√ßu des donn√©es
data.head().to_csv('data/data_preview.csv', index=False)
logging.info('Aper√ßu des donn√©es enregistr√© dans data/data_preview.csv')

# Informations sur le DataFrame
with open('data/data_info.txt', 'w') as f:
    data.info(buf=f)
logging.info('Informations sur les donn√©es enregistr√©es dans data/data_info.txt')

# Statistiques descriptives
print("\nüìà Statistiques descriptives des variables num√©riques:")
print(data.describe())

# Enregistrement des statistiques descriptives
data.describe().to_csv('data/data_describe.csv')
logging.info('Statistiques descriptives enregistr√©es dans data/data_describe.csv')

# V√©rification des valeurs manquantes
print("\nüîç Valeurs manquantes par colonne:")
missing_values = data.isnull().sum()
if missing_values.sum() > 0:
    print(missing_values[missing_values > 0])
else:
    print("Aucune valeur manquante d√©tect√©e")


üìä Aper√ßu des donn√©es:
   customerID  gender  SeniorCitizen Partner Dependents  tenure PhoneService  \
0  7590-VHVEG  Female              0     Yes         No       1           No   
1  5575-GNVDE    Male              0      No         No      34          Yes   
2  3668-QPYBK    Male              0      No         No       2          Yes   
3  7795-CFOCW    Male              0      No         No      45           No   
4  9237-HQITU  Female              0      No         No       2          Yes   

      MultipleLines InternetService OnlineSecurity  ... DeviceProtection  \
0  No phone service             DSL             No  ...               No   
1                No             DSL            Yes  ...              Yes   
2                No             DSL            Yes  ...               No   
3  No phone service             DSL            Yes  ...              Yes   
4                No     Fiber optic             No  ...               No   

  TechSupport StreamingTV Streaming

### 2.2 Nettoyage des Donn√©es

**Traitement de la variable `TotalCharges` :**
- Certaines valeurs peuvent √™tre stock√©es comme texte au lieu de nombres
- Conversion en num√©rique avec gestion des erreurs (`errors='coerce'`)
- Imputation des valeurs manquantes par la m√©diane (robuste aux outliers)

**Encodage de la variable cible :**
- Transformation de `Churn` (Yes/No) en variable binaire (1/0)
- Facilite l'utilisation dans les algorithmes de machine learning


In [37]:
# Nettoyage de 'TotalCharges' si n√©cessaire
# Certaines valeurs peuvent √™tre stock√©es comme string au lieu de num√©rique
print("üßπ Nettoyage de la colonne 'TotalCharges'...")

# Conversion en num√©rique avec gestion des erreurs
data['TotalCharges'] = pd.to_numeric(data['TotalCharges'], errors='coerce')

# Affichage du nombre de valeurs manquantes cr√©√©es
n_missing = data['TotalCharges'].isnull().sum()
if n_missing > 0:
    print(f"‚ö†Ô∏è  {n_missing} valeurs non num√©riques converties en NaN")
    print(f"üìä Imputation par la m√©diane: {data['TotalCharges'].median():.2f}")
    
# Imputation des valeurs manquantes par la m√©diane (robuste aux outliers)
data['TotalCharges'].fillna(data['TotalCharges'].median(), inplace=True)

# Encodage de la variable cible
data['Churn_encoded'] = data['Churn'].map({'Yes': 1, 'No': 0})

# Affichage de la distribution du churn
print(f"\nüéØ Distribution de la variable cible:")
print(f"  - Clients non-churned (No): {(data['Churn'] == 'No').sum()} ({(data['Churn'] == 'No').sum() / len(data) * 100:.1f}%)")
print(f"  - Clients churned (Yes): {(data['Churn'] == 'Yes').sum()} ({(data['Churn'] == 'Yes').sum() / len(data) * 100:.1f}%)")


üßπ Nettoyage de la colonne 'TotalCharges'...
‚ö†Ô∏è  11 valeurs non num√©riques converties en NaN
üìä Imputation par la m√©diane: 1397.47

üéØ Distribution de la variable cible:
  - Clients non-churned (No): 5174 (73.5%)
  - Clients churned (Yes): 1869 (26.5%)


---
## 3. Analyse Exploratoire des Donn√©es (EDA)

L'EDA est une √©tape cruciale pour comprendre les donn√©es et identifier les patterns li√©s au churn.

### 3.1 Analyse des Variables Cat√©goriques

**Objectif :** Visualiser la distribution des variables cat√©goriques en fonction du statut de churn.

**Insights attendus :**
- Quels services ou caract√©ristiques sont associ√©s √† un taux de churn plus √©lev√© ?
- Y a-t-il des d√©s√©quilibres importants dans certaines cat√©gories ?
- Les contrats √† long terme r√©duisent-ils le churn ?

Les barplots permettent de comparer visuellement les proportions de churn pour chaque cat√©gorie.


In [38]:
# Liste des variables cat√©goriques
categorical_vars = ['gender', 'SeniorCitizen', 'Partner', 'Dependents', 'PhoneService',
                    'MultipleLines', 'InternetService', 'OnlineSecurity', 'OnlineBackup',
                    'DeviceProtection', 'TechSupport', 'StreamingTV', 'StreamingMovies',
                    'Contract', 'PaperlessBilling', 'PaymentMethod']

# Param√®tres pour les sous-graphiques
n_cols = 3
n_rows = int(np.ceil(len(categorical_vars) / n_cols))

fig, axes = plt.subplots(n_rows, n_cols, figsize=(15, n_rows * 4))
axes = axes.flatten()

for idx, var in enumerate(categorical_vars):
    sns.countplot(x=var, hue='Churn', data=data, ax=axes[idx])
    axes[idx].set_title(f'Distribution de {var} par Churn')
    axes[idx].set_xlabel(var)
    axes[idx].set_ylabel('Nombre')
    axes[idx].legend(title='Churn', loc='upper right')

# Supprimer les axes vides
for ax in axes[len(categorical_vars):]:
    fig.delaxes(ax)

plt.tight_layout()
plt.savefig('figures/categorical_barplots.png')
plt.close()
logging.info('Barplots des variables cat√©goriques enregistr√©s dans figures/categorical_barplots.png')


### 3.2 Analyse des Variables Num√©riques

**Variables analys√©es :**
- **`tenure`** : Anciennet√© du client (en mois) - Les clients r√©cents sont-ils plus √† risque ?
- **`MonthlyCharges`** : Frais mensuels - Un co√ªt √©lev√© augmente-t-il le churn ?
- **`TotalCharges`** : Charges totales cumul√©es - Corr√©lation avec la fid√©lit√© ?

Les boxplots r√©v√®lent les diff√©rences de distribution entre clients churned et non-churned.


In [39]:
# Variables num√©riques
numerical_vars = ['tenure', 'MonthlyCharges', 'TotalCharges']

n_cols = 3
n_rows = int(np.ceil(len(numerical_vars) / n_cols))

fig, axes = plt.subplots(n_rows, n_cols, figsize=(15, n_rows * 5))
axes = axes.flatten()

for idx, var in enumerate(numerical_vars):
    sns.boxplot(x='Churn', y=var, data=data, ax=axes[idx])
    axes[idx].set_title(f'Boxplot de {var} par Churn')
    axes[idx].set_xlabel('Churn')
    axes[idx].set_ylabel(var)

# Supprimer les axes vides
for ax in axes[len(numerical_vars):]:
    fig.delaxes(ax)

plt.tight_layout()
plt.savefig('figures/numerical_boxplots.png')
plt.close()
logging.info('Boxplots des variables num√©riques enregistr√©s dans figures/numerical_boxplots.png')


### 3.3 Matrice de Corr√©lation

**Analyse des relations lin√©aires** entre les variables num√©riques et la variable cible.

**Points d'attention :**
- Multicolin√©arit√© entre variables (corr√©lation > 0.7-0.8)
- Corr√©lation avec la variable cible (`Churn_encoded`)
- TotalCharges et tenure sont souvent fortement corr√©l√©s (logique : plus on reste, plus on paie)

Cette analyse guide les d√©cisions de feature engineering.


In [40]:
# Matrice de corr√©lation
corr_matrix = data[numerical_vars + ['Churn_encoded']].corr()

# Heatmap de la matrice de corr√©lation
plt.figure(figsize=(8, 6))
sns.heatmap(corr_matrix, annot=True, cmap='coolwarm')
plt.title('Matrice de Corr√©lation')
plt.savefig('figures/correlation_matrix.png')
plt.close()
logging.info('Matrice de corr√©lation enregistr√©e dans figures/correlation_matrix.png')


---
## 4. Pr√©traitement et Feature Engineering

### 4.1 S√©paration Features / Target

**Exclusions :**
- **`Churn`** : Variable cible (version texte)
- **`customerID`** : Identifiant unique, non informatif pour la pr√©diction
- **`Churn_encoded`** : Variable cible (version num√©rique)

**Cat√©gorisation des variables :**
1. **Variables binaires** : 2 valeurs uniques (ex: gender, Partner)
2. **Variables multi-cat√©gorielles** : Plus de 2 valeurs (ex: InternetService, Contract)
3. **Variables num√©riques** : D√©j√† identifi√©es (tenure, charges)

Cette cat√©gorisation permet d'appliquer le bon type d'encodage √† chaque type de variable.


In [41]:
# S√©paration des features et de la cible
X = data.drop(['Churn', 'customerID', 'Churn_encoded'], axis=1)
y = data['Churn_encoded']

# Identification des variables binaires et cat√©goriques
binary_vars = [col for col in X.columns if X[col].nunique() == 2]
multi_category_vars = [col for col in X.columns if X[col].dtype == 'object' and col not in binary_vars]


### 4.2 Pipeline de Pr√©traitement

Utilisation de **`ColumnTransformer`** de scikit-learn pour appliquer diff√©rentes transformations en parall√®le :

1. **Variables num√©riques ‚Üí StandardScaler**
   - Centrage (moyenne = 0) et r√©duction (√©cart-type = 1)
   - Important pour les mod√®les sensibles √† l'√©chelle (SVM, r√©gression logistique)

2. **Variables binaires ‚Üí OrdinalEncoder**
   - Transformation simple en 0/1
   - Pr√©serve la nature binaire

3. **Variables cat√©gorielles ‚Üí OneHotEncoder**
   - Cr√©e une colonne binaire par cat√©gorie
   - `drop='first'` : √©vite la multicolin√©arit√© parfaite
   - Exemple : InternetService ‚Üí [DSL, Fiber optic] (No est la r√©f√©rence)

**Avantage :** Pipeline r√©utilisable et garantit la coh√©rence entre train/validation/test.


In [42]:
# Cr√©ation du pr√©processeur
preprocessor = ColumnTransformer(
    transformers=[
        ('num', StandardScaler(), numerical_vars),
        ('bin', OrdinalEncoder(), binary_vars),
        ('cat', OneHotEncoder(drop='first'), multi_category_vars)
    ],
    remainder='drop'
)


### 4.3 Application du Pr√©traitement

Application du pr√©processeur sur l'ensemble complet des features pour :
- V√©rifier que la transformation fonctionne correctement
- Obtenir les noms des features apr√®s encodage
- Sauvegarder un aper√ßu des donn√©es transform√©es

**Note :** Dans le pipeline final, la transformation sera appliqu√©e s√©par√©ment sur train/val/test pour √©viter le data leakage.


In [43]:
# Application du pr√©processeur sur l'ensemble des donn√©es
X_normalized = preprocessor.fit_transform(X)

# R√©cup√©ration des noms de colonnes apr√®s encodage
num_features = numerical_vars
bin_features = binary_vars
cat_features = preprocessor.named_transformers_['cat'].get_feature_names_out(multi_category_vars)
all_features = np.concatenate([num_features, bin_features, cat_features])

# Conversion en DataFrame
X_normalized_df = pd.DataFrame(X_normalized, columns=all_features)

# Enregistrement de la DataFrame normalis√©e
X_normalized_df.to_csv('data/X_normalized.csv', index=False)
logging.info('DataFrame normalis√©e enregistr√©e dans data/X_normalized.csv')


### 4.4 Division des Donn√©es (Train / Validation / Test)

**Strat√©gie de split :**
- **70% Train** : Entra√Ænement des mod√®les
- **15% Validation** : Optimisation des hyperparam√®tres et s√©lection du mod√®le
- **15% Test** : √âvaluation finale du mod√®le s√©lectionn√© (non utilis√© dans ce notebook)

**`stratify=y`** : Pr√©serve la proportion de churn dans chaque ensemble (important car le churn est souvent d√©s√©quilibr√©).

**Pourquoi 3 ensembles ?**
- √âvite l'overfitting sur les donn√©es de validation
- Le test set donne une estimation non biais√©e des performances en production


In [44]:
# Division initiale en entra√Ænement et temporaire (70% entra√Ænement, 30% temp)
X_train, X_temp, y_train, y_temp = train_test_split(X, y, test_size=0.30, random_state=42, stratify=y)

# Division du temporaire en validation et test (50% validation, 50% test)
X_val, X_test, y_val, y_test = train_test_split(X_temp, y_temp, test_size=0.5, random_state=42, stratify=y_temp)

# Affichage des tailles et distribution
print("üìä Division des donn√©es:")
print(f"  - Entra√Ænement: {X_train.shape[0]} samples ({X_train.shape[0]/len(X)*100:.1f}%)")
print(f"  - Validation: {X_val.shape[0]} samples ({X_val.shape[0]/len(X)*100:.1f}%)")
print(f"  - Test: {X_test.shape[0]} samples ({X_test.shape[0]/len(X)*100:.1f}%)")

print(f"\nüéØ Distribution du churn:")
print(f"  - Train: {y_train.sum()}/{len(y_train)} churned ({y_train.mean()*100:.1f}%)")
print(f"  - Validation: {y_val.sum()}/{len(y_val)} churned ({y_val.mean()*100:.1f}%)")
print(f"  - Test: {y_test.sum()}/{len(y_test)} churned ({y_test.mean()*100:.1f}%)")

# Logging
logging.info(f"Taille de l'entra√Ænement: {X_train.shape}")
logging.info(f"Taille de la validation: {X_val.shape}")
logging.info(f"Taille du test: {X_test.shape}")


üìä Division des donn√©es:
  - Entra√Ænement: 4930 samples (70.0%)
  - Validation: 1056 samples (15.0%)
  - Test: 1057 samples (15.0%)

üéØ Distribution du churn:
  - Train: 1308/4930 churned (26.5%)
  - Validation: 280/1056 churned (26.5%)
  - Test: 281/1057 churned (26.6%)


---
## 5. Entra√Ænement des Mod√®les

### 5.1 Cr√©ation des Pipelines

Chaque pipeline combine le pr√©traitement et un algorithme de machine learning :

**1. R√©gression Logistique**
- Mod√®le lin√©aire simple et interpr√©table
- `max_iter=1000` : Augmente les it√©rations pour convergence
- Baseline solide pour probl√®mes de classification binaire

**2. Random Forest**
- Ensemble de arbres de d√©cision
- G√®re bien les non-lin√©arit√©s et interactions
- Moins sensible aux outliers

**3. Support Vector Machine (SVM)**
- Trouve la fronti√®re optimale entre classes
- `probability=True` : Active les probabilit√©s (n√©cessaire pour ROC-AUC)
- Peut capturer des patterns complexes avec les noyaux

**Avantage des pipelines :** Garantit que le pr√©traitement est appliqu√© de mani√®re identique √† chaque √©tape.


In [45]:
# Pipelines pour les mod√®les sans hyperparam√®tres
pipeline_lr = Pipeline([
    ('preprocessor', preprocessor),
    ('classifier', LogisticRegression(max_iter=1000))
])

pipeline_rf = Pipeline([
    ('preprocessor', preprocessor),
    ('classifier', RandomForestClassifier(random_state=42))
])

pipeline_svc = Pipeline([
    ('preprocessor', preprocessor),
    ('classifier', SVC(probability=True, random_state=42))
])

logging.info('Pipelines scikit-learn cr√©√©s pour chaque mod√®le.')


### 5.2 Grilles d'Hyperparam√®tres

D√©finition des hyperparam√®tres √† tester pour chaque mod√®le via GridSearchCV.

**R√©gression Logistique :**
- **`C`** : Inverse de la r√©gularisation (‚ÜëC = ‚Üìr√©gularisation = mod√®le plus complexe)
- **`penalty='l2'`** : R√©gularisation Ridge (p√©nalise les coefficients √©lev√©s)

**Random Forest :**
- **`n_estimators`** : Nombre d'arbres (‚Üë = plus stable mais plus lent)
- **`max_depth`** : Profondeur maximale (contr√¥le l'overfitting)
- **`min_samples_split/leaf`** : Crit√®res d'arr√™t pour √©viter l'overfitting

**SVM :**
- **`C`** : Contr√¥le le compromis biais/variance
- **`kernel`** : Type de fronti√®re (linear = lin√©aire, rbf = non-lin√©aire)
- **`gamma`** : Influence du kernel RBF (‚Üëgamma = plus de complexit√©)

**Note :** GridSearchCV testera toutes les combinaisons pour trouver la meilleure.


In [46]:
# Param√®tres pour la R√©gression Logistique
param_grid_lr = {
    'classifier__C': [0.01, 0.1, 1, 10],
    'classifier__penalty': ['l2'],
    'classifier__solver': ['lbfgs']
}

# Param√®tres pour la For√™t Al√©atoire
param_grid_rf = {
    'classifier__n_estimators': [100, 200],
    'classifier__max_depth': [None, 10, 20],
    'classifier__min_samples_split': [2, 5],
    'classifier__min_samples_leaf': [1, 2]
}

# Param√®tres pour le SVM
param_grid_svc = {
    'classifier__C': [0.1, 1, 10],
    'classifier__kernel': ['rbf', 'linear'],
    'classifier__gamma': ['scale', 'auto']
}


### 5.3 Fonction d'Optimisation

**GridSearchCV** effectue :
1. **Validation crois√©e 5-fold** : Divise train en 5 parties, entra√Æne sur 4, valide sur 1 (rotation)
2. **Optimisation sur ROC-AUC** : M√©trique robuste pour donn√©es d√©s√©quilibr√©es
3. **Parall√©lisation** (`n_jobs=-1`) : Utilise tous les CPU disponibles

**Pourquoi ROC-AUC ?**
- Insensible au d√©s√©quilibre des classes
- √âvalue la qualit√© du ranking des pr√©dictions
- AUC=0.5 : mod√®le al√©atoire / AUC=1.0 : mod√®le parfait

La fonction retourne le meilleur estimateur (mod√®le + hyperparam√®tres optimaux).


In [47]:
def fine_tune_model(pipeline, param_grid, X_train, y_train, model_name):
    logging.info(f"D√©but du fine-tuning pour {model_name}")
    grid_search = GridSearchCV(
        estimator=pipeline,
        param_grid=param_grid,
        scoring='roc_auc',
        cv=5,
        n_jobs=-1,
        verbose=1
    )
    grid_search.fit(X_train, y_train)
    logging.info(f"Meilleurs param√®tres pour {model_name}: {grid_search.best_params_}")
    return grid_search.best_estimator_


### 5.4 Entra√Ænement et Optimisation

Lancement du fine-tuning pour les 3 mod√®les en parall√®le.

**Processus :**
- Pour chaque combinaison d'hyperparam√®tres
- GridSearch entra√Æne le mod√®le 5 fois (5-fold CV)
- Calcule le ROC-AUC moyen
- S√©lectionne la meilleure configuration

**Nombre total d'entra√Ænements :**
- Logistic Regression : 4 combinaisons √ó 5 folds = 20 fits
- Random Forest : 24 combinaisons √ó 5 folds = 120 fits  
- SVM : 12 combinaisons √ó 5 folds = 60 fits

‚è±Ô∏è **Note :** Cette cellule peut prendre plusieurs minutes selon la puissance de calcul.


In [48]:
# Fine-tuning pour la R√©gression Logistique
best_model_lr = fine_tune_model(pipeline_lr, param_grid_lr, X_train, y_train, 'LogisticRegression')

# Fine-tuning pour la For√™t Al√©atoire
best_model_rf = fine_tune_model(pipeline_rf, param_grid_rf, X_train, y_train, 'RandomForest')

# Fine-tuning pour le SVM
best_model_svc = fine_tune_model(pipeline_svc, param_grid_svc, X_train, y_train, 'SVC')


Fitting 5 folds for each of 4 candidates, totalling 20 fits
Fitting 5 folds for each of 24 candidates, totalling 120 fits
Fitting 5 folds for each of 12 candidates, totalling 60 fits


---
## 6. √âvaluation des Mod√®les

### 6.1 Fonction de Visualisation de la Matrice de Confusion

La matrice de confusion affiche :
- **Vrais N√©gatifs (TN)** : Clients correctement pr√©dits comme non-churned
- **Faux Positifs (FP)** : Clients non-churned pr√©dits comme churned (Type I)
- **Faux N√©gatifs (FN)** : Clients churned pr√©dits comme non-churned (Type II - ‚ö†Ô∏è critique !)
- **Vrais Positifs (TP)** : Clients correctement pr√©dits comme churned

Les pourcentages facilitent l'interpr√©tation des performances par classe.


In [49]:
def plot_confusion_matrix(cm, class_names, title='Confusion matrix', cmap=plt.cm.Blues, file_name='confusion_matrix.png'):
    """
    Trace la matrice de confusion personnalis√©e.

    Args:
        cm (np.ndarray): Matrice de confusion.
        class_names (list): Liste des noms des classes.
        title (str): Titre du graphique.
        cmap (matplotlib.colors.Colormap): Colormap pour le graphique.
        file_name (str): Nom du fichier pour enregistrer le graphique.
    """
    logging.info(f"Plotting confusion matrix for {title}")
    plt.figure(figsize=(8, 6))
    plt.imshow(cm, interpolation='nearest', cmap=cmap)
    plt.title(title)
    plt.colorbar()

    tick_marks = np.arange(len(class_names))
    plt.xticks(tick_marks, class_names, rotation=45)
    plt.yticks(tick_marks, class_names)

    thresh = cm.max() / 2.
    for i, j in itertools.product(range(cm.shape[0]), range(cm.shape[1])):
        percentage = 100 * cm[i, j] / cm[i, :].sum() if cm[i, :].sum() != 0 else 0
        plt.text(j, i, f'{cm[i, j]} ({percentage:.2f}%)',
                 horizontalalignment="center", verticalalignment='center',
                 color="white" if cm[i, j] > thresh else "black")

    plt.tight_layout()
    plt.ylabel('True label')
    plt.xlabel('Predicted label')
    plt.savefig(file_name)
    plt.close()


### 6.2 Fonction d'√âvaluation Compl√®te

Pour chaque mod√®le, calcule et sauvegarde :

**1. M√©triques de classification**
- **Pr√©cision (Precision)** : Parmi les pr√©dictions positives, combien sont correctes ?
  - Important si le co√ªt d'un FP est √©lev√©
- **Rappel (Recall)** : Parmi les vrais positifs, combien sont d√©tect√©s ?
  - Critique pour le churn : ne pas rater de clients √† risque
- **F1-Score** : Moyenne harmonique de pr√©cision et rappel
  - √âquilibre entre les deux

**2. Courbe ROC et AUC**
- Visualise le compromis entre TPR (True Positive Rate) et FPR (False Positive Rate)
- AUC r√©sume la performance en un seul chiffre

**3. Sauvegarde des artefacts**
- Rapports texte pour revue d√©taill√©e
- Graphiques pour pr√©sentation
- M√©triques JSON pour tracking MLOps


In [50]:
def evaluate_model(model, X_val, y_val, model_name):
    logging.info(f'√âvaluation du mod√®le {model_name}')
    
    # Pr√©dictions
    y_pred = model.predict(X_val)
    y_proba = model.predict_proba(X_val)[:, 1]
    
    # Calcul des m√©triques
    report = classification_report(y_val, y_pred, output_dict=True)
    auc = roc_auc_score(y_val, y_proba)
    fpr, tpr, thresholds = roc_curve(y_val, y_proba)
    
    # Enregistrement du rapport de classification
    with open(f'metrics/classification_report_{model_name}.txt', 'w') as f:
        f.write(classification_report(y_val, y_pred))
    logging.info(f'Rapport de classification enregistr√© pour {model_name}')
    
    # Matrice de confusion
    cm = confusion_matrix(y_val, y_pred)
    class_names = ['No', 'Yes']
    plot_confusion_matrix(cm, class_names, title=f'Matrice de Confusion - {model_name}', file_name=f'figures/confusion_matrix_{model_name}.png')
    
    # Courbe ROC
    plt.figure(figsize=(6, 4))
    plt.plot(fpr, tpr, label=f'AUC = {auc:.2f}')
    plt.plot([0, 1], [0, 1], 'k--')
    plt.title(f'Courbe ROC - {model_name}')
    plt.xlabel('Taux de Faux Positifs')
    plt.ylabel('Taux de Vrais Positifs')
    plt.legend(loc='lower right')
    plt.savefig(f'figures/roc_curve_{model_name}.png')
    plt.close()
    logging.info(f'Courbe ROC enregistr√©e pour {model_name}')
    
    # Sauvegarder les m√©triques
    metrics = {
        'classification_report': report,
        'auc_roc': auc
    }
    with open(f'metrics/metrics_{model_name}.json', 'w') as f:
        json.dump(metrics, f, indent=4)
    logging.info(f'M√©triques enregistr√©es pour {model_name}')
    
    return report, auc


### 6.3 √âvaluation sur l'Ensemble de Validation

Application de la fonction d'√©valuation aux 3 mod√®les optimis√©s.

Les r√©sultats sont stock√©s dans :
- `models_reports` : Rapports de classification d√©taill√©s
- `models_auc` : Scores AUC-ROC pour chaque mod√®le

Ces m√©triques permettront de comparer objectivement les mod√®les et de s√©lectionner le meilleur.


In [51]:
# Dictionnaires pour stocker les rapports et les AUC
models_reports = {}
models_auc = {}

# √âvaluation du mod√®le Logistic Regression
report_lr, auc_lr = evaluate_model(best_model_lr, X_val, y_val, 'LogisticRegression')
models_reports['LogisticRegression'] = report_lr
models_auc['LogisticRegression'] = auc_lr

# √âvaluation du mod√®le Random Forest
report_rf, auc_rf = evaluate_model(best_model_rf, X_val, y_val, 'RandomForest')
models_reports['RandomForest'] = report_rf
models_auc['RandomForest'] = auc_rf

# √âvaluation du mod√®le SVC
report_svc, auc_svc = evaluate_model(best_model_svc, X_val, y_val, 'SVC')
models_reports['SVC'] = report_svc
models_auc['SVC'] = auc_svc


### 6.4 Sauvegarde des Mod√®les

Persistance des 3 mod√®les optimis√©s avec `joblib` :
- Format efficace pour les objets Python/scikit-learn
- Permet le chargement rapide pour l'inf√©rence
- Inclut le pipeline complet (pr√©traitement + mod√®le)

Ces fichiers `.pkl` peuvent √™tre d√©ploy√©s directement en production.


In [52]:
# Sauvegarde des mod√®les optimis√©s
print("üíæ Sauvegarde des mod√®les...")

joblib.dump(best_model_lr, 'models/model_LogisticRegression.pkl')
print("  ‚úÖ Logistic Regression sauvegard√©")

joblib.dump(best_model_rf, 'models/model_RandomForest.pkl')
print("  ‚úÖ Random Forest sauvegard√©")

joblib.dump(best_model_svc, 'models/model_SVC.pkl')
print("  ‚úÖ SVM sauvegard√©")

logging.info('Mod√®les optimis√©s sauvegard√©s dans le dossier models.')
print("\n‚ú® Tous les mod√®les ont √©t√© sauvegard√©s avec succ√®s dans le dossier 'models/'")


üíæ Sauvegarde des mod√®les...
  ‚úÖ Logistic Regression sauvegard√©
  ‚úÖ Random Forest sauvegard√©
  ‚úÖ SVM sauvegard√©

‚ú® Tous les mod√®les ont √©t√© sauvegard√©s avec succ√®s dans le dossier 'models/'


---
## 7. Comparaison et S√©lection du Meilleur Mod√®le

### 7.1 Consolidation des Rapports

Agr√©gation de tous les rapports de classification dans un DataFrame unique.

Facilite la comparaison c√¥te √† c√¥te des performances de chaque mod√®le sur toutes les m√©triques.


In [53]:
# Cr√©ation d'une liste pour stocker les rapports
classification_reports = []

for model_name, report in models_reports.items():
    report_df = pd.DataFrame(report).transpose()
    report_df['model'] = model_name
    report_df['metric'] = report_df.index
    classification_reports.append(report_df)

# Concat√©ner tous les rapports
all_reports_df = pd.concat(classification_reports, axis=0)

# R√©organisation des colonnes
cols = ['model', 'metric'] + [col for col in all_reports_df.columns if col not in ['model', 'metric']]
all_reports_df = all_reports_df[cols]

# Enregistrement dans un fichier CSV
all_reports_df.to_csv('metrics/all_classification_reports.csv', index=False)
logging.info('Tous les rapports de classification enregistr√©s dans metrics/all_classification_reports.csv')


### 7.2 Benchmarking et S√©lection

**M√©thode de scoring pond√©r√© :**
- Chaque m√©trique re√ßoit un poids √©gal (25%)
- Score final = moyenne pond√©r√©e des 4 m√©triques cl√©s

**‚ö†Ô∏è Note :** Dans un contexte business r√©el, les poids devraient refl√©ter les priorit√©s m√©tier :
- Si le co√ªt de manquer un churner est √©lev√© ‚Üí augmenter le poids du recall
- Si les actions de r√©tention sont co√ªteuses ‚Üí privil√©gier la precision

**Classe positive ('1') :** Le scoring se base uniquement sur la classe churn, car c'est la classe d'int√©r√™t.

Le mod√®le avec le score final le plus √©lev√© est s√©lectionn√© comme meilleur mod√®le.


In [54]:
# Poids des m√©triques pour le scoring final
# Ajustez ces poids selon vos priorit√©s business
weights = {
    'precision': 0.25,  # Importance de minimiser les faux positifs
    'recall': 0.25,     # Importance de d√©tecter tous les churners
    'f1-score': 0.25,   # √âquilibre entre pr√©cision et rappel
    'auc_roc': 0.25     # Performance globale du classifieur
}

benchmark_results = {}

print("üìä Calcul des scores finaux pond√©r√©s...\n")

for model_name, report in models_reports.items():
    # R√©cup√©rer les scores pour la classe positive ('1')
    metrics_class_1 = report['1']
    auc = models_auc[model_name]
    
    # Calcul du score final pond√©r√©
    final_score = (
        weights['precision'] * metrics_class_1['precision'] +
        weights['recall'] * metrics_class_1['recall'] +
        weights['f1-score'] * metrics_class_1['f1-score'] +
        weights['auc_roc'] * auc
    )
    
    benchmark_results[model_name] = {
        'precision': metrics_class_1['precision'],
        'recall': metrics_class_1['recall'],
        'f1-score': metrics_class_1['f1-score'],
        'auc_roc': auc,
        'final_score': final_score
    }
    
    # Affichage des r√©sultats
    print(f"{model_name}:")
    print(f"  Precision: {metrics_class_1['precision']:.4f}")
    print(f"  Recall: {metrics_class_1['recall']:.4f}")
    print(f"  F1-Score: {metrics_class_1['f1-score']:.4f}")
    print(f"  AUC-ROC: {auc:.4f}")
    print(f"  üìà Score Final: {final_score:.4f}\n")

# Cr√©ation de la DataFrame des r√©sultats
benchmark_df = pd.DataFrame(benchmark_results).T

# Enregistrement de la DataFrame des scores
benchmark_df.to_csv('metrics/benchmark_results.csv')
logging.info('R√©sultats du benchmarking enregistr√©s dans metrics/benchmark_results.csv')

# Affichage du meilleur mod√®le
best_model_name = benchmark_df['final_score'].idxmax()
best_score = benchmark_df.loc[best_model_name, 'final_score']
print("=" * 60)
print(f"üèÜ MEILLEUR MOD√àLE: {best_model_name}")
print(f"üìä Score Final: {best_score:.4f}")
print("=" * 60)

logging.info(f'Le meilleur mod√®le est : {best_model_name} (score: {best_score:.4f})')


üìä Calcul des scores finaux pond√©r√©s...

LogisticRegression:
  Precision: 0.6471
  Recall: 0.5893
  F1-Score: 0.6168
  AUC-ROC: 0.8452
  üìà Score Final: 0.6746

RandomForest:
  Precision: 0.6364
  Recall: 0.5250
  F1-Score: 0.5753
  AUC-ROC: 0.8423
  üìà Score Final: 0.6448

SVC:
  Precision: 0.6403
  Recall: 0.5786
  F1-Score: 0.6079
  AUC-ROC: 0.8375
  üìà Score Final: 0.6661

üèÜ MEILLEUR MOD√àLE: LogisticRegression
üìä Score Final: 0.6746


### 7.3 Visualisations Comparatives

**1. Comparaison multi-m√©triques**
- Barplot group√© montrant les 4 m√©triques pour chaque mod√®le
- Permet d'identifier visuellement les forces/faiblesses de chaque approche

**2. Score final pond√©r√©**
- Barplot simple du score agr√©g√©
- Conclusion visuelle pour la s√©lection du mod√®le

Ces visualisations facilitent la communication des r√©sultats aux parties prenantes non-techniques.


In [55]:
# Comparaison des mod√®les sur les m√©triques
benchmark_df[['precision', 'recall', 'f1-score', 'auc_roc']].plot(kind='bar', figsize=(10, 6))
plt.title('Comparaison des Mod√®les sur les Diff√©rentes M√©triques')
plt.ylabel('Score')
plt.xlabel('Mod√®le')
plt.legend(loc='lower right')
plt.tight_layout()
plt.savefig('figures/model_comparison_metrics.png')
plt.close()
logging.info('Figure de comparaison des m√©triques enregistr√©e dans figures/model_comparison_metrics.png')

# Figure pour le score final
benchmark_df['final_score'].plot(kind='bar', figsize=(8, 6))
plt.title('Score Final Pond√©r√© des Mod√®les')
plt.ylabel('Score Final')
plt.xlabel('Mod√®le')
plt.tight_layout()
plt.savefig('figures/model_final_scores.png')
plt.close()
logging.info('Figure des scores finaux enregistr√©e dans figures/model_final_scores.png')


---
## 8. Conclusion et Prochaines √âtapes

### ‚úÖ R√©alisations
- Pipeline ML complet de bout en bout
- 3 mod√®les entra√Æn√©s et optimis√©s
- √âvaluation rigoureuse sur ensemble de validation
- S√©lection objective du meilleur mod√®le
- Artefacts sauvegard√©s pour d√©ploiement

### üîÑ Prochaines √âtapes

**1. Validation finale**
- √âvaluer le mod√®le s√©lectionn√© sur le test set (15% des donn√©es non vues)
- V√©rifier qu'il n'y a pas d'overfitting

**2. Analyse d'erreurs**
- Identifier les patterns de faux n√©gatifs (clients churned non d√©tect√©s)
- Analyser les caract√©ristiques des faux positifs

**3. Feature importance**
- Pour Random Forest : analyser l'importance des features
- Pour Logistic Regression : interpr√©ter les coefficients

**4. Am√©lioration du mod√®le**
- Feature engineering avanc√©
- Gestion du d√©s√©quilibre des classes (SMOTE, class weights)
- Test d'algorithmes additionnels (XGBoost, LightGBM)

**5. D√©ploiement**
- Cr√©er une API REST avec le mod√®le
- Int√©grer dans l'application Streamlit (d√©j√† fait)
- Mise en place du monitoring en production

### üìö Ressources
- Documentation compl√®te dans le dossier `docs/`
- Guides de bonnes pratiques ML et d√©ploiement
- Application Streamlit pour l'inf√©rence interactive

---
**üìß Questions ou suggestions ?** Consultez le README.md ou ouvrez une issue sur GitHub.
