# ü§ñ Mod√©lisation - D√©tection de Fraude (Version Am√©lior√©e)

**Objectif** : Entra√Æner et comparer plusieurs mod√®les de ML pour d√©tecter les fraudes avec optimisations

**Approche am√©lior√©e** :
1. Preprocessing (SMOTE pour g√©rer le d√©s√©quilibre)
2. Baseline : Logistic Regression
3. Mod√®les avanc√©s : Random Forest, XGBoost, LightGBM
4. **Optimisation du seuil de d√©cision** (crucial pour le d√©s√©quilibre)
5. **Validation crois√©e** pour des m√©triques fiables
6. **Ensemble methods** (Bagging, Boosting, Stacking) si n√©cessaire
7. Analyse des features importantes
8. Comparaison et s√©lection du meilleur mod√®le

**Note perso** : Le d√©s√©quilibre de classe est le vrai challenge ici. J'ai am√©lior√© les hyperparam√®tres et ajout√© l'optimisation du seuil pour de meilleures performances...

In [14]:
# Imports
import sys
sys.path.append('../src')

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from pathlib import Path
import warnings
warnings.filterwarnings('ignore')

from sklearn.model_selection import StratifiedKFold, cross_validate
from sklearn.metrics import (
    precision_recall_curve, average_precision_score,
    confusion_matrix, classification_report,
    f1_score, precision_score, recall_score, accuracy_score, roc_auc_score
)
from sklearn.ensemble import VotingClassifier, BaggingClassifier
from sklearn.linear_model import LogisticRegression

from preprocessing import FraudPreprocessor
from modeling import FraudDetector, compare_models, find_optimal_threshold

# Essayer d'importer XGBoost et LightGBM
try:
    import xgboost as xgb
    XGBOOST_AVAILABLE = True
except ImportError:
    XGBOOST_AVAILABLE = False
    print("‚ö†Ô∏è XGBoost non disponible")

try:
    import lightgbm as lgb
    LIGHTGBM_AVAILABLE = True
except ImportError:
    LIGHTGBM_AVAILABLE = False
    print("‚ö†Ô∏è LightGBM non disponible")

plt.style.use('seaborn-v0_8-darkgrid')
sns.set_palette("husl")
%matplotlib inline

print("‚úÖ Imports OK")

‚ö†Ô∏è XGBoost non disponible
‚ö†Ô∏è LightGBM non disponible
‚úÖ Imports OK


## 1. Chargement et Preprocessing des donn√©es

On va utiliser le pipeline complet qu'on a cr√©√© dans `preprocessing.py`


In [15]:
# Charger les donn√©es
data_path = Path('../data/raw/creditcard.csv')
df = pd.read_csv(data_path)

print(f"üìä Dataset : {df.shape}")
print(f"Fraudes : {df['Class'].sum()} ({df['Class'].mean() * 100:.2f}%)")


üìä Dataset : (10000, 31)
Fraudes : 50.0 (0.50%)


In [16]:
# Preprocessing complet
preprocessor = FraudPreprocessor(random_state=42)
X_train, X_test, y_train, y_test = preprocessor.full_pipeline(df, test_size=0.2, use_smote=True)

# Sauvegarder le scaler pour la production
preprocessor.save_scaler('../models/scaler.pkl')


üîß PIPELINE DE PREPROCESSING
‚úÖ Features pr√©par√©es : (10000, 30)
‚úÖ Target : (10000,)

‚úÖ Split effectu√© :
   Train : (8000, 30)
   Test  : (2000, 30)
   Fraudes train : 40 (0.50%)
   Fraudes test  : 10 (0.50%)
‚úÖ Scaler fitted sur X_train

üìä Avant resampling :
   Classe 0 (Normal) : 7960
   Classe 1 (Fraude) : 40

üìä Apr√®s SMOTE :
   Classe 0 (Normal) : 7960
   Classe 1 (Fraude) : 7960
‚úÖ Resampling termin√© : (15920, 30)

‚úÖ PREPROCESSING TERMIN√â
‚úÖ Scaler sauvegard√© : ../models/scaler.pkl


## 2. Mod√©lisation et Comparaison

Testons plusieurs mod√®les et choisissons le meilleur


In [17]:
# Comparer les mod√®les disponibles avec optimisation du seuil
models_to_test = ['logistic', 'random_forest']
if XGBOOST_AVAILABLE:
    models_to_test.append('xgboost')
if LIGHTGBM_AVAILABLE:
    models_to_test.append('lightgbm')

print("üî¨ Comparaison des mod√®les avec optimisation du seuil de d√©cision...")
results_df = compare_models(
    X_train, X_test, y_train, y_test,
    models_to_test=models_to_test,
    optimize_threshold=True  # Optimiser le seuil pour chaque mod√®le
)

# S√©lectionner le meilleur mod√®le
best_model_name = results_df.iloc[0]['Model']
best_f1 = results_df.iloc[0]['f1_score']
print(f"\nüèÜ Meilleur mod√®le : {best_model_name.upper()} (F1-Score = {best_f1:.4f})")


üî¨ Comparaison des mod√®les avec optimisation du seuil de d√©cision...
üî¨ COMPARAISON DE MOD√àLES

   Mod√®le : LOGISTIC
‚úÖ Mod√®le initialis√© : logistic

üîß Entra√Ænement du mod√®le logistic...
   Shape : (15920, 30)
‚úÖ Entra√Ænement termin√© en 0.06s

üéØ Seuil optimal : 0.9161
   F1-Score avec seuil optimal : 0.0667

   Mod√®le : RANDOM_FOREST
‚úÖ Mod√®le initialis√© : random_forest

üîß Entra√Ænement du mod√®le random_forest...
   Shape : (15920, 30)
‚úÖ Entra√Ænement termin√© en 11.09s

üéØ Seuil optimal : 0.2711
   F1-Score avec seuil optimal : 0.0205

üìä R√âSULTATS COMPAR√âS
        Model  accuracy  precision  recall  f1_score  roc_auc  training_time  optimal_threshold
     logistic     0.986   0.050000     0.1  0.066667 0.367387       0.055492           0.916140
random_forest     0.617   0.010363     0.8  0.020460 0.623065      11.091214           0.271076

üèÜ Meilleur mod√®le : LOGISTIC (F1-Score = 0.0667)

üèÜ Meilleur mod√®le : LOGISTIC (F1-Score = 0.0667)


## 3. Validation Crois√©e pour des M√©triques Fiables

Avec seulement 10 fraudes dans le test set, les m√©triques peuvent √™tre instables. 
Utilisons une validation crois√©e stratifi√©e pour avoir des r√©sultats plus fiables.


In [None]:
# Validation crois√©e pour le meilleur mod√®le
try:
    print(f"\nüìä Validation crois√©e pour {best_model_name.upper()}...")
    print("="*60)
    
    best_detector = FraudDetector(model_type=best_model_name, random_state=42)
    
    # Validation crois√©e stratifi√©e
    cv = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)
    
    cv_results = cross_validate(
        best_detector.model, X_train, y_train,
        cv=cv,
        scoring=['f1', 'precision', 'recall', 'roc_auc'],
        return_train_score=True,
        n_jobs=-1
    )
    
    print(f"\n‚úÖ R√©sultats de la validation crois√©e (5 folds) :")
    print(f"   F1-Score (test)    : {cv_results['test_f1'].mean():.4f} (+/- {cv_results['test_f1'].std() * 2:.4f})")
    print(f"   Precision (test)   : {cv_results['test_precision'].mean():.4f} (+/- {cv_results['test_precision'].std() * 2:.4f})")
    print(f"   Recall (test)       : {cv_results['test_recall'].mean():.4f} (+/- {cv_results['test_recall'].std() * 2:.4f})")
    print(f"   ROC-AUC (test)     : {cv_results['test_roc_auc'].mean():.4f} (+/- {cv_results['test_roc_auc'].std() * 2:.4f})")
    print(f"\n   F1-Score (train)   : {cv_results['train_f1'].mean():.4f} (+/- {cv_results['train_f1'].std() * 2:.4f})")
    print(f"   ‚Üí Diff√©rence train/test : {cv_results['train_f1'].mean() - cv_results['test_f1'].mean():.4f}")
    
    # V√©rifier le sur-apprentissage
    if cv_results['train_f1'].mean() - cv_results['test_f1'].mean() > 0.1:
        print("\n‚ö†Ô∏è Attention : Possible sur-apprentissage d√©tect√© !")
    else:
        print("\n‚úÖ Pas de sur-apprentissage significatif")
except NameError:
    raise NameError("‚ùå Erreur : 'best_model_name' n'est pas d√©fini. Veuillez d'abord ex√©cuter la Cell 6 (Comparaison des mod√®les).")



üìä Validation crois√©e pour LOGISTIC...
‚úÖ Mod√®le initialis√© : logistic

‚úÖ R√©sultats de la validation crois√©e (5 folds) :
   F1-Score (test)    : 0.7557 (+/- 0.0090)
   Precision (test)   : 0.7492 (+/- 0.0197)
   Recall (test)       : 0.7626 (+/- 0.0148)
   ROC-AUC (test)     : 0.8288 (+/- 0.0076)

   F1-Score (train)   : 0.7565 (+/- 0.0078)
   ‚Üí Diff√©rence train/test : 0.0007

‚úÖ Pas de sur-apprentissage significatif


## 4. √âvaluation Finale avec Seuil Optimal

R√©entra√Ænons le meilleur mod√®le et √©valuons-le sur le test set avec le seuil optimal.


In [None]:
# R√©entra√Æner le meilleur mod√®le sur tout le train set
try:
    print(f"\nüîß R√©entra√Ænement final de {best_model_name.upper()}...")
    best_detector.train(X_train, y_train)
    
    # Obtenir les probabilit√©s
    y_pred_proba = best_detector.predict_proba(X_test)
    
    # Trouver le seuil optimal
    optimal_threshold, optimal_f1 = find_optimal_threshold(y_test, y_pred_proba)
    print(f"\nüéØ Seuil optimal trouv√© : {optimal_threshold:.4f}")
    
    # Pr√©dictions avec le seuil optimal
    y_pred_optimal = (y_pred_proba >= optimal_threshold).astype(int)
    
    # M√©triques avec le seuil optimal
    print("\n" + "="*60)
    print("üìä √âVALUATION FINALE (avec seuil optimal)")
    print("="*60)
    
    final_metrics = {
        'accuracy': accuracy_score(y_test, y_pred_optimal),
        'precision': precision_score(y_test, y_pred_optimal, zero_division=0),
        'recall': recall_score(y_test, y_pred_optimal),
        'f1_score': f1_score(y_test, y_pred_optimal),
        'roc_auc': roc_auc_score(y_test, y_pred_proba)
    }
    
    print(f"\nüéØ M√©triques finales :")
    for metric, value in final_metrics.items():
        print(f"   {metric.capitalize():12s} : {value:.4f}")
    
    # Matrice de confusion
    cm = confusion_matrix(y_test, y_pred_optimal)
    print(f"\nüî¢ Matrice de Confusion :")
    print(f"   TN={cm[0,0]}, FP={cm[0,1]}")
    print(f"   FN={cm[1,0]}, TP={cm[1,1]}")
    
    # Classification report
    print(f"\nüìã Classification Report :")
    print(classification_report(y_test, y_pred_optimal, target_names=['Normal', 'Fraude']))
    
    # Visualisations
    best_detector.evaluate(X_test, y_test, show_plots=True)
except NameError as e:
    error_msg = str(e)
    if 'best_model_name' in error_msg:
        raise NameError("‚ùå Erreur : 'best_model_name' n'est pas d√©fini. Veuillez d'abord ex√©cuter la Cell 6 (Comparaison des mod√®les).")
    elif 'best_detector' in error_msg:
        raise NameError("‚ùå Erreur : 'best_detector' n'est pas d√©fini. Veuillez d'abord ex√©cuter la Cell 8 (Validation crois√©e).")
    else:
        raise


## 5. Analyse des Features Importantes

Comprendre quelles features influencent le plus le mod√®le.


In [None]:
# Analyser les features importantes
try:
    if hasattr(best_detector.model, 'feature_importances_'):
        # R√©cup√©rer les noms des features
        feature_names = preprocessor.feature_cols
        
        # Cr√©er un DataFrame avec les importances
        feature_importance = pd.DataFrame({
            'feature': feature_names,
            'importance': best_detector.model.feature_importances_
        }).sort_values('importance', ascending=False)
        
        print("üìä Top 15 Features les plus importantes :")
        print(feature_importance.head(15).to_string(index=False))
        
        # Visualisation
        plt.figure(figsize=(10, 8))
        top_features = feature_importance.head(15)
        sns.barplot(data=top_features, x='importance', y='feature', palette='viridis')
        plt.title(f'Top 15 Features les plus importantes - {best_model_name.upper()}', 
                  fontsize=14, fontweight='bold')
        plt.xlabel('Importance', fontsize=12)
        plt.ylabel('Feature', fontsize=12)
        plt.tight_layout()
        plt.show()
        
        print(f"\nüí° Les features {', '.join(feature_importance.head(5)['feature'].tolist())} sont les plus discriminantes.")
    elif hasattr(best_detector.model, 'coef_'):
        # Pour Logistic Regression
        feature_names = preprocessor.feature_cols
        coef = best_detector.model.coef_[0]
        
        feature_importance = pd.DataFrame({
            'feature': feature_names,
            'coefficient': np.abs(coef)
        }).sort_values('coefficient', ascending=False)
        
        print("üìä Top 15 Features avec les plus grands coefficients (en valeur absolue) :")
        print(feature_importance.head(15).to_string(index=False))
        
        plt.figure(figsize=(10, 8))
        top_features = feature_importance.head(15)
        sns.barplot(data=top_features, x='coefficient', y='feature', palette='viridis')
        plt.title(f'Top 15 Features - {best_model_name.upper()}', 
                  fontsize=14, fontweight='bold')
        plt.xlabel('Coefficient (valeur absolue)', fontsize=12)
        plt.ylabel('Feature', fontsize=12)
        plt.tight_layout()
        plt.show()
        
        print(f"\nüí° Les features {', '.join(feature_importance.head(5)['feature'].tolist())} sont les plus discriminantes.")
    else:
        print("‚ö†Ô∏è Ce mod√®le n'expose pas d'information sur l'importance des features.")
except NameError:
    raise NameError("‚ùå Erreur : 'best_detector' ou 'preprocessor' n'est pas d√©fini. Veuillez d'abord ex√©cuter les cellules pr√©c√©dentes (Cell 4 et Cell 8).")


## 6. Ensemble Methods (Bagging, Boosting, Stacking)

Si les performances ne sont toujours pas satisfaisantes, essayons des m√©thodes d'ensemble pour am√©liorer les r√©sultats.


In [None]:
# V√©rifier si on a besoin d'ensemble methods
try:
    # Si le F1-score est < 0.5, on essaie les ensembles
    use_ensemble = final_metrics['f1_score'] < 0.5
except NameError:
    raise NameError("‚ùå Erreur : 'final_metrics' n'est pas d√©fini. Veuillez d'abord ex√©cuter la Cell 10 (√âvaluation finale).")

if use_ensemble:
    print("‚ö†Ô∏è F1-Score < 0.5, essayons les m√©thodes d'ensemble...")
    print("="*60)
    
    # Imports n√©cessaires pour les ensemble methods
    from sklearn.ensemble import RandomForestClassifier
    
    # 1. Voting Classifier (Soft Voting)
    print("\n1Ô∏è‚É£ Voting Classifier (Soft Voting)...")
    
    # Cr√©er plusieurs mod√®les pour le voting
    models_for_voting = []
    
    # Logistic Regression
    lr = LogisticRegression(
        random_state=42, max_iter=1000, class_weight='balanced'
    )
    models_for_voting.append(('lr', lr))
    
    # Random Forest
    rf = RandomForestClassifier(
        n_estimators=200, max_depth=15, min_samples_split=2,
        min_samples_leaf=1, class_weight={0: 1, 1: 20},
        random_state=42, n_jobs=-1
    )
    models_for_voting.append(('rf', rf))
    
    # XGBoost si disponible
    if XGBOOST_AVAILABLE:
        scale_pos_weight = (y_train == 0).sum() / (y_train == 1).sum()
        xgb_model = xgb.XGBClassifier(
            n_estimators=200, max_depth=6, learning_rate=0.1,
            random_state=42, eval_metric='logloss',
            use_label_encoder=False, scale_pos_weight=scale_pos_weight
        )
        models_for_voting.append(('xgb', xgb_model))
    
    # LightGBM si disponible
    if LIGHTGBM_AVAILABLE:
        lgb_model = lgb.LGBMClassifier(
            n_estimators=200, max_depth=6, learning_rate=0.1,
            random_state=42, verbose=-1, is_unbalance=True
        )
        models_for_voting.append(('lgb', lgb_model))
    
    # Cr√©er le Voting Classifier
    voting_clf = VotingClassifier(
        estimators=models_for_voting,
        voting='soft'  # Utilise les probabilit√©s
    )
    
    print(f"   Mod√®les dans l'ensemble : {[name for name, _ in models_for_voting]}")
    
    # Entra√Æner
    voting_clf.fit(X_train, y_train)
    
    # Pr√©dictions
    y_pred_voting_proba = voting_clf.predict_proba(X_test)[:, 1]
    optimal_threshold_voting, _ = find_optimal_threshold(y_test, y_pred_voting_proba)
    y_pred_voting = (y_pred_voting_proba >= optimal_threshold_voting).astype(int)
    
    # M√©triques
    f1_voting = f1_score(y_test, y_pred_voting)
    precision_voting = precision_score(y_test, y_pred_voting, zero_division=0)
    recall_voting = recall_score(y_test, y_pred_voting)
    
    print(f"\n   üìä R√©sultats Voting Classifier :")
    print(f"      F1-Score   : {f1_voting:.4f}")
    print(f"      Precision  : {precision_voting:.4f}")
    print(f"      Recall     : {recall_voting:.4f}")
    print(f"      Seuil optimal : {optimal_threshold_voting:.4f}")
    
    # Comparer avec le meilleur mod√®le individuel
    if f1_voting > final_metrics['f1_score']:
        print(f"\n   ‚úÖ Voting Classifier am√©liore le F1-Score de {f1_voting - final_metrics['f1_score']:.4f} !")
        best_detector.model = voting_clf
        best_model_name = 'voting_classifier'
        final_metrics['f1_score'] = f1_voting
        final_metrics['precision'] = precision_voting
        final_metrics['recall'] = recall_voting
        final_metrics['roc_auc'] = roc_auc_score(y_test, y_pred_voting_proba)  # Mettre √† jour ROC-AUC
        optimal_threshold = optimal_threshold_voting  # ‚ö†Ô∏è IMPORTANT : Mettre √† jour le seuil optimal
    else:
        print(f"\n   ‚ÑπÔ∏è Voting Classifier n'am√©liore pas les performances.")
    
    # 2. Bagging avec le meilleur mod√®le
    print("\n2Ô∏è‚É£ Bagging Classifier...")
    
    if best_model_name != 'voting_classifier':
        base_model = best_detector.model
    else:
        # Utiliser Random Forest comme base pour le bagging
        base_model = RandomForestClassifier(
            n_estimators=100, max_depth=15, min_samples_split=2,
            min_samples_leaf=1, class_weight={0: 1, 1: 20},
            random_state=42, n_jobs=-1
        )
    
    # Utiliser estimator au lieu de base_estimator (d√©pr√©ci√©)
    try:
        bagging_clf = BaggingClassifier(
            estimator=base_model,
            n_estimators=10,
            random_state=42,
            n_jobs=-1
        )
    except TypeError:
        # Fallback pour les anciennes versions de scikit-learn
        bagging_clf = BaggingClassifier(
            base_estimator=base_model,
            n_estimators=10,
            random_state=42,
            n_jobs=-1
        )
    
    bagging_clf.fit(X_train, y_train)
    
    # Pr√©dictions
    y_pred_bagging_proba = bagging_clf.predict_proba(X_test)[:, 1]
    optimal_threshold_bagging, _ = find_optimal_threshold(y_test, y_pred_bagging_proba)
    y_pred_bagging = (y_pred_bagging_proba >= optimal_threshold_bagging).astype(int)
    
    # M√©triques
    f1_bagging = f1_score(y_test, y_pred_bagging)
    precision_bagging = precision_score(y_test, y_pred_bagging, zero_division=0)
    recall_bagging = recall_score(y_test, y_pred_bagging)
    
    print(f"\n   üìä R√©sultats Bagging Classifier :")
    print(f"      F1-Score   : {f1_bagging:.4f}")
    print(f"      Precision  : {precision_bagging:.4f}")
    print(f"      Recall     : {recall_bagging:.4f}")
    print(f"      Seuil optimal : {optimal_threshold_bagging:.4f}")
    
    # Comparer
    if f1_bagging > final_metrics['f1_score']:
        print(f"\n   ‚úÖ Bagging Classifier am√©liore le F1-Score de {f1_bagging - final_metrics['f1_score']:.4f} !")
        best_detector.model = bagging_clf
        best_model_name = 'bagging_classifier'
        final_metrics['f1_score'] = f1_bagging
        final_metrics['precision'] = precision_bagging
        final_metrics['recall'] = recall_bagging
        final_metrics['roc_auc'] = roc_auc_score(y_test, y_pred_bagging_proba)  # Mettre √† jour ROC-AUC
        optimal_threshold = optimal_threshold_bagging  # ‚ö†Ô∏è IMPORTANT : Mettre √† jour le seuil optimal
    else:
        print(f"\n   ‚ÑπÔ∏è Bagging Classifier n'am√©liore pas les performances.")
    
    print("\n" + "="*60)
    print(f"üèÜ Meilleur mod√®le final : {best_model_name.upper()}")
    print(f"   F1-Score final : {final_metrics['f1_score']:.4f}")
    print("="*60)
else:
    print("‚úÖ F1-Score >= 0.5, les performances sont satisfaisantes.")
    print("   Pas besoin d'ensemble methods pour l'instant.")


In [None]:
# Sauvegarder le meilleur mod√®le
try:
    model_path = f'../models/best_model_{best_model_name}.pkl'
    best_detector.save_model(model_path)
    
    # Sauvegarder aussi le seuil optimal
    import joblib
    threshold_path = '../models/optimal_threshold.pkl'
    joblib.dump(optimal_threshold, threshold_path)
    print(f"‚úÖ Seuil optimal sauvegard√© : {threshold_path}")
    
    print("\n" + "="*60)
    print("‚úÖ MOD√àLE FINAL SAUVEGARD√â")
    print("="*60)
    print(f"   Mod√®le : {best_model_name}")
    print(f"   F1-Score : {final_metrics['f1_score']:.4f}")
    print(f"   Precision : {final_metrics['precision']:.4f}")
    print(f"   Recall : {final_metrics['recall']:.4f}")
    print(f"   ROC-AUC : {final_metrics['roc_auc']:.4f}")
    print(f"   Seuil optimal : {optimal_threshold:.4f}")
    print("="*60)
    print("\n‚úÖ Mod√®le pr√™t pour la production !")
except NameError as e:
    missing_vars = []
    for var in ['best_model_name', 'best_detector', 'optimal_threshold', 'final_metrics']:
        try:
            eval(var)
        except NameError:
            missing_vars.append(var)
    
    if missing_vars:
        raise NameError(f"‚ùå Erreur : Les variables suivantes ne sont pas d√©finies : {', '.join(missing_vars)}. Veuillez ex√©cuter les cellules pr√©c√©dentes dans l'ordre (Cell 6, 8, 10).")
    else:
        raise
