- Tester tous les modèles sans gridsearchCV (1 ou 2 par grandes familles)
- Selectionner les meilleurs modèles car ce ne sont pas les hyperparamètres qui changent beaucoup. 
- Tester les valeurs extrêmes des hyperparamètres pour savoir dans quel direction aller. 
- Ensuite on peut choisir le meilleur modèle et faire évoluer les hyperparamètres. 
- Un fois que le gridsearchCV est terminé, on n'en fait plus et on reste sur les valeurs selectionnées. 
- Il faut trouver trouver des modèles avec un features importance globale et locale (pas de blackbox)

Pour le déséquilibre, regarder les modèles qui intègrent les déséquilibres. Ou alors, créer des faux clients qui n'auraient pas et de crétit (regarder SMOTE) Data Augmentation

DataDRIFT
Introduction de la notion de temps en se plaçant dans le passé. Se mettre comme si on était en 2022 par exemple. 

In [None]:
# Import des bibliothèques nécessaires
import os
import mlflow
import mlflow.sklearn
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier, ExtraTreesClassifier, GradientBoostingClassifier
from sklearn.preprocessing import MinMaxScaler
from sklearn.impute import SimpleImputer
from sklearn.metrics import roc_auc_score, accuracy_score, confusion_matrix
from sklearn.model_selection import train_test_split
from xgboost import XGBClassifier
from lightgbm import LGBMClassifier
from catboost import CatBoostClassifier

# Configuration de l'URI MLFlow
os.environ["MLFLOW_TRACKING_URI"] = "http://127.0.0.1:5000"

# Charger les données
app_train = pd.read_csv("Base De Donnée Prétraitée.csv")

# Séparer les caractéristiques et la cible
train_labels = app_train['TARGET']
train = app_train.drop(columns=['TARGET'])

# Imputation et Normalisation des Données
imputer = SimpleImputer(strategy='median')
scaler = MinMaxScaler(feature_range=(0, 1))

# Imputer et normaliser les données
train = imputer.fit_transform(train)
train = scaler.fit_transform(train)

# Séparer les données en entraînement et validation
X_train, X_test, y_train, y_test = train_test_split(train, train_labels, test_size=0.3, random_state=0)

# Fonction pour tracer et loguer la matrice de confusion
def plot_and_log_confusion_matrix(model_name, y_test, y_pred):
    # Calcul de la matrice de confusion
    conf_matrix = confusion_matrix(y_test, y_pred)
    plt.figure(figsize=(6, 4))
    sns.heatmap(conf_matrix, annot=True, fmt="d", cmap="Blues", cbar=False,
                xticklabels=['Non-défaillant', 'Défaillant'], yticklabels=['Non-défaillant', 'Défaillant'])
    plt.xlabel('Prédictions')
    plt.ylabel('Réel')
    plt.title(f'Matrice de Confusion - {model_name}')
    
    # Enregistrement de la figure dans MLFlow
    plt.savefig("confusion_matrix.png")
    mlflow.log_artifact("confusion_matrix.png")
    plt.show()

# Définition de la fonction d'évaluation et de logging avec MLFlow
def evaluate_and_log_model(model, model_name, model_type):
    with mlflow.start_run():
        # Entraîner le modèle
        model.fit(X_train, y_train)

        # Prédictions
        y_pred = model.predict(X_test)
        y_proba = model.predict_proba(X_test)[:, 1] if hasattr(model, "predict_proba") else model.decision_function(X_test)

        # Évaluation des performances
        auc = roc_auc_score(y_test, y_proba)
        accuracy = accuracy_score(y_test, y_pred)
        
        # Matrice de confusion et calcul du coût métier
        conf_matrix = confusion_matrix(y_test, y_pred)
        fp = conf_matrix[0][1]
        fn = conf_matrix[1][0]
        cost = fp + 10 * fn  # Coût métier, avec FN pondéré 10 fois plus que FP

        # Enregistrement des métriques et paramètres dans MLFlow
        mlflow.log_metric("AUC", auc)
        mlflow.log_metric("Accuracy", accuracy)
        mlflow.log_metric("Cost", cost)
        mlflow.log_param("model_type", model_type)
        
        # Enregistrement du modèle
        mlflow.sklearn.log_model(model, model_name)
        
        # Affichage des résultats
        print(f"{model_name} - AUC: {auc}")
        print(f"{model_name} - Accuracy: {accuracy}")
        print(f"{model_name} - Cost: {cost}")
        
        # Tracer et loguer la matrice de confusion
        plot_and_log_confusion_matrix(model_name, y_test, y_pred)

# Liste des modèles à tester
models = [
    (DecisionTreeClassifier(class_weight='balanced', random_state=0), "DecisionTreeClassifier", "Decision Tree"),
    (RandomForestClassifier(class_weight='balanced', random_state=0), "RandomForestClassifier", "Ensemble - Random Forest"),
    (ExtraTreesClassifier(class_weight='balanced', random_state=0), "ExtraTreesClassifier", "Ensemble - Extra Trees"),
    (GradientBoostingClassifier(random_state=0), "GradientBoostingClassifier", "Ensemble - Boosting"),
    (XGBClassifier(use_label_encoder=False, eval_metric='logloss', random_state=0), "XGBClassifier", "Boosting - XGBoost"),
    (LGBMClassifier(random_state=0), "LGBMClassifier", "Boosting - LightGBM"),
    (CatBoostClassifier(verbose=0, random_state=0), "CatBoostClassifier", "Boosting - CatBoost")
]

# Exécuter chaque modèle et loguer les résultats dans MLFlow
for model, model_name, model_type in models:
    print(f"\nÉvaluation du modèle : {model_name}")
    evaluate_and_log_model(model, model_name, model_type)
