In [None]:
# ------------------------------------------------------
# IMPORT DES LIBRAIRIES
# ------------------------------------------------------

import pandas as pd               # pour lire et manipuler les donn√©es tabulaires (features.csv)
import numpy as np                # pour manipuler des tableaux num√©riques
from sklearn.model_selection import train_test_split, StratifiedKFold  # split dataset + CV
from sklearn.preprocessing import StandardScaler, MinMaxScaler, RobustScaler  # normalisation
from sklearn.metrics import accuracy_score, f1_score, roc_auc_score  # m√©triques d'√©valuation
from xgboost import XGBClassifier  # mod√®le XGBoost
from imblearn.over_sampling import SMOTE  # pour g√©rer le d√©s√©quilibre
import warnings
warnings.filterwarnings("ignore")  # pour √©viter les warnings inutiles

# ------------------------------------------------------
# CONFIGURATION GENERALE (√† modifier selon ton dataset)
# ------------------------------------------------------

FEATURES_PATH = "data/features.csv"   # ‚ö†Ô∏è chemin du fichier CSV contenant tes features
TARGET_COLUMN = "label"               # ‚ö†Ô∏è nom de la colonne contenant la classe cible
SEED = 42                             # graine al√©atoire pour reproductibilit√©

# ------------------------------------------------------
# CHARGEMENT DU DATASET
# ------------------------------------------------------

print("üì• Chargement du dataset...")
df = pd.read_csv(FEATURES_PATH)       # lecture du CSV dans un DataFrame pandas

# S√©paration features (X) et labels (y)
X = df.drop(columns=[TARGET_COLUMN]).values  # toutes les colonnes sauf la cible
y = df[TARGET_COLUMN].values                 # la colonne cible (labels)

print(f"‚úÖ Dataset charg√© : {X.shape[0]} √©chantillons et {X.shape[1]} features.")

# ------------------------------------------------------
# DEFINIR LES SCALERS A TESTER
# ------------------------------------------------------
# Chaque scaler applique une m√©thode de normalisation diff√©rente
scalers = {
    "StandardScaler": StandardScaler(),  # moyenne = 0, variance = 1
    "MinMaxScaler": MinMaxScaler(),      # toutes les valeurs entre 0 et 1
    "RobustScaler": RobustScaler()       # moins sensible aux valeurs extr√™mes
}

# ------------------------------------------------------
# DEFINIR LES CONFIGURATIONS XGBOOST A TESTER
# ------------------------------------------------------
configs = {
    "Baseline": {"n_estimators": 200, "learning_rate": 0.1, "max_depth": 6},
    "Deep Trees": {"n_estimators": 300, "learning_rate": 0.05, "max_depth": 10},
    "Shallow Trees": {"n_estimators": 500, "learning_rate": 0.01, "max_depth": 3}
}

# ------------------------------------------------------
# FONCTION D'EVALUATION DU MODELE
# ------------------------------------------------------
def evaluate(y_true, y_pred, dataset_name="Test"):
    """
    Calcule et affiche Accuracy, F1-score et ROC-AUC (si applicable).
    """
    # Accuracy = proportion de pr√©dictions correctes
    acc = accuracy_score(y_true, y_pred)

    # F1-score pond√©r√© = √©quilibre entre pr√©cision et rappel
    f1 = f1_score(y_true, y_pred, average="weighted")

    # ROC-AUC = aire sous la courbe ROC (‚ö†Ô∏è calculable seulement en binaire)
    try:
        auc = roc_auc_score(pd.get_dummies(y_true), pd.get_dummies(y_pred), average="weighted")
    except:
        auc = None

    # Affichage des r√©sultats
    print(f"üìä {dataset_name} | Accuracy = {acc:.4f}, F1 = {f1:.4f}", end="")
    if auc is not None:
        print(f", ROC-AUC = {auc:.4f}")
    else:
        print(" (ROC-AUC non calculable - multi-classes d√©tect√©)")

    return acc, f1, auc

# ------------------------------------------------------
# BOUCLE PRINCIPALE DE TEST
# ------------------------------------------------------

results = []  # liste o√π on stocke tous les r√©sultats

# Boucle sur les SCALERS
for scaler_name, scaler in scalers.items():
    # Application du scaler sur les features
    X_scaled = scaler.fit_transform(X)

    # Split du dataset en TRAIN (80%) et TEST (20%)
    X_train, X_test, y_train, y_test = train_test_split(
        X_scaled, y, test_size=0.2, stratify=y, random_state=SEED
    )

    # Boucle sur les CONFIGS XGBoost
    for config_name, params in configs.items():
        print(f"\nüöÄ Test avec {scaler_name} + Config = {config_name}")

        # Cr√©ation du mod√®le avec les param√®tres choisis
        model = XGBClassifier(
            use_label_encoder=False,
            eval_metric="logloss",
            random_state=SEED,
            **params
        )

        # ------------------------------------------------------
        # VARIANTE 3 : Validation crois√©e (K-Fold)
        # ------------------------------------------------------
        kf = StratifiedKFold(n_splits=5, shuffle=True, random_state=SEED)
        f1_scores = []  # stocke les scores F1 de chaque fold

        for fold, (train_idx, val_idx) in enumerate(kf.split(X_train, y_train)):
            # S√©paration du TRAIN et VALIDATION pour ce fold
            X_tr, X_val = X_train[train_idx], X_train[val_idx]
            y_tr, y_val = y_train[train_idx], y_train[val_idx]

            # ------------------------------------------------------
            # VARIANTE 4 : Gestion d√©s√©quilibre avec SMOTE
            # ------------------------------------------------------
            smote = SMOTE(random_state=SEED)  # cr√©ation de l'objet SMOTE
            X_tr_bal, y_tr_bal = smote.fit_resample(X_tr, y_tr)  # oversampling des classes rares

            # Entra√Ænement du mod√®le sur donn√©es r√©√©quilibr√©es
            model.fit(X_tr_bal, y_tr_bal)

            # Pr√©dictions sur la validation
            y_val_pred = model.predict(X_val)

            # Score F1 pour ce fold
            f1_fold = f1_score(y_val, y_val_pred, average="weighted")
            f1_scores.append(f1_fold)

            print(f"   Fold {fold+1} : F1 = {f1_fold:.4f}")

        # Moyenne des scores de validation crois√©e
        print(f"   ‚û°Ô∏è Moyenne F1 CV = {np.mean(f1_scores):.4f} ¬± {np.std(f1_scores):.4f}")

        # ------------------------------------------------------
        # 18. EVALUATION FINALE SUR LE TEST SET
        # ------------------------------------------------------
        # R√©entra√Ænement du mod√®le sur tout le TRAIN r√©√©quilibr√©
        smote = SMOTE(random_state=SEED)
        X_train_bal, y_train_bal = smote.fit_resample(X_train, y_train)
        model.fit(X_train_bal, y_train_bal)

        # Pr√©dictions sur le test set
        y_test_pred = model.predict(X_test)

        # Evaluation compl√®te
        acc, f1, auc = evaluate(y_test, y_test_pred, dataset_name="Test final")

        # Stockage du r√©sultat dans la liste
        results.append({
            "Scaler": scaler_name,
            "Config": config_name,
            "CV_F1_mean": np.mean(f1_scores),
            "CV_F1_std": np.std(f1_scores),
            "Test_Accuracy": acc,
            "Test_F1": f1,
            "Test_AUC": auc
        })

# ------------------------------------------------------
# AFFICHAGE DU TABLEAU FINAL DES RESULTATS
# ------------------------------------------------------
results_df = pd.DataFrame(results)
print("\nüìä Tableau comparatif des r√©sultats (toutes variantes) :")
print(results_df)
