### Introduction

Dans cette partie, nous allons tester deux méthodes de sampling afin d'entraîner les jeux de données déséquilibrés.

- La méthode d'oversampling aléatoire:  on duplique les exemples minoritaires de façon aléatoire jusqu'à ce qu'on atteigne un target_ratio. Elle est plus simple à implémenter et plus compréhensive.
- La méthode d'oversampling SMOTE (Synthetic Minority Oversampling Technique): elle est plus complexe car utilise l'interpolation pour générer de nouveaux exemples synthétiques plus variés et réalistes.

Il est important de noter qu'on n'oversample que le train_data pour éviter l'overfitting.

En terme de modèles, nous allons tester trois modèles:

- la régression logistique pénalisée
- les forêts aléatoires
- le gradient boosting

En terme de métrique, nous allons utiliser le recall car il est plus adapté pour mesurer la capacité à prédire la classe minoritaire.

### Importation des packages

In [1]:
import pandas as pd
import warnings
warnings.filterwarnings("ignore")

from scripts.prepdata import data_recovery
from scripts.models_implementation import *
from scripts.cross_validation import imblearn_cross_validation
from scripts.convert_to_latex import *

### Récupération des données

In [2]:
datasets_list = ['abalone8', 'abalone20', 'abalone17', 'bankmarketing', 'libras', 'pageblocks', 'satimage', 'segmentation',
                  'wine4', 'yeast3', 'yeast6']

### Création du tableau de résultats

In [3]:
results_df = pd.DataFrame(index = datasets_list)

### 1.Random Sampling
#### 1.1.Régression logistique pénalisée

In [None]:
logreg_grid = {
    "penalty": ["l2", "elasticnet"],  
    "C": [0.1, 1.0, 10.0],
    "solver": ["saga"],                
    "l1_ratio": [0.5]                  
}
logreg_list = []
for dataset_name in datasets_list:
    dataset = data_recovery(dataset_name)
    x,y = dataset
    logreg_list.append(imblearn_cross_validation(x, y, logreg_grid, make_penalized_logreg, "random"))
results_df["rdm logreg"] = logreg_list

#### 1.2.Forêts aléatoires

In [None]:
rf_grid = {
    "n_estimators": [50, 100],
    "max_depth": [None, 10],         
    "min_samples_leaf": [1, 4],
    "max_features": ["sqrt", "log2"]
}
rf_list = []
for dataset_name in datasets_list:
    dataset = data_recovery(dataset_name)
    x,y = dataset
    rf_list.append(imblearn_cross_validation(x, y, rf_grid, make_random_forest, "random"))
results_df["rdm rf"] = rf_list

#### 1.3.Gradient boosting

In [None]:
gb_grid = {
    "n_estimators": [50, 100],
    "learning_rate": [0.1, 0.05],
    "max_depth": [3, 5],
    "subsample": [1.0, 0.8]   
}
gb_list = []
for dataset_name in datasets_list:
    dataset = data_recovery(dataset_name)
    x,y = dataset
    gb_list.append(imblearn_cross_validation(x, y, gb_grid, make_gradient_boosting, "random"))
results_df["rdm gb"] = gb_list

### 2.SMOTE method
#### 2.1 Régression logistique pénalisée

In [None]:
logreg_grid = {
    "penalty": ["l2", "elasticnet"],   
    "C": [0.1, 1.0, 10.0],
    "solver": ["saga"],                
    "l1_ratio": [0.5]                  
}
logreg_list = []
for dataset_name in datasets_list:
    dataset = data_recovery(dataset_name)
    x,y = dataset
    logreg_list.append(imblearn_cross_validation(x, y, logreg_grid, make_penalized_logreg, "smote"))
results_df["smote logreg"] = logreg_list

#### 2.2. Forêts aléatoires

In [None]:
rf_grid = {
    "n_estimators": [50, 100],
    "max_depth": [None, 10],       
    "min_samples_leaf": [1, 4],
    "max_features": ["sqrt", "log2"]
}
rf_list = []
for dataset_name in datasets_list:
    dataset = data_recovery(dataset_name)
    x,y = dataset
    rf_list.append(imblearn_cross_validation(x, y, rf_grid, make_random_forest, "smote"))
results_df["smote rf"] = rf_list

#### 2.3 Gradient Boosting

In [None]:
gb_grid = {
    "n_estimators": [50, 100],
    "learning_rate": [0.1, 0.05],
    "max_depth": [3, 5],
    "subsample": [1.0, 0.8]   
}
gb_list = []
for dataset_name in datasets_list:
    dataset = data_recovery(dataset_name)
    x,y = dataset
    gb_list.append(imblearn_cross_validation(x, y, gb_grid, make_gradient_boosting, "smote"))
results_df["smote gb"] = gb_list

### Conversion du tableau de résultats en tableau latex

In [None]:
results_df.index.name = "Dataset"
results_df = results_df.reset_index()
results_df_latex = results_to_latex(results_df, caption="Recall -- Sampling method")
remove_pdf_if_exists("docs/sampling_methods_results.pdf")
inject_table_in_template(results_df_latex, output_pdf="docs/sampling_methods_results.pdf")

✅ Fichier supprimé : sampling_methods_results.pdf
✅ Compilation réussie → sampling_methods_results.pdf
