### Introduction

Avant de commencer toute étude nous allons procéder à une exploration de nos données afin de mieux attaquer l'apprentissage des modèles. Pour cela nous allons pour chaque dataset, analyser les six paramètres suivant: 
- samples:	Nombre total d’exemples
- features:	Nombre de features
- classes:	Nombre de classes 
- majority:	Nombre d’exemples de la classe majoritaire
- minority:	Nombre d’exemples de la classe minoritaire
- imbalance_ratio:	Ratio minorité / majorité

### Importation des packages

In [1]:
import pandas as pd
import numpy as np
from scripts.data_exploration import *
from scripts.prepdata import data_recovery
from scripts.convert_to_latex import inject_table_in_template, remove_pdf_if_exists

### Récupération des données

In [2]:
datasets_list = ["abalone8", "abalone20", "abalone17", "autompg", "australian", "balance", "bankmarketing",
                 "bupa", "german", "glass", "hayes", "heart", "iono", "libras", "newthyroid", "pageblocks", "pima",
                 "satimage", "segmentation", "sonar", "spambase", "splice", "vehicle", "wdbc", "wine", "wine4", "yeast3",
                 "yeast6"]

### Création du tableau de résultats

In [3]:
results_df = pd.DataFrame(index = datasets_list, columns=["nsamples",
            "nfeatures",
            "nclasses",
            "majority",
            "minority",
            "imbalanceratio"])

### Exploration des données

In [4]:
for dataset_name in datasets_list:
    dataset = data_recovery(dataset_name)
    x,y = dataset
    dataset_exploration_list = summarize_datasets(x, y)
    results_df.loc[dataset_name] = dataset_exploration_list
print(results_df)

              nsamples nfeatures nclasses majority minority imbalanceratio
abalone8          4177        10        2     3609      568          0.157
abalone20         4177        10        2     4151       26          0.006
abalone17         4177        10        2     4119       58          0.014
autompg            392         7        2      245      147            0.6
australian         690        14        2      383      307          0.802
balance            625         4        2      337      288          0.855
bankmarketing    45211        51        2    39922     5289          0.132
bupa               345         6        2      200      145          0.725
german            1000        24        2      700      300          0.429
glass              214         9        2      144       70          0.486
hayes              132         4        2      102       30          0.294
heart              270        13        2      150      120            0.8
iono               351   

### Conversion du tableau des résultats en tableau latex

In [5]:
results_df_copy = results_df.copy()
results_df_copy.index.name = "Dataset"
results_df_copy = results_df_copy.reset_index()
results_df_latex = results_df_copy.to_latex(
        index=False,
        escape=False,
        column_format="l" + "c"*(results_df_copy.shape[1]-1),
        caption="Data exploration",
        label="tab:results", float_format="%.2f")
remove_pdf_if_exists("data_exploration_results.pdf")
inject_table_in_template(results_df_latex, output_pdf="data_exploration_results.pdf")

✅ Fichier supprimé : data_exploration_results.pdf
✅ Compilation réussie → data_exploration_results.pdf


### Sélection et séparation des datasets
Nous avons au minimum besoin de 20 datasets. Donc nous allons supprimer les datasets avec moins de 300 observations

Dans la suite, nous aurons à faire principalement deux études. Une première sera de comparer les performances de six modèles sur nos datasets. La deuxième sera d'étudier les méthodes d'échantillonnage. Pour cela, nous allons départager les deux listes de dataset en nous basant sur le paramètre imbalance_ratio. Nous aurons donc deux listes: 
- une pour les datasets équilibrés/modérément déséquilibrés,
- une pour les datasets très déséquilibrés (imbalance_ratio < 0.2).

In [7]:
balanced_or_moderate, highly_imbalanced = split_datasets_by_balance(results_df, imbalance_threshold=0.2)
print(f"balanced_or_moderate: {balanced_or_moderate}")
print(f"highly_imbalanced: {highly_imbalanced}")

balanced_or_moderate: ['autompg', 'australian', 'balance', 'bupa', 'german', 'iono', 'pima', 'spambase', 'splice', 'vehicle', 'wdbc']
highly_imbalanced: ['abalone8', 'abalone20', 'abalone17', 'bankmarketing', 'libras', 'pageblocks', 'satimage', 'segmentation', 'wine4', 'yeast3', 'yeast6']
