# Introduction au machine learning

Ce workshop vise à présenter les bases du machine learning supervisé. A partir d'un jeu de données sur le cancer du sein, on va utiliser des algorithmes de classification pour prédire si des tumeurs sont malignes ou bénignes.

Appliqué à notre jeu de données et de manière simplifiée, le but du machine learning supervisé est de donner des features (données d'entrée) à un modèle pour qu'il prédise une sortie (nature de la tumeur : maligne ou bénigne).

# Jupyter Notebook


**Passez cette partie si vous êtes déjà à l'aise avec les Jupyter Notebooks.**

Les Jupyter Notebooks sont des fichiers au format `.ipynb`. Ils proposent une interface qui allie code et prise de notes (comme RMarkdown avec R), ce qui est très pratique pour l'analyse de données ou le machine learning car on peut facilement revenir en arrière pour modifier le code sans devoir le réexécuter.

## Environnements

Les fichiers `.ipynb` nécessitent un environnement spécial pour être lus, édités et exécutés. Voici les 4 principaux :

* Jupyter Notebook (plateforme web en local)
* JupyterLab
* Visual Studio Code (Codium sur les ordinateurs de la FdS)
* Google Colab

Nous allons travaillé avec Jupyter Notebook en instance web. Deux façons existent pour lancer un Jupyter Notebook :

Via *interface graphique* : double cliquer sur le fichier `.ipynb` dans l'explorateur de fichiers.

Via *lignes de commandes* : ouvrir un terminal, se placer dans le dossier contenant le notebook avec `cd`. Puis taper `jupyter notebook`, cela ouvre une interface web locale, puis sélectioner le notebook avec la souris.

## Cellules

Les cellules (chunks en anglais) sont des blocks qu'on peut exécuter. Il en existe deux sortes : les cellules de code Python et les cellules textuelles.

Vous avez à disposition différents boutons pour modifier les cellules : déplacer une cellule en haut/bas, couper, supprimer, etc.

**Les cellules peuvent être exécutées en sélectionnant d'abord la cellule d'intérêt avec la souris, puis soit en cliquant sur le bouton avec une flèche, soit avec le raccourci CTRL + entrée.**

### Cellule de code

Les cellules de code Python permettent d'exécuter directement du code Python.

On peut préciser qu'une commande s'exécute en shell (bash sur systèmes Unix ou Powershell sur Windows) en utilisant `!` e.g. `!echo "hello world"`.

### Cellule textuelle

Les cellules textuelles permettent d'insérer du texte au format Markdown (cf. syntaxe Markdown) pour mettre des informations.

## Sauvegarder les changements

N'oubliez pas de sauvegarder les changements régulièrement avec le raccourci CTRL + S ou dans Fichier > Enregistrer au cas où ça plante.


# Installation des bibliothèques

On installe les bibliothèques (libraries) Python avec le gestionnaire officiel de bibliothèques Python, pip.

* Scikit-Learn pour les modèles de machine learning
* Matplotlib pour faire des graphes
* Seaborn pour faire des graphes de façon plus simple
* Pandas pour la manipulation de fichiers CSV (dataframes)

In [None]:
!pip install scikit-learn
!pip install matplotlib
!pip install seaborn
!pip install pandas

***Relancez le kernel après avoir installé les bibliothèques*** :

(barre du haut) Kernel > Restart Kernel > Restart

Si vous n'y arrivez pas, enregistrez le notebook, fermez la page et rouvrez le notebook.

# Importation des bibliothèques

On importe les bibliothèques et le jeu de données (dataset) du cancer du sein.

In [None]:
# On travaillera avec le dataset du cancer du sein
from sklearn.datasets import load_breast_cancer

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

***Si ça ne marche pas, vous devez relancer le kernel :***

(barre du haut) Kernel > Restart Kernel > Restart

# Visualisation du contenu du jeu de données

## Chargement du jeu de données et première prise en main

Avant de pré-traiter le jeu de données, une étape de visualisation est recommandée. Cela permet de mieux comprendre le jeu de données et de connaître les types de variables des features (quantitatives, qualitatives, etc.)

Nous avons deux classes : B et M. Ces classes sont contenus dans la colonne **target** (d'abord binaire). Chaque classe représente une classification de cancer, les codes sont les suivants :

* 1 = "bening"  
* 0 = "malignant"

On extrait :
* les features qui vont nous permettre de classifier les instances
* les labels qui contiennent les colonnes d'indice et de classe



In [None]:
# Charge les données sous forme de tuple
features, labels = load_breast_cancer(return_X_y=True, as_frame=True)

# Concatène les features et labels ensemble
dataset = pd.concat([features, labels], axis=1)

# Affiche les premières lignes du dataset
display(dataset.head())

On transforme la colonne `target` (0, 1) en `target_names` contenant des chaînes de caractères ("malignant", "benign")

In [None]:
# Charge le dataset de cancer du sein à partir de la bibliothèque Scikit-Learn
data = load_breast_cancer()

# Crée un dataframe Pandas à partir des données du dataset avec les noms de colonnes correspondant aux features
df = pd.DataFrame(data.data, columns=data.feature_names)

# Ajoute une colonne 'target_names' au dataframe et remplace les données binaires
df['target_names'] = data.target_names[data.target]

# Affiche les premières lignes du dataframe
display(df.head())

On liste toutes les features.

In [None]:
# Affiche tous les noms de colonnes présents dans le dataset
display(dataset.columns)

# Crée une liste des colonnes contenant le mot "mean"
mean_columns = [col for col in dataset.columns if 'mean' in col]

# Crée une liste des colonnes contenant le mot "error"
error_columns = [col for col in dataset.columns if 'error' in col]

# Crée une liste des colonnes contenant le mot "worst"
worst_columns = [col for col in dataset.columns if 'worst' in col]

# Affiche les colonnes contenant le mot "mean"
display(mean_columns)

# Affiche les colonnes contenant le mot "error"
display(error_columns)

# Affiche les colonnes contenant le mot "worst"
display(worst_columns)

On a 10 features : radius, texture, perimeter, area, smoothness, compactness, concavity, concave points, symmetry, fractal dimension

Chaque feature a :
* la mesure moyenne (mean)
* l'écart-type des valeurs (error)
* la moyenne des 3 valeurs les plus élevées (worst)

In [None]:
def data_info(dataset: pd.DataFrame) -> None :
    """
    Résume de façon succincte le contenu du jeu de données
    """
    # Infos sur les dimensions du dataset
    print("DIMENSIONS :\n")
    dims = dataset.shape
    print("\tLe dataset contient {} instances (observations), et {} features.\n".format(dims[0], dims[1]))
    print("\tLes features sont : {}.\n".format(dataset.columns.tolist()))

    # Infos sur les classes
    print("CLASSES :\n")
    classes = df["target_names"].value_counts().index.tolist()
    print("\tIl y a {} classes dans le dataset.\n".format(len(classes)))
    print("\tLes classes sont : {}.\n".format(classes))

    # Infos de duplications
    print("DUPLICATION :\n")
    subset_columns = list(dataset.columns)
    # Verification de duplication dans les colonnes du sous-ensemble
    duplicated_rows = dataset.duplicated(subset=subset_columns, keep=False)
    # Comptage de lignes dupliquées
    duplicated_count = duplicated_rows.sum()
    print("\tIl y a {} lignes dupliquées dans le dataset.\n".format(duplicated_count))
    # Affiche le nombre de lignes dupliquées
    if duplicated_count > 0:
      rows_duplicated = dataset[duplicated_rows]
      print("\tLes lignes dupliquées sont :\n")
      print(rows_duplicated)
    else:
      print("\tAucune ligne dupliquée dans le dataset.\n")

data_info(dataset)

## Statistiques globales des features

A présent, on regarde les statistiques par classe.



In [None]:
def stats_data(dataset: pd.DataFrame) -> None :

    # Statistiques globales du dataset
    print("STATISTIQUES GLOBALES : ")
    display(dataset.iloc[:, 0:30].describe())

    # Statistiques par classe
    print("\nSTATISTIQUES PAR CLASSE")
    for i in dataset["target"].value_counts().index.tolist() :

        print("\n\tClasse : {}".format(i))
        display(dataset[dataset["target"] == i].iloc[:, 0:30].describe())


stats_data(dataset)

On observe que les features de la classe bénigne (1) ont tendance à être inférieures à celles de la classe maligne (0).

Exemple :
* La moyenne de `mean radius` est de 12.146524 pour la classe bénigne (0) mais de 17.462830 pour la classe maligne (1)
* La médiane de `mean texture` est de 17.390000 pour la classe bénigne (0) et de 21.460000 pour la classe maligne (1)

Le tableau étant partiellement tronqué, on regarde ici que les features contenant `error`, ce qui correspond à l'écart-type.

In [None]:
def stats_data(dataset: pd.DataFrame) -> None:
    """
    Affiche spécifiquement les statistiques globales pour les colonnes error
    """
    # Statistiques globales pour les colonnes contenant "error"
    print("STATISTIQUES GLOBALES : ")
    display(dataset[error_columns].describe())

    # Statistiques par classe pour les colonnes contenant "error"
    print("\nSTATISTIQUES PAR CLASSE")
    for i in dataset["target"].value_counts().index.tolist():
        print("\n\tClasse : {}".format(i))
        display(dataset[dataset["target"] == i][error_columns].describe())


stats_data(dataset)

### Exercice 1

Sélectionnez le groupe des features le plus pertinent entre `error`, `mean`, `worst`. Ensuite affichez les statistiques globales et par classe du groupe que vous avez choisi.

Utilisez les variables `mean_columns`, `error_columns` ou `worst_columns` pour cela.

## Box plots des features

Une manière plus visuelle de montrer la distribution du jeu de données est d'utiliser des box plots (boîtes à moustache) qui permettent d'observer des tendances entre les classes.

Ci-dessous on regarde seulement les features avec `error` :

In [None]:
def boxplot_data(dataset: pd.DataFrame) -> None :

    # Récupérer les classes
    classes = dataset["target_names"].value_counts().index.tolist()

    # Récupérer le nom des variables
    features_names = [col_name for col_name in dataset.columns.tolist() if "error" in col_name and col_name != "target"]

    # Définir le compteur des subplots
    cpt = 1

    # Définir une figure
    plt.figure(figsize=(20, 40))

    # Pour chaque variable
    for col_name in features_names :
        # Sur un sous-plot
        plt.subplot(len(features_names), len(classes), cpt)

        # Afficher le box plot de la distribution des valeurs de la variable en fonction des classes
        sns.boxplot(data=dataset, x="target_names", y=col_name, hue="target_names")

        # Passer au subbplot suivant
        cpt+=1

    # Ajuster l'agencement
    plt.tight_layout(pad=2)

    # Afficher la figure
    plt.show()

boxplot_data(df)

### Exercice 2

Faites pareil que ci-dessus mais en sélectionnant les groupes de features correspondant à `mean` et/ou à `worst` pour visualiser les box plots associés.

Ces box plots confirment nos précédentes observations : les instances de la classe maligne ont tendance à avoir des features moins élevées que les instances de la classe bénigne.

## Scatter plots des features

Ces scatter plots vont permettre de montrer des relations par paire entre les variables de données. Chaque sous-graphe de la grille représente la relation entre deux variables différentes.

In [None]:
def features_distributions(dataset: pd.DataFrame) -> None :

    # Récupérer le nom des variables
    features_names = ["mean perimeter", "mean texture", "mean area", "mean radius"]

    # Récupérer le nombre de variables
    n_features = len(features_names)

    # Définir le compteur des subplots
    cpt = 1

    # Définir une figure
    plt.figure(figsize=(10, 10))

    # Afficher chaque variable en fonction des autres
    for i in features_names :

        for j in features_names :

            # Sur un subplot
            plt.subplot(n_features, n_features, cpt)

            # Afficher la distribution des espèces dans le plan
            plt.scatter(dataset.loc[:, i], dataset.loc[:, j], c=dataset["target"])

            # Nommer les axes
            plt.ylabel(i)
            plt.xlabel(j)

            # Passer au suivant
            cpt+=1

    # Adjust layout
    plt.tight_layout(pad=2)

    # Afficher la figure
    plt.show()

features_distributions(dataset)

A partir de ces scatter plots, on peut voir que les instances de même classe (= même couleur) ont tendance à se regrouper. Cela est bon signe pour une approche de classification.

# Prétraitement

L'étape de prétraitement du jeu de données permet de le préparer à l'entraînement car les modèles sont sensibles à certaines caractéristiques : données manquantes ou dupliquées, outliers, etc. Ainsi, cette étape vise à homogéneiser le jeu de données.

Cette étape de prétraitement contient plusieurs sous-étapes :
* **Nettoyage** : retrait des données dupliquées/manquantes
* **Normalisation** : homogénéiser les données

> D'autres sous-étapes existent comme l'**extraction de features** (non présentée ici) qui consiste à extraire les données. Par exemple, pour analyser un texte on va en extraire des mots sémantiquement riches (tokens) et les transformer en données quantitatives. Ainsi, on transforme l'information textuelle en nombres.

> Une autre sous-étape est l'**équilibrage** des classes. Elle n'a pas été faite ici : certains algorithmes sont peu sensibles aux classes déséquilibrées.

> En lien avec l'équilibrage des classes, une sous-étape de **resampling** peut-être nécessaire : elle consiste à rééchantillonner le jeu de données pour le rendre plus équilibré. Le resampling inclut le downsampling, l'upsampling, et l'interpolation.

Enfin, la dernière étape est le **découpage** du jeu de données : faire un jeu de données d'entraînement et un autre pour la validation.

In [None]:
# La fonction MinMaxScaler permet de normaliser les données
from sklearn.preprocessing import MinMaxScaler

In [None]:
# Retire les lignes dupliquées du dataset
dataset = dataset[dataset.duplicated() == False].reset_index(drop=True)

# Affiche quelques infos
display(dataset.head())
print("dimensions : {}".format(dataset.shape))

In [None]:
# Resplitte le dataset en deux
features, labels, target_names = dataset.iloc[:, 0:30], dataset.iloc[:, 30], df["target_names"]

# Crée un objet MinMaxScaler
normalizer = MinMaxScaler()

# Normalise les variables
features = normalizer.fit_transform(features)

# Retransforme les features en dataframe
features = pd.DataFrame(data=features, columns=normalizer.get_feature_names_out())

# Affiche les résultats de la normalisation
display(features.head())

Le jeu de données étant relativement propre, on n'a pas besoin de le prétraiter plus que ça. On peut passer à l'entraînement.

# Entraînement et évaluation

Comme son nom l'indique, l'étape d'entraînement consiste à entraîner un modèle, c'est-à-dire que le modèle va ajuster ses paramètres/poids pour prédire au mieux la sortie : la classe (maligne ou bénigne).

On va utiliser 6 algorithmes de classification
* Naive Bayes
* Régression logistique
* Machine à vecteur de support (support-vector machine)
* Forêt d'arbre décisionnels (random forest)
* XGboost
* Perceptron multicouche (multilayer perceptron)

In [None]:
# Permet de de splitter les données en un set de données d'entraînement, et un set de données de test
from sklearn.model_selection import train_test_split

# Plusieurs algorithmes d'apprentissage que nous allons tester
from sklearn.naive_bayes import MultinomialNB
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.neural_network import MLPClassifier


# Permet l'évaluation des modèles
from sklearn.metrics import classification_report, ConfusionMatrixDisplay, accuracy_score

# Permet la recherche des meilleurs hyperparamètres
from sklearn.model_selection import GridSearchCV, LeaveOneOut

In [None]:
# Séparer les données en quatres sets
x_train, x_test, y_train, y_test = train_test_split(features, labels, test_size=0.2, stratify=labels, random_state=42)

# Afficher les sets
## Entrée
display(x_train.head())
display(x_test.head())
## Sortie : classe à prédire
display(y_train.head())
display(y_test.head())

Le jeu de données d'entraînement correspond à 80% de la taille originelle du jeu de données. Le jeu de données de test correspond donc à 20% de sa taille.

Le découpage se fait aléatoirement mais on peut "fixer le niveau d'aléatoire" pour la reproductibilité avec le paramètre `random_state`.

On va évaluer les performances des modèles avec une matrice de confusion. Une matrice de confusion consiste à comparer les classes prédites par le modèle aux classes réelles (vrai positif, faux négatif, etc.). A partir de cette matrice, on peut calculer les métriques de performance :
* Precision : plus elle est élevée et plus on maximise les vrais positifs
* Recall : plus il est élevé et plus on maximise les vrais (vrai positif et vrai négatif)
* Accuracy : plus elle est élevée et plus on maximise les bonnes prédictions (faux négatif et vrai positif)
* F1-score : combine la precision et le recall (moyenne harmonique)

Toutes ces métriques sont importantes mais c'est surtout la **precision** et le **recall** (= rappel = sensibilité) qui nous intéressent étant donné que si on favorise l'un, l'autre décroît. Ainsi, selon le jeu de données et l'objectif de la classification on préfèrera soit favoriser l'un au détriment de l'autre (trade-off).

Pour la prédiction de cancer du sein, on préfèrera détecter davantage de vrais positifs : si on détecte une tumeur maligne alors elle a de forte chance de l'être. Ainsi, on aura tendance à favoriser la précision du fait que les traitements soient lourds. Mais au final cela reste un choix.

In [None]:
from sklearn.metrics import balanced_accuracy_score, precision_score, recall_score

# Définir une liste d'algorithmes d'apprentissage
learning_algo = [MultinomialNB(),
                 LogisticRegression(random_state=42),
                 SVC(random_state=42),
                 DecisionTreeClassifier(random_state=42),
                 GradientBoostingClassifier(random_state=42),
                 MLPClassifier(random_state=42, max_iter=1000)
                ]

# Initialiser des variables pour suivre les meilleurs modèles et leurs métriques de performance
max_accuracy = 0
max_precision = 0
max_recall = 0
best_model_accuracy = None
best_model_precision = None
best_model_recall = None

# Parcourir chaque algorithme d'apprentissage
for algo in learning_algo:
    tmp = algo  # Assigner l'algorithme actuel à la variable tmp
    print(type(tmp).__name__ + ":")  # Afficher le nom de l'algorithme actuel

    # Entraîner le modèle sur les données d'entraînement
    tmp.fit(x_train, y_train)

    # Créer une figure pour l'affichage de la matrice de confusion
    plt.figure(figsize=(12, 12))

    # Afficher la matrice de confusion pour l'ensemble d'entraînement
    ConfusionMatrixDisplay.from_estimator(tmp, x_train, y_train, cmap=plt.cm.Blues, ax=plt.subplot(2, 2, 1))
    plt.title("Matrice de confusion - Ensemble d'entraînement")

    # Afficher la matrice de confusion pour l'ensemble de test
    ConfusionMatrixDisplay.from_estimator(tmp, x_test, y_test, cmap=plt.cm.Blues, ax=plt.subplot(2, 2, 2))
    plt.title("Matrice de confusion - Ensemble de test")

    plt.show()  # Afficher les graphiques des matrices de confusion

    # Faire des prédictions sur les ensembles d'entraînement et de test
    y_pred_train = tmp.predict(x_train)
    y_pred_test = tmp.predict(x_test)

    # Calculer les métriques de performance sur l'ensemble d'entraînement
    accuracy_train = balanced_accuracy_score(y_train, y_pred_train)
    precision_train = precision_score(y_train, y_pred_train, average='weighted')
    recall_train = recall_score(y_train, y_pred_train, average='weighted')

    # Calculer les métriques de performance sur l'ensemble de test
    accuracy_test = balanced_accuracy_score(y_test, y_pred_test)
    precision_test = precision_score(y_test, y_pred_test, average='weighted')
    recall_test = recall_score(y_test, y_pred_test, average='weighted')

    # Afficher le rapport de classification pour l'ensemble d'entraînement
    print("\nENSEMBLE D'ENTRAÎNEMENT :\n")
    print(classification_report(y_pred_train, y_train))

    # Afficher les métriques de performance pour l'ensemble d'entraînement
    print("\nAccuracy sur l'ensemble d'entraînement:", accuracy_train)
    print("Precision sur l'ensemble d'entraînement:", precision_train)
    print("recall sur l'ensemble d'entraînement:", recall_train)

    # Afficher le rapport de classification pour l'ensemble de test
    print("\nENSEMBLE DE TEST :\n")
    print(classification_report(y_pred_test, y_test))

    # Afficher les métriques de performance pour l'ensemble de test
    print("Accuracy sur l'ensemble de test:", accuracy_test)
    print("Precision sur l'ensemble de test:", precision_test)
    print("recall sur l'ensemble de test:", recall_test)

    # Mettre à jour les valeurs maximales et le meilleur modèle si le modèle actuel est meilleur
    if accuracy_test > max_accuracy:
        max_accuracy = accuracy_test
        best_model_accuracy = type(tmp).__name__

    if precision_test > max_precision:
        max_precision = precision_test
        best_model_precision = type(tmp).__name__

    if recall_test > max_recall:
        max_recall = recall_test
        best_model_recall = type(tmp).__name__

    print('\n')

# Afficher les meilleurs modèles et leurs métriques de performance
print(f"Meilleur modèle (Accuracy): {best_model_accuracy} - Accuracy: {max_accuracy:.4f}")
print(f"Meilleur modèle (Precision): {best_model_precision} - Precision: {max_precision:.4f}")
print(f"Meilleur modèle (recall): {best_model_recall} - recall: {max_recall:.4f}")


Par la suite on va rechercher les meilleurs hyperparamètres, c'est-à-dire ceux qui vont donner la meilleure prédiction. Les hyperparamètres sont les paramètres qui sont propres aux algorithmes et vont influer sur leur comportement.

Ici on s'intéresse à optimiser les hyperparamètres pour tous les modèles :

In [None]:
# Instancier un svm
model = SVC()

# Définir les paramètres à tester
params = {"C" : [0.001, 0.01, 0.1, 1, 10, 100, 1000],
          "random_state" : [i for i in range(0, 100, 1)]}

# Instancier l'itérateur pour la création du set de validation durant la recherche des meilleurs hyperparamètres
kfold = 10

# Créer la grille de recherche
grid_search = GridSearchCV(estimator=model, param_grid=params, scoring="accuracy", cv=kfold, verbose=3)

# Effectuer la recherche + Afficher les résultats
grid_search.fit(x_train, y_train)
print("\nles meilleurs paramètres du modèle sont : {}".format(grid_search.best_params_))

#les meilleurs paramètres du modèle sont : {'C': 10, 'random_state': 0} avec kfold= LeaveOneOut() et kfold= 10, pour économiser de temps on utilise kfold= 10

In [None]:
# Récupérer le meilleur modèle
model = grid_search.best_estimator_
print(model)
# Créer une figure
plt.figure(figsize=(12, 12))

# Afficher la matrice de confusion de model sur les données d'entraînement
ConfusionMatrixDisplay.from_estimator(model, x_train, y_train, cmap=plt.cm.Blues, ax=plt.subplot(2, 2, 1))
plt.title("Matrice de confusion - Ensemble d'entraînement")

# Afficher la matrice de confusion de model sur les données de test
ConfusionMatrixDisplay.from_estimator(model, x_test, y_test, cmap=plt.cm.Blues, ax=plt.subplot(2, 2, 2))
plt.title("Matrice de confusion - Ensemble de test")

# Afficher la figure
plt.show()

# Afficher le rapport de classification sur les données d'entraînement
print("\nENSEMBLE D'ENTRAINEMENT:\n")
print(classification_report(model.predict(x_train), y_train))

# Afficher le rapport de classification sur les données de test
print("\nENSEMBLE DE TEST :\n")
print(classification_report(model.predict(x_test), y_test))
print('\n')

# Sauvegarde du modèle

On sauvegarde le modèle pour ensuite l'appliquer sur d'autres jeux de données.

Le modèle est enregistré au format `.sav` qui est ici binaire.

In [None]:
# Permet de sauvegarder des objets Python
import pickle as pk

In [None]:
# Instancier le modèle avec les meilleurs hyperparamètres
model = SVC(C=10, random_state=0)

# Entraîner le modèle sur l'ensemble des données
model.fit(features, labels)

# Afficher la matrice de confusion
plt.figure(figsize=(6, 6))
plt.title("Matrice de confusion finale")
ConfusionMatrixDisplay.from_estimator(model, features, labels, cmap=plt.cm.Blues, ax=plt.subplot(1, 1, 1))
plt.show()

# Afficher le rapport de classification
print(classification_report(model.predict(features), labels))

In [None]:
# Sauvegarder le préprocesseur, il sera utiliser sur les futurs données
pk.dump(normalizer, open("preprocesseur.sav", 'wb'))

# Sauvegarder le modèle
pk.dump(model, open("model.sav", 'wb'))

# Exercice synthétique

A partir de ce que vous avez vu, entraînez un modèle sur un mini jeu de données (voir cellule ci-dessous). Identifiez les fonctions importantes et entraîner un ou plusieurs modèle(s) parmi les 6 vus précédemment.

Dans ce mini jeu de données, on doit prédire la classe `y` (chien ou chat) à partir de `x` (contenant 2 features : taille en cm et poids en kg). On a 6 instances.

In [None]:
x = [[45, 11.34], [56, 13.61], [51, 12.7], [30, 4.5], [25, 3.8], [35, 5.2]] # features
y = ["chien", "chien", "chien", "chat", "chat", "chat"] # classe

# Corrections

## Exercice 1

In [None]:
# Pour la colonne worst

def stats_data(dataset: pd.DataFrame) -> None:
    # Statistiques globales pour les colonnes contenant "worst"
    print("STATISTIQUES GLOBALES : ")
    display(dataset[worst_columns].describe())

    # Statistiques par classe pour les colonnes contenant "worst"
    print("\nSTATISTIQUES PAR CLASSE")
    for i in dataset["target"].value_counts().index.tolist():
        print("\n\tClasse : {}".format(i))
        display(dataset[dataset["target"] == i][worst_columns].describe())


stats_data(dataset)

In [None]:
# Pour la colonne error

def stats_data(dataset: pd.DataFrame) -> None:
    # Statistiques globales pour les colonnes contenant "error"
    print("STATISTIQUES GLOBALES : ")
    display(dataset[error_columns].describe())

    # Statistiques par classe pour les colonnes contenant "error"
    print("\nSTATISTIQUES PAR CLASSE")
    for i in dataset["target"].value_counts().index.tolist():
        print("\n\tClasse : {}".format(i))
        display(dataset[dataset["target"] == i][error_columns].describe())


stats_data(dataset)

In [None]:
# Pour la colonne mean

def stats_data(dataset: pd.DataFrame) -> None:
    # Statistiques globales pour les colonnes contenant "mean"
    print("STATISTIQUES GLOBALES : ")
    display(dataset[mean_columns].describe())

    # Statistiques par classe pour les colonnes contenant "mean"
    print("\nSTATISTIQUES PAR CLASSE")
    for i in dataset["target"].value_counts().index.tolist():
        print("\n\tClasse : {}".format(i))
        display(dataset[dataset["target"] == i][mean_columns].describe())


stats_data(dataset)

## Exercice 2

In [None]:
# pour worst

def boxplot_data(dataset: pd.DataFrame) -> None :

    # Récupèrer les classes
    classes = dataset["target_names"].value_counts().index.tolist()

    # Récupèrer le nom des variables
    features_names = [col_name for col_name in dataset.columns.tolist() if "worst" in col_name and col_name != "target"] # Solution: changer le contenu de "" après le if

    # Définir le compteur des subplots
    cpt = 1

    # Définir une figure
    plt.figure(figsize=(20, 40))

    # Pour chaque variables
    for col_name in features_names :
        # Sur un suplot
        plt.subplot(len(features_names), len(classes), cpt)

        # Afficher le boxplot de la distribution des valeurs de la variable, en fonction des espèces
        sns.boxplot(data=dataset, x="target_names", y=col_name, hue="target_names")

        # Passer au subplot suivant
        cpt+=1

    # Adjust layout
    plt.tight_layout(pad=2)

    # Afficher la figure
    plt.show()

boxplot_data(df)

In [None]:
# pour mean

def boxplot_data(dataset: pd.DataFrame) -> None :

    # Récupèrer les classes
    classes = dataset["target_names"].value_counts().index.tolist()

    # Récupèrer le nom des variables
    features_names = [col_name for col_name in dataset.columns.tolist() if "mean" in col_name and col_name != "target"] # Solution: changer le contenu de "" après le if

    # Définir le compteur des subplots
    cpt = 1

    # Définir une figure
    plt.figure(figsize=(20, 40))

    # Pour chaque variables
    for col_name in features_names :
        # Sur un suplot
        plt.subplot(len(features_names), len(classes), cpt)

        # Afficher le boxplot de la distribution des valeurs de la variable, en fonction des espèces
        sns.boxplot(data=dataset, x="target_names", y=col_name, hue="target_names")

        # Passer au subplot suivant
        cpt+=1

    # Adjust layout
    plt.tight_layout(pad=2)

    # Afficher la figure
    plt.show()

boxplot_data(df)

## Exercice synthétique

In [None]:
x = [[45, 11.34], [56, 13.61], [51, 12.7], [30, 4.5], [25, 3.8], [35, 5.2]] # features
y = ["chien", "chien", "chien", "chat", "chat", "chat"] # classe

x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.5, stratify=y, random_state=42)

from sklearn.metrics import balanced_accuracy_score, precision_score, recall_score

# Définir une liste d'algorithmes d'apprentissage
learning_algo = [MultinomialNB(),
                 LogisticRegression(random_state=42),
                 SVC(random_state=42),
                 DecisionTreeClassifier(random_state=42),
                 GradientBoostingClassifier(random_state=42),
                 MLPClassifier(random_state=42, max_iter=1000)
                ]

# Initialiser des variables pour suivre les meilleurs modèles et leurs métriques de performance
max_accuracy = 0
max_precision = 0
max_recall = 0
best_model_accuracy = None
best_model_precision = None
best_model_recall = None

# Parcourir chaque algorithme d'apprentissage
for algo in learning_algo:
    tmp = algo  # Assigner l'algorithme actuel à la variable tmp
    print(type(tmp).__name__ + ":")  # Afficher le nom de l'algorithme actuel

    # Entraîner le modèle sur les données d'entraînement
    tmp.fit(x_train, y_train)

    # Créer une figure pour l'affichage de la matrice de confusion
    plt.figure(figsize=(12, 12))

    # Afficher la matrice de confusion pour l'ensemble d'entraînement
    ConfusionMatrixDisplay.from_estimator(tmp, x_train, y_train, cmap=plt.cm.Blues, ax=plt.subplot(2, 2, 1))
    plt.title("Matrice de confusion - Ensemble d'entraînement")

    # Afficher la matrice de confusion pour l'ensemble de test
    ConfusionMatrixDisplay.from_estimator(tmp, x_test, y_test, cmap=plt.cm.Blues, ax=plt.subplot(2, 2, 2))
    plt.title("Matrice de confusion - Ensemble de test")

    plt.show()  # Afficher les graphiques des matrices de confusion

    # Faire des prédictions sur les ensembles d'entraînement et de test
    y_pred_train = tmp.predict(x_train)
    y_pred_test = tmp.predict(x_test)

    # Calculer les métriques de performance sur l'ensemble d'entraînement
    accuracy_train = balanced_accuracy_score(y_train, y_pred_train)
    precision_train = precision_score(y_train, y_pred_train, average='weighted')
    recall_train = recall_score(y_train, y_pred_train, average='weighted')

    # Calculer les métriques de performance sur l'ensemble de test
    accuracy_test = balanced_accuracy_score(y_test, y_pred_test)
    precision_test = precision_score(y_test, y_pred_test, average='weighted')
    recall_test = recall_score(y_test, y_pred_test, average='weighted')

    # Afficher le rapport de classification pour l'ensemble d'entraînement
    print("\nENSEMBLE D'ENTRAÎNEMENT :\n")
    print(classification_report(y_pred_train, y_train))

    # Afficher les métriques de performance pour l'ensemble d'entraînement
    print("\nAccuracy sur l'ensemble d'entraînement:", accuracy_train)
    print("Precision sur l'ensemble d'entraînement:", precision_train)
    print("recall sur l'ensemble d'entraînement:", recall_train)

    # Afficher le rapport de classification pour l'ensemble de test
    print("\nENSEMBLE DE TEST :\n")
    print(classification_report(y_pred_test, y_test))

    # Afficher les métriques de performance pour l'ensemble de test
    print("Précision sur l'ensemble de test:", accuracy_test)
    print("Precision sur l'ensemble de test:", precision_test)
    print("recall sur l'ensemble de test:", recall_test)

    # Mettre à jour les valeurs maximales et le meilleur modèle si le modèle actuel est meilleur
    if accuracy_test > max_accuracy:
        max_accuracy = accuracy_test
        best_model_accuracy = type(tmp).__name__

    if precision_test > max_precision:
        max_precision = precision_test
        best_model_precision = type(tmp).__name__

    if recall_test > max_recall:
        max_recall = recall_test
        best_model_recall = type(tmp).__name__

    print('\n')

# Afficher les meilleurs modèles et leurs métriques de performance
print(f"Meilleur modèle (Précision): {best_model_accuracy} - Précision: {max_accuracy:.4f}")
print(f"Meilleur modèle (Precision): {best_model_precision} - Precision: {max_precision:.4f}")
print(f"Meilleur modèle (recall): {best_model_recall} - recall: {max_recall:.4f}")