# Un didacticiel rapide de modélisation d'apprentissage automatique avec Python et Scikit-Learn

Ce cahier passe en revue une gamme de fonctionnalités communes et utiles de la bibliothèque Scikit-Learn.

Il y en a un tas ici, mais je l'appelle rapide en raison de l'étendue de la bibliothèque Scikit-Learn.

Couvrir tout nécessite une [documentation complète](https://scikit-learn.org/stable/user_guide.html), dont, si jamais vous êtes bloqué, je vous recommande fortement de la consulter.

In [1]:
import datetime
print(f"Last updated: {datetime.datetime.now()}")

Last updated: 2023-10-13 09:47:50.863667


## Pourquoi Scikit-Learn ?

Bien que les domaines de la science des données et de l’apprentissage automatique soient vastes, l’objectif principal est de trouver des modèles au sein des données, puis de les utiliser pour faire des prédictions.

Et il existe certaines catégories dans lesquelles appartiennent la majorité des problèmes.

Si vous essayez de créer un modèle d'apprentissage automatique pour prédire si un e-mail est du spam ou non, vous travaillez sur un [problème de classification](https://en.wikipedia.org/wiki/Statistical_classification#Binary_and_multiclass_classification) (que quelque chose soit une chose ou une autre).

Si vous essayez de créer un modèle d'apprentissage automatique pour prédire le prix des maisons en fonction de leurs caractéristiques, vous travaillez sur un [problème de régression](https://en.wikipedia.org/wiki/Regression_analysis) (prédire un certain nombre ).

Si vous essayez d'obtenir qu'un algorithme d'apprentissage automatique regroupe des échantillons similaires (dont vous ne savez pas nécessairement lesquels doivent aller ensemble), vous travaillez sur un [problème de clustering](https://developers.google.com /apprentissage automatique/clustering/présentation).

Une fois que vous savez sur quel type de problème vous travaillez, vous suivrez également des étapes similaires pour chacun. Des étapes telles que la division des données en différents ensembles, un sur lequel vos algorithmes d'apprentissage automatique peuvent apprendre (l'ensemble d'entraînement) et un autre pour les tester (l'ensemble de test).

Choisir un modèle d'apprentissage automatique, puis évaluer si votre modèle a appris ou non quelque chose.

Scikit-Learn propose des implémentations Python pour effectuer tous ces types de tâches (de la préparation des données à la modélisation des données). Vous évitant d'avoir à les créer à partir de zéro.

## Que couvre ce carnet ?

La bibliothèque Scikit-Learn est très performante. Cependant, il n’est pas nécessaire de tout apprendre par cœur. Au lieu de cela, ce bloc-notes se concentre sur certains des principaux cas d'utilisation de la bibliothèque.

Plus précisément, nous aborderons :

<img src="../images/sklearn-workflow-title.png" alt="un workflow scikit-learn en 6 étapes"/>

0. Un workflow Scikit-Learn de bout en bout
1. Préparer les données
2. Choisir le bon estimateur/aglorithme/modèle d'apprentissage automatique pour votre problème
3. Ajuster le modèle d'apprentissage automatique que vous avez choisi aux données et l'utiliser pour faire une prédiction
4. Évaluation d'un modèle d'apprentissage automatique
5. Améliorer les prédictions grâce à l'expérimentation (réglage des hyperparamètres)
6. Sauvegarde et chargement d'un modèle pré-entraîné
7. Rassembler le tout dans un pipeline

> **Remarque :** Toutes les étapes de ce cahier sont axées sur [**l'apprentissage supervisé**](https://en.wikipedia.org/wiki/Supervised_learning) (avoir des données et des étiquettes). L'autre aspect de l'apprentissage supervisé est [**l'apprentissage non supervisé**](https://en.wikipedia.org/wiki/Unsupervised_learning) (avoir des données mais pas d'étiquettes).

Après l'avoir parcouru, vous aurez les connaissances de base de Scikit-Learn dont vous avez besoin pour continuer à avancer.

## Où puis-je obtenir de l'aide ?

Si vous êtes bloqué ou pensez à quelque chose que vous aimeriez faire et que ce carnet ne couvre pas, n'ayez crainte !

Les étapes recommandées à suivre sont les suivantes :
1. **Essayez-le** - Puisque Scikit-Learn a été conçu dans un souci de convivialité, votre première étape devrait être d'utiliser ce que vous savez et d'essayer de trouver la réponse à votre propre question (se tromper fait partie du processus ). En cas de doute, exécutez votre code.
2. **Appuyez sur SHIFT+TAB** - Vous pouvez voir la docstring d'une fonction (informations sur ce que fait la fonction) en appuyant sur **SHIFT + TAB** à l'intérieur. Faire cela est une bonne habitude à développer. Cela améliorera vos compétences en recherche et vous donnera une meilleure compréhension de la bibliothèque.
3. **Recherchez-le** - Si l'essayer par vous-même ne fonctionne pas, puisque quelqu'un d'autre a probablement essayé de faire quelque chose de similaire, essayez de rechercher votre problème. Vous vous retrouverez probablement dans l'un des deux endroits :
     * [Documentation/guide de l'utilisateur Scikit-Learn](https://scikit-learn.org/stable/user_guide.html) - la ressource la plus complète que vous trouverez pour les informations sur Scikit-Learn.
     * [Stack Overflow](https://stackoverflow.com/) - il s'agit du centre de questions et réponses des développeurs, il regorge de questions et de réponses sur différents problèmes sur un large éventail de sujets de développement logiciel et il y a de fortes chances qu'il y en ait un lié à votre problème. .
     * [ChatGPT](https://chat.openai.com/) - ChatGPT est très efficace pour expliquer le code, cependant, il peut commettre des erreurs. Il est préférable de vérifier le code qu'il écrit avant de l'utiliser. Essayez de demander « Pouvez-vous m'expliquer le code suivant ? {votre code ici} », puis continuez avec les questions de suivi à partir de là.
    
Un exemple de recherche d'une solution Scikit-Learn pourrait être :

> "comment régler les hyperparamètres d'un modèle sklearn"

Une recherche sur Google mène à la documentation Scikit-Learn pour la fonction `GridSearchCV` : http://scikit-learn.org/stable/modules/grid_search.html

Les prochaines étapes ici consistent à lire la documentation, à vérifier les exemples et à voir s'ils correspondent au problème que vous essayez de résoudre. Si c'est le cas, **réécrivez le code** en fonction de vos besoins, exécutez-le et voyez quels sont les résultats.

4. **Demander de l'aide** - Si vous avez suivi les 3 étapes ci-dessus et que vous êtes toujours bloqué, vous souhaiterez peut-être poser votre question sur [Stack Overflow](https://www.stackoverflow.com) ou dans le canal ZTM Machine Learning et AI Discord. Soyez aussi précis que possible et fournissez des détails sur ce que vous avez essayé.

N'oubliez pas que vous n'êtes pas obligé d'apprendre toutes les fonctions par cœur pour commencer.

Le plus important est de se demander continuellement : « qu’est-ce que j’essaie de faire avec les données ? »

Commencez par répondre à cette question, puis entraînez-vous à trouver le code qui le fait.

Commençons.

Nous allons d’abord importer les bibliothèques que nous avons utilisées précédemment.

Nous vérifierons également la version de « sklearn » dont nous disposons.

In [2]:
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd

import sklearn
print(f"Using Scikit-Learn version: {sklearn.__version__} (materials in this notebook require this version or newer).")

Using Scikit-Learn version: 1.3.1 (materials in this notebook require this version or newer).


## 0. Un workflow Scikit-Learn de bout en bout

Avant d'entrer dans les détails, voyons rapidement à quoi pourrait ressembler un flux de travail Scikit-Learn de bout en bout.

Une fois que nous aurons vu un flux de travail de bout en bout, nous approfondirons chaque étape un peu plus.

Plus précisément, nous allons mettre en pratique les étapes suivantes :
1. Préparer les données (diviser en fonctionnalités et étiquettes, préparer les étapes d'entraînement et de test)
2. Choisir un modèle pour notre problème
3. Ajustez le modèle aux données et utilisez-le pour faire une prédiction
4. Évaluer le modèle
5. Expérimentez pour vous améliorer
6. Enregistrez un modèle pour que quelqu'un d'autre puisse l'utiliser

> **Remarque :** La section suivante contient un peu d'informations, mais il s'agit d'un flux de travail de bout en bout. Nous allons le parcourir assez rapidement, mais nous le détaillerons davantage dans le reste du cahier. Et comme Scikit-Learn est une bibliothèque très vaste, capable de résoudre de nombreux problèmes, le flux de travail que nous utilisons n'est qu'un exemple de la façon dont vous pouvez l'utiliser.

### Flux de travail du classificateur de forêt aléatoire pour classer les maladies cardiaques

#### 1. Préparez les données

À titre d'exemple d'ensemble de données, nous importerons « heart-disease.csv ».

Ce fichier contient les dossiers médicaux anonymisés des patients et indique s'ils souffrent ou non d'une maladie cardiaque (il s'agit d'un problème de classification puisque nous essayons de prédire si quelque chose est une chose ou une autre).

In [3]:
import pandas as pd
heart_disease = pd.read_csv('../data/heart-disease.csv')
heart_disease.head()

Unnamed: 0,age,sex,cp,trestbps,chol,fbs,restecg,thalach,exang,oldpeak,slope,ca,thal,target
0,63,1,3,145,233,1,0,150,0,2.3,0,0,1,1
1,37,1,2,130,250,0,1,187,0,3.5,0,0,2,1
2,41,0,1,130,204,0,0,172,0,1.4,2,0,2,1
3,56,1,1,120,236,0,1,178,0,0.8,2,0,2,1
4,57,0,0,120,354,0,1,163,1,0.6,2,0,2,1


Ici, chaque ligne correspond à un patient différent et toutes les colonnes, à l'exception de « cible », correspondent à des caractéristiques différentes du patient.

La colonne `target` indique si le patient a une maladie cardiaque (`target=1`) ou non (`target=0`), c'est notre colonne "label", la variable que nous allons essayer de prédire.

Le reste des colonnes (souvent appelés fonctionnalités) est ce que nous utiliserons pour prédire la valeur « cible ».

> **Remarque :** Il est courant d'enregistrer les fonctionnalités dans une variable « X » et les étiquettes dans une variable « y ». En pratique, nous aimerions utiliser les « X » (caractéristiques) pour construire un algorithme prédictif permettant de prédire les « y » (étiquettes).

In [4]:
# Créer X (toutes les colonnes de fonctionnalités)
X = heart_disease.drop("target", axis=1)

# Créer y (la colonne cible)
y = heart_disease["target"]

# Vérifiez la tête des fonctionnalités DataFrame
X.head()

Unnamed: 0,age,sex,cp,trestbps,chol,fbs,restecg,thalach,exang,oldpeak,slope,ca,thal
0,63,1,3,145,233,1,0,150,0,2.3,0,0,1
1,37,1,2,130,250,0,1,187,0,3.5,0,0,2
2,41,0,1,130,204,0,0,172,0,1.4,2,0,2
3,56,1,1,120,236,0,1,178,0,0.8,2,0,2
4,57,0,0,120,354,0,1,163,1,0.6,2,0,2


In [5]:
# Vérifiez la tête et le nombre de valeurs des étiquettes
y.head(), y.value_counts()

(0    1
 1    1
 2    1
 3    1
 4    1
 Name: target, dtype: int64,
 target
 1    165
 0    138
 Name: count, dtype: int64)

L'une des pratiques les plus importantes en matière d'apprentissage automatique consiste à diviser les ensembles de données en ensembles de formation et de test.

Comme dans, un modèle s'entraînera sur l'ensemble d'entraînement** pour apprendre des modèles, puis ces modèles pourront être **évalués sur l'ensemble de test**.

Surtout, un modèle ne devrait **jamais** voir les données de test pendant l'entraînement.

Cela équivaut à ce qu'un étudiant étudie le matériel de cours pendant le semestre (ensemble de formation) puis teste ses capacités à l'examen suivant (ensemble de tests).

Scikit-learn fournit la méthode [`sklearn.model_selection.train_test_split`](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html) pour diviser les ensembles de données en ensembles d'entraînement et de test.

> **Remarque :** Il est courant d'utiliser une répartition 80/20, 70/30 ou 75/25 pour les données d'entraînement/test. Il existe également un troisième ensemble, appelé ensemble de validation (par exemple 70/15/15 pour la formation/validation/test) pour le réglage des hyperparamètres, mais pour l'instant, nous nous concentrerons sur les ensembles de formation et de test.

In [6]:
# Divisez les données en ensembles de formation et de test
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, 
                                                    y,
                                                    test_size=0.25) # par défaut, train_test_split utilise 25 % des données pour l'ensemble de test
X_train.shape, X_test.shape, y_train.shape, y_test.shape

((227, 13), (76, 13), (227,), (76,))

#### 2. Choisissez le modèle et les hyperparamètres

Le choix d'un modèle dépend souvent du type de problème sur lequel vous travaillez.

Par exemple, Scikit-Learn recommande différents modèles, que vous travailliez sur un problème de classification ou de régression.

Vous pouvez voir une carte détaillant les [différents types d'options de modèle et de recommandations dans la documentation Scikit-Learn](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html).

Scikit-Learn fait référence aux modèles comme « estimateurs », cependant, ils sont souvent également appelés « modèle » ou « clf » (abréviation de classificateur).

Les hyperparamètres d'un modèle sont des paramètres que vous pouvez modifier pour l'adapter à votre problème, un peu comme les boutons d'un four que vous pouvez régler pour cuisiner votre plat préféré.

In [7]:
# Puisque nous travaillons sur un problème de classification, nous allons commencer par un RandomForestClassifier
from sklearn.ensemble import RandomForestClassifier

clf = RandomForestClassifier()

Nous pouvons voir les hyperparamètres actuels d'un modèle avec la méthode [`get_params()`](https://scikit-learn.org/stable/developers/develop.html#get-params-and-set-params).

In [8]:
# Afficher les hyperparamètres actuels
clf.get_params()

{'bootstrap': True,
 'ccp_alpha': 0.0,
 'class_weight': None,
 'criterion': 'gini',
 'max_depth': None,
 'max_features': 'sqrt',
 'max_leaf_nodes': None,
 'max_samples': None,
 'min_impurity_decrease': 0.0,
 'min_samples_leaf': 1,
 'min_samples_split': 2,
 'min_weight_fraction_leaf': 0.0,
 'n_estimators': 100,
 'n_jobs': None,
 'oob_score': False,
 'random_state': None,
 'verbose': 0,
 'warm_start': False}

Nous laisserons cela tel quel pour le moment, car les modèles Scikit-Learn ont généralement de bons paramètres par défaut.

#### 3. Ajustez le modèle aux données et utilisez-le pour faire une prédiction

Ajuster un modèle à un ensemble de données implique de lui transmettre les données et de lui demander de comprendre les modèles.

S'il existe des étiquettes (apprentissage supervisé), le modèle tente d'établir la relation entre les données et les étiquettes.

S'il n'y a pas d'étiquettes (apprentissage non supervisé), le modèle essaie de trouver des modèles et de regrouper des échantillons similaires.

La plupart des modèles Scikit-Learn ont le [`fit(X, y)`](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html#sklearn.ensemble.RandomForestClassifier.fit) méthode intégrée, où le paramètre « X » correspond aux fonctionnalités et le paramètre « y » correspond aux étiquettes.

Dans notre cas, nous commençons par ajuster un modèle sur le fractionnement d'entraînement (`X_train`, `y_train`).

In [9]:
clf.fit(X=X_train, y=y_train)

#### Utiliser le modèle pour faire une prédiction

L’intérêt de former un modèle d’apprentissage automatique est de l’utiliser pour faire une sorte de prédiction dans le futur.

Une fois votre instance de modèle entraînée, vous pouvez utiliser le [`predict()`](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html#sklearn.ensemble.RandomForestClassifier.predict ) méthode pour prédire une valeur cible étant donné un ensemble de fonctionnalités.

En d’autres termes, utilisez le modèle, ainsi que de nouvelles données invisibles et non étiquetées pour prédire l’étiquette.

> **Remarque :** Les données sur lesquelles vous prédisez doivent avoir la même forme et le même format que les données sur lesquelles vous avez effectué votre entraînement.

In [10]:
# Cela ne fonctionne pas... formes incorrectes
y_label = clf.predict(np.array([0, 2, 3, 4]))



ValueError: Expected 2D array, got 1D array instead:
array=[0. 2. 3. 4.].
Reshape your data either using array.reshape(-1, 1) if your data has a single feature or array.reshape(1, -1) if it contains a single sample.

Puisque notre modèle a été entraîné sur les données de « X_train », les prédictions doivent être faites sur des données dans le même format et la même forme que « X_train ».

Notre objectif dans de nombreux problèmes d'apprentissage automatique est d'utiliser des modèles appris à partir des données d'entraînement pour faire des prédictions sur les données de test (ou de futures données invisibles).

In [11]:
# Afin de prédire une étiquette, les données doivent avoir la même forme que X_train
X_test.head()

Unnamed: 0,age,sex,cp,trestbps,chol,fbs,restecg,thalach,exang,oldpeak,slope,ca,thal
298,57,0,0,140,241,0,1,123,1,0.2,1,0,3
102,63,0,1,140,195,0,1,179,0,0.0,2,2,2
254,59,1,3,160,273,0,0,125,0,0.0,2,0,2
171,48,1,1,110,229,0,1,168,0,1.0,0,0,3
163,38,1,2,138,175,0,1,173,0,0.0,2,4,2


In [12]:
# Utiliser le modèle pour faire une prédiction sur les données de test (évaluation plus approfondie)
y_preds = clf.predict(X=X_test)

#### 4. Évaluer le modèle

Maintenant que nous avons fait quelques prédictions, nous pouvons commencer à utiliser d'autres méthodes Scikit-Learn pour déterminer la qualité de notre modèle.

Chaque modèle ou estimateur a une méthode intégrée [`score()`](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html#sklearn.ensemble.RandomForestClassifier.score) .

Cette méthode compare la capacité du modèle à apprendre les modèles entre les caractéristiques et les étiquettes.

La méthode `score()` pour chaque modèle utilise une métrique d'évaluation standard pour mesurer les résultats de votre modèle.

Dans le cas d'un classificateur (notre modèle), l'une des métriques d'évaluation les plus courantes est la [précision](https://scikit-learn.org/stable/modules/model_evaluation.html#accuracy-score) (la fraction de la valeur correcte prédictions sur les prédictions totales).

Vérifions la précision de notre modèle sur l'ensemble d'entraînement.

In [13]:
# Évaluer le modèle sur l'ensemble d'entraînement
train_acc = clf.score(X=X_train, y=y_train)
print(f"The model's accuracy on the training dataset is: {train_acc*100}%")

The model's accuracy on the training dataset is: 100.0%


Waouh ! On dirait que notre modèle fonctionne plutôt bien sur l'ensemble de données d'entraînement.
En effet, il a la possibilité de voir à la fois les données *et* les étiquettes.
Qu’en est-il de l’ensemble de données de test ?

In [14]:
# Évaluer le modèle sur l'ensemble de test
test_acc = clf.score(X=X_test, y=y_test)
print(f"The model's accuracy on the testing dataset is: {test_acc*100:.2f}%")

The model's accuracy on the testing dataset is: 75.00%


Hmm, il semble que la précision de notre modèle soit un peu moindre sur l'ensemble de données de test que sur l'ensemble de données d'entraînement.

C'est assez souvent le cas, car rappelez-vous qu'un modèle n'a jamais vu les exemples de test auparavant.

Il existe également un certain nombre d'autres méthodes d'évaluation que nous pouvons utiliser pour nos modèles de classification.

Toutes les métriques de classification suivantes proviennent du module [`sklearn.metrics`](https://scikit-learn.org/stable/modules/model_evaluation.html#classification-metrics) :
* [`classification_report(y_true, y_true)`](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.classification_report.html#sklearn.metrics.classification_report) - Crée un rapport texte montrant diverses classifications des métriques telles que [précision, rappel](https://scikit-learn.org/stable/auto_examples/model_selection/plot_precision_recall.html) et le score F1.
* [`confusion_matrix(y_true, y_pred)`](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.confusion_matrix.html#sklearn.metrics.confusion_matrix) - Créer une [matrice de confusion]( https://en.wikipedia.org/wiki/Confusion_matrix) pour comparer les prédictions aux étiquettes de vérité.
* [`accuracy_score(y_true, y_pred)`](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.accuracy_score.html#sklearn.metrics.accuracy_score) - Recherchez le score de précision (le score par défaut métrique) pour un classificateur.

Toutes les métriques ont ce qui suit en commun : elles comparent les prédictions d'un modèle (`y_pred`) aux étiquettes de vérité (`y_true`).

In [15]:
from sklearn.metrics import classification_report, confusion_matrix, accuracy_score

# Créer un rapport de classement
print(classification_report(y_test, y_preds))

              precision    recall  f1-score   support

           0       0.81      0.60      0.69        35
           1       0.72      0.88      0.79        41

    accuracy                           0.75        76
   macro avg       0.76      0.74      0.74        76
weighted avg       0.76      0.75      0.74        76



In [16]:
# Créer une matrice de confusion
conf_mat = confusion_matrix(y_test, y_preds)
conf_mat

array([[21, 14],
       [ 5, 36]])

In [17]:
# Calculer le score de précision (identique à la méthode score() pour les classificateurs)
accuracy_score(y_test, y_preds)

0.75

#### 5. Expérimenter pour améliorer

Le premier modèle que vous créez est souvent appelé référence (une référence est souvent encore plus simple que le modèle que nous avons utilisé, une référence pourrait être "prédisons simplement par défaut la valeur la plus courante et essayons ensuite de l'améliorer").

Une fois que vous avez un modèle de base, comme celui que nous avons ici, il est important de se rappeler que ce n'est souvent pas le modèle final que vous utiliserez.

La prochaine étape du flux de travail consiste à essayer d'améliorer votre modèle de base.

Comment?

Avec l’une des devises les plus importantes de l’apprentissage automatique…

*Expérimentez, expérimentez, expérimentez !*

Les expériences peuvent prendre de nombreuses formes différentes.

Mais divisons-le en deux.

1. Du point de vue du modèle.
2. Du point de vue des données.

Du point de vue du modèle, cela peut impliquer des choses telles que l'utilisation d'un modèle plus complexe ou le réglage des hyperparamètres de votre modèle.

Du point de vue des données, cela peut impliquer de collecter plus de données ou des données de meilleure qualité afin que votre modèle existant ait plus de chances d'apprendre les modèles qu'il contient.

Si vous travaillez déjà sur un ensemble de données existant, il est souvent plus facile d'essayer d'abord une série d'expériences en perspective de modèle, puis de vous tourner vers des expériences en perspective de données si vous n'obtenez pas les résultats que vous recherchez.

Une chose dont vous devez être conscient est que si vous ajustez les hyperparamètres d'un modèle dans une série d'expériences, vos résultats doivent toujours être validés de manière croisée (nous verrons cela plus tard !).

La [validation croisée](http://scikit-learn.org/stable/modules/cross_validation.html) est un moyen de garantir que les résultats que vous obtenez sont cohérents dans vos ensembles de données de formation et de test (car il utilise plusieurs versions) des ensembles de formation et de test) plutôt que de la chance en raison de l'ordre dans lequel les ensembles de formation et de test d'origine ont été créés.

* Essayez différents hyperparamètres.
* Tous les différents paramètres doivent être validés de manière croisée.
     * **Remarque :** Méfiez-vous de la validation croisée pour les problèmes de séries chronologiques (comme pour les séries chronologiques, vous ne voulez pas mélanger des échantillons du futur avec des échantillons du passé).
    
Les différents modèles que vous utilisez auront différents hyperparamètres que vous pourrez régler.

Pour le cas de notre modèle, le [`RandomForestClassifier()`](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html), nous allons commencer à essayer différentes valeurs pour ` n_estimators` (une mesure du nombre d'arbres dans la forêt aléatoire).

Par défaut, « n_estimators=100 », alors que diriez-vous d'essayer les valeurs de « 100 » à « 200 » et de voir ce qui se passe (en général, plus c'est mieux) ?

In [18]:
# Essayez différents nombres d'estimateurs (arbres)... (pas de validation croisée)
np.random.seed(42)
for i in range(100, 200, 10):
    print(f"Trying model with {i} estimators...")
    model = RandomForestClassifier(n_estimators=i).fit(X_train, y_train)
    print(f"Model accuracy on test set: {model.score(X_test, y_test) * 100:.2f}%")
    print("")

Trying model with 100 estimators...
Model accuracy on test set: 73.68%

Trying model with 110 estimators...
Model accuracy on test set: 73.68%

Trying model with 120 estimators...
Model accuracy on test set: 75.00%

Trying model with 130 estimators...
Model accuracy on test set: 72.37%

Trying model with 140 estimators...
Model accuracy on test set: 73.68%

Trying model with 150 estimators...
Model accuracy on test set: 73.68%

Trying model with 160 estimators...
Model accuracy on test set: 73.68%

Trying model with 170 estimators...
Model accuracy on test set: 75.00%

Trying model with 180 estimators...
Model accuracy on test set: 73.68%

Trying model with 190 estimators...
Model accuracy on test set: 75.00%



Les mesures ci-dessus ont été mesurées sur un seul train et une division de test.

Utilisons [`sklearn.model_selection.cross_val_score`](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.cross_val_score.html) pour mesurer les résultats sur 5 ensembles d'entraînement et de test différents.

Nous pouvons y parvenir en définissant `cross_val_score(X, y, cv=5)`.

Où `X` est l'ensemble de fonctionnalités *complet* et `y` est l'ensemble d'étiquettes *complet* et `cv` est le nombre de fractionnements d'entraînement et de test que `cross_val_score` créera automatiquement à partir des données (dans notre cas, `5 ` différentes divisions, c'est ce qu'on appelle la validation croisée 5 fois).

In [19]:
from sklearn.model_selection import cross_val_score

# Avec validation croisée
np.random.seed(42)
for i in range(100, 200, 10):
    print(f"Trying model with {i} estimators...")
    model = RandomForestClassifier(n_estimators=i).fit(X_train, y_train)

    # Mesurer le score du modèle sur une seule répartition train/test
    model_score = model.score(X_test, y_test)
    print(f"Model accuracy on single test set split: {model_score * 100:.2f}%")
    
    # Mesurez le score moyen de validation croisée sur 5 divisions de train et de test différentes
    cross_val_mean = np.mean(cross_val_score(model, X, y, cv=5))
    print(f"5-fold cross-validation score: {cross_val_mean * 100:.2f}%")
    
    print("")

Trying model with 100 estimators...
Model accuracy on single test set split: 73.68%
5-fold cross-validation score: 82.15%

Trying model with 110 estimators...
Model accuracy on single test set split: 73.68%
5-fold cross-validation score: 81.17%

Trying model with 120 estimators...
Model accuracy on single test set split: 75.00%
5-fold cross-validation score: 83.49%

Trying model with 130 estimators...
Model accuracy on single test set split: 72.37%
5-fold cross-validation score: 83.14%

Trying model with 140 estimators...
Model accuracy on single test set split: 73.68%
5-fold cross-validation score: 82.48%

Trying model with 150 estimators...
Model accuracy on single test set split: 73.68%
5-fold cross-validation score: 80.17%

Trying model with 160 estimators...
Model accuracy on single test set split: 71.05%
5-fold cross-validation score: 80.83%

Trying model with 170 estimators...
Model accuracy on single test set split: 73.68%
5-fold cross-validation score: 82.16%

Trying model wit

Quel modèle a obtenu le meilleur score de validation croisée ?

Il s’agit généralement d’un meilleur indicateur d’un modèle de qualité qu’un score de précision unique.

Plutôt que de configurer et de suivre manuellement les résultats de ces expériences, nous pouvons demander à Scikit-Learn d'effectuer l'exploration à notre place.

[`sklearn.model_selection.GridSearchCV`](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.html) de Scikit-Learn est un moyen de rechercher sur un ensemble de valeurs d'hyperparamètres différentes et suivre automatiquement ceux qui fonctionnent le mieux.

Testons-le !

In [20]:
# Une autre façon de le faire avec GridSearchCV...
np.random.seed(42)
from sklearn.model_selection import GridSearchCV

# Définir les paramètres à rechercher sous forme de dictionnaire
# (il peut s'agir de n'importe lequel des hyperparamètres de votre modèle cible)
param_grid = {'n_estimators': [i for i in range(100, 200, 10)]}

# Configurer la recherche de grille
grid = GridSearchCV(estimator=RandomForestClassifier(),
                    param_grid=param_grid,
                    cv=5,
                    verbose=1) 

# Ajuster la recherche de grille aux données
grid.fit(X, y)

# Trouver les meilleurs paramètres
print(f"The best parameter values are: {grid.best_params_}")
print(f"With a score of: {grid.best_score_*100:.2f}%")

Fitting 5 folds for each of 10 candidates, totalling 50 fits
The best parameter values are: {'n_estimators': 120}
With a score of: 82.82%


Nous pouvons extraire le meilleur attribut `best_estimator_`.

In [21]:
# Définir le modèle pour qu'il soit le meilleur estimateur
clf = grid.best_estimator_
clf

Et maintenant que nous avons le meilleur modèle à validation croisée, nous pouvons l'adapter et l'évaluer sur notre répartition originale train/test unique des données.

In [22]:
# Ajuster le meilleur modèle
clf = clf.fit(X_train, y_train)

# Trouvez les meilleurs scores de modèle sur notre division de test unique
# (remarque : cela peut être inférieur au score de validation croisée puisqu'il ne concerne qu'une seule division des données)
print(f"Best model score on single split of the data: {clf.score(X_test, y_test)*100:.2f}%")

Best model score on single split of the data: 75.00%


#### 6. Enregistrez un modèle pour que quelqu'un d'autre puisse l'utiliser

Lorsque vous avez effectué quelques expériences et que vous êtes satisfait du fonctionnement de votre modèle, vous souhaiterez probablement que quelqu'un d'autre puisse l'utiliser.

Cela peut prendre la forme d'un coéquipier ou d'un collègue essayant de reproduire et de valider vos résultats ou d'un client utilisant votre modèle dans le cadre d'un service ou d'une application que vous proposez.

Enregistrer un modèle vous permet également de le réutiliser ultérieurement sans avoir à le recycler. Ce qui est utile, surtout lorsque vos temps d’entraînement commencent à augmenter.

Vous pouvez [enregistrer un modèle Scikit-Learn](https://scikit-learn.org/stable/model_persistence.html) à l'aide du [module`pickle` intégré à Python](https://docs.python.org/3 /bibliothèque/pickle.html).

In [23]:
import pickle

# Enregistrer un modèle existant dans un fichier
pickle.dump(model, open("random_forest_model_1.pkl", "wb"))

In [24]:
# Chargez un modèle de cornichon enregistré et évaluez-le
loaded_pickle_model = pickle.load(open("random_forest_model_1.pkl", "rb"))
print(f"Loaded pickle model prediction score: {loaded_pickle_model.score(X_test, y_test) * 100:.2f}%")

Loaded pickle model prediction score: 72.37%


Pour les modèles plus grands, il peut être plus efficace d'utiliser [Joblib](https://joblib.readthedocs.io/en/stable/).

In [25]:
from joblib import dump, load

# Enregistrer un modèle en utilisant joblib
dump(model, "random_forest_model_1.joblib")

['random_forest_model_1.joblib']

In [26]:
# Chargez un modèle joblib enregistré et évaluez-le
loaded_joblib_model = load("random_forest_model_1.joblib")
print(f"Loaded joblib model prediction score: {loaded_joblib_model.score(X_test, y_test) * 100:.2f}%")

Loaded joblib model prediction score: 72.37%


Nous avons parcouru beaucoup de terrain rapidement...

Décomposons les choses un peu plus en revisitant chaque section.