# Fondamentaux de l’entraînement de modèles pour l’apprentissage supervisé

Jusqu’à présent, nous avons abordé les concepts essentiels de l’apprentissage supervisé très simplement, en les répartissant dans des étapes incontournables de tout projet de *machine learning*. De la constitution du jeu de données à l’entraînement du modèle en passant par la visualisation des interactions entre les variables explicatives et leur pré-traitement (recodage, mise à l’échelle, gestion des données manquantes…), il est en quelques manipulations possible d’obtenir des résultats satisfaisants avec les outils de *Scikit-Learn* dans la mesure où l’on est certain·es de disposer de données fiables et d’avoir fixé un objectif compréhensible.

La réalité est plus nuancée. Si notre volonté n’est pas de dresser un panorama exhaustif des techniques de paramétrage d’un modèle d’apprentissage et de leurs subtilités, pour cela nous renvoyons à des ouvrages plus complets comme celui de Aurélien Géron, [*Hands-on Machine Learning with Scikit-Learn, Keras and TensorFlow*](https://www.oreilly.com/library/view/hands-on-machine-learning/9781098125967/), notre intention est d’infuser un certain nombre de réflexes propres à éviter les principaux écueils inhérents aux méthodes statistiques.

Commençons par charger les librairies nécessaires :

In [None]:
import pickle
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from math import sqrt
from scipy.stats import chi2_contingency
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import GridSearchCV
from sklearn.model_selection import learning_curve
from sklearn.model_selection import ShuffleSplit
from sklearn.model_selection import StratifiedShuffleSplit
from sklearn.model_selection import train_test_split
from sklearn.model_selection import validation_curve
from sklearn.metrics import mean_squared_error
from sklearn.metrics import mean_absolute_error
from sklearn.naive_bayes import GaussianNB
from sklearn.pipeline import make_pipeline
from sklearn.preprocessing import PolynomialFeatures
from sklearn.tree import DecisionTreeClassifier
from sklearn.tree import DecisionTreeRegressor

## Du problème de l’ajustement

Nous avons souvent évoqué les difficultés rencontrées par les modèles d’apprentissage pour s’ajuster aux données sans vraiment expliquer concrètement les deux cas de figure qui peuvent se présenter :
- Le **sous-ajustement** (*underfitting*), survenant lorsque le modèle ne parvient pas à percevoir la forme des données ;
- le **sur-ajustement** (*overfitting*), souvent caractérisé par des erreurs de généralisation bien plus importantes que celles d’entraînement.

L’objectif n’est donc pas d’obtenir le meilleur score sur le jeu d’entraînement ou, pire, sur le jeu de test, mais bien de trouver la zone idéale qui minimise l’écart entre les erreurs d’entraînement et de généralisation.

### Facteur de confusion

Avant d’entrer dans le vif du sujet, abordons un piège fondamental qui peut apparaître dès la définition du projet de *machine learning*. Imaginons que l’on souhaite modéliser un programme qui permette de prédire l’ampleur du bec d’un manchot et, comme variable explicative, nous retenons son poids.

Chargeons les données sur le recensement de trois espèces de manchots de l’Antarctique :

In [None]:
df = pd.read_csv("./data/penguin-census.csv")
df = df.dropna()

Un modèle simple de régression linéaire nous apprend qu’il existe une corrélation négative entre les deux variables, si bien que le bec d’un manchot s’affine à mesure que sa masse corporelle augmente. Les chiffres ne mentent pas et, si l’on considère en prime l’intervalle de confiance à 95 %, la marge d’erreur est somme toute raisonnable :

In [None]:
_ = sns.regplot(data=df, x="body_mass_g", y="bill_depth_mm")

La déduction nous semble malgré tout contre-intuitive. On aurait plutôt tendance à penser que les propriétés physiques de tout organisme biologique croissent proportionnellement à sa masse, non ?

Essayons de comprendre l’erreur de méthodologie que nous avons commise. Sur le graphique que nous venons d’afficher se distinguent deux groupes de points. Peut-être existe-t-il une différence entre les individus mâles et les individus femelles ?

In [None]:
_ = sns.lmplot(data=df, x="body_mass_g", y="bill_depth_mm", col="sex", hue="sex")

Eh bien, non, cette hypothèse nous conforte dans notre erreur. Avant de supposer une différenciation de genre, rappelons-nous plutôt que la grande famille des manchots est subdivisée en plusieurs espèces avec des disparités physiques fortes et regardons le comportement de notre modèle linéaire à la lumière de ce nouveau facteur :

In [None]:
_ = sns.lmplot(data=df, x="body_mass_g", y="bill_depth_mm", col="species", hue="species")

D’une corrélation négative entre la masse et l’épaisseur du bec d’un manchot nous sommes passés à une corrélation positive et avons évité de graves erreurs de généralisation au moment de la production de notre modèle.

Dans notre exemple, l’espèce d’appartenance d’un manchot est ce que l’on nomme un facteur de confusion, en ce sens qu’elle influe non seulement sur la variable cible, l’épaisseur du bec, mais aussi sur la variable explicative, la masse corporelle. En effet, si nous nous permettons une analyse grossière, un manchot papou ne peut pas peser moins de 4 kgs et son bec ne dépassera pas les 18 mm d’épaisseur pour les mieux lotis quand celui d’un manchot Adélie peut atteindre les 22 mm.

### Erreurs d’entraînement et de généralisation

#### Comparer les chiffres

La compréhension des notions liées à l’ajustement d’un modèle passe par la comparaison des erreurs sur les jeux d’entraînement et de test. Prenons tout d’abord un ensemble de points à l’aspect sinusoïdal :

In [None]:
# for deterministic purposes
np.random.seed(42)

# three hundred points
X = np.linspace(0, 10, 300).reshape(-1, 1)

# sinusoid function + noise
y = np.sin(X) + np.random.rand(300, 1)

# into a DF
coords = pd.DataFrame({
    'x': X[:, 0],
    'y': y[:, 0]
})

Si nous affichons un nuage de points, une forme se dessine clairement, nous laissant une vague idée sur la forme de la ligne qui devrait minimiser la fonction de coût :

In [None]:
_ = sns.scatterplot(data=coords, x="x", y="y")

Constituons maintenant les jeux d’entraînement et de test selon une partition 80/20 et essayons d’entraîner dessus un modèle de régression linéaire que nous savons d’ores et déjà voué à l’échec :

In [None]:
X_train, X_test, y_train, y_test = train_test_split(coords["x"].values.reshape(-1,1), coords["y"], test_size=0.2, random_state=42)

model = LinearRegression()
_ = model.fit(X_train, y_train)

Les prédictions sont désastreuses :

In [None]:
# predictions
y_pred = model.predict(X_test)

# plot test points
ax = sns.scatterplot(x=X_test[:, 0], y=y_test)
ax.plot(X_test, y_pred, color="orange")
_ = ax.set_title(f"R2 scores: train = {model.score(X_train, y_train):.3f} ; test = {model.score(X_test, y_test):.3f}")

D’un côté, en étant inférieur sur les données de test, le $R^2$ score est conforme à nos attentes ; d’un autre côté, il est révélateur d’un modèle sévèrement sous-ajusté.

Confirmons ce résultat en calculant maintenant l’erreur absolue moyenne (*mean absolute error*) et rappelons que si un score doit être le plus élevé possible, une erreur doit quant à elle être la plus faible possible :

In [None]:
# MAE
mae_train = mean_absolute_error(y_train, model.predict(X_train))
mae_test = mean_absolute_error(y_test, y_pred)

print(
    f"MAE (jeu d’entrainement) : {mae_train:.3f}",
    f"MAE (jeu de test) : {mae_test:.3f}",
    sep="\n"
)

In [None]:
max(y[:, 0])

Que l’erreur sur le jeu de test soit plus importante que sur le jeu d’entraînement est somme toute logique : on s’attend effectivement à ce que les prédictions soient de meilleure qualité sur des données déjà vue et que la généralisation se passe moins bien. Ceci dit, pour des valeurs de $y$ compris dans un intervalle $\mathopen{[} -1 ; 2\mathclose{]} $, une $\text{MAE} > 0.6$ ne laisse aucun doute : le modèle est sous-ajusté.

Reprenons nos efforts en entraînant désormais un modèle de régression polynomiale à haut degré :

In [None]:
# pipeline
model = make_pipeline(
    PolynomialFeatures(degree=25),
    LinearRegression(),
)
# fit
model.fit(X_train, y_train)

# predictions
y_train_predict = model.predict(X_train)
y_test_predict = model.predict(X_test)

# MAE
mae_train = mean_absolute_error(y_train, y_train_predict)
mae_test = mean_absolute_error(y_test, y_test_predict)

La MAE sur le jeu d’entraînement reste élevée tandis qu’elle a baissé sur le jeu de test au point de lui être maintenant inférieure :

In [None]:
figure, ax = plt.subplots()

sns.scatterplot(x=X_test[:, 0], y=y_test, ax=ax)
sns.lineplot(x=X_test[:, 0], y=y_test_predict, color="orange", ax=ax)

ax.set_title(f"MAE: train = {mae_train:.3f} ; test = {mae_test:.3f}")

plt.show()

Encore une fois on s’attendrait en fait à l’inverse d’un modèle justement entraîné, l’idée qu’il soit moins performant sur des données nouvelles étant tout à fait naturelle. Ici, c’est sans doute le signe que le modèle commence à surajuster. En tâtonnant un peu, on finirait par trouver qu’un polynôme de degré 7 ou 8 constitue le meilleur choix.

#### Améliorer l’estimation par la validation croisée

En réalisant aveuglément les évaluations de nos modèles au moment des phases d’entraînement et de test, nous avons mis au jour quelques incertitudes quant à leur crédibilité. Observons l’ampleur de l’enjeu avec un modèle basé sur un arbre de décision :

In [None]:
# model
model = DecisionTreeRegressor()
model.fit(X_train, y_train)

# predictions
y_train_predict = model.predict(X_train)

# MAE
mae_train = mean_absolute_error(y_train, y_train_predict)

# plot
figure, ax = plt.subplots()

sns.scatterplot(x=X_train[:, 0], y=y_train, ax=ax)
sns.lineplot(x=X_train[:, 0], y=y_train_predict, color="orange", ax=ax)

ax.set_title(f"MAE (train set) = {mae_train:.3f}")

plt.show()

Une MAE à 0.0 ! Un score parfait qui nous satisferait si l’on n’était conscient·es de la nette tendance des arbres de décision à sur-ajuster. Le graphique est explicite : sans contrainte, le tracé suit tous les points du jeu d’entraînement.

Dans la pratique, avant de passer à l’étape de généralisation, il convient de s’assurer que le modèle entraîné est fiable. Pour cela, rien de plus évident, il nous suffirait de découper le jeu d’entraînement en deux sous-ensembles avec la fonction `train_test_split()` : un pour l’entraînement effectif et l’autre pour la validation.

*Scikit-Learn* propose un outil plus performant pour réaliser ce que l’on appelle une validation croisée en $K$ passes. C’est les fonctions `cross_validate()` ou `cross_val_score()` lorsque l’on n’est intéressé·es que par les métriques. Le procédé consiste à découper le *dataset* en $K$ parties puis à effectuer $K$ évaluations en prenant à chaque passe $K - 1$ sous-ensembles pour l’entraînement et le restant, qui ne sera jamais le même, pour la validation.

In [None]:
# K = 10 ; score = -MAE
scores = cross_val_score(model, X_train, y_train, scoring="neg_mean_absolute_error", cv=10)
# -MAE into MAE
scores = -scores

print(
    f"MAE moyenne : {scores.mean():.3f}",
    f"Écart-type : {scores.std():.3f}",
    sep="\n"
)

Après validation croisée, notre modèle nous semble largement moins convaincant ! Il ne nous reste plus qu’à tout reprendre de zéro et à travailler sur les différentes solutions pour l’améliorer : changer d’algorithme, augmenter le nombre d’observations d’entraînement ou encore lui imposer des contraintes afin de le régulariser.

**Remarque :** le paramètre `scoring` de la fonction `cross_val_score()` attend une fonction d’utilité, où la valeur la plus haute est considérée comme la meilleure, et non une fonction de coût, où la valeur la plus basse est réputée la plus forte.

#### Visualiser les courbes de validation

Une bonne manière de se représenter les phénomènes de sous-ajustement et de sur-ajustement consiste à afficher les courbes de validation du modèle en fonction d’un paramètre avec la fonction `validation_curve()`. Dans notre exemple, nous avons utilisé un arbre de décision que l’on sait avoir tendance à sur-ajuster et nous sélectionnons deux paramètres réputés le régulariser : `max_depth` pour définir la profondeur maximale de l’arbre et `min_samples_leaf` pour fixer le nombre minimum d’observations à considérer dans un nœud de l’arbre.

In [None]:
# several values for each param
max_depth = [1, 4, 5, 7, 10, 25]
min_samples_leaf = [1, 3, 5, 7, 10, 15]

# param = max_depth ; score = -MAE
max_depth_train_scores, max_depth_test_scores = validation_curve(
    model, X_train, y_train,
    param_name="max_depth", param_range=max_depth,
    cv=10, scoring="neg_mean_absolute_error"
)
# param = min_samples_leaf ; score = -MAE
min_samples_leaf_train_scores, min_samples_leaf_test_scores = validation_curve(
    model, X_train, y_train,
    param_name="min_samples_leaf", param_range=min_samples_leaf,
    cv=10, scoring="neg_mean_absolute_error"
)

# -MAE into MAE
max_depth_train_errors, max_depth_test_errors = -max_depth_train_scores, -max_depth_test_scores
min_samples_leaf_train_errors, min_samples_leaf_test_errors = -min_samples_leaf_train_scores, -min_samples_leaf_test_scores

# plot
figure, (ax1, ax2) = plt.subplots(ncols=2, figsize=(12,5))

sns.lineplot(x=max_depth, y=max_depth_train_errors.mean(axis=1), ax=ax1)
sns.lineplot(x=max_depth, y=max_depth_test_errors.mean(axis=1), ax=ax1)
sns.lineplot(x=min_samples_leaf, y=min_samples_leaf_train_errors.mean(axis=1), ax=ax2)
sns.lineplot(x=min_samples_leaf, y=min_samples_leaf_test_errors.mean(axis=1), ax=ax2)

ax1.set(
    title="Paramètre : max_depth",
    xlabel="Profondeur maximale de l’arbre",
    ylabel="Erreur absolue moyenne"
)
ax2.set(
    title="Paramètre : min_samples_leaf",
    xlabel="Nombre minimum d’observations dans un nœud",
    ylabel="Erreur absolue moyenne"
)
ax1.legend(title="Jeux de données", labels=["entraînement", "validation"])
ax2.legend(title="Jeux de données", labels=["entraînement", "validation"])

figure.suptitle("Courbes de validation de l’arbre de décision")

plt.show()

L’analyse des graphiques nous révèle les valeurs idéales pour les paramètres de régularisation :
- `max_depth` : 5
- `min_samples_leaf`: 3

Pour chacun d’eux, nous distinguons trois zones :
1. Tant que la valeur du paramètre est inférieure à celle idéale, le modèle sous-ajuste. Il n’a pas assez de degré de liberté pour comprendre toutes les variations de la variable cible. La MAE est forte pour les deux tracés.
2. Lorsque le tracé de la MAE pour le jeu de validation cesse de décroître, le modèle a atteint la zone où il généralise le mieux.
3. Sitôt que la valeur idéale est dépassée, le modèle s’ajuste de plus en plus étroitement aux données d’entraînement et généralise de moins en moins bien.

À ces observations, il faut en rajouter une sur l’écart entre les deux tracés. Dans le cas du paramètre `min_samples_leaf`, on serait tenté·es de retenir la valeur 5 comme la meilleure puisque la MAE sur le jeu de validation reste stable alors qu’elle baisse sur le jeu d’entraînement. En fait, cet écart montre que le modèle est en train de sur-ajuster, aussi est-il préférable d’opter pour la valeur qui minimise l’écart.

**Remarque :** les paramètres ont été testés individuellement, sans essayer les différentes combinaisons entre eux. Nous verrons plus loin une méthode pour effectuer une recherche des meilleurs réglages des hyperparamètres.

## Entraîner, tester, valider

### Sélectionner les variables explicatives

En fonction de l’objectif défini pour le programme d’apprentissage, il sera nécessaire de laisser de côté certaines variables du jeu de données. Deux perspectives peuvent nous aider à faire le tri :
- Une expertise personnelle ou glanée auprès de spécialistes de la thématique ;
- l’étude de la corrélation entre les variables explicatives et la variable cible.

Laissons de côté la première pour expliquer la notion de corrélation entre variables. Si elles sont à l’origine réputées indépendantes, la recherche de corrélation va mettre en évidence une relation dont la prépondérance sera calculée par un coefficient. Rappelons qu’une corrélation n’est surtout pas la preuve de l’existence d’un lien de cause à effet.

#### Corrélation entre variables quantitatives

Pour illustrer notre propos, chargeons plutôt en mémoire un jeu de données sur la satisfaction à l’égard de la vie des femmes des pays de l’OCDE et retenons uniquement quelques indicateurs pour des raisons de lisibilité :

In [None]:
# dataset without na
df = pd.read_csv("./data/better-life-index-women-2021.csv", index_col=[0])
es_edua_mean = int(df["ES_EDUA"].mean())
df["ES_EDUA"].fillna(es_edua_mean, inplace=True)

target = "SW_LIFS"
features = ["HS_LEB", "ES_EDUA", "SC_SNTWS", "PS_REPH"]

data = df[features + [target]]
X = data[features]
y = data[target]

Pour des variables quantitatives, nous pouvons invoquer la méthode `.corr()` qui dresse une matrice de corrélation avec, pour mesure par défaut, le $R$ de Pearson, où 0 indique une absence de corrélation et -1 et 1 une corrélation forte, qu’elle soit négative ou positive :

In [None]:
# method="pearson"
correlation_matrix = data.corr()
# heatmap
_ = sns.heatmap(correlation_matrix, annot=True)

Dans notre exemple, nous observons une corrélation positive assez forte entre la satisfaction à l’égard de la vie d’une part et, d’autre part, la qualité du réseau social ou l’espérance de vie. À l’inverse, le taux d’homicide semble influer négativement dessus.

#### Corrélation entre variables qualitatives

Pour des variables qualitatives, il n’existe malheureusement pas d’outil clé en main, mais nous pouvons nous reposer sur des tests statistiques éprouvés. Prenons une autre enquête, sur la satisfaction de patients relativement à leur séjour à l’hôpital :

In [None]:
# data without na
df = pd.read_csv("./data/satisfaction-hopital.csv", sep=";")
df.fillna(method="pad", inplace=True)

target = "recommander"
features = ["score.information", "score.relation", "amelioration.moral", "amelioration.sante", "sexe", "age", "profession", "service"]

data = df[features + [target]]
X = data[features]
y = data[target]

En dépit de leur allure numérique, la majorité des variables sont qualitatives. Retenons *service* et *recommander* en construisant une table de contingence à l’aide de la méthode `.crosstable()` :

In [None]:
contingency_table = pd.crosstab(data.service, data.recommander)

Émettons maintenant l’hypothèse nulle $H_0$ d’indépendance entre les deux variables, hypothèse que nous sommes prêt·es à rejeter au seuil de 5 %, et effectuons comme mesure le test du $\chi^2$ (*Chi-squared test*) en nous reposant sur la fonction `chi2_contingency()` du module `stats` de la bibliothèque *SciPy* :

In [None]:
chi2, p, dof, exp = chi2_contingency(contingency_table)
print(f"Valeur-p : {p:.3f}")

La valeur-p (*p-value*) est bien inférieure au seuil de 5 %, ce qui nous autorise à rejeter notre hypothèse nulle et à déclarer que la corrélation entre les variables *service* et *recommander* est statistiquement significative.

### L’échantillonnage stratifié

Dans le précédent chapitre, nous avons évoqué l’importance d’évaluer la performance du jeu d’entraînement avant de passer à l’étape de généralisation, sans pour autant préciser la manière de le construire proprement. Nous nous sommes même contenté d’une méthode purement aléatoire en faisant appel à la fonction `train_test_split()`. Si elle est satisfaisante en présence d’un volume considérable d’observations, le risque d’introduire un biais d’échantillonnage n’est pas négligeable lorsque les données manquent.

Imaginons que, renseignements pris auprès de spécialistes du domaine, nous apprenons que la profession des patient·es est un facteur déterminant du score de satisfaction qu’ils et elles attribueront à leur séjour à l’hôpital. Regardons maintenant la distribution des individus par catégorie professionnelle :

In [None]:
_ = sns.countplot(data=X, x="profession")

Au vu des disparités, nous souhaitons regrouper les professions dans des catégories plus larges qui n’ont de sens que du point de vue mathématique. Pour cette raison, nous n’expliquerons pas les indices attribués aux catégories professionnelles dans l’enquête et reportons ci-dessous uniquement les regroupement proposés :
- 1, 2 et 8 ensemble ;
- 3 ;
- 4 avec 7 ;
- 5 avec 6.

Recodons à présent la catégorie dans une variable *prof_cat* et regardons la nouvelle répartition :

In [None]:
X.loc[X["profession"] == 3, "prof_cat"] = "3"
X.loc[(X["profession"] == 1) | (X["profession"] == 2) | (X.profession == 8), "prof_cat"] = "1, 2 et 8"
X.loc[(X["profession"] == 4) | (X["profession"] == 7), "prof_cat"] = "4 et 7"
X.loc[(X["profession"] == 5) | (X["profession"] == 6), "prof_cat"] = "5 et 6"

_ = sns.countplot(data=X, x="prof_cat")

Les catégories sont plus équilibrées. Il ne nous reste plus qu’à constituer les différents jeux dont nous avons besoin pour analyser les écarts engendrés par la répartition aléatoire des observations :

In [None]:
# train & test sets
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# prop data set - prop train set
X["prof_cat"].value_counts() / len(X) - X_train["prof_cat"].value_counts() / len(X_train)

Les différences ne sont guère notables dans ce cas de figure, mais comme nous voulons que notre jeu d’entraînement reflète la même répartition de patient·es en fonction de leur profession que dans le jeu complet, nous optons pour un échantillonnage stratifié. Il se trouve que la fonction `train_test_split()` accepte un argument `stratify` :

In [None]:
X_train_strat, X_test_strat, y_train_strat, y_test_strat = train_test_split(X, y, stratify=X["prof_cat"], test_size=0.2, random_state=42)

Grâce à cette astuce, les écarts étant désormais infimes, nous sommes assuré·es de la représentativité de notre jeu d’entraînement sur le critère de la catégorie professionnelle des individus statistiques :

In [None]:
X["prof_cat"].value_counts() / len(X) - X_train_strat["prof_cat"].value_counts() / len(X_train_strat)

Et pour rendre plus propres nos jeux de données, nous pouvons supprimer la variable *prof_cat* créée artificiellement :

In [None]:
for dataset in [X, X_train, X_train_strat, X_test, X_test_strat]:
    dataset.drop(columns="prof_cat", inplace=True)

### Déterminer le gain de données supplémentaires

On ne cesse de le répéter, c’est comme un proverbe : plus on a de données pour l’entraîner, meilleur sera le modèle. Dans l’absolu, c’est la bonne règle à suivre, mais depuis que l’on a mentionné le problème du sur-ajustement, la question ne nous paraît plus aussi simple.

Déjà, sur la partition du 80/20, est-il si judicieux de suivre une norme relative quelle que soit la taille du jeu de données ? Pour une enquête comprenant cinq cents observations, en dédier quatre cents à l’entraînement et en conserver cent pour les tests nous paraît tomber sous le sens, mais qu’en serait-il si l’on disposait d’un million d’observations ? En faudrait-il vraiment huit cent mille pour s’assurer d’obtenir un bon modèle ? Et si au contraire nous n’avons que très peu de données, de l’ordre de la centaine, peut-on se contenter d’une vingtaine pour les tests ?

Ensuite, au moment d’évaluer notre modèle, comment résister à la tentation de ne pas améliorer encore un peu plus son score en augmentant le volume du jeu d’entraînement ? Les gains marginaux, à l’échelle de la décimale, peuvent avoir au final leur importance.

Afin de décider de cette frontière, laissons-nous guider par les courbes d’apprentissage que l’on peut dessiner à partir des résultats de la fonction `learning_curve()`. Commençons par entraîner sur les données de la satisfaction à l’hôpital un modèle simple basé sur la classification naïve bayésienne :

In [None]:
model = GaussianNB()
_ = model.fit(X_train_strat, y_train_strat)

Définissons ensuite une stratégie de validation croisée grâce à la classe `ShuffleSplit` :

In [None]:
cv = ShuffleSplit(n_splits=30, test_size=0.2, random_state=42)

L’idée étant de connaître l’apport d’une fraction de données supplémentaires pour l’entraînement de notre modèle, nous établissons une règle linéaire qui ajoute à chaque itération 10 % du total :

In [None]:
train_sizes = np.linspace(0.1, 1, num=10)

Lançons la fonction qui permet de récupérer les scores pour chaque tranche :

In [None]:
# n_jobs: one cpu only
train_size, train_scores, test_scores = learning_curve(model, X, y, train_sizes=train_sizes, cv=cv, n_jobs=1)

Affichons le graphique :

In [None]:
figure, ax = plt.subplots()

sns.lineplot(x=train_size, y=train_scores.mean(axis=1), ax=ax)
sns.lineplot(x=train_size, y=test_scores.mean(axis=1), ax=ax)

ax.set(
    title="Courbes d’entraînement du classifieur naïf bayésien",
    xlabel="Nombre d’observations",
    ylabel="Exactitude"
)
ax.legend(title="Jeux de données", labels=["entraînement", "test"])

plt.show()

Si l’on suit la courbe bleue qui matérialise la performance du modèle sur le jeu d’entraînement, nous comprenons bien qu’il sur-ajuste au début de l’apprentissage (> 75 % d’exactitude pour < 50 observations) avant de stagner autour de 67 % à partir de 300 observations. Pour le jeu de test, on observe deux pics à 220 et 300 observations puis une tendance à la baisse qui ne semble pas s’inverser. Rappelons également que l’objectif est de minimiser l’écart entre les deux courbes et nous pourrons en déduire que le nombre idéal d’observations à retenir pour le jeu d’entraînement n’est pas de 427 (80 % de `len(X)`), mais plutôt autour de 300.

## Régulariser un modèle

Nous l’avons souvent évoqué, les différentes familles d’algorithmes d’apprentissage viennent avec leurs contraintes et leurs limites. Les arbres de décision, par exemple, montrent tout de suite des résultats hautement satisfaisants mais au prix d’un sur-ajustement caractéristique. À l’inverse, un modèle linéaire à faible degré de liberté sera certes moins sensible aux données mais échouera à capter leur forme.

Si déjà le choix de l’algorithme d’apprentissage est déterminant, il est en plus possible de le paramétrer afin de réduire ses défauts et d’obtenir un compromis entre **le biais** et **la variance**. Cette étape dite de régularisation consiste non seulement à trouver la bonne combinaison entre les hyperparamètres mais aussi à déterminer la meilleure valeur à leur attribuer pour optimiser les performances du modèle.

### Un hyperparamètre ?

Les algorithmes d’apprentissage de *Scikit-Learn* sont fournis avec des paramètres fixés avec une valeur par défaut. Par exemple, la classe `DecisionTreeClassifier` expose un paramètre `min_samples_split` fixé à 2 par défaut. Deux étant le nombre minimum d’observations requis avant de scinder un nœud de l’arbre de décision, un parti pris qui incite le modèle à sur-ajuster.

Ces paramètres sont nommés **hyperparamètres** pour bien les différencier des autres en ce sens qu’ils influent directement sur la procédure d’apprentissage. Plutôt que de les lister pour chaque classe, nous renvoyons à la documentation de *Scikit-Learn* et allons plutôt explorer les moyens de les révéler et de les évaluer.

Reprenons l’enquête de satisfaction à l’hôpital pour évaluer les performances d’un arbre de décision simple :

In [None]:
model = DecisionTreeClassifier()

scores = cross_val_score(model, X_train_strat, y_train_strat)
print(f"Exactitude du modèle par validation croisée : {scores.mean():.3f} +/- {scores.std():.3f}")

Nous ne commenterons pas la performance du modèle, pour parler plutôt de la méthode `.get_params()` qui fournit un dictionnaire de ses hyperparamètres et des valeurs attribuées :

In [None]:
model.get_params()

La méthode `.set_params()` quant à elle permet de modifier les valeurs définies :

In [None]:
for max_depth in range(1, 5):
    model.set_params(max_depth=max_depth)
    scores = cross_val_score(model, X_train_strat, y_train_strat)
    print(f"Exactitude pour `max_depth` = {max_depth} : {scores.mean():.3f} +/- {scores.std():.3f}")

### Rechercher les meilleurs réglages automatiquement

Rechercher manuellement les réglages des hypermaramètres serait d’autant plus fastidieux que, bien souvent, on ne se limite pas à un seul modèle mais on en compare plusieurs.

La solution consiste à effectuer une recherche par quadrillage en appelant la classe `GridSearchCV` de *Scikit-Learn*. La première étape consiste à définir une liste des différentes combinaisons d’hyperparamètres et de leurs valeurs à tester :

In [None]:
param_grid = [
    {"max_depth": range(1,3), "max_features": range(1,3)},
    {"max_depth": range(1,3), "max_features": range(1,3), "min_samples_leaf": range(2,10)}
]

Deuxièmement, il faut transmettre la grille des paramètres au constructeur de la classe et l’entraîner comme un estimateur normal :

In [None]:
grid_search = GridSearchCV(model, param_grid, cv=5)
_ = grid_search.fit(X_train_strat, y_train_strat)

En retour, la propriété `.best_params_` fournit les meilleures combinaisons d’hyperparamètres avec leurs réglages :

In [None]:
grid_search.best_params_

Et `.best_estimator_` affiche le modèle idéal :

In [None]:
grid_search.best_estimator_

Il est également possible de récupérer les scores de chaque combinaison, compulsés par la propriété `.cv_results_` :

In [None]:
scores = grid_search.cv_results_

for mean_test_score, params in zip(scores["mean_test_score"], scores["params"]):
    print(f"{mean_test_score:.3f} : {params}")

## Réutiliser un modèle

De la compréhension du jeu de données par l’analyse des interactions entre les variables à l'évaluation de la perfomance des estimateurs grâce aux courbes d’apprentissage et de validation, toutes les étapes vers la régularisation du meilleur modèle demande du temps et, après avoir passé plusieurs heures à calculer les différentes combinaisons entre les hyperparamètres, nous souhaiterions sauvegarder notre modèle pour le réutiliser plus tard.

Le module *Pickle* répond à ce besoin en sérialisant un objet Python en un flux d’octets grâce à la méthode `.dump()` :

In [None]:
# mode="wb": binary mode
pickle.dump(model, open("./data/model.pkl", "wb"))

Et pour effectuer l’opération inverse de désérialiser un flux d’octets, il suffit d’appeler la méthode `.load()` :

In [None]:
model = pickle.load(open("./data/model.pkl", "rb"))