---
jupyter:
  jupytext:
    formats: ipynb,md
    text_representation:
      extension: .md
      format_name: markdown
      format_version: '1.3'
      jupytext_version: 1.16.0
  kernelspec:
    display_name: Python 3 (ipykernel)
    language: python
    name: python3
---

<!-- #region id="8288df97" -->
# Table des matières
1. [Qu'est-ce que Scikit-learn?](#quest-ce-que-scikit-learn)
1. [Une boîte à outils indispensable](#une-boîte-à-outils-indispensable)
1. [Sélectionner le meilleur estimateur; le GPS du développeur](#sélectionner-le-meilleur-estimateur-le-gps-du-développeur)
1. [Les exemples de la librairie](#les-exemples-de-la-librairie)
1. [La philosophie de Scikit-learn](#la-philosophie-de-scikit-learn)
1. [Méthodologie d'entraînement des modèles](#méthodologie-dentraînement-des-modèles)
1. [Prétraitement des données](#prétraitement-des-données)
1. [Exercice](#exercice)
1. [Pour en savoir plus](#pour-en-savoir-plus)
1. [Aide-mémoires](#aide-mémoires)

# Attention!
Ne lancez pas l'exécution automatique du notebook en entier en cliquant sur le bouton **Tout exécuter**. L'exécution serait interrompue, car certaines cellules exigent une entrée de votre part!

Il faut simplement exécuter le notebook, une cellule à la fois, et entrer quelques lignes de code lorsque demandées. Il est inutile de sauter ces cellules pour aller aux suivantes car celles-ci ont justement besoin de votre input!

Importons d'abord les librairies nécessaires.
<!-- #endregion -->



In [None]:
import warnings

import numpy as np
import sklearn
from imblearn.over_sampling import SMOTE
from sklearn import svm
from sklearn.svm import LinearSVC
from sklearn.datasets import load_wine
from sklearn.decomposition import PCA
from sklearn.ensemble import IsolationForest, RandomForestClassifier
from sklearn.experimental import enable_iterative_imputer
from sklearn.impute import IterativeImputer
from sklearn.metrics import accuracy_score, classification_report
from sklearn.model_selection import GridSearchCV, train_test_split
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler

warnings.filterwarnings("ignore")

seed = 42
np.random.seed(seed)



<!-- #region id="1ea1c306" -->
<div align="center">
    <img src= "../images/scikit-learn.png"  width="500" />
    <div>
    <font size="0.5">Image Source: https://radw2020.github.io/2016/11/01/Machine-Learning-con-Java/</font>
    </div>
</div>
<!-- #endregion -->

<!-- #region id="aec7d7cc" -->
# <a id=quest-ce-que-scikit-learn>Qu'est-ce que Scikit-learn?</a>
<!-- #endregion -->

<!-- #region id="466d3096" -->
Scikit-learn est la librairie la plus utile et la plus robuste pour l'apprentissage automatique en Python. Elle fournit une sélection d'outils efficaces pour l'apprentissage automatique et la modélisation statistique, notamment pour:

- la classification,
- la régression,
- le regroupement de données (*Data Clustering*),
- la réduction de la dimensionnalité.

La librairie, qui est en grande partie écrite en Python, est elle-même basée sur celles de

- Numpy,
- SciPy,
- Matplotlib.


À l'origine, elle s'appelait scikits.learn et elle a été initialement développée par David Cournapeau en tant que [projet d'été de code de Google](https://summerofcode.withgoogle.com/) en 2007!
<!-- #endregion -->

<!-- #region id="a213b6c8" -->
# <a id=une-boîte-à-outils-indispensable>Une boîte à outils indispensable</a>
<!-- #endregion -->

<!-- #region id="e9f41362" -->
<div align="center">
    <img src= "../images/toolbox.jpeg"  width="350" />
    <div>
    <font size="0.5">Image Source: https://radw2020.github.io/2016/11/01/Machine-Learning-con-Java/</font>
    </div>
</div>
<!-- #endregion -->

<!-- #region id="5453cf00" -->
Plutôt que de se concentrer sur le chargement, la manipulation et la synthèse des données, la bibliothèque
Scikit-learn se concentre sur la modélisation des données. Parmi les groupes de modèles les plus populaires fournis par Scikit-learn, on retrouve les suivants :

**Algorithmes d'apprentissage supervisé**

- la régression linéaire,
- la machine à vecteurs de support,
- l'arbre de décision,
- la forêt aléatoire,
- le perceptron multicouche (réseau de neurones très simple).


**Algorithmes d'apprentissage non supervisé**

- le regroupement des données (*Data Clustering*),
- l'analyse factorielle,
- l'analyse en composantes principales.


**Regroupement des données**

Cette approche, en apprentissage non supervisé, est utilisée pour regrouper des données non étiquetées. On y retrouve:

- les k-moyennes,
- le mélange de distributions gaussiennes,
- le regroupement spectral,
- la méthode DBSCAN.


**Validation croisée**

Elle est utilisée pour mesurer l'exactitude des modèles supervisés nouvellement entraînés, sur de nouvelles données. Elle est utilisée entre autres pour:

- l'entraînement de modèles,
- l'optimisation de modèles avec grilles d'hyperparamètres,
- la sélection d'un modèle optimal parmi plusieurs,
- l'entraînement d'un pipeline de prétraitement ou de traitement des données.


**Réduction de la dimensionnalité**

Elle est utilisée pour réduire le nombre d'attributs dans les données qui
peuvent être ensuite utilisés pour la synthèse, la visualisation et la sélection de caractéristiques. On y retrouve:

- l'analyse en composantes principales,
- l'analyse par discriminants linéaires,
- la méthode IsoMap,
- l'échelonnage multidimensionnel métrique,
- la méthode t-SNE.

**Méthodes d'ensemble**

Elles sont utilisées pour combiner les prédictions de plusieurs modèles supervisés. Elles rivalisent souvent avec les réseaux de neurones en matière de performances. On y retrouve:

- la méthode AdaBoost,
- le *gradient tree boosting*,
- la méthode *extra trees*,
- la forêt aléatoire.



**Extraction de caractéristiques**

Elle permet d'extraire des caractéristiques de données de types image et texte pour définir
des attributs numériques. Par exemple, on s'en sert pour transformer un texte en
tableau de valeurs numériques pouvant être utilisé ensuite dans un algorithme de classification.


**Sélection de caractéristiques**

Elle est utilisée pour identifier les variables utiles pour créer des modèles supervisés.
On isole dans un espace de grande dimension un sous-ensemble de variables pertinentes. On cherche à minimiser la perte d'information venant de la suppression de toutes les autres variables. C'est une méthode de réduction de la dimensionnalité.


**Détection d'anomalies**

La détection d'anomalies est l'identification d'éléments, d'événements ou d'observations rares qui soulèvent des suspicions en différant de manière significative de la majorité des autres données. On y retrouve:

- l'enveloppe elliptique,
- la forêt d'isolement,
- le facteur d'aberration local,
- le SVM à une classe.


**Open Source**

C'est une bibliothèque libre de droits (*open source*) et également utilisable commercialement sous licence BSD.
<!-- #endregion -->

<!-- #region id="d68a07a1" -->
# <a id=sélectionner-le-meilleur-estimateur-le-gps-du-développeur>Sélectionner le meilleur estimateur; le GPS du développeur</a>
<!-- #endregion -->

<!-- #region id="d33ad8e1" -->
<div align="center">
    <img src= "../images/estimator.png"  width="400" />
    <div>
    <font size="0.5">Image Source: https://pxhere.com/en/photo/1569701</font>
    </div>
</div>
<!-- #endregion -->

<!-- #region id="f5899239" -->
Après avoir déterminé le type de problème sur lequel on travaille (régression? classification? regroupement des données? etc.), on est souvent pris au dépourvu lorsque vient le moment de sélectionner un modèle pour traiter nos données. Devrions-nous utiliser les plus populaires du moment, les plus faciles à comprendre, les plus performants? Il est recommandé de commencer par un algorithme simple pour voir si l'on comprend bien nos données et le problème à résoudre. Ce premier essai ne sera probablement pas bien performant, mais il va nous aider à résoudre beaucoup de problèmes avant de passer à la vitesse supérieure. C'est pourquoi il est fortement recommandé de consulter les exemples fournis par Scikit-learn; on en discute plus loin dans le module.

Une fois cette étape réalisée, et tous les petits et grands problèmes réglés, on peut passer à des algorithmes plus puissants en suivant une logique basée sur l'expérience de milliers de développeurs avant nous.

La figure suivante montre le [graphe des modèle](https://scikit-learn.org/stable/tutorial/machine_learning_map/index.html); c'est le GPS du développeur. Le lien web mène à la version interactive du graphe. En cliquant sur n'importe quel nom de méthode (en case verte), on accède à la page web décrivant celle-ci et ses applications, avec quelques exemples à la fin. Le lien menant à la fonction Python associée apparaît dans le paragraphe sous le titre. Toutes les fonctions n'apparaissent pas dans le graphe, mais vous disposez de suffisamment d'informations pour guider votre recherche.

<!-- #endregion -->

<!-- #region id="dd0bc579" -->
<div align="center">
    <img src= "../images/scikit-cheat.png"  width="900" />
    <div>
    <font size="0.5">Image Source: https://scikit-learn.org/stable/tutorial/machine_learning_map/index.html</font>
    </div>
</div>
<!-- #endregion -->

<!-- #region id="e2382c4b" -->
La figure se lit comme suit. Supposons que l'on désire regrouper des données en trois groupes et qu'on dispose de 2 000 données multidimensionnelles $X=[x_1, x_2, \cdots, x_n]$ où les $x_i$ sont des caractéristiques mesurées, sans réponses ou étiquettes $y$ associées. On doit prédire une catégorie, dans ce cas-ci le numéro du groupe associé à chaque donnée $X$. À partir du point de départ, on se rend dans la section *clustering*. La carte suggère d'utiliser la méthode *K-Means*. Si elle ne fonctionne pas bien avec nos données, on nous suggère d'essayer plutôt les méthodes de regroupement spectral ou de mélange de gaussiennes. Voilà!
<!-- #endregion -->

<!-- #region id="3704e2ca" -->
# <a id=les-exemples-de-la-librairie>Les exemples de la librairie</a>
<!-- #endregion -->

<!-- #region id="72792a33" -->
La familiarité des méthodes vient avec l'usage. C'est pourquoi il est recommandé d'en essayer plusieurs et de les comparer entre elles afin d'en découvrir les forces et les faiblesses. Une bonne approche consiste à explorer la section [Exemples](https://scikit-learn.org/stable/auto_examples/index.html) de la librairie. C'est un incontournable.

La figure suivante montre les premiers exemples de la série en classification.
Explorez la diversité des exemples pour chaque méthode et soyez attentifs au code Python
présent dans ceux-ci; on y apprend beaucoup de choses. Vous pourrez retravailler ceux-ci, expérimenter l'effet de divers paramètres des fonctions, ou expérimenter avec des jeux de données différents.

Les exemples devraient être relativement faciles à réutiliser dans vos
cahiers Jupyter. La principale difficulté rencontrée sera souvent due au formatage des données que vous
devrez traiter. Doivent-elles être prétraitées? Devez-vous transformer vos données dans un
DataFrame Pandas? Devez-vous éliminer quelques colonnes? Le prétraitement est souvent une étape à franchir
parmi d'autres lors du démarrage d'un projet. Il faut s'y faire. Ce cours contient une
série de modules consacrés aux diverses approches en prétraitement. Il faut y revenir de temps en temps
jusqu'à ce que le sujet devienne familier.


<!-- #endregion -->

<!-- #region id="c12dc949" -->
<div align="center">
    <img src= "../images/classification.png"  width="900" />
    <div>
    <font size="0.5">Image Source: https://scikit-learn.org/stable/auto_examples/index.html/</font>
    </div>
</div>
<p>&nbsp;</p>
<!-- #endregion -->

<!-- #region id="0acc553f" -->
Comme pour une encyclopédie, ou pour l'internet, il arrive souvent qu'un exemple mène à un autre, puis un
autre, et ainsi de suite. Si c'est le cas, c'est que vous plongez graduellement dans l'univers de
Scikit-learn. Une suite d'indices vous mènera éventuellement au but. L'exploration et les expérimentations sont le chemin le plus sûr vers les découvertes.

<!-- #endregion -->

<!-- #region id="ce970012" -->
<p>&nbsp;</p>
<div align="center">
    <img src= "../images/discovery.jpeg"  width="600" />
    <div>
    <font size="0.5">Image Source: https://culturacientifica.com/2017/01/07/naukas16-cuando-indiana-jones-se-astronomo//</font>
    </div>
</div>
<p>&nbsp;</p>

<!-- #endregion -->

<!-- #region id="6af89fb5" -->
Un observateur averti remarquera que plusieurs des exemples de Scikit-learn ont servi de base pour
créer certains des modules de ce cours; cela montre à quel point leur exploration est utile pour vous et ... pour nous!

<!-- #endregion -->

<!-- #region id="9dc6287a" -->
# <a id=la-philosophie-de-scikit-learn>La philosophie de Scikit-learn</a>
<!-- #endregion -->

<!-- #region id="0b09a525" -->
Les concepteurs de la librairie ont oeuvré à maintenir une cohérence dans la façon dont on analyse les données. Il n'y a pas vingt méthodes pour traiter vingt estimateurs différents. Idéalement, il n'y en a qu'une ou deux, et préférablement une seule. La simplicité de la grammaire facilite la compréhension. Il faut être familier avec l'approche orientée objet qui est au coeur de la librairie. C'est assez différent du langage Matlab, par exemple, qui utilise un style de programmation plus classique. En fait, on peut dire la même chose des librairies Matplotlib et Seaborn décrites dans le module sur la visualisation des données.

Dans cette partie, nous allons nous pencher sur l'approche systématique de Scikit-learn en apprentissage automatique. Chacun des points a été abordé à de multiples reprises dans les modules précédents. Néanmoins, il est utile de les revisiter en mettant cette fois-ci l'accent sur la méthode plutôt que sur ses applications.

Nous allons revoir les points suivants qui comptent parmi les joyaux de la librairie:

- la méthodologie d'entraînement des modèles,
- le prétraitement des données,
- l'optimisation d'un modèle,
- les pipelines de traitement.
<!-- #endregion -->

<!-- #region id="44a35ae8" -->
On utilise un  jeu de données sur des échantillons de [vins](https://rowannicholls.github.io/python/data/sklearn_datasets/wine.html). Les données sont les résultats d'une analyse chimique de 178 vins cultivés dans la même région en Italie par trois vignerons différents. Les 13 caractéristiques mesurées pour chaque vin sont:


- la concentration en alcool,
- la concentration en acide malique,
- la concentration en  cendres,
- la concentration en  magnésium,
- la concentration en  phénols totaux,
- la concentration en  flavonoïdes,
- la concentration en  phénols flavonoïdes,
- la concentration en  proanthocyanidines,
- l'intensité de la couleur, 
- la teinte, 
- le rapport DO280/DO315 des vins dilués, 
- la concentration en  proline.


Le but de l'analyse est de construire un classificateur permettant d'identifier la provenance (le vigneron) de chaque échantillon de vin. C'est un problème de classification en 13-D et à trois classes.
<!-- #endregion -->

<!-- #region id="c485aa10" -->
# <a id=méthodologie-dentraînement-des-modèles>Méthodologie d'entraînement des modèles</a>
<!-- #endregion -->

<!-- #region id="84e7316b" -->
Dans cette section, nous allons voir la procédure utilisée pour entraînement et tester les performances de différentes méthodes de classification. On utiliserait une approche similaire pour les problèmes de régression et de regroupement des données. Aucun prétraitement n'est utilisé; c'est le sujet de la section suivante.
<!-- #endregion -->



In [None]:
# Lecture du jeu de données

X, y = load_wine(return_X_y=True)



<!-- #region id="bdf2013b" -->
On utilise un échantillonnage stratifié afin de respecter la distribution des types de vin. Le jeu de données étant assez facile à classifier, on rend la tâche plus ardue en n'utilisant que $25~\%$ des données pour l'entraînement
<!-- #endregion -->



In [None]:
# Séparation des données en ensembles d'entraînement ($25~\%$ des données) et de test ($75~\%$ restants).

X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.75, stratify=y, random_state=seed
)



<!-- #region id="60730220" -->
On utilise un classificateur par forêt aléatoire.
<!-- #endregion -->



In [None]:
rf = RandomForestClassifier(random_state=0)

# Entraînement du modèle avec les données d'entraînement

model = rf.fit(X_train, y_train)

# Prédiction du modèle avec les données de test

y_pred = model.predict(X_test)



<!-- #region id="a21cab24" -->
Le rapport des performances en classification permet d'obtenir des statistiques sur l'exactitude, la précision, le rappel (*recall*) et le score $F_1$. Ces différentes métriques ont déjà été décrites entre autres dans le module sur les métriques de qualité en classification. Vous pouvez consulter ce module pour en savoir plus.
<!-- #endregion -->



In [None]:
print(classification_report(y_test, y_pred))



<!-- #region id="99e84e0b" -->
On répéte les étapes mais cette fois-ci on utilise un classificateur de type SVM.
<!-- #endregion -->



In [None]:
clf = svm.LinearSVC(random_state=0)
model = clf.fit(X_train, y_train)
y_pred = model.predict(X_test)

print(classification_report(y_test, y_pred))



<!-- #region id="b4d6524d" -->
La suite d'opérations est la même dans les deux cas. C'est la philosophie de standardisation des opérations
de Scikit-learn; on s'y habitue rapidement et ça simplifie la programmation.

On voit que les résultats pour le classificateur SVM sont moins bons que pour ceux de la forêt aléatoire.
<!-- #endregion -->

<!-- #region id="7e2c3140" -->
# <a id=prétraitement-des-données>Prétraitement des données</a>
<!-- #endregion -->

<!-- #region id="a9214034" -->
Les faibles performances du classificateur SVM sont dues au fait que les données n'étaient pas normalisées.
C'est une étape importante dans le prétraitement des données. Le classificateur par forêt aléatoire n'est pas affecté par la normalisation.

**Étapes de prétraitement**

Il arrive souvent que plusieurs étapes de prétraitement soient nécessaires; imputation, normalisation, élimination des valeurs aberrantes (*Outliers*), etc. Bien que ça ne soit pas le cas avec notre jeu de données, on va néanmoins supposer qu'il contient $1~\%$ de valeurs aberrantes ainsi que plusieurs valeurs manquantes. Nous allons effectuer les opérations suivantes:


- élimination des valeurs aberrantes,
- imputation des valeurs manquantes,
- équilibrage des données déséquilibrées,
- normalisation.


Consultez les modules sur le prétraitement pour en savoir plus sur chacune des étapes. Malheureusement, on ne peut pas utiliser ici un pipeline pour les faire toutes ensemble; les estimateurs dans un pipeline doivent avoir les
méthodes `fit` et `transform`. Ce n'est pas le cas des fonctions utilisées aux étapes 1 et 3.

Il faut d'abord effectuer les étapes de nettoyage des données avant de les séparer en ensembles d'entraînement et de test.
<!-- #endregion -->



In [None]:
# Lecture des données

X, y = load_wine(return_X_y=True)



<!-- #region id="385f9f8d" -->
On utilise la méthode de la forêt d'isolation à cette fin. On élimine $1~\%$ des valeurs aberrantes au maximum. 
Cette méthode identifie les valeurs aberrantes en se basant sur la distance entre les données. Puisque les caractéristiques X 
ont des unités et des ordres de grandeurs différents, il faut les normaliser.
<!-- #endregion -->



In [None]:
# Estimateur utilisé.
scaler = StandardScaler()
scaler = scaler.fit(X)

# Normalisation de l'ENSEMBLE des données originales. 
X_s = scaler.transform(X)

# Identification des valeurs aberrantes.
i_forest = IsolationForest(contamination=0.01, random_state=seed)

# Trouve les indices des valeurs aberrantes; la variable aberr vaut -1
# pour les valeurs aberrantes et +1 pour les autres.
aberr = i_forest.fit(X_s).predict(X_s)

# Élimination des valeurs aberrantes à partir des données ORIGINALES.
indices = np.where(aberr == -1)
X_a = np.delete(X, indices, axis=0)
y_a = np.delete(y, indices)



<!-- #region id="6f2511f5" -->
Les valeurs manquantes de la matrice des caractéristiques $X$ sont interpolées à partir des autres. On utilise la
méthode MICE décrite dans le module sur l'imputation. On suppose que les valeurs manquantes sont indiquées
par des valeurs nulles.
<!-- #endregion -->



In [None]:
X_mice = IterativeImputer(missing_values=0).fit_transform(X_a)
y_mice = y_a



<!-- #region id="1f1af773" -->
Combien y a-t-il de vins pour chaque producteur?
<!-- #endregion -->



In [None]:
y_unique, i = np.unique(y_mice, return_counts=True)

print("Producteur #:", y_unique)
print("Nombre de vins:", i)



<!-- #region id="e26662e5" -->
On voit qu'il y a un débalancement des classes. On va équilibrer celles-ci avec la méthode SMOTE multiclasse.
<!-- #endregion -->



In [None]:
X_sm, y_sm = SMOTE().fit_resample(X_mice, y_mice)



<!-- #region id="73c38420" -->
Testons à nouveau le nombre de vins pour chaque producteur.
<!-- #endregion -->



In [None]:
y_unique, i = np.unique(y_sm, return_counts=True)

print("Producteur #:", y_unique)
print("Nombre de vins:", i)



<!-- #region id="d3b632fb" -->
Les classes sont maintenant balancées. Un échantillonnage stratifié n'est plus nécessaire puisque les classes sont balancées.
<!-- #endregion -->



In [None]:
X_train, X_test, y_train, y_test = train_test_split(
    X_sm, y_sm, test_size=0.75, random_state=seed
)



<!-- #region id="65de417c" -->
On peut maintenant normaliser les données pour l'entraînement du modèle. Attention: il faut toujours entraîner l'estimateur sur l'ensemble d'entraînement puis appliquer la transformation sur les deux ensembles.
<!-- #endregion -->



In [None]:
# Estimateur utilisé
scaler = StandardScaler()
scaler = scaler.fit(X_train)

X_train_n = scaler.transform(X_train)
X_test_n = scaler.transform(X_test)



<!-- #region id="1d9aa6b7" -->
On revient à nos deux modèles précédents, la forêt aléatoire et la méthode SVM. Cette fois-ci avec des données prétraitées.
<!-- #endregion -->



In [None]:
# classificateur par forêt aléatoire

rf = RandomForestClassifier(random_state=0)
model = rf.fit(X_train_n, y_train)
y_pred = model.predict(X_test_n)

print(classification_report(y_test, y_pred))



<!-- #region id="36f84e79" -->
Les performances sont légèrement supérieures aux précédentes obtenues avec la forêt aléatoire sans prétraîtement des données.
<!-- #endregion -->



In [None]:
# classificateur SVM

clf = svm.LinearSVC(random_state=0)
model = clf.fit(X_train_n, y_train)
y_pred = model.predict(X_test_n)

print(classification_report(y_test, y_pred))



<!-- #region id="5f4243c0" -->
Les nouvelles valeurs des métriques de performances pour la méthode SVM sont bien meilleures qu'auparavant
et quasiment équivalentes à celles obtenues avec la forêt aléatoire. Cet exemple montre la pertinence du prétraitement et de la facilité de son implémentation avec Scikit-learn.
<!-- #endregion -->

<!-- #region id="72f03102" -->
# <a id=exercice>Exercice</a>
<!-- #endregion -->

<!-- #region id="01046208" -->
Dans cet exemple, nous allons utiliser les données prétraitées précédentes. Nous allons réduire la dimensionnalité de l'espace des caractéristiques avec l'analyse en composantes principales, puis choisir entre les deux classificateurs précédents également optimisés.

Nous allons optimiser le pipeline en faisant varier les facteurs suivants:

- Réduction de la dimensionnalité PCA:
    - `n_components` $= [2, 3]$
- Classificateur forêt aléatoire:
    - `n_estimators` $= [10, 30, 50]$,
    - `max_depth`: $= [1, 3, 5]$,
    - `min_samples_split`: $= [2, 3, 4]$.
- Classificateur SVM:
    - `C` $= [0.01, 0.1, 1, 10, 100]$.
<!-- #endregion -->

<!-- #region id="ea97222c" -->
Puisqu'il y a deux classificateurs, la grille des paramètres doit contenir deux dictionnaires de paramètres.
Quelle serait la définition du pipeline?

Revisitez le module de prétraitement des données portant sur la conception de pipelines. Vous y trouverez des pistes de solution.
<!-- #endregion -->



In [None]:
pipeline = # À remplir



<!-- #region id="e01f1013" -->
Entraînez maintenant le pipeline et affichez les hyperparamètres optimaux.
<!-- #endregion -->



In [None]:
# À remplir



<!-- #region id="a502a7e5" -->
Comment interprétez-vous les résultats?
<!-- #endregion -->

<!-- #region id="6cd504ed" -->
Affichez les métriques de performances avec la fonction `classification_report` puis les valeurs d'exactitude pour les deux ensembles.
<!-- #endregion -->



In [None]:
# À remplir



<!-- #region id="bec601e4" -->
Comment interprétez-vous les résultats?
<!-- #endregion -->

<!-- #region id="81928674" -->
# <a id=pour-en-savoir-plus>Pour en savoir plus</a>
<!-- #endregion -->

<!-- #region id="5d3270bd" -->
Les sources d'informations sur Scikit-learn foisonnent. En autant que possible, il faut se référer aux
plus récentes d'entre elles.

Prenez soin de vérifier la date de publication des livres de référence et leur numéro d'édition. Non seulement les méthodes en apprentissage automatique évoluent rapidement, mais le code en Python dans les vieilles éditions n'est plus compatible avec les versions actuelles des librairies. On finit par ne plus consulter ses livres et leur préférer les sites web des librairies.

Les langages évoluent ainsi que la façon de les écrire. Jetez un coup d'oeil à de vieux programmes en Python. On comprend encore ce qu'ils font, mais on aurait de la difficulté à les modifier sans faire d'erreur.

<!-- #endregion -->

<!-- #region id="265ea1d0" -->
<p>&nbsp;</p>
<div align="center">
    <img src= "../images/evolution.png"  width="800" />
    <div>
    <font size="0.5">Image Source: https://www.metmuseum.org/art/collection/search/326711;  https://en.wikipedia.org/wiki/Gothic_Bible; https://scikit-learn.org/stable/tutorial/machine_learning_map/index.html</font>
    </div>
</div>
<p>&nbsp;</p>
<!-- #endregion -->

<!-- #region id="99f01a64" -->
[Hands-On Machine Learning with Scikit-learn, Keras, and TensorFlow: Concepts, Tools, and Techniques to Build Intelligent Systems (2019)](https://www.oreilly.com/library/view/hands-on-machine-learning/9781492032632/)
<!-- #endregion -->

<!-- #region id="f6cde784" -->
[Python Machine Learning - Second Edition: Machine Learning and Deep Learning with Python, scikit-learn, and TensorFlow (2019)](https://www.packtpub.com/product/python-machine-learning-second-edition/9781787125933)
<!-- #endregion -->

<!-- #region id="0cfdb244" -->
# <a id=aide-mémoires>Aide-mémoires</a>
<!-- #endregion -->

<!-- #region id="afad53fb" -->
Comme c'était le cas avec les librairies [`matplotlib`](https://matplotlib.org/) et [`Seaborn`](https://seaborn.pydata.org/),
il y a tellement de fonctions dans Scikit-learn qu'ont tend à les confondre.

Voici trois sources d'information présentant les principales méthodes et leurs bons usages. À conserver près de soi, ou dans la fenêtre de bureau de son ordinateur. Pas de tatouage svp; cela prendrait plus qu'un bras pour les afficher!

Le premier lien mène vers un site proposant une collection d'une dizaine d'aide-mémoires. Chacun a été créé par un
spécialiste en apprentissage automatique ou par une organisation telle que Scikit-learn.
* https://blog.finxter.com/scikit-learn-cheat-sheets/

Parmi ceux proposés dans la liste, les deux suivants reviennent souvent dans les réponses aux questions que l'on retrouve sur le web:
* https://s3.amazonaws.com/assets.datacamp.com/blog_assets/Scikit_Learn_Cheat_Sheet_Python.pdf
* https://intellipaat.com/mediaFiles/2018/12/Sklearn-cheat-sheet.png

Bien que mentionnée précédemment, la [carte interactive des estimateurs](https://scikit-learn.org/stable/tutorial/machine_learning_map/index.html)
est particulièrement utile lorsque vous connaissez déjà Scikit-learn, mais que vous cherchez à déterminer le meilleur algorithme pour traiter vos données.
<!-- #endregion -->
