# Visualisation de la fonction apprise par un MLP

Documentation des librairies utilisées dans ce tp:
- scikit-learn: [https://scikit-learn.org/stable/index.html](https://scikit-learn.org/stable/index.html)
- matplotlib: [https://matplotlib.org/](https://matplotlib.org/)
- numpy: [https://numpy.org/](https://numpy.org/)

Instructions d'installation dans un environnement conda, si vous voulez utiliser votre propre ordinateur (inutile de suivre ces instructions sur les machines de la salle info).

- Créer un nouvel environnement, appelé `sd3` (vous avez besoin d'avoir anaconda ou miniconda installé)
```
conda create -n sd3 python=3.9
```
- Activer l'environnement
```
conda activate sd3
```
- Installer les librairies requises
```
conda install -c conda-forge jupyterlab matplotlib scikit-learn
```

In [None]:
import numpy as np
import matplotlib.pyplot as plt

from matplotlib.colors import ListedColormap

from sklearn.neighbors import KNeighborsClassifier
from sklearn.linear_model import Perceptron, SGDClassifier
from sklearn.neural_network import MLPClassifier

from sklearn.datasets import load_digits, make_classification, fetch_openml, make_moons, make_circles, make_blobs
from sklearn.model_selection import train_test_split, GridSearchCV, RandomizedSearchCV
from sklearn.metrics import classification_report
from sklearn.utils import shuffle
from sklearn.inspection import DecisionBoundaryDisplay

### Datasets

On va visualiser la séparation des données entre plusieurs classes. Pour obtenir des dessins faciles à comprendre, on considère des données en 2 dimensions.
On charge trois datasets différents:

In [None]:
Xm, Ym = make_moons(n_samples=300, noise=0.3, random_state=0)
Xc, Yc = make_circles(n_samples=300, noise=0.3, factor=0.5, random_state=0)
Xb, Yb = make_blobs(n_samples=300, random_state=0)

Couper chaque dataset en deux pour obtenir un ensemble d'entrainement/validation et un ensemble de test (30% des exemples).

On définit des couleurs pour les plots:

In [None]:
cm = plt.cm.RdBu
cm_bright = ListedColormap(["#FF0000", "#0000FF"])

Sur un même graphique, afficher les données d'entrainement et de test, à l'aide de la fonction `scatter`. La couleur du point sera donnée par sa classe (utiliser l'argument `c=...`). Afficher les données de test d'une manière légèrement différente (par exemple ajouter de la transparence avec l'argument `alpha` ou changer la couleur du bord avec `edgecolors`).

Répéter l'opération pour les trois datasets.

### Classeurs

Définir un k-NN avec k=3.

Définir un perceptron multi couches (MLP) avec trois couches de 20, 15 et 7 neurones, une fonction d'activation relu et une méthode d'optimisation `sgd`.

Pour chaque dataset, entrainer le kNN et le MLP. Calculer leur score de test.

La fonction `DecisionBoundaryDisplay.from_estimator(clf, X, cmap=cm, alpha=0.6, ax=ax)` permet d'ajouter à la figure donnée par `ax` des zones de couleurs correspondant aux classes prédites par le classeur `clf`. La limite entre les zones correspondant aux deux classes s'appelle "frontière de décision".
L'arguments `cmap` donne la couleur des zones, `alpha` indique la transparence.

Afficher ces zones de couleur sur le même graphique que les données, pour chaque dataset et pour chacun des deux classeurs.

Suggestion: pour éviter de copier du code 6 fois, écrire une fonction qui prend en entrée les données et le classeur.

Décrire qualitativement la différence entre la frontière de décision apprise par un k-NN et celle d'un MLP

### Structures de réseaux de neurones

Afficher la frontière de décision pour un réseau de neurone avec 1 neurone dans la première couche. Essayer plusieurs nombres de couches, mais toujours avec 1 seul neurone dans la première. Qu'observez vous ?

Faire varier le nombre de neurones dans chaque couche et observer l'effet sur la frontière de décision.

### Recherche d'hyper-paramètres

Rappel des arguments importants d'un MLP:

`hidden_layer_sizes=(15,10,)` indique le nombre de neurones dans chaque couche cachée du réseau de neurones. Ici deux couches cachées, avec respectivement 15 et 10 neurones.

`activation` décide la fonction d'activation de chaque neurone.

`solver` indique la méthode d'apprentissage des poids. `sgd` = descente de gradient stochastique.

`learning_rate` donne la méthode pour faire varier le pas de gradient. Le cours décrit le résultat de la valeur `constant`.

`learning_rate_init` indique la taille de chaque pas de gradient dans la méthode des gradients stochastiques.

`max_iter` donne le nombre maximal d'époques de descente de gradient pour l'apprentissage des poids.

On peut obtenir la liste complète des paramètres d'un MLP `mlp` en utilisant `mlp.get_params()`.

**Méthodes de recherche d'hyper-paramètres et de validation**:

`GridSearchCV` et `RandomizedSearchCV` implémentent respectivement une validation croisée avec une recherche sur grille et une recherche aléatoire.

Les valeurs des paramètres sur lesquelles on fait la recherche doivent être passées comme une liste de dict:
```
tuned_parameters = [{'learning_rate_init': [0.0001, 0.001, 0.01], 'hidden_layer_sizes': [(1,), (10,), (15,)],}]
```

La méthode `fit` permet de faire la recherche. L'argument `n_iter ` de `RandomizedSearchCV` indique le nombre de configurations aléatoires à essayer. A l'issue de fit, le classeur est entrainé avec les meilleurs paramètres trouvés. 
les résultats de la recherche sont contenus dans `cv_results_`

Utiliser ces fonctions de recherche d'hyper-paramètres pour trouver un MLP performant sur les données. Afficher sa frontière de décision. Afficher son `classification_report`.

Le code suivant peut aussi fournir une visualisation utile de la recherche d'hyper-paramètres:
```
means = clf.cv_results_['mean_test_score']
stds = clf.cv_results_['std_test_score']
for mean, std, params in zip(means, stds, clf.cv_results_['params']):
    print("%0.3f (+/-%0.03f) for %r" % (mean, std * 2, params))
```

Afficher le score de la meilleure solution obtenue avec `RandomizedSearchCV` en fonction de `n_iter`.