# Classification: k plus proches voisins

Documentation des librairies utilisées dans ce tp:
- scikit-learn: [https://scikit-learn.org/stable/index.html](https://scikit-learn.org/stable/index.html)
- matplotlib: [https://matplotlib.org/](https://matplotlib.org/)
- numpy: [https://numpy.org/](https://numpy.org/)

Instructions d'installation dans un environnement conda, si vous voulez utiliser votre propre ordinateur (inutile de suivre ces instructions sur les machines de la salle info).

- Créer un nouvel environnement, appelé `sd3` (vous avez besoin d'avoir anaconda ou miniconda installé)
```
conda create -n sd3 python=3.9
```
- Activer l'environnement
```
conda activate sd3
```
- Installer les librairies requises
```
conda install -c conda-forge jupyterlab matplotlib scikit-learn
```

In [None]:
# On importe quelques librairies utiles
import numpy as np
import matplotlib.pyplot as plt
from sklearn import neighbors, datasets
from sklearn.utils import shuffle

## Données

On va commencer par rassembler nos données. On utilisera dans ce TP le dataset (ensemble de
données) Iris.

In [None]:
iris = datasets.load_iris()

On peut maintenant écrire `print(iris)` pour voir ce que contient l’objet iris qu’on vient de définir. C’est un dictionnaire. On peut obtenir la liste des champs de ce dictionnaire en tapant `print(iris.keys())`. Ceux qui nous intéressent sont data, target et target names. data contient les données et target contient leur classe.

- Combien de données sont présentes dans iris ?
- Combien d’attributs ont ces données ?
- Combien de classes (ou étiquettes) différentes ?


Pour ce TP, on ne va utiliser que les deux premiers attributs des données.

In [None]:
X = iris.data[:, :2]
Y = iris.target

X contient maintenant nos données, qui ont chacune deux attributs. On se restreint à deux attributs
pour pouvoir faire des graphiques plus facilement. Mais idéalement, on voudra ensuite utiliser tous
les attributs disponibles. Le couple (X, Y) est un jeu d'exemples, comme l'ensemble $\mathcal X$ du cours. 

On peut visualiser les données et leurs classes sur une figure de type `scatter` (ensemble de points).

In [None]:
# On cree une "figure", qui est le cadre dans lequel on mettra le graphique
plt.figure(figsize=(8, 6))

# L'objet col contient 'k' 'r' ou 'b' en fonction de la classe du point, qui sont des codes couleurs
col = np.where(iris.target_names[Y]=='setosa','r',
    np.where(iris.target_names[Y]=='versicolor','b','k'))

# On affiche un graphique "scatter", c'est a dire avec un point pour chaque donnee
plt.scatter(x=X[:, 0], y=X[:, 1], c=col)
plt.show()

On a obtenu une représentation graphique de nos données, où les coordonnées des points sont
les attributs et la couleur représente l’étiquette.

Nous ne sommes pas intéressés par la performance d’un classeur sur les données qui ont servi à le construire. On veut un classeur qui généralise, c’est à dire un classeur qui permet de bien classer des données qu’il n’a encore jamais vues.

Pour construire puis évaluer un classeur, on sépare les données en deux groupes: les données d’apprentissage et les données de test. Les données d’apprentissage sont utilisées pour construire le classeur et les données de test sont utilisées pour l’évaluer.

On va mélanger les données puis les découper en deux ensembles:
- Utiliser la fonction `shuffle` de `scikit-learn` pour mélanger X et Y. shuffle permet de mélanger plusieurs tableaux "en même temps", c'est à dire que la même permutation aléatoire est utilisée pour les deux tableaux.
- Couper X et Y en deux ensembles d'exemples: `X_train, Y_train` qu'on utilisera pour construire le classeur, et `X_test, Y_test` qu'on utilisera pour estimer son erreur de généralisation. Placer environ 3/4 des données dans l'ensemble d'entrainement.

## Classeur: k plus proches voisins (k-NN)

Le but du tp est d’expérimenter avec le classeur des k plus proches voisins (k-NN) et de l’évaluer.

Le principe du classeur k-NN est le suivant:
- Construction: stocker tous les exemples.
- Evaluation: étant donné une nouvelle donnée $x$,
     - Calculer la distance $d_i$ de $x$ à $x_i$ pour tout $i$ de 1 à $N$ (nombre de données)
     - Trouver les $k$ données $x_i$ les plus proches de $x$
     - Retourner l’étiquette majoritaire parmi les $k$ plus proches voisins

La librairie scikit-learn propose une implémentation de k-NN: la fonction `neighbors.KNeighborsClassifier`

In [None]:
k = 15
clf = neighbors.KNeighborsClassifier(k, weights='uniform', algorithm='brute')

Pour constuire le classeur, on utilise sa fonction `fit`. Cette fonction prend en entrée des données et leurs étiquettes, et construit le classeur.

In [None]:
clf.fit(X_train, Y_train)

Pour classer de nouvelles données, on utilise la fonction `predict`, qui prend un tableau de données
en entrée et retourne un tableau de classes. Pour une unique donnée `x`, on écrit `clf.predict([x])`.

Pour évaluer la qualité de la classification obtenue, on peut compter le nombre d’erreurs.

- Ecrire une fonction `error_rate(clf, X, Y)` qui prend en entrée un classeur, des données et leurs étiquettes et retourne la proportion d'exemples mal classés. Un exemple est mal classé si la classe que le classeur prédit pour la donnée n'est pas égale à sa vraie classe.

In [None]:
def error_rate(clf, X, Y):
    # TODO
    return 0

print(error_rate(clf, X_train, Y_train))

- Pour le paramètre `k = 5`, construire un classeur k-NN à partir de `X_train, Y_train`. Calculer son taux d'erreur sur les ensembles d'entrainement et de test.
- Afficher les données sur un plot `scatter`, en bleu si elles sont bien classées, en rouge sinon

Attention: on n'utilise jamais les données de test pour construire/entrainer un classeur.

- Quel est l'ensemble des valeurs possibles pour `k`? En particulier, quelle est la valeur maximale au delà de laquelle accroitre `k` ne change plus le classeur?
- Faire varier le paramètre k du classeur et, pour chaque valeur, entrainer le classeur sur les exemples d'entrainement et calculer la proportion d’erreurs sur l'ensemble d'entrainement et sur l'ensemble de test. Afficher sur un même graphique les deux courbes d'erreurs obtenues.
     - Pour quelle valeur de k on a le moins d’erreurs sur les données d’apprentissage ? et sur les données de test ? Expliquer la différence.
     - Que se passe-t-il quand k est maximal?

- L’argument weights de `neighbors.KNeighborsClassifier` permet de donner un poids différent aux données en fonction de leur distance à la nouvelle donnée pour laquelle on veut faire une prédiction. Essayez `weights=’distance’` pour utiliser un poids qui décroit avec la distance.
- Chercher dans la documentation de `scikit-learn` comment les poids des données sont calculés quand on utilise `weights=’distance’`

## Pour aller plus loin

- Utilisez tous les attributs au lieu d’en utiliser deux. Est-ce que le classeur obtenu est plus performant ?

- Implémentez k-NN vous même.