# <center>KNN classification avec *scikit-learn*: cas 2 </center>

## Classification multi-classe

Nous avons jusqu'à maintenant utilisé l'algorithme des *k* plus proches voisins pour réaliser de la classification binaire (2 classes). Nous allons maintenant l'utiliser pour réaliser de la classification multi-classe. Nous travaillerons avec le jeu de données *iris*. 
Les données comprennent 150 individus et sont séparées en 2 ensembles. 
- dans le premier ensemble, un individu est représenté par un t_uple qui correspond à la longueur du sépale, la largeur du sépale, la longueur du pétale et à la largeur du pétale. 
- le second ensemble est complémentaire du premier. Il stocke dans chaque ligne, le type d'iris correspondant au t_uple du premier. Les types d'iris sont répartis en 3 classes: *Setosa*, *Versicolor* ou *Virginica*. 

Ce jeu de données est très souvent utilisé pour tester des algorithmes de classification. Le problème à résoudre est de prédire le second ensemble à l'aide du premier.

In [2]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.neighbors import KNeighborsClassifier
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.metrics import precision_score
from sklearn.metrics import recall_score
from sklearn.metrics import accuracy_score
from sklearn.metrics import confusion_matrix

# chargement du dataset de fleur d'iris
iris = load_iris()
X = iris.data # X comprend les caractéristiques
Y = iris.target # Y comprend les classes

### Etude des données

Avant d'utiliser un algorithme d'apprentissage, il faut étudier les données afin de connaître ce qui va être manipulé: leur type, leur plage de valeur, leur répartition par classe. Mais aussi, ceci peut permettre d'avoir une intuition des relations potentielles entre certaines caractéristiques et orienté ainsi le choix d'un type de méthodes d'apprentissage à mettre en place. 

- Afficher la taille (shape) de X et de Y  et le type des données qu'ils contiennent  
- Afficher les données  
- Représenter graphiquement les données => voir ci-dessous le graphique final qui est demandé (vous pouvez vous aider de ce [tutoriel](http://www.python-simple.com/python-matplotlib/pyplot.php))
  1) réaliser des histogrammes pour visualiser la répartition des données de X pour chaque caractéristique
  2) réaliser un camembert pour visualiser la répartition des différents types d'iris.


<p align="center">
<img src="images/iris1.png" />
</p>

In [None]:
#TODO

> Que constatez vous à la lecture de ces graphiques ?

Nous allons maintenant étudier plus en détail la caractéristique *longueur de sépale*. Reproduisez la représentation graphique suivante:

<p align="center">
<img src="images/iris2.png" />
</p>




> Que constatez vous ?

### Prétraitement des données

Nous avons vu précédemment que les valeurs associées aux données ne sont pas dans le même intervalle de valeurs, nous allons donc maintenant les standardiser. Ce traitement est important car il permet de mettre les variables à la même échelle. Les algorithmes d'apprentissage automatique fonctionnent ainsi de manière plus efficace et donnent de meilleurs résultats. Sans standardisation, des variables avec des plages de valeurs très différentes peuvent biaiser les modèles en privilégiant les variables avec des valeurs plus élevées.  
- Réaliser la standardisation en utilisant la classe *StandardScaler* et sa méthode *fit_transform(...)*
- Réafficher le même graphique que le précédent pour visualiser les effets du traitement.

In [None]:
from sklearn.preprocessing import StandardScaler
#TODO


### Prédiction des classes de l'ensemble de test

- Commencez par séparer le jeu de données en un ensemble d'apprentissage et en un ensemble de test (80% apprentissage, 20% test). Vous travaillez bien sûr avec les données standardisées et sur toutes les données (4 caractéristiques)

- Réaliser la classification avec *k=3*, calculer l'exactitude de la prédiction et afficher la matrice de confusion.

- Donner la micro-moyenne et la macro-moyenne par rapport à la précision.


In [None]:

#TODO




### Détermination de la valeur optimale de *k*

#### Calcul de l'exactitude en fonction de différentes valeurs de *k*

Nous avons utilisé une valeur de *k* arbitraire comme paramètre du classifieur. 
Nous allons maintenant utiliser la technique de la validation croisée pour trouver la meilleure valeur de *k* pour nos données (le nombre de données étant restreint) 
> - Nous allons tester différentes valeurs de *k* (1..20). 
> - Pour chaque valeur de *k*, nous allons trouver le score moyen obtenu (exactitude) en réalisant une validation croisée à 10 plis (ou folds).
>- Le meilleur *k* obtenu sera celui qui maximise l'exactitude calculée.

Mettez en place ce traitement.
- Réaliser une représentation graphique des valeurs obtenues pour l'exactitude en fonction des différentes valeurs de *k*
- Afficher la valeur de *k* optimale. 



In [53]:
from sklearn.model_selection import cross_val_score

#TODO

In [None]:


#TODO

Tester la valeur optimale de *k* que vous avez déterminée précèdemment.
 

In [None]:
#TODO

Vous avez vu à l'aide de la seconde représentation graphique demandée que les données peuvent être relativement bien séparées en utilisant seulement 2 caractéristiques. Recommencer la classification en n'utilisant que ces  2 caractéristiques du jeu de données. Que constatez vous ?

## Pour aller plus loin

- étude de l'influence de paramètres autre que *k* de *KneighborsClassifier*

- Réaliser des classifications sur d'autres jeux de données qui ont déjà été vus (MNIST, Titanic)


In [3]:
#TODO