# Classification des iris à l'aide des k plus proches voisins 

On se propose de classifier les iris suivant leurs quatre caractéristiques (longueur et largeur des sépales et des pétales).
Nous utilisons pour cela le data set "iris" que nous avons découvert au TP1.

Les objectifs de ce TP sont :
- de vous faire découvrir les principales bibliothèques et fonctions de scikit-learn permettant la mise en oeuvre de kNN
- de commencer à mettre en oeuvre la méthodologie générale de développement d'un modèle de classification supervisé

In [1]:
#On commence par importer nos bibliothèques habituelles
import sklearn
from sklearn import datasets
import numpy as np
import pandas as pd
import matplotlib
import matplotlib.pyplot as plt

In [5]:
%matplotlib notebook

## 1) Le data set
La première phase de notre méthode générale consiste à 
- a) importer, 
- b) structurer et
- b) visualiser notre jeu de données

In [2]:
# On importe et on structure les données
iris = datasets.load_iris()
iris.keys()
X = iris.data  
Y = iris.target
# Ici, on n'a pas de structuration particulière, on conserve le jeu de données tel qu'il est sans modifier 
# les caractéristiques ni les étiquettes

In [6]:
# On représente les données pour se faire une petite idée
x_min, x_max = X[:, 0].min() - .5, X[:, 0].max() + .5
y_min, y_max = X[:, 1].min() - .5, X[:, 1].max() + .5
plt.figure(0, figsize=(8, 6))
plt.clf()
plt.scatter(X[:, 0], X[:, 1],c=Y,cmap=plt.cm.Set1)
plt.xlabel('Longueur des sépales')
plt.ylabel('Largeur des sépales')
plt.xlim(x_min, x_max)
plt.ylim(y_min, y_max)
plt.xticks(())
plt.yticks(())


<IPython.core.display.Javascript object>

([], <a list of 0 Text yticklabel objects>)

- d) La dernière phase de préparation des données consiste à scinder les données en un jeu de données d'apprentissage et un jeu de test

In [3]:
# A l'aide de train_test_split, partager les données en un jeu d'apprentissage (80%) et un jeu de test (20%)


In [6]:
# Représenter sur une même figure les deux jeux de données

<IPython.core.display.Javascript object>

<matplotlib.text.Text at 0x1372bc9fbe0>

## 2) Apprentissage
La deuxième phase est l'apprentissage du modèle à l'aide des données d'apprentissage

In [30]:
# Entraîner un modèle du plus proche voisin à l'aide de la  fonction KNeighborsClassifier de sklearn et de la méthode fit.

from sklearn.neighbors import KNeighborsClassifier

# noter le rôle des paramètres metric et n_neighbors

KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski',
           metric_params=None, n_jobs=1, n_neighbors=1, p=2,
           weights='uniform')

## 3) Analyse des performances du modèle
 
Le but est maintenant de tester notre modèle sur les données de test et de découvrir différentes méthodes pour 
- a) évaluer les performances d'un modèle
- b) comparer deux modèles
- c) optimiser les paramètres du modèle pour éviter en particulier le sur-apprentissage
- d) estimer si le nombre de données est suffisant


In [17]:
# Comparer les étiquettes des données de test aux valeurs prédites à l'aide de la méthode predict


[1 2 2 0 2 1 0 2 0 1 1 1 2 2 0 0 2 2 0 0 1 2 0 2 1 2 1 1 1 2] [1 2 2 0 2 1 0 1 0 1 1 2 2 2 0 0 2 2 0 0 1 2 0 1 1 2 1 1 1 2]


In [31]:
# Calculer le score de votre modèle à l'aide de la méthode score :
# sur les données d'apprentissage?

# sur les données de test?


1.0
0.9


In [32]:
# Reprendre les phases d'apprentissage et de calcul de score  en utilisant les 3 plus proches voisins


0.975
0.933333333333


In [34]:
# Effectuer une validation croisée à 5 répétitions, soit à la main, 
# soit à l'aide de la fonction cross_val_score. On prendra la moyenne des scores obtenus


[ 1.          0.83333333  0.66666667  1.          1.        ]
Le score est de 0.90 avec un écart type de 0.13


In [43]:
# Rechercher le meilleur nombre de voisins entre 1 et 20 en comparabnt les résultats d'une validation croisée :
# Représenter graphiquement les scores obtenus :


[0.89333333333333331, 0.90833333333333344, 0.90000000000000002, 0.93333333333333335, 0.96666666666666679, 0.93333333333333335, 0.96666666666666679, 0.96666666666666679, 1.0, 0.97499999999999998, 0.97499999999999998, 0.90833333333333344, 0.72499999999999998, 0.72499999999999998, 0.64499999999999991, 0.59499999999999997, 0.6283333333333333, 0.36833333333333329, 0.36833333333333329]


<IPython.core.display.Javascript object>

[<matplotlib.lines.Line2D at 0x19999b76ef0>]

In [46]:
# Et si on modifiait aussi les distances utilisées!
# Utiliser la fonction GridSearchCV pour comparer simultanément les scores obtenus pour un nombre de voisins variant entre 1 et 20 et 
# les deux distances d1 et d2


GridSearchCV(cv=5, error_score='raise',
       estimator=KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski',
           metric_params=None, n_jobs=1, n_neighbors=5, p=2,
           weights='uniform'),
       fit_params={}, iid=True, n_jobs=1,
       param_grid={'n_neighbors': array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16, 17,
       18, 19]), 'metric': ['euclidean', 'manhattan']},
       pre_dispatch='2*n_jobs', refit=True, return_train_score=True,
       scoring=None, verbose=0)

In [49]:
# Afficher le meilleur score obtenu, les meilleurs paramètres et retenir le meilleur modèle sous le nom "monModel"

1.0

{'metric': 'euclidean', 'n_neighbors': 9}

In [54]:
from sklearn.metrics import confusion_matrix

In [57]:
# Afficher la matrice de confusion pour monModel


[[50  0  0]
 [ 0 47  3]
 [ 0  6 44]]


In [58]:
# Afficher cette matrice de confusion à l'aide de la fonction heatmap de seaborn


<IPython.core.display.Javascript object>

<matplotlib.axes._subplots.AxesSubplot at 0x1999b36c9b0>

In [63]:
# d) Ferait-on mieux avec plus de données? : les courbes d'apprentissage
from sklearn.model_selection import learning_curve


In [64]:
# Afficher à l'aide de la fonction learning_curve la courbe d'apprentissage du modèle monModel.

# La taille du jeu de données vous semble-t-elle suffisante?

[ 9 19 28 38 47 57 66 76 85 95]


<IPython.core.display.Javascript object>

<matplotlib.legend.Legend at 0x1999c71a2b0>