# 9. Classificateur k-plus proche-voisin avec sklearn

## Introduction


Les concepts sous-jacents du classificateur K-plus-proches-voisins (kNN) peuvent être trouvés dans le chapitre Classificateur K-plus-proches-voisins de notre Tutoriel sur l'apprentissage automatique. Dans ce chapitre, nous avons également présenté des fonctions simples écrites en Python pour démontrer les principes fondamentaux.

Au lieu d'utiliser ces fonctions, même si elles donnent des résultats impressionnants, nous vous recommandons d'utiliser les fonctionnalités du module sklearn. Nous avons déjà utilisé sklearn dans nos chapitres précédents.

### Utilisation de sklearn pour kNN

```neighbors``` est un paquetage du module ```sklearn```, qui fournit des fonctionnalités pour les classificateurs du plus proche voisin, à la fois pour l'apprentissage supervisé et non supervisé.

Les classes de ```sklearn.neighbors``` peuvent traiter à la fois des tableaux ```Numpy``` et des matrices ```scipy.sparse``` en entrée. Pour les matrices denses, un grand nombre de mesures de distance possibles sont supportées. Pour les matrices éparses, des métriques de Minkowski arbitraires sont supportées pour les recherches.

```scikit-learn``` implémente deux classificateurs plus proches voisins différents :

- __KNeighborsClassifier__ est basé sur les $k$ plus proches voisins d'un échantillon, qui doit être classé. Le nombre $k$ est une valeur entière spécifiée par l'utilisateur. Il s'agit du classificateur le plus fréquemment utilisé par les deux algorithmes.
- __RadiusNeighborsClassifier__ est basé sur le nombre de voisins dans un rayon fixe $r$ pour chaque échantillon qui doit être classifié. $r$ est une valeur flottante spécifiée par l'utilisateur. Ce classificateur est moins souvent utilisé.

### KNeighborsClassifier
Nous allons créer artificiellement un jeu de données avec trois classes pour tester le classificateur kNN ```KNeighborsClassifier``` de ```sklearn.neighbors```. 

In [None]:
from sklearn.datasets import make_blobs
import matplotlib.pyplot as plt
import numpy as np

centers = [[2, 3], [5, 5], [1, 8]]
n_classes = len(centers)
data, labels = make_blobs(n_samples=150, 
                          centers=np.array(centers),
                          random_state=1)

Visualisons ce que nous avons créé :

In [None]:
import matplotlib.pyplot as plt

colours = ('green', 'red', 'blue')
n_classes = 3

fig, ax = plt.subplots()
for n_class in range(0, n_classes):
    ax.scatter(data[labels==n_class, 0], data[labels==n_class, 1], 
               c=colours[n_class], s=10, label=str(n_class))



ax.legend(loc='upper right');

Nous devons maintenant diviser les données en un ensemble de test et d'entraînement.

In [None]:
from sklearn.model_selection import train_test_split
res = train_test_split(data, labels, 
                       train_size=0.8,
                       test_size=0.2,
                       random_state=1)

train_data, test_data, train_labels, test_labels = res 

Nous sommes maintenant prêts à effectuer la classification avec ```kNeighborsClassifier``` :

In [None]:
# Create and fit a nearest-neighbor classifier
from sklearn.neighbors import KNeighborsClassifier
knn = KNeighborsClassifier()
knn.fit(train_data, train_labels) 

predicted = knn.predict(test_data)
print("Predictions from the classifier:")
print(predicted)
print("Target values:")
print(test_labels)

Pour évaluer le résultat, nous utiliserons ```accuracy_score``` du module ```sklearn.metrics```. Pour voir comment ```accuracy_score``` fonctionne, nous allons utiliser un exemple simple avec des pseudo prédictions et des étiquettes :

In [None]:
from sklearn.metrics import accuracy_score
example_predictions = [0, 2, 1, 3, 2, 0, 1]
example_labels      = [0, 1, 2, 3, 2, 1, 1]
print(accuracy_score(example_predictions, example_labels))

La valeur de retour correspond au quotient des éléments correctement classés et du nombre total de prédictions. Si vous êtes uniquement intéressé par le nombre d'éléments correctement classés, vous pouvez définir le paramètre normalize sur ```False```. La valeur par défaut est ```True```.

In [None]:
print(accuracy_score(example_predictions, 
                     example_labels,
                     normalize=False))

Nous sommes maintenant prêts à évaluer les résultats de notre précédent exemple de clissification :

In [None]:
print(accuracy_score(predicted, test_labels))

Vous avez peut-être remarqué que nous avons instancié le classificateur de kNN dans notre exemple précédent en l'appelant sans aucun argument, c'est-à-dire ```KNeighborsClassifier()```. Dans ce qui suit, nous l'instancions avec quelques paramètres de mots-clés possibles :

In [None]:
knn = KNeighborsClassifier(algorithm='auto', 
                           leaf_size=30, 
                           metric='minkowski',
                           p=2,
                           metric_params=None, 
                           n_jobs=1, 
                           n_neighbors=5, 
                           weights='uniform')

Le paramètre métrique est Minkowski par défaut. Le paramètre p correspond à l'ordre de la distance dans la formule de Minkowski : Lorsque $p$ est défini à 1, cela équivaut à utiliser la __distance de manhattan__. Quand $p=2$ on utilise la __distance euclidienne__.

Le paramètre ```algorithm``` détermine quel algorithme sera utilisé, par exemple

- ball_tree utilisera BallTree
- kd_tree utilisera KDTree
- brute utilisera une recherche par force brute. 

En laissant le paramètre sur auto le classifieur détermine l'algorithme le plus approprié en fonction des valeurs passées à la méthode ```fit```.
Le paramètre ```leaf_size``` est nécessaire pour ```BallTree``` ou ```KDTree```. Il peut affecter la vitesse de construction et d'interrogation, ainsi que la mémoire requise pour stocker l'arbre. La valeur optimale dépend de la nature du problème.

### Utilisation des données Iris

Dans l'exemple suivant, nous allons utiliser l'ensemble de données Iris :

In [None]:
from sklearn import datasets
from sklearn.model_selection import train_test_split

iris = datasets.load_iris()
data, labels = iris.data, iris.target

res = train_test_split(data, labels, 
                       train_size=0.8,
                       test_size=0.2,
                       random_state=12)
train_data, test_data, train_labels, test_labels = res 
# Create and fit a nearest-neighbor classifier
from sklearn.neighbors import KNeighborsClassifier
# classifier "out of the box", no parameters
knn = KNeighborsClassifier()
knn.fit(train_data, train_labels) 


print("Predictions from the classifier:")
test_data_predicted = knn.predict(test_data)
print(test_data_predicted)
print("Target values:")
print(test_labels)

In [None]:
print(accuracy_score(test_data_predicted, test_labels))

In [None]:
print("Predictions from the classifier:")
learn_data_predicted = knn.predict(train_data)
print(learn_data_predicted)
print("Target values:")
print(train_labels)
print(accuracy_score(learn_data_predicted, train_labels))

In [None]:
knn2 = KNeighborsClassifier(algorithm='auto', 
                            leaf_size=30, 
                            metric='minkowski',
                            p=2,         # p=2 is equivalent to euclidian distance
                            metric_params=None, 
                            n_jobs=1, 
                            n_neighbors=5, 
                            weights='uniform')

knn.fit(train_data, train_labels) 
test_data_predicted = knn.predict(test_data)
accuracy_score(test_data_predicted, test_labels)

### RadiusNeighborsClassifier
Le mode de fonctionnement du classificateur à k plus proches voisins consiste à agrandir un cercle autour de l'échantillon inconnu (c'est-à-dire l'élément qui doit être classé) jusqu'à ce que le cercle contienne exactement k éléments. Le classificateur Radius Neighbors a une longueur fixe pour le cercle qui l'entoure. Il localise tous les éléments de l'ensemble de données d'apprentissage qui se trouvent dans le cercle avec la longueur de rayon donnée autour de l'élément qui doit être classé. En conséquence de l'approche à rayon fixe, les régions denses de la distribution des caractéristiques fourniront plus d'informations et les régions clairsemées en fourniront moins.

In [None]:
from sklearn.neighbors import RadiusNeighborsClassifier

X = [[0, 1], [0.5, 1], [3, 1], [3, 2], [1.3, 0.8], [2.5, 2.5], [2.4, 2.6]]
y = [0, 0, 1, 1, 0, 1, 1]

neigh = RadiusNeighborsClassifier(radius=1.0)
neigh.fit(X, y)

print(neigh.predict([[1.5, 1.2]]))

print(neigh.predict([[3.1, 2.1]]))

Si nous essayons de faire une prédiction sur des données comme ```[30, 20]```, l'algorithme ne peut pas trouver de voisins pour le rayon 1.0. Il lèvera donc une exception avec le texte suivant :

```shell
ValueError: No neighbors found for test samples array([0]), you can try using larger radius, giving a label for outliers, or considering removing them from your dataset.
```

Il existe un paramètre permettant de définir l'étiquette pour les valeurs aberrantes, à savoir outlier_label.

Il y a trois façons de l'utiliser :

1. étiquette manuelle : étiquette str ou int (devrait être le même type que celui utilisé dans nos données) ou liste d'étiquettes manuelles si une sortie multiple est utilisée.
2. Il peut être défini avec la valeur ```most_frequent```. Ceci attribuera aux valeurs aberrantes l'étiquette la plus fréquente de l'ensemble de données.
3. S'il est défini sur None (par défaut), une ValueError sera générée lorsqu'une valeur aberrante sera détectée.


Recommençons avec ```most_frequent```.

In [None]:
neigh = RadiusNeighborsClassifier(radius=1.0,
                                  outlier_label='most_frequent')
neigh.fit(X, y)

print(neigh.predict([[1.5, 1.2]]))

# the following is the previously mentioned outlier:
print(neigh.predict([[30, 20]]))

Alternativement, nous définissons la classe aberrante à 2. Nous ajoutons un élément aberrant à notre learnset :

In [None]:
from sklearn.neighbors import RadiusNeighborsClassifier

X = [[0, 1], [0.5, 1], [3, 1], [3, 2], [1.3, 0.8], [2.5, 2.5], [2.4, 2.6], [10000, -2321]]
y = [0, 0, 1, 1, 0, 1, 1, 2]

neigh = RadiusNeighborsClassifier(radius=1.0,
                                  outlier_label=2)
neigh.fit(X, y)

print(neigh.predict([[1.5, 1.2]]))
print(neigh.predict([[30, 20]]))

In [None]:
from sklearn.datasets import make_blobs
import matplotlib.pyplot as plt
import numpy as np

centers = [[2, 3], [9, 2], [7, 9]]
n_classes = len(centers)
data, labels = make_blobs(n_samples=255, 
                          centers=np.array(centers),
                          cluster_std = 1.3,
                          random_state=1)

In [None]:
data[:5]

In [None]:
import matplotlib.pyplot as plt

colours = ('green', 'red', 'blue')
n_classes = 3    # not using the outlier 'class'

fig, ax = plt.subplots()
for n_class in range(0, n_classes):
    ax.scatter(data[labels==n_class, 0], data[labels==n_class, 1], 
               c=colours[n_class], s=10, label=str(n_class))

In [None]:
res = train_test_split(data, labels, 
                       train_size=0.8,
                       test_size=0.2,
                       random_state=1)
train_data, test_data, train_labels, test_labels = res 

Ajoutons une ligne à la fin de ```train_data``` qui contient des données aberrantes, c'est-à-dire n'appartenant à aucune classe :

In [None]:
outlier = [4242.2, 4242.2]
train_data = np.vstack([train_data, outlier])
train_data[-3:]

Maintenant, nous devons ajouter une étiquette aberrante aux étiquettes.

In [None]:
outlier_label = len(np.unique(labels))
train_labels = np.append(train_labels, outlier_label)
train_labels[-10:]

In [None]:
np.unique(train_labels)

In [None]:
rnn = RadiusNeighborsClassifier(radius=1)
rnn.fit(train_data, train_labels)

In [None]:
predicted = rnn.predict(test_data)

In [None]:
print(accuracy_score(predicted, test_labels))

Réduisons le rayon :

In [None]:
rnn = RadiusNeighborsClassifier(radius=0.9,
                                outlier_label=outlier_label)
rnn.fit(train_data, train_labels)
predicted = rnn.predict(test_data)
print(accuracy_score(predicted, test_labels))

Créons quelques valeurs aberrantes et testons-les :

In [None]:
centers = [[100, 300]]
data_outliers, labels_outliers = make_blobs(n_samples=10, 
                                  centers=np.array(centers),
                                  random_state=1)

In [None]:
predicted = rnn.predict(data_outliers)
predicted

Une bonne valeur pour k est la racine carrée de tous les échantillons de l'ensemble d'apprentissage :

In [None]:
k = int(len(labels) ** 0.5)
# make this value odd:
if k % 2 == 0:
    k += 1
k

Comparons cela avec un classificateur à k plus proches voisins :

In [None]:
knn = KNeighborsClassifier(algorithm='auto', 
                     leaf_size=30, 
                     metric='minkowski',
                     metric_params=None, 
                     n_jobs=1, 
                     n_neighbors=k, # default is 5
                     p=2,         # p=2 is equivalent to euclidian distance
                     weights='uniform')

knn.fit(data, labels) 

In [None]:
predicted = knn.predict(test_data)
print(accuracy_score(predicted, test_labels))

In [None]:
from sklearn.metrics import confusion_matrix 
# Evaluate Model
cm = confusion_matrix(predicted, test_labels)
print(cm) 

In [None]:
predicted = knn.predict(data_outliers)
predicted

Nous pouvons voir que toutes les valeurs aberrantes ont été classées à tort dans la classe 2, car c'est la classe existante la plus proche des valeurs aberrantes. Nous créons dans la suite trois clusters de valeurs aberrantes :

In [None]:
centers = [[100, 300], [10, -10], [-200, -200]]
data_outliers2, labels_outliers2 = make_blobs(n_samples=30, 
                                              centers=np.array(centers),
                                              random_state=1)

predicted = knn.predict(data_outliers2)
predicted

Les valeurs aberrantes sont assignées aux clusters existants même si elles en sont éloignées. D'autre part, le ```RadiusNeighbirClassifier``` les reconnaîtra comme des valeurs aberrantes :

In [None]:
rnn = RadiusNeighborsClassifier(radius=0.9,
                                outlier_label=outlier_label)
rnn.fit(train_data, train_labels)
predicted = rnn.predict(data_outliers2)
predicted

## Exercices

### Exercice 1
Classifiez les données de ```strange_flowers.txt``` avec un classificateur à k plus proches voisins.

___Solution___

In [None]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler # necessary to reduce biases of large numbers
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import confusion_matrix 
from sklearn.metrics import f1_score 
from sklearn.metrics import accuracy_score 

dataset = pd.read_csv("data/strange_flowers.txt", 
                      header=None, 
                      names=["red", "green", "blue", "size", "label"],
                      sep=" ")
dataset

Au lieu d'utiliser Pandas pour lire les données de ```strange_flowers.txt```, nous pourrions utiliser ```loadtxt``` de numpy :

In [None]:
# alternative way to read and extract the data

import numpy as np

raw_data = np.loadtxt("data/strange_flowers.txt")
data = raw_data[:,:-1]
labels = raw_data[:,-1]

Nous allons maintenant poursuivre avec l'objet Pandas DataFrame ```dataset```, que nous lisons avec ```read_csv``` :

In [None]:
data = dataset.drop('label', axis=1)
labels = dataset.label

In [None]:
X_train, X_test, y_train, y_test = train_test_split(data, 
                                                    labels, 
                                                    random_state=0, 
                                                    test_size=0.2) 

In [None]:
scaler = StandardScaler() 
X_train = scaler.fit_transform(X_train) #  transform
X_test = scaler.transform(X_test) #  transform

In [None]:
X_train

Nous fixons k à la racine carrée de la taille de l'ensemble d'apprentissage :

In [None]:
k = int(len(X_train) ** 0.5)
k

In [None]:
# Define the model
classifier = KNeighborsClassifier(n_neighbors=k, 
                                  metric="minkowski",
                                  p=2,    # Euclidian
                                 ) #  p for different label types

In [None]:
classifier.fit(X_train, y_train)

In [None]:
y_pred = classifier.predict(X_test)
y_pred

In [None]:
# Evaluate Model
cm = confusion_matrix(y_test, y_pred)
print(cm) 

In [None]:
print(accuracy_score(y_test, y_pred))

## Détermination de la valeur optimale de k

Comme nous l'avons écrit, la valeur optimale de k est généralement la racine carrée de n, où n est le nombre total d'échantillons de notre ensemble de données.

Nous pouvons également déterminer une valeur pour k en traçant les valeurs de précision pour différentes valeurs de k :

In [None]:
import matplotlib.pyplot as plt

from sklearn.datasets import make_blobs
import matplotlib.pyplot as plt
import numpy as np


n_classes = 6
data, labels = make_blobs(n_samples=1000, 
                          centers=n_classes,
                          cluster_std = 1.3,
                          random_state=1)
import matplotlib.pyplot as plt

colours = ('green', 'red', 'blue', 'magenta', 'yellow', 'pink')

fig, ax = plt.subplots()
for n_class in range(0, n_classes):
    ax.scatter(data[labels==n_class, 0], data[labels==n_class, 1], 
               c=colours[n_class], s=10, label=str(n_class))

In [None]:
res = train_test_split(data, labels, 
                       train_size=0.7,
                       test_size=0.3,
                       random_state=1)
train_data, test_data, train_labels, test_labels = res 

print(len(train_data), len(test_data), len(train_labels))

X, Y = [], []
for k in range(1, 25):
    classifier = KNeighborsClassifier(n_neighbors=k, 
                                      p=2,    # Euclidian
                                      metric="minkowski")
    classifier.fit(train_data, train_labels)
    predictions = classifier.predict(test_data)
    score = accuracy_score(test_labels, predictions)
    X.append(k)
    Y.append(score)
    


fig, ax = plt.subplots()
ax.set_xlabel('k')
ax.set_ylabel('accuracy')
ax.plot(X, Y, "go")

[Suivant](10_introduction_reseaux_neurones.ipynb)