# <center>KNN classification avec *scikit-learn*: cas 1 </center>

Maintenant que vous avez bien compris comment fonctionne l'algorithme de classification des *k* plus proches voisins, nous allons utiliser la classe *KneighborsClassifier* de la bibliothèque *scikit-learn*.

## Importation des packages

In [4]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import make_circles
from sklearn.neighbors import KNeighborsClassifier


## Génération du jeu de données

Nous utiliserons le même jeu de données que précédemment: make_circle(...).
Déterminer un ensemble d'apprentissage de 100 éléments (sans bruit) et un de test de 50 éléments avec un bruit de 0.1 par exemple pour le test.

In [18]:
#TODO
#x_train , y_train = make_circles(100, noise=0.05, random_state=1)
#x_test , y_test = make_circles(50, noise=0.15, random_state=1)
x_train , y_train = make_circles(100, noise=None, random_state=1)
x_test , y_test = make_circles(50, noise=0.1, random_state=1)


## Représentation graphique des données d'apprentissage et de test

In [None]:
plt.scatter(x_train[y_train==0][:, 0], x_train[y_train==0][:, 1], c='violet')
plt.scatter(x_train[y_train==1][:, 0], x_train[y_train==1][:, 1], c='yellow')

plt.scatter(x_test[y_test==0][:, 0], x_test[y_test==0][:, 1], c='indigo')
plt.scatter(x_test[y_test==1][:, 0], x_test[y_test==1][:, 1], c='goldenrod')
plt.show()

## Utilisation du classifieur *KNeighborsClassifier* de *scikit-learn*


Nous allons utiliser la classe *KNeighborsClassifier* de *scikit-learn*
Vous avez une documentation [ici](https://scikit-learn.org/stable/modules/generated/sklearn.neighbors.KNeighborsClassifier.html) (aidez vous de l'exemple à la fin)

### Initialisation du modèle (emploi du constructeur)


In [7]:
knn = KNeighborsClassifier()

### Entraînement du modèle

In [None]:
knn.fit(x_train, y_train)

### Prédiction sur de nouvelles données

Vous réalisez la prédiction sur *x_test* et vous affichez l'exactitude, la précision et le rappel de la prédiction

In [None]:
from sklearn.metrics import accuracy_score
from sklearn.metrics import precision_score
from sklearn.metrics import recall_score

prediction = knn.predict(x_test)

print(accuracy_score(y_test, prediction))
print(precision_score(y_test,prediction))
print(recall_score(y_test,prediction))

## Etude d'un Paramètre de la classe *KneighborsClassifier*

### Paramètre *n_neighbors*

*n_neighbors* est le paramètre qui gère le nombre de voisin utilisé pour réaliser la prédiction. 
Ce nombre est en général choisi impair pour éviter qu'il y ait des égalités dans la classification. 

Attention, au choix de ce nombre. Dans certaines applications si le nombre est trop petit, la classification ne sera pas performante. Idem si trop grand.

Tester l'algorithme avec des valeurs de *n_neighbors* différentes (très grande, très petite). Pour chacun des cas, calculer l'exactitude, vous pouvez aussi réaliser une représentation graphique.

In [None]:
from sklearn.metrics import accuracy_score

knn = KNeighborsClassifier(n_neighbors=1)

knn.fit(x_train, y_train)

prediction = knn.predict(x_test)
print(accuracy_score(y_test, prediction))


In [None]:
plt.scatter(x_train[y_train==0][:, 0], x_train[y_train==0][:, 1], c='violet')
plt.scatter(x_train[y_train==1][:, 0], x_train[y_train==1][:, 1], c='yellow')

plt.scatter(x_test[np.logical_and(prediction==0, y_test==0)][:, 0], 
            x_test[np.logical_and(prediction==0, y_test==0)][:, 1], c='indigo')
plt.scatter(x_test[np.logical_and(prediction==1, y_test==1)][:, 0], 
            x_test[np.logical_and(prediction==1, y_test==1)][:, 1], c='goldenrod')
plt.scatter(x_test[prediction!=y_test][:, 0], 
            x_test[prediction!=y_test][:, 1], c='red')
plt.show()

In [None]:
from sklearn.metrics import accuracy_score

knn = KNeighborsClassifier(n_neighbors=91)

knn.fit(x_train, y_train)

prediction = knn.predict(x_test)

print(accuracy_score(y_test, prediction))

In [None]:
plt.scatter(x_train[y_train==0][:, 0], x_train[y_train==0][:, 1], c='violet')
plt.scatter(x_train[y_train==1][:, 0], x_train[y_train==1][:, 1], c='yellow')

plt.scatter(x_test[np.logical_and(prediction==0, y_test==0)][:, 0], 
            x_test[np.logical_and(prediction==0, y_test==0)][:, 1], c='indigo')
plt.scatter(x_test[np.logical_and(prediction==1, y_test==1)][:, 0], 
            x_test[np.logical_and(prediction==1, y_test==1)][:, 1], c='goldenrod')
plt.scatter(x_test[prediction!=y_test][:, 0], 
            x_test[prediction!=y_test][:, 1], c='red')
plt.show()

In [None]:
knn = KNeighborsClassifier(n_neighbors=7)

knn.fit(x_train, y_train)

prediction = knn.predict(x_test)

print(accuracy_score(y_test, prediction))

In [None]:
plt.scatter(x_train[y_train==0][:, 0], x_train[y_train==0][:, 1], c='violet')
plt.scatter(x_train[y_train==1][:, 0], x_train[y_train==1][:, 1], c='yellow')

plt.scatter(x_test[np.logical_and(prediction==0, y_test==0)][:, 0], 
            x_test[np.logical_and(prediction==0, y_test==0)][:, 1], c='indigo')
plt.scatter(x_test[np.logical_and(prediction==1, y_test==1)][:, 0], 
            x_test[np.logical_and(prediction==1, y_test==1)][:, 1], c='goldenrod')
plt.scatter(x_test[prediction!=y_test][:, 0], 
            x_test[prediction!=y_test][:, 1], c='red')
plt.show()