# k plus proches voisins (kNN)
## Introduction
La méthode des k plus proches voisins (kNN pour k-Nearest Neighbors) est une méthode supervisée utilisée en classification et en régression.
C’est un algorithme très simple : au lieu de construire un modèle complexe, il mémorise les données d’entraînement et prend sa décision en fonction des exemples les plus proches.
## Principe de fonctionnement
1. On dispose d'un ensemble de points d'apprentissage (x,y) où chaque $x_i$ est une observation et $y_i$ son label (classe ou valeur).
2. Pour prédire la classe d'un nouveau point $x_{new}$ :
   - On calcule la distance entre $x_{new}$ et tous les points connus;
   - On sélectionne les k plus proches voisins (d'où le nom de la méthode);
   - En classification : on fait un vote majoritaire des classes parmi ces voisins;
   - En régression : on calcule la moyenne des valeurs des voisins.
## Choix des paramètres
Valeur de k :
- k petit : le modèle est très sensible aux points isolés (risque de surapprentissage), il colle trop aux données (même au bruit).
- k grand : le modèle est plus stable mais moins précis sur les frontières fines (effet de lissage important).
  
Type de distance :
- Euclidienne (la plus courante) : $d(x_1,x_2) = \sqrt {\sum (x_i - x_i')^2}$
- Manhattan : $d(x_1,x_2) = \sum |x_i - x_i'|$
- d'autres distances peuvent être utilisées selon le problème.
## Avantage et limites 
Avantages :
- très simple à comprendre et mettre en oeuvre
- Pas de phase d'apprentissage complexe
- S'adapte bien à des données avec peu de dimensions

Inconvénients :
- Lent si beaucoup de données (calcul de toutes les distances)
- Sensible à l'échelle des variables (nécessite souvent une normalisation)
- Sensible au choix de k et de la distance
## Utilisations typiques 
- Reconnaissance d'images ou de chiffres manuscrits
- Classification de fleurs
- Systèmes de recommandation simples (trouver des utilisateurs "proches")

## Exemple : Iris (2 classes)
### Le Dataset
Il s'agit d'un jeu de données très utilisé en statistiques et en Machine Learning, introduit par le statisticien Ronald Fisher en 1936. Il contient 150 échantillons de fleurs d’iris, répartis en 3 espèces :
- Iris setosa
- Iris versicolor
- Iris virginica

Chaque fleur est décrite par 4 caractéristiques (features) :
- Longueur du sépale (cm)
- Largeur du sépale (cm)
- Longueur du pétale (cm)
- Largeur du pétale (cm)
### Réduction à 2 classes et 2 caractéristiques
Pour simplifier, on choisit seulement deux espèces :
- Iris setosa (classe 0)
- Iris versicolor (classe 1)

On choisit seulement 2 caractéristiques :
- Longueur du sépale (axe x)
- Largeur du sépale (axe y)
### Exemple de représentation 
Chaque fleur est représentée par un point :
- En bleu : Iris setosa
- En rouge : Iris versicolor
L'algorithme kNN devra décider pour un nouveau point inconnu (par exemple une fleur dont on mesure la longueur et la largeur de sépale) à quelle classe elle appartient, en fonction de ses voisins les plus proches.


In [None]:
from sklearn import datasets
import matplotlib.pyplot as plt
import numpy as np

# Chargement du Dataset contenu par défaut dans la bibliothèque sklearn
iris = datasets.load_iris()
# iris.data contient les 4 mesures pour chaque fleur, on garde seulement les 2 première colonnes (longueur et largeur du sépale)
# iris.target contient les étiquettes (0=setosa, 1=versicolor, 2=virginica)
X,y = iris.data[:,:2],iris.target
# On enlève la classe 2 = virginica
X,y = X[y!=2], y[y!=2]
# On trace le nuage de points, la couleur dépendant de la classe donnée par y, palette de couleur du bleu au rouge bwr)
plt.scatter(X[:,0],X[:,1],c=y,cmap="bwr")
plt.show()

Ecrire une fonction qui calcule la distance euclidienne entre les points x1 et x2

In [None]:
def distance(x1,x2): ...

Ecrire une fonction qui prédit la classe pour une nouvelle donnée :
- $X_{train}$ et $y_{train}$ sont les données du Dataset
- $x_{new}$ le point dont on doit prédire la classe
- k le nombre de voisins.

Il s'agit de :
- calculer la distance entre $x_{new}$ et chaque point du jeu d'entraînement
- Trier les distances (on pourra utiliser np.argsort de numpy) et garder les k plus petits indices.
- Récupérer les labels des k plus proches voisins
- Compter combien de fois chaque classe apparaît
- Retrouner la classe majoritaire

In [None]:
def knn_predict(X_train,y_train,x_new,k=3): ...

### Visualisation des frontières

In [None]:
# On crée une grille de points couvrant tout le plan
h = .1  # pas de la grille
x_min, x_max = X[:,0].min()-1, X[:,0].max()+1
y_min, y_max = X[:,1].min()-1, X[:,1].max()+1
xx, yy = np.meshgrid(np.arange(x_min, x_max, h),
                     np.arange(y_min, y_max, h))

# Pour chaque point de la grille, on prédit sa classe avec kNN
Z = np.array([knn_predict(X, y, np.array([xx1,yy1]), k=3)
              for xx1,yy1 in zip(xx.ravel(), yy.ravel())])
Z = Z.reshape(xx.shape)

plt.contourf(xx, yy, Z, cmap="bwr", alpha=0.3)
plt.scatter(X[:,0], X[:,1], c=y, cmap="bwr", edgecolors="k")
plt.xlabel("Longueur sépale (cm)")
plt.ylabel("Largeur sépale (cm)")
plt.title("Frontière de décision (kNN, k=3)")
plt.show()