# Algorithme des k plus proches voisins

* Chaque point d'un plan possède une couleur (vert, rouge ou noir) suivant le secteur dans lequel il se trouve.
* Les secteurs délimittant les couleurs de points ne sont pas donnés.
* Nous connaissons les couleurs d'une collection de points.

**Problèmatique :** Deviner la couleur d'un point donné ne faisant pas partie de la collection donnée.

In [None]:
import pandas
import matplotlib.pyplot as plt
liste=pandas.read_csv("liste_points.csv")
x=liste.loc[:,"x"]
y=liste.loc[:,"y"]
couleur=liste.loc[:,"c"]
plt.scatter(x[couleur==0], y[couleur==0], color='g', s=30)
plt.scatter(x[couleur==1], y[couleur==1], color='r', s=30)
plt.scatter(x[couleur==2], y[couleur==2], color='b', s=30)
plt.show()

Dans l'exemple ci-dessous, un point a été rajouté. De quelle couleur sera-t-il ?

In [None]:
plt.scatter(x[couleur==0], y[couleur==0], color='g', s=30)
plt.scatter(x[couleur==1], y[couleur==1], color='r', s=30)
plt.scatter(x[couleur==2], y[couleur==2], color='b', s=30)
plt.scatter(2.85,3.3,c='w',edgecolors='black')
plt.show()

Tous les cas ne sont pas aussi faciles. Que pensez-vous de la couleur du nouveau point ajouté ?

In [None]:
plt.scatter(x[couleur==0], y[couleur==0], color='g', s=30)
plt.scatter(x[couleur==1], y[couleur==1], color='r', s=30)
plt.scatter(x[couleur==2], y[couleur==2], color='b', s=30)
plt.scatter(2.93,5.59,c='w',edgecolors='black')
plt.show()

Pouvez-vous proposer une méthode permettant de traiter ce cas ? 

En dégager un algorithme permettant de traiter n'importe quel cas.

## Algorithme des k plus proches voisins :

* On calcule la distance entre le point étudié et chaque point issu du jeu de données.
* On sélectionne uniquement les k distances les plus petites (les k plus proches voisins)
* Parmi les k plus proches voisins , on détermine la couleur majoritaire.

### influence du paramètre k :


Si $k=1$ le point étudié prendra la couleur du point le plus proche : ici Bleu.

In [None]:
plt.scatter(x[couleur==0], y[couleur==0], color='g', s=30)
plt.scatter(x[couleur==1], y[couleur==1], color='r', s=30)
plt.scatter(x[couleur==2], y[couleur==2], color='b', s=30)
plt.scatter(2.93,5.59,c='w',edgecolors='black')
plt.plot([2.72,2.93],[6.17,5.59],'k--', lw=1)
plt.show()

Si $k=2$, une couleur n'étant pas majoritaire, nous devons la choisir arbitrairement ou aléatoirement :

In [None]:
plt.scatter(x[couleur==0], y[couleur==0], color='g', s=30)
plt.scatter(x[couleur==1], y[couleur==1], color='r', s=30)
plt.scatter(x[couleur==2], y[couleur==2], color='b', s=30)
plt.scatter(2.93,5.59,c='w',edgecolors='black')
plt.plot([2.72,2.93],[6.17,5.59],'k--', lw=1)
plt.plot([2.26,2.93],[5.29,5.59],'k--', lw=1)
plt.show()

Si $k=3$, la couleur majoritaire est cette fois le Vert :

In [None]:
plt.scatter(x[couleur==0], y[couleur==0], color='g', s=30)
plt.scatter(x[couleur==1], y[couleur==1], color='r', s=30)
plt.scatter(x[couleur==2], y[couleur==2], color='b', s=30)
plt.scatter(2.93,5.59,c='w',edgecolors='black')
plt.plot([2.72,2.93],[6.17,5.59],'k--', lw=1)
plt.plot([2.26,2.93],[5.29,5.59],'k--', lw=1)
plt.plot([1.96,2.93],[4.67,5.59],'k--', lw=1)
plt.show()

## Implémentation de l'algorithme.

### Fonction distance

Ecrire une fonction *distance* qui prend en argument deux tableaux de coordonnées de 2 points et qui renvoie la distance entre ces deux points.

### Recherche des k plus proches voisins

Ecrire une fonction *k_voisins* qui prend en argument une liste L de tableaux de coordonnées de points, un entier k (nombre de voisins) et un tableau représentant les 2 coordonnées représentant la position du nouvel élément. Cette fonction renverra la liste des indices dans L des k plus proches voisins de x (où x ne fait pas partie de la liste) 

In [None]:
x=[2.93, 5.59]
k_voisins(liste,3,x)

### Attribution de classe

Ecrire une fonction ` predire_classe ` qui détermine le résultat majoritaire des classes d'appartenance (ici les couleurs) des `k` plus proches voisins et assigne la classe du nouvel élément à cette clase majoritaire.
Cette fonction admet en argument d'entrée une liste `L` de 

In [None]:
Predire_classe(liste,3,x)

In [None]:
Predire_classe(liste,2,x)

In [None]:
Predire_classe(liste,1,x)