# Algorithme des k plus proches voisins
l’algorithme des k plus proches voisins (K-NN où K-nearest neighbors) est une méthode utilisée pour la classification de données. Son fonctionnement peut être assimilé à l’analogie suivante *dis moi qui sont tes voisins, je te dirais qui tu es…*.

Dans cette activité, vous allez travailler sur un jeu de données fictives : 30 points sont disposés sur un plateau de taille $100 \times 100$. Ces points sont de couleur *rouge*, *verte*, *bleue* ou *noire*. 

Le problème est le suivant : étant données les coordonnées d'un point choisi au hasard sur notre plateau, peut-on deviner sa couleur ? La réponse à cette question sera apportée par l'algorithme des k plus proches voisins que vous devrez réaliser en suivant les indications ci-dessous.

In [None]:
# Import des bibliothèques nécessaires

import matplotlib.pyplot as plt
import numpy as np
from PIL import Image
from random import randint
from math import sqrt
import hashlib
import sys
%matplotlib inline

In [None]:
# Constantes
MAX_RANGE = 100                        # les coordonnées sont entre 0 et 99
PRECISION = 10*sys.float_info.epsilon  # precision des tests sur les flottants
COULEURS = {'red':(255,0,0), 'green':(0,255,0), 'blue':(0,0,255), 'black':(0,0,0)}
FORMES = {"red":"o", "blue":"^", "green":"s", "black":"x"}

## 1. Jeu de données

les informations de départ sont données sous forme d'une liste de tuple de trois termes
   - le premier est l'abscisse
   - le deuxième est l'ordonnée 
   - le troisième la couleur: red blue, green et black

### Récupération d'un jeu existant
Validez les 3 cellules ci-dessous et étudiez la manière dont les données sont représentées dans le dictionnaire ***data***

In [None]:
data=[(52, 2, 'black'), (59, 0, 'black'), (68, 8, 'black'), (77, 11, 'black'), (28, 21, 'black'), (0, 66, 'blue'),
      (0, 77, 'blue'), (28, 61, 'blue'), (21, 56, 'blue'), (29, 66, 'blue'), (10, 40, 'blue'), (10, 81, 'blue'), 
      (30, 49, 'blue'), (83, 87, 'green'), (96, 56, 'green'), (45, 77, 'green'), (73, 69, 'green'), 
      (53, 77, 'green'), (34, 68, 'green'), (70, 63, 'green'), (85, 34, 'red'), (36, 54, 'red'), (33, 54, 'red'),
      (65, 52, 'red'), (45, 45, 'red'), (70, 62, 'red'), (48, 66, 'red'), (63, 28, 'red'), (40, 28, 'red'),
      (82, 18, 'red')]

In [None]:
def pts_couleur(couleur):
    liste=[]
    for el in data:
        if el[2]==couleur:
            liste.append((el[0],el[1]))
    return liste

ptsNoirs=pts_couleur('black')

In [None]:
print("ce jeu contient ", len(data), " données")
print("les points noirs sont ", ptsNoirs)

### Représentation graphique du jeu de données

Pour visualiser notre jeu de données, chaque donnée sera un point dont les coordonnées seront les deux valeurs entre 0 et 100 et dont la couleur et la forme corrspondront au critère associé. Pour simplifier la lecture sur un document noir et blanc, nous adopterons la convention suivante :
- le rouge sera représenté par un point rond
- le vert sera représenté par un carré
- le bleu sera représenté par un triangle
- le noir sera représenté par une croix

In [None]:
def dessine_points(data):
    plt.rcParams["figure.figsize"] = (4, 4)
    plt.axis('equal')
    for el in data:
        plt.scatter(el[0], el[1], c=el[2], marker=FORMES[el[2]])
    plt.show()
dessine_points(data)

## 2.Implémentation de l'algorithme des k plus proches voisins

On cherche dans cette partie à écrire un programme qui, étant données les coordonnées d'un point, devine la couleur associée en utilisant l'algorithme des k plus proches voisins.

### a) Calcul de la distance entre deux points
Ecrire une fonction **distance** prenant en paramètre deux points (un point sera représenté par un tuple (x,y)) et renvoyant la distance entre ces deux points.

In [None]:
### BEGIN SOLUTION
def distance(pointA, pointB):
   #complétez le code



### END SOLUTION

In [None]:
# test de la fonction
cible = (5, 5)
voisin1 = (3, 4)
voisin2 = (0, 0)
print(distance(cible, voisin1))
print(distance(cible, voisin2))

# Verification automatisee
assert abs(distance(cible, voisin1) - 2.23606797749979) < PRECISION
assert abs(distance(cible, voisin2) - 7.0710678118654755) < PRECISION
### BEGIN HIDDEN TESTS
assert abs(distance((34,52), (12, 30)) - 31.11269837220809) < PRECISION
assert abs(distance((34,52), (34, 52)) - 0.0) < PRECISION
### END HIDDEN TESTS

### b) Calcul des distances de tous les points à une origine donnée

Construire une fonction ***k_proches_voisins*** qui prend en arguments
- le jeu de données
- les coordonnées de la cible: le point dont on cherche à déterminer a nature
- la valeur de *k* : nombre de plus proches voisins à considérer (il faut 1 par défaut)

et renvoyant la liste des k plus proches voisins sous forme d'un tuple (distance, propriete)

In [None]:
def k_plus_proches(data,cible,k=1):
    liste_voisin=[]
    #complétez le code
 
    return liste_voisin[:k]

In [None]:
# test de la fonction
reponse = k_plus_proches(data, (5,5), 5)
for r in reponse:
    print(r)
# tests automatises
assert abs(reponse[0][0]-28.0178514522438) < PRECISION
assert reponse[0][1]== 'black'
assert abs(reponse[1][0]-35.35533905932738) < PRECISION
assert reponse[1][1]== 'blue'
assert abs(reponse[2][0]-41.88078318274385) < PRECISION
assert reponse[2][1]== 'red'
assert abs(reponse[3][0]-47.095647357266465) < PRECISION
assert reponse[3][1]== 'black'
assert abs(reponse[4][0]-50.60632371551998) < PRECISION
assert reponse[4][1]== 'blue'
### BEGIN HIDDEN TESTS
reponse1 = k_plus_proches(data, (51,25), 2)
assert abs(reponse1[0][0]-11.40175425099138) < PRECISION
assert reponse1[0][1]== 'red'
assert abs(reponse1[1][0]-12.36931687685298) < PRECISION
assert reponse1[1][1]== 'red'
### END HIDDEN TESTS