# Les k-plus proches voisins

## L'algorithme kNN

On importe les données puis on cherche à prédire la valeur $y^{(0)}$ pour l'observation $x^{(0)} = (x^{(0)}_i)_{i \in [1,p]}$.  
Dans le cas de la classification, cela revient à avoir un $y^{(0)}$ catégorique où les modalités sont les classes.

>1. Initialiser $k$ et choisir une fonction de distance
>2. Pour chaque observation $x^{(i)}$ dans les données:
>>a. Calculer la distance $d$ entre $x^{(0)}$ et $x^{(i)}$  
>>b. Stocker la distance $d$ et l’indice $i$ de l’observation $x^{(i)}$ (dans une liste de couples par exemple)
>4. Trier la liste contenant distances et indices de la plus petite distance à la plus grande (dans ordre croissant).
>5. Sélectionner les $k$ premiers éléments
>6. Obtenir les étiquettes des $k$ entrées sélectionnées
>7. Si **régression**, retourner la moyenne des $k$ valeurs $y^{(i)}$ ; si **classification**, retourner le mode des $k$ classes $y^{(i)}$

### Implémenter l'algorithme des k plus proches voisins dans le cas univarié. Tester cet algorithme sur les données ci-dessous

In [10]:
from math import sqrt

# intialisation de k
k=3

# fonction de distance
def distance_euclidienne(a,b):
    return sqrt((a-b)**2)

# point à prédire
x0 = 21

# jeu de donnée
dataX =  np.array([1,2,3,10,20])
dataY =  np.array([1,2,3,4,5])

# la boucle
voisins = []
for i,x in enumerate(dataX):
    d = distance_euclidienne(x,x0)
    voisins.append((i,d))

# tri de la liste voisins par distance
voisins = sorted(voisins, key = lambda couple : couple[1])

# récupération de kPPV
kNN = voisins[:k]

# récupération des étiquettes (les y) correspondant aux k-PPV
y_kNN = [dataY[couple[0]] for couple in kNN] #[dataY[i] for i,d in kNN]

# si régression
y0_pred = sum(y_kNN)/len(y_kNN)

#si classification: à faire...

In [22]:
from math import sqrt

"""Calcul de la distance euclidienne"""
def distance_euclidienne(a,b):
    return sqrt((a-b)**2)

"""Calcul de la moyenne des valeurs de y correspondant aux k plus proches voisins"""
def moyenne(liste):
    return sum(liste)/len(liste)

"""Calcul du mode des valeurs de y correspondant aux k plus proches voisins"""
def mode(liste):
    return max(set(liste), key = liste.count)

"""Algorithme des plus proches voisins"""
def knn(dataX, dataY, x0, k=3, dist=distance_euclidienne, pred=moyenne):
    # initialisation de la liste voisins
    voisins = []

    # parcours des données et ajout des couples (indices, distances) dans voisins
    for i,x in enumerate(dataX):
        d = distance_euclidienne(x,x0)
        voisins.append((i,d))

    # tri de la liste voisins par distance
    voisins = sorted(voisins, key = lambda couple : couple[1])

    # récupération de kPPV
    kNN = voisins[:k]

    # récupération des étiquettes (les y) correspondant aux k-PPV
    y_kNN = [dataY[couple[0]] for couple in kNN] #[dataY[i] for i,d in kNN]

    # retour de la prediction et des kPPV
    return kNN, y_kNN, pred(y_kNN)

In [23]:
# Données de régression
# Colonne 0: taille (cm)
# Colonne 1: poids (kg)
from math import sqrt
import numpy as np
reg_data = np.array([
    [167. ,  50.8],
    [181.7,  61.4],
    [176.3,  68.9],
    [173.3,  64.1],
    [172.2,  64.9],
    [174.5,  55.5],
    [177.3,  63.7],
    [177.8,  61.4],
    [172.5,  50.6],
    [168.9,  57.4]])

dataX = reg_data[:,0]
dataY = reg_data[:,1]
x0 = 172.6

knn(dataX, dataY, x0, k=3, dist=distance_euclidienne, pred=moyenne)

([(8, 0.09999999999999432), (4, 0.4000000000000057), (3, 0.700000000000017)],
 [50.6, 64.9, 64.1],
 59.86666666666667)

In [25]:
# Données de Classification
# Colonne 0: age
# Colonne 1: aime l'ananas dans la pizza

import numpy as np
clf_data = np.array([
   [22, 1],
   [23, 1],
   [21, 1],
   [18, 1],
   [19, 1],
   [25, 0],
   [27, 0],
   [29, 0],
   [31, 0],
   [45, 0],
   [23, 0]
])

dataX = clf_data[:,0]
dataY = clf_data[:,1]
x0 = 17

knn(dataX, dataY, x0, k=3, dist=distance_euclidienne, pred=mode)

([(3, 1.0), (4, 2.0), (2, 4.0)], [1, 1, 1], 1)

### Généraliser à des données multivariées et tester sur le dataset iris.csv

En 1936, Edgar Anderson a collecté des données sur 3 espèces d'iris : "iris setosa", "iris virginica" et "iris versicolor"

<img src="iris_setosa.jpeg"><img src="iris_virginica.jpeg"><img src="iris_versicolor.jpeg">

Pour chaque iris étudié, Anderson a mesuré (en cm) :
- la largeur des sépales
- la longueur des sépales
- la largeur des pétales
- la longueur des pétales

#### Mesurer le score du modèle pour un k donné (en utilisant un jeu de données test) puis comparer ce score pour différents k

### Utiliser votre algorithme des kNN pour effectuer des recommendations de films : pour un film donné, l'algorithme doit renvoyer les 5 films les plus "proches"

### Maintenant que vous l'avez bien compris, implémenté, testé et validé, vous pouvez chercher les implémentations existantes de cet algorithme dans Python...