# Les k-plus proches voisins

## L'algorithme kNN

On importe les données puis on cherche à prédire la valeur $y^{(0)}$ pour l'observation $x^{(0)} = (x^{(0)}_i)_{i \in [1,p]}$.  
Dans le cas de la classification, cela revient à avoir un $y^{(0)}$ catégorique où les modalités sont les classes.

>1. Initialiser $k$ et choisir une fonction de distance
>2. Pour chaque observation $x^{(i)}$ dans les données:
>>a. Calculer la distance $d$ entre $x^{(0)}$ et $x^{(i)}$  
>>b. Stocker la distance $d$ et l’indice $i$ de l’observation $x^{(i)}$ (dans une liste de couples par exemple)
>4. Trier la liste contenant distances et indices de la plus petite distance à la plus grande (dans ordre croissant).
>5. Sélectionner les $k$ premiers éléments
>6. Obtenir les étiquettes des $k$ entrées sélectionnées
>7. Si **régression**, retourner la moyenne des $k$ valeurs $y^{(i)}$ ; si **classification**, retourner le mode des $k$ classes $y^{(i)}$

### Implémenter l'algorithme des k plus proches voisins dans le cas univarié. Tester cet algorithme sur les données ci-dessous

In [None]:
from math import sqrt

'''Calcul de la moyenne des k valeurs de y correspondant aux k plus proches voisins'''
def moyenne(y_kNN):
    return sum(y_kNN) / len(y_kNN)

'''Calcul du mode des k valeurs de y correspondant aux k plus proches voisins'''
def mode(y_kNN):    
    liste = sorted(set(y_kNN),key=y_kNN.count)      
    return liste[-1]

'''Calcul de la distance euclidienne'''
def distance_euclidienne(a, b):      
    return sqrt((a-b)**2)

'''Algorithme des k plus proches voisins kNN'''
def knn(dataX, dataY, x_0, k=3, distance=distance_euclidienne, pred=mode):
    
    #initialisation de la liste des voisins
    voisins = []
    
    #parcours des données et ajout des couples (distances,indices) dans la liste voisins
    for i in range(len(dataX)):
        d = distance(dataX[i], x_0)
        voisins.append((d, i))
        
    #tri de la liste voisins
    voisins = sorted(voisins)
    
    #identification des k-PPV
    kNN = voisins[:k]
    
    #récupération des y correspondant aux k-PPV
    y_kNN = [dataY[couple[1]] for couple in kNN]
    
    return kNN , pred(y_kNN)

In [None]:
# Données de régression
# Colonne 0: taille (cm)
# Colonne 1: poids (kg)
from math import sqrt
import numpy as np
reg_data = np.array([
    [167. ,  50.8],
    [181.7,  61.4],
    [176.3,  68.9],
    [173.3,  64.1],
    [172.2,  64.9],
    [174.5,  55.5],
    [177.3,  63.7],
    [177.8,  61.4],
    [172.5,  50.6],
    [168.9,  57.4]])

k=3
x0=170
dataX=reg_data[:,0]
dataY=reg_data[:,1]

voisins = [] #list()
for i in range(len(dataX)) :
    d = sqrt((x0-dataX[i])**2)
    voisins.append((d,i))
    #voisins.append((i,d))
#pour trier la liste selon 2ème élément du couple
#voisins.sort(key= lambda couple : couple[1])

voisins.sort() #voisins = sorted(voisins)
kppv = voisins[:k]

y_ppv = []
for voisin in range(k):
    y_ppv.append(dataY[kppv[voisin][1]])

y_ppv = [dataY[kppv[v][1]] for v in range(k)]

sum(y_ppv)/k

In [None]:
knn(reg_data[:,0], reg_data[:,1], 170, k=3, distance=distance_euclidienne, pred=moyenne)

In [None]:
# Données de Classification
# Colonne 0: age
# Colonne 1: aime l'ananas dans la pizza

import numpy as np
clf_data = np.array([
   [22, 1],
   [23, 1],
   [21, 1],
   [18, 1],
   [19, 1],
   [25, 0],
   [27, 0],
   [29, 0],
   [31, 0],
   [45, 0],
   [23, 0]
])

k=3
x0=30
dataX=clf_data[:,0]
dataY=clf_data[:,1]

voisins = [] #list()
for i in range(len(dataX)) :
    d = sqrt((x0-dataX[i])**2)
    voisins.append((d,i))
    #voisins.append((i,d))
#pour trier la liste selon 2ème élément du couple
#voisins.sort(key= lambda couple : couple[1])

voisins.sort() #voisins = sorted(voisins)
kppv = voisins[:k]

y_ppv = [dataY[kppv[v][1]] for v in range(k)]

liste = sorted(set(list(dataY)),key=list(dataY).count)      
liste[-1]

In [None]:
knn(clf_data[:,0], clf_data[:,1], 33, k=3, distance=distance_euclidienne, pred=mode)

### Généraliser à des données multivariées et tester sur le dataset iris.csv

En 1936, Edgar Anderson a collecté des données sur 3 espèces d'iris : "iris setosa", "iris virginica" et "iris versicolor"
<img src="iris_setosa.jpeg"><img src="iris_virginica.jpeg"><img src="iris_versicolor.jpeg">

Pour chaque iris étudié, Anderson a mesuré (en cm) :
- la largeur des sépales
- la longueur des sépales
- la largeur des pétales
- la longueur des pétales

In [None]:
import pandas as pd
data = pd.read_csv('Iris.csv')
data = data.sample(frac=1) #pour ne pas avoir toutes les fleurs d'une même classe "rangées ensemble"
# cela a une importance dans notre algo car on teste les voisins dans l'ordre du dataset
data

In [None]:
from math import sqrt

'''Calcul de la moyenne des k valeurs de y correspondant aux k plus proches voisins'''
def moyenne(y_kNN):
    return sum(y_kNN) / len(y_kNN)

'''Calcul du mode des k valeurs de y correspondant aux k plus proches voisins'''
def mode(y_kNN):    
    liste = sorted(set(y_kNN),key=y_kNN.count)      
    return liste[-1]

'''Calcul de la distance euclidienne'''
def distance_euclidienne(a, b):
    s = 0
    for i in range(len(a)):
        s += (a[i] - b[i])**2       
    return sqrt(s)
    #return sqrt(sum((a-b)**2))

'''Algorithme des k plus proches voisins kNN'''
def kNN(dataX, dataY, x_0, k=3, distance=distance_euclidienne, pred=mode):
    
    #initialisation de la liste des voisins
    voisins = []
    
    #parcours des données et ajout des couples (distances,indices) dans la liste voisins
    #legère modification car pbm d'indexes avec les échantillons train/test par la suite
    #cela permet ainsi d'utiliser les noms de films comme index pour la partie recoomandation de films
    for i in dataX.index: 
        d = distance(dataX.loc[i], x_0)
        voisins.append((d, i))
        
    #tri de la liste voisins
    voisins = sorted(voisins)
    
    #identification des k-PPV
    kNN = voisins[:k]
    
    #récupération des y correspondant aux k-PPV
    y_kNN = [dataY[couple[1]] for couple in kNN]

    return kNN , pred(y_kNN)

In [None]:
dataX = data.drop(['Name'], axis = 1)
#dataX = data[['SepalLength','SepalWidth']]
dataY = data['Name']

In [None]:
kNN(dataX, dataY, [7,2,4,1], k=20, distance=distance_euclidienne, pred=mode)

#### Mesurer le score du modèle pour un k donné (en utilisant un jeu de données test) puis comparer ce score pour différents k

In [None]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(
    dataX, dataY,
    test_size=0.2, random_state=123456)

In [None]:
scores = [] #liste dans laquelle on stocke le pourcentage de bonnes classifications du modèle pour un k donné
for k in range(1,31):
#calcul des prédictions pour l'ensemble de X de l'échantillon de test
    pred = []
    for i,r in X_test.iterrows():
        pred.append(kNN(X_train, y_train, r, k=k, distance=distance_euclidienne, pred=mode)[1])
        #calcul du score du modèle = pourcentage de bonnes prédictions
    scores.append((pred==y_test).sum()/len(pred))

In [None]:
import matplotlib.pyplot as plt
plt.plot(range(1,31),scores)

### Utiliser votre algorithme des kNN pour effectuer des recommendations de films : pour un film donné, l'algorithme doit renvoyer les 5 films les plus "proches"

In [None]:
import pandas as pd
films = pd.read_csv('Movie-Ratings.csv')
#on peut renommer les colonnes pour que ce soit plus simple d'utilisation
films.columns = ['Film', 'Genre', 'RT', 'Audience', 'Budget', 'Year']
#on peut choisir de travailler avec les noms de films comme index
films.set_index('Film',inplace=True)
films.head()

In [None]:
# on créé des dummy pour la variable 'Genre'
dummy= pd.get_dummies(films['Genre'])
films = pd.concat((films,dummy), axis=1)
films.drop('Genre', axis=1, inplace=True)
films.head()

In [None]:
# on peut choisir de supprimer l'année si on considère que ce n'est pas intéressant pour nos recommandations
# vous pouvez tout à fait décider de garder cette info, à vous de voir !
films.drop('Year', axis=1, inplace=True)

In [None]:
# on peut normaliser les notes, les budgets et l'année entre 0 et 1 car les différences des genres valent 0 ou 1
films.RT = (films.RT - min(films.RT))/(max(films.RT) - min(films.RT))
films.Audience = (films.Audience - min(films.Audience))/(max(films.Audience) - min(films.Audience))
films.Budget = (films.Budget - min(films.Budget))/(max(films.Budget) - min(films.Budget))

films

In [None]:
# on appelle notre algo kNN pour récupérer les plus proches voisins et donc les recommandations
from numpy.random import randint
film_au_hasard = films.index[randint(len(films))]

reco = kNN(films, films.Action, films.loc[film_au_hasard], k=6, distance=distance_euclidienne, pred=mode)[0]

films.loc[[f for d,f in reco]]

### Maintenant que vous l'avez bien compris, implémenté, testé et validé, vous pouvez chercher les implémentations existantes de cet algorithme dans Python...

In [None]:
data = pd.read_csv('Iris.csv')
dataX = data.drop(['Name'], axis = 1)
dataY = data['Name']

In [None]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(dataX, dataY, test_size=0.2, random_state=123456)

In [None]:
from sklearn.neighbors import KNeighborsClassifier

scores = []

for k in range(1,31):
    knn = KNeighborsClassifier(n_neighbors=k, algorithm='brute')
    knn.fit(X_train, y_train)
    #pred = knn.predict(X_test)
    scores.append(knn.score(X_test,y_test))
    
plt.plot(range(1,31),scores)