# k-Nearest Neighbor (kNN) 

**kNN** est modèle d'apprentissage supervisé *Instance-based*.

L'algorithme s'entraine sur un jeu de données, il analyse chaque entrée et cherche ses plus proches voisins selon des méthodes de calcul de distance pour pouvoir le classifier.

Pour la classification, la classe retenue est la plus représentanté dans les k voisins, k étant un hyper-paramètre définissable.

**KNN** est un modèle de classification ou de régression.

Pour la classification, le résultat sera une classe. Elle extraite en prenant la classe majoritaire dans les plus proches voisins.<br>

Pour la régression, le résultat sera une valeur représentant la moyenne des valeurs de voisins.

![](image/knn.png)

## Importation du jeu de donnée Iris et split du jeu

In [1]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn import preprocessing

import matplotlib.pyplot as plt
df = pd.read_csv("../../Datasets/Iris/iris.csv")
df.head()

Unnamed: 0,sepal.length,sepal.width,petal.length,petal.width,variety
0,5.1,3.5,1.4,0.2,Setosa
1,4.9,3.0,1.4,0.2,Setosa
2,4.7,3.2,1.3,0.2,Setosa
3,4.6,3.1,1.5,0.2,Setosa
4,5.0,3.6,1.4,0.2,Setosa


In [2]:
X = df[["sepal.length", "sepal.width", "petal.length", "petal.width"]]
y = df[["variety"]].values.ravel()

from sklearn.preprocessing import LabelEncoder
encoder = LabelEncoder()
encoder.fit(y)
y_enc = encoder.transform(y)

X_train, X_test, y_train, y_test = train_test_split(X, y_enc, test_size=0.33, random_state=42)

## Entrainement

In [3]:
from sklearn.neighbors import KNeighborsRegressor

## Les hyperparamètres

n_neighbors : int, nombre de voisins pris en compte. <br>

weights : {'uniform', 'distance'}, fonction de poids utilisé dans les prédictions.
* uniform : tous les voisins ont le même poids
* distance : le poids est l'inverse de la distance. <br>

algorithm: {'ball_tree', 'kd_tree', 'brute', 'auto'} algorithme utilisé pour calculer le voisin le plus proche. <br>

Ces algorithmes sont utilisé pour structurer les données sur un plan multidimensionel pour pouvoir accéler la recherche du plus proche voisin
* ball_tree : structure de données en forme d'arbre binaire
* kd_tree : arbre de partitionnement pour l'organisation de données k-dimensionelles
* brute : utilise une recherche force-brute
* auto : recherche la méthode la plus approprié basé sur les valeurs passé dans la méthode fit <br>

leaf_size: int, paramètre passé aux algoritme BallTree et KD_Tree.

p : int, paramètre de puissance pour la distance de Minkowski

metric : str ou objet DistanceMetric, <br>
Liste des distances comprises dans Scikit-learn
https://scikit-learn.org/stable/modules/generated/sklearn.neighbors.DistanceMetric.html

metric_params : dict, paramètre additionel pour la fonction métrique

n_jobs : int, nombre de processeur utilisé (-1 = tous, None = 1)

In [4]:
model = KNeighborsRegressor(n_neighbors = 10, weights = 'distance',algorithm ='ball_tree')

In [5]:
model.fit(X_train, y_train)

KNeighborsRegressor(algorithm='ball_tree', n_neighbors=10, weights='distance')

In [6]:
model.score(X_test, y_test)

0.9811858289107207