# K-Nearest Neighbours

De Naive Bayes techniek is een **supervised** machine learning techniek voor **classificatie** problemen op te lossen.
Deze techniek bestaat reeds sinds de jaren 50.
Het unieke aan deze techniek is dat er geen parameters getrained moeten worden maar dat de k dichtste buren van de input gebruikt worden om de output te bepalen.
De k-waarde hierbij is een hyperparameter.
Het algoritme kan gebruikt worden voor zowel classificatie als regressie:
* In het geval van classificatie is de resulterende klasse de meest voorkomende klasse van de k-dichtste buren.
* In het geval van regressie is de voorspelling het gemiddelde van de target van de k-dichtste buren.

De afstand tussen verschillende inputs heeft duidelijk een grote invloed op welke buren geselecteerd worden voor het uitvoeren techniek.
Hierdoor is het duidelijk dat het de schaal van de verschillende inputs een grote impact kan hebben en dat **normalisatie** van de verschillende inputs belangrijk is. 

Deze techniek gaat het best werken indien zowel het aantal features als het aantal observaties niet te groot is.
Indien het aantal features groot is gaat het moeilijk zijn om een correcte afstand tussen verschillende observaties te bepalen.
Het probleem met een groot aantal observaties is dat om een classificatie te doen, de afstand tot elk punt in de dataset moet berekend worden.
De benodigde tijd voor het uitvoeren van een classificatie kan dus zeer snel toenemen bij grote datasets.

Een uitbreiding op het standaard algoritme hierboven beschreven is om een bepaald gewicht toe te kennen aan elke buur afhankelijk van de afstand tot die buur.
Een vaak gebruikt gewicht is het inverse van de afstand.
Hierdoor wordt er een groter gewicht gegeven aan dichte buren en verminderd de kans op ex aequo tussen de verschillende buren.

Hieronder bekijken we een voorbeeld van hoe dit type classifier te implementeren door middel van de [KNeighborsClassifier](https://scikit-learn.org/stable/modules/generated/sklearn.neighbors.KNeighborsClassifier.html) van sklearn.

In [11]:
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score

In [17]:
iris = load_iris()

X_train, X_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.2)

knn = KNeighborsClassifier(n_neighbors=5, weights="uniform")
knn.fit(X_train, y_train)
y_pred = knn.predict(X_test)
accuracy_score(y_test, y_pred)

0.9666666666666667

Er kan nu hyperparameter tuning toegepast worden op de k-waarde om het beste model te zoeken.
Algemeen gezien gelden de volgende regels:
* Een grote K waarde gebruikt meer buren en gaat dus een smoothere scheidingslijn geven. (Minder complex model dat kan leiden tot underfitting)
* Een kleinere K waarde zorgt voor snellere wisseling van dominante klasse en dus tot een complexer model dat kan leiden tot overfitting

In [1]:
import matplotlib.pyplot as plt

In [None]:
plt.