# K plus proches voisins

L'algorithme des K plus proches voisins sert dans la classification et la régréssion, il classe les valeurs en fonction de leurs "K" voisin les plus proches. Cet algorithme est considérer comme paresseux car il réalise les calculs lors de la prédition c-à-d que pour prédire,  il calcule les distances avec les voisins et en fonction des voisins les plus proches, il fait une prédiction. Cela rends l'algorithme lent avec des données volumineuse.

[Scikit-learn Nearest neighbors]("https://scikit-learn.org/stable/modules/neighbors.html")

In [2]:
import pandas as pd
import numpy as np 
import matplotlib.pyplot as plt

from sklearn.datasets import load_iris

### 1. Trouver les plus proches voisins d'une observation

In [3]:
from sklearn.neighbors import NearestNeighbors
from sklearn.preprocessing import StandardScaler

-   `dataset` contient les données Iris (150 fleurs, 4 caractéristiques : longueur/largeur des sépales et pétales).

-   `features` est un tableau numpy de forme (150, 4) contenant uniquement les caractéristiques numériques (sans les noms ou les classes).

In [4]:
dataset = load_iris()
features = dataset.data

-   `StandardScaler` transforme les données pour que chaque colonne ait une moyenne de 0 et un écart-type de 1.

Ceci est important pour que les distances ne soient pas biaisées par des caractéristiques à grande échelle.

In [5]:
Standardizer = StandardScaler()
features_standardized = Standardizer.fit_transform(features)

On crée un modèle NearestNeighbors avec `n_neighbors=5` : il va trouver les 5 points les plus proches pour toute observation.

`.fit(features_standardized)` indique qu'on cherche ces voisins dans les données standardisées.

In [6]:
Nearest_neighbors = NearestNeighbors(n_neighbors=5).fit(features_standardized)

On crée un point fictif [1, 1, 1, 1] pour lequel on veut trouver les 5 fleurs les plus proches dans notre dataset.

In [7]:
new_observation = np.array([[1, 1, 1, 1]])
distances, indices = Nearest_neighbors.kneighbors(new_observation)

In [9]:
features_standardized[indices].shape

(1, 5, 4)

In [None]:
distances

array([[0.49140089, 0.74294782, 0.75692864, 0.76371162, 0.84505638]])

Ce code :

-   Charge les données Iris.

-   Standardise les données.

-   Entraîne un modèle pour chercher les 5 plus proches voisins.

-   Donne un point fictif [1, 1, 1, 1] et cherche ses voisins dans les données.

-   Retourne leurs distances et leurs positions dans le dataset.