# K plus proches voisins

In [19]:
import pandas as pd
import numpy as np 
import matplotlib.pyplot as plt

from sklearn.datasets import load_iris

### 1. Trouver les plus proches voisins d'une observation

In [20]:
from sklearn.neighbors import NearestNeighbors
from sklearn.preprocessing import StandardScaler

-   `dataset` contient les données Iris (150 fleurs, 4 caractéristiques : longueur/largeur des sépales et pétales).

-   `features` est un tableau numpy de forme (150, 4) contenant uniquement les caractéristiques numériques (sans les noms ou les classes).

In [21]:
dataset = load_iris()
features = dataset.data

-   `StandardScaler` transforme les données pour que chaque colonne ait une moyenne de 0 et un écart-type de 1.

Ceci est important pour que les distances ne soient pas biaisées par des caractéristiques à grande échelle.

In [22]:
Standardizer = StandardScaler()
features_standardized = Standardizer.fit_transform(features)

On crée un modèle NearestNeighbors avec `n_neighbors=5` : il va trouver les 5 points les plus proches pour toute observation.

`.fit(features_standardized)` indique qu'on cherche ces voisins dans les données standardisées.

In [23]:
Nearest_neighbors = NearestNeighbors(n_neighbors=5).fit(features_standardized)

On crée un point fictif [1, 1, 1, 1] pour lequel on veut trouver les 5 fleurs les plus proches dans notre dataset.

    >⚠️ Attention : Ce point est déjà dans l’échelle standardisée (supposé), sinon il faudrait appliquer Standardizer.transform() dessus.

In [24]:
new_observation = np.array([[1, 1, 1, 1]])
distances, indices = Nearest_neighbors.kneighbors(new_observation)

In [25]:
features_standardized[indices]

array([[[1.03800476, 0.55861082, 1.10378283, 1.18556721],
        [0.79566902, 0.32841405, 0.76275827, 1.05393502],
        [0.4321654 , 0.78880759, 0.93327055, 1.44883158],
        [0.55333328, 0.78880759, 1.0469454 , 1.58046376],
        [1.03800476, 0.55861082, 1.10378283, 1.71209594]]])

In [26]:
distances

array([[0.49140089, 0.74294782, 0.75692864, 0.76371162, 0.84505638]])

Ce code :

-   Charge les données Iris.

-   Standardise les données.

-   Entraîne un modèle pour chercher les 5 plus proches voisins.

-   Donne un point fictif [1, 1, 1, 1] et cherche ses voisins dans les données.

-   Retourne leurs distances et leurs positions dans le dataset.