# 3. K-Nearest Neighbors (KNN)

---

## 3.1 Principe du KNN

---

### Qu'est-ce que KNN ?

- KNN (K-Nearest Neighbors) est une **méthode non paramétrique** de classification.
- **Idée principale** : pour prédire la classe d'un nouvel exemple $x$ :
  - On regarde ses $k$ voisins les plus proches dans le jeu d'entraînement,
  - On fait voter ces $k$ voisins pour déterminer la classe de $x$.

---

### Illustration simple

- Si $k=3$ :
  - On cherche les 3 points les plus proches,
  - La classe majoritaire parmi ces 3 voisins devient la classe prédite.

  <p align="center">
    <img style="background-color: white" src="https://copyassignment.com/wp-content/uploads/2022/08/Category-A-1024x1024.png" alt="Dérivation" width="500"/>
  </p>

  *Source : [copyassignment.com – Illustration knn](https://copyassignment.com)*

---

## 3.2 Distance et mesure de proximité

---

### Comment mesurer la "proximité" ?

Le choix de la distance est crucial pour KNN.

- **Distance euclidienne** (par défaut) :

  $$
  d(x, x') = \sqrt{\sum_j (x_j - x_j')^2}
  $$

- **Distance Manhattan** :

  $$
  d(x, x') = \sum_j |x_j - x_j'|
  $$

- **Distance de Minkowski** (généralisation) :

  $$
  d(x, x') = \left( \sum_j |x_j - x_j'|^p \right)^{1/p}
  $$

avec $p=2$ pour Euclidienne, $p=1$ pour Manhattan.

---

### Remarque importante

- Si les features ont des échelles différentes, il est **essentiel de standardiser** les données.
- Sinon, certaines variables peuvent dominer la distance.

---

## 3.3 Choix de k

---

### Effet du choix de $k$

- **Petit $k$** (ex: 1, 3) :
  - Modèle très sensible au bruit,
  - Risque de **sur-apprentissage**.

- **Grand $k$** (ex: 15, 20) :
  - Modèle plus stable,
  - Risque de **sous-apprentissage** (perte de finesse).

---

### Règle générale

- Utiliser **validation croisée** pour choisir le meilleur $k$.
- En pratique, $k$ impair est souvent utilisé pour éviter les égalités en classification binaire.

---

## 3.4 Vote majoritaire ou pondéré

---

### Méthodes de vote

- **Vote simple** :
  - Chaque voisin compte pour 1 vote.

- **Vote pondéré** :
  - Chaque voisin est pondéré selon sa distance : les voisins proches comptent plus que les lointains.

Formule de pondération typique :

$$
\text{poids} = \frac{1}{\text{distance}(x, x')}
$$

---

## 3.5 Forces et limites du KNN

---

### Forces

- **Simplicité** d'implémentation et d'interprétation.
- **Pas besoin d'entraînement** : le "modèle" est simplement la base de données.

---

### Limites

- **Coûteux en prédiction** : il faut parcourir tout le dataset pour chaque prédiction.
- **Sensibilité au choix de la distance**.
- **Sensibilité au bruit et aux dimensions** :
  - Quand la dimension augmente, toutes les distances deviennent similaires (malédiction de la dimensionnalité).

---

## 3.6 Exemple pratique rapide avec `scikit-learn`

---

```python
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score

# Génération d'un jeu de données simple
X, y = make_classification(n_samples=200, n_features=2, n_classes=2, n_redundant=0, n_clusters_per_class=1, random_state=42)

# Standardisation
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# Découpage en train/test
X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.3, random_state=42)

# Modèle KNN
model = KNeighborsClassifier(n_neighbors=5)
model.fit(X_train, y_train)

# Prédiction
y_pred = model.predict(X_test)

# Évaluation
print(f"Accuracy : {accuracy_score(y_test, y_pred):.2f}")