### Cours sur l'algorithme K-Nearest Neighbors (KNN)

#### Introduction

L'algorithme **K-Nearest Neighbors (KNN)** est un algorithme d'apprentissage supervisé utilisé à la fois pour la classification et la régression. Il est basé sur le principe que des points similaires dans l'espace des caractéristiques sont proches les uns des autres. En d'autres termes, les objets similaires sont proches dans l'espace des données.

#### Principe de fonctionnement

Le KNN fonctionne en trouvant les **K voisins les plus proches** d'un point donné (à prédire) et en prenant une décision en fonction des classes ou des valeurs cibles de ces voisins.

##### Classification

- **Etape 1 :** Lorsqu'un nouvel échantillon doit être classé, l'algorithme trouve les K points les plus proches (les plus similaires) dans l'ensemble de données d'entraînement.
- **Etape 2 :** L'algorithme effectue un vote majoritaire parmi les classes de ces K voisins pour déterminer la classe du nouvel échantillon.
- **Etape 3 :** Le nouvel échantillon est attribué à la classe la plus fréquente parmi ses K voisins.

##### Régression

- **Etape 1 :** Lorsqu'une nouvelle valeur doit être prédite, l'algorithme trouve les K points les plus proches dans l'ensemble de données d'entraînement.
- **Etape 2 :** La valeur prédite est calculée en faisant la moyenne des valeurs cibles de ces K voisins.

#### Choix de K

Le paramètre **K** est crucial pour les performances du KNN. Un petit K rend l'algorithme sensible au bruit (surapprentissage), tandis qu'un K trop grand peut rendre la classification trop simple (sous-apprentissage). Il est souvent conseillé d'utiliser une technique de validation croisée pour choisir la meilleure valeur de K.

#### Mesure de distance

La distance entre les points peut être mesurée de différentes manières. Les plus courantes sont :

- **Distance Euclidienne :** \( d(p, q) = \sqrt{\sum_{i=1}^{n} (p_i - q_i)^2} \)
- **Distance de Manhattan :** \( d(p, q) = \sum_{i=1}^{n} |p_i - q_i| \)
- **Distance de Minkowski :** Une généralisation de la distance euclidienne et de Manhattan.

Le choix de la mesure de distance dépend du problème et de la nature des données.

#### Avantages et Inconvénients

**Avantages :**

1. **Simplicité :** L'algorithme est facile à comprendre et à implémenter.
2. **Pas de phase d'apprentissage :** Il est basé sur la recherche de voisins lors de la prédiction, ce qui signifie qu'il n'y a pas de phase d'entraînement.
3. **Flexible :** Il peut être utilisé pour la classification et la régression.

**Inconvénients :**

1. **Complexité computationnelle :** Le KNN peut être lent lors de la prédiction, surtout avec des ensembles de données de grande taille.
2. **Sensibilité aux échelles des données :** Les caractéristiques ayant des amplitudes différentes peuvent fausser les résultats, d'où l'importance de normaliser les données.
3. **Sensible au bruit :** Si K est trop petit, l'algorithme peut être influencé par les anomalies ou le bruit dans les données.

#### Exemple d'implémentation en Python avec `sklearn`

Voici un exemple simple d'utilisation du KNN pour une tâche de classification :

```python
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score

# Charger les données Iris
data = load_iris()
X = data.data
y = data.target

# Séparer les données en ensembles d'entraînement et de test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Normaliser les données
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

# Créer et entraîner le modèle KNN
knn = KNeighborsClassifier(n_neighbors=3)
knn.fit(X_train, y_train)

# Prédire les classes des données de test
y_pred = knn.predict(X_test)

# Calculer l'exactitude
accuracy = accuracy_score(y_test, y_pred)
print(f"Exactitude : {accuracy * 100:.2f}%")
```

#### Conclusion

L'algorithme KNN est un outil puissant pour les tâches de classification et de régression, notamment en raison de sa simplicité. Cependant, il doit être utilisé avec précaution, notamment en ce qui concerne le choix du paramètre K et la normalisation des données.