# TP : Clustering avec K-Means

## 1. Introduction
### Objectifs du TP
L'objectif de ce TP est d'introduire la notion de clustering en utilisant l'algorithme **K-Means**. Nous allons appliquer cet algorithme sur un jeu de données et analyser les résultats.

## 2. Théorie : Qu'est-ce que le clustering K-Means ?
L'apprentissage non supervisé permet de **regrouper des données similaires** sans étiquettes préalables. L'algorithme **K-Means** divise un ensemble de données en *k* groupes (**clusters**) en fonction de leur proximité.

### Principe de K-Means
1. Choisir *k*, le nombre de clusters.
2. Placer *k* centroïdes de manière aléatoire.
3. Assigner chaque point de données au centroïde le plus proche.
4. Recalculer la position des centroïdes en prenant la moyenne des points assignés.
5. Répéter les étapes 3 et 4 jusqu'à convergence.

### Illustration du recalcul des centroïdes
Exécutez le code ci-dessous après avoir monté l'image dans Jupyter :

In [None]:
from IPython.display import display, Image
try:
    display(Image(filename='method-k-means-steps-example.png'))
except FileNotFoundError:
    print("L'image n'est pas encore montée. Veuillez la charger dans l'environnement Jupyter.")

## 3. Expérimentation : Application du K-Means sur un jeu de données

In [None]:
# Importation des bibliothèques
import numpy as np
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans
from sklearn.datasets import make_blobs

In [None]:
# Génération de données avec 3 clusters
X, y = make_blobs(n_samples=300, centers=3, cluster_std=1.0, random_state=42)

# Visualisation des données
plt.scatter(X[:, 0], X[:, 1], s=50)
plt.title("Données avant clustering")
plt.show()

In [None]:
# Application de K-Means avec k=3
kmeans = KMeans(n_clusters=3, random_state=42)
kmeans.fit(X)

# Récupération des étiquettes et des centroïdes
labels = kmeans.labels_
centroids = kmeans.cluster_centers_

In [None]:
# Affichage des clusters après application de K-Means
plt.scatter(X[:, 0], X[:, 1], c=labels, cmap='viridis', s=50, alpha=0.7)
plt.scatter(centroids[:, 0], centroids[:, 1], c='red', marker='x', s=200, label='Centroïdes')
plt.title("Résultat du clustering K-Means")
plt.legend()
plt.show()

## 4. Analyse des résultats

1. Pourquoi l’algorithme K-Means nécessite-t-il de choisir le nombre de clusters *k* à l'avance ?
2. Que se passe-t-il si nous choisissons un *k* trop grand ou trop petit ?
3. Comment peut-on déterminer le nombre optimal de clusters ?
4. Essayez de changer la valeur de *k* et observez les résultats.
5. Quels sont les avantages et inconvénients de K-Means ?

In [None]:
# Méthode du coude pour choisir le bon k
inertias = []
k_values = range(1, 10)

for k in k_values:
    kmeans = KMeans(n_clusters=k, random_state=42)
    kmeans.fit(X)
    inertias.append(kmeans.inertia_)

plt.plot(k_values, inertias, marker='o')
plt.xlabel("Nombre de clusters k")
plt.ylabel("Inertie")
plt.title("Méthode du coude pour choisir k")
plt.show()

## 5. Conclusion
- K-Means est un algorithme simple et efficace pour le clustering.
- Le choix du bon *k* est crucial et peut être guidé par la méthode du coude.
- Il est sensible à l’initialisation des centroïdes et aux données bruitées.

**Bonus :** Testez K-Means sur d'autres jeux de données ! 🎯