#  🌳 TP : Clustering avec K-Means


## 📌 1. Introduction  
### 🎯 Objectifs du TP  
L'objectif de ce TP est d'introduire la notion de clustering en utilisant l'algorithme **K-Means**. Nous allons appliquer cet algorithme sur un jeu de données simulé et un jeu de données réelles concernant la segmentation de clients.

---

## 📖 2. Théorie : Qu'est-ce que le clustering K-Means ?  
L'apprentissage non supervisé permet de **regrouper des données similaires** sans étiquettes préalables.  
L'algorithme **K-Means** divise un ensemble de données en *k* groupes (**clusters**) en fonction de leur proximité.

### ⚙️ Principe de K-Means  
1️⃣ Choisir *k*, le nombre de clusters.  
2️⃣ Placer *k* centroïdes de manière aléatoire.  
3️⃣ Assigner chaque point de données au centroïde le plus proche **en utilisant la distance euclidienne**.  
4️⃣ Recalculer la position des centroïdes en prenant la moyenne des points assignés.  
5️⃣ Répéter les étapes 3 et 4 jusqu'à convergence.



### Illustration du recalcul des centroïdes
Exécutez le code ci-dessous après avoir monté l'image dans Jupyter :

In [None]:
from IPython.display import display, Image
try:
    display(Image(filename='method-k-means-steps-example.png'))
except FileNotFoundError:
    print("L'image n'est pas encore montée. Veuillez la charger dans l'environnement Jupyter.")

### ✅ Avantages et ❌ Inconvénients de K-Means

#### ✅ Avantages :
✔️ Facile à implémenter et rapide sur de grandes bases de données.  
✔️ Donne de bons résultats lorsque les clusters sont bien séparés et sphériques.  
✔️ Peut être utilisé pour de nombreuses applications comme la segmentation de clients ou l'analyse d'image.  

#### ❌ Inconvénients :
❌ Sensible au choix du **nombre de centroïdes**, qui doit être défini à l'avance.  
❌ Sensible aux valeurs aberrantes et aux formes de clusters non sphériques.  
❌ L'initialisation aléatoire des centroïdes peut affecter les résultats.  

📖 **Pour aller plus loin :** [IBM - K-Means Clustering](https://www.ibm.com/fr-fr/topics/k-means-clustering)


## 🔬 3. Expérimentation : Application du K-Means sur un jeu de données simulé


 ### 📢 **Introduction**
 
Dans cette première expérimentation, nous allons générer un jeu de données artificiel contenant plusieurs groupes de points répartis dans l’espace. L'objectif est d'appliquer **l'algorithme K-Means** pour détecter automatiquement ces groupes (**clusters**). Nous utiliserons également la **méthode du coude** pour déterminer le nombre optimal de clusters.

### **Étapes du travail** 

✅ Générer des données aléatoires représentatives de groupes bien distincts.  
✅ Visualiser ces données pour comprendre leur distribution.  
✅ Appliquer l'algorithme **K-Means** et observer la répartition automatique des clusters.  
✅ Vérifier l'impact du choix de *k* en utilisant la **méthode du coude**.  
✅ Afficher les résultats du clustering en illustrant les clusters détectés.  


In [None]:
# Installation des bibliothèques
!pip install pandas numpy scikit-learn matplotlib

In [None]:
# Importation des bibliothèques
import numpy as np
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans
from sklearn.datasets import make_blobs

In [None]:
# Génération de données avec 3 clusters
X, y = make_blobs(n_samples=300, centers=3, cluster_std=1.0, random_state=42)

# Visualisation des données
plt.scatter(X[:, 0], X[:, 1], s=50)
plt.title("Données avant clustering")
plt.show()

In [None]:
# Application de K-Means avec k=3
kmeans = KMeans(n_clusters=3, random_state=42)
kmeans.fit(X)

# Récupération des étiquettes et des centroïdes
labels = kmeans.labels_
centroids = kmeans.cluster_centers_

In [None]:
# Affichage des clusters après application de K-Means
plt.scatter(X[:, 0], X[:, 1], c=labels, cmap='viridis', s=50, alpha=0.7)
plt.scatter(centroids[:, 0], centroids[:, 1], c='red', marker='x', s=200, label='Centroïdes')
plt.title("Résultat du clustering K-Means")
plt.legend()
plt.show()
del kmeans

### 🎯 Questions pour aller plus loin

1. Pourquoi l’algorithme K-Means nécessite-t-il de choisir le nombre de clusters *k* à l'avance ?
2. Essayez de changer la valeur de *k* et observez les résultats.
3. Que se passe-t-il si nous choisissons un *k* trop grand ou trop petit ?

### **La méthode du coude** (ou comment trouver le nombre adapté de centroïdes)

✅ L'**inertie** est une mesure utilisée dans K-Means pour évaluer la qualité du clustering.
Elle correspond à la **somme des distances au carré entre chaque point et son centroïde** et doit être **faible**.

✅ L'idée est donc de tester le modèle K_Means avec différentes valeurs de *k* et de trouver à partir de quelle valeur l'inertie devient faible.


In [None]:
# Liste des valeurs de k correspondant au nombre de centroïdes (on commence à 2)
k_values = range(2, 10)
inertias = []  # L'inertie doit être la plus faible possible

# Test du modèle avec différents nombres de centroïdes
for k in k_values: 
    kmeans = KMeans(n_clusters=k, random_state=42, n_init=10)
    kmeans.fit(X)
    inertias.append(kmeans.inertia_)
    
        
# Tracé du graphe
plt.plot(k_values, inertias, marker='o')
plt.xlabel("Nombre de clusters k")
plt.ylabel("Inertie")
plt.title("Méthode du coude pour choisir k")
plt.show()

## 🔬 4. Application à la segmentation des clients

📢 **Introduction**

Dans cette seconde expérimentation, nous allons appliquer K-Means sur un jeu de données réel représentant des clients d'une entreprise . L'objectif est d'identifier des types de profils en fonction de leurs **revenus mensuels** et **dépenses mensuelles** . Cela permettra, par exemple, à une entreprise de mieux cibler ses offres et services.


🔹 **Étapes du travail** :

✅ Charger les données client réelles depuis un fichier CSV.

✅ Visualiser la répartition des revenus et dépenses des clients.

✅ Appliquer K-Means pour identifier différents groupes de clients.

✅ Utilisez la méthode du coude pour choisir le nombre optimal de clusters.

✅ Analyser les résultats et interpréter les profils détectés.

In [None]:
# Importation des bibliothèques et chargement des données
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans

# Chargement des données réelles
file_path = "segmentation_clients.csv"
df = pd.read_csv(file_path)

# Affichage des premières lignes du jeu de données
print(df.head())


In [None]:
# Visualisation des données avant clustering
plt.scatter(df['Revenu_Mensuel'], df['Depenses_Mensuelles'], s=50)
plt.xlabel("Revenu Mensuel")
plt.ylabel("Dépenses Mensuelles")
plt.title("Données des clients avant clustering")
plt.show()


In [None]:
# Méthode du coude pour choisir le bon k
X = df[['Revenu_Mensuel', 'Depenses_Mensuelles']]

inertias = []
k_values = range(2, 10)

# Test du modèle avec différents nombres de centroïdes
############## A COMPLETER ####################

    
plt.plot(k_values, inertias, marker='o')
plt.xlabel("Nombre de clusters k")
plt.ylabel("Inertie")
plt.title("Méthode du coude pour choisir k (jeu de données réelles)")
plt.show()


In [None]:
# Application de K-Means avec le bon nombre de cluster
############## A COMPLETER ####################


# Ajout des labels au DataFrame
df['Cluster'] = kmeans.labels_


In [None]:
# Affichage des clusters après application de K-Means
plt.scatter(df['Revenu_Mensuel'], df['Depenses_Mensuelles'], c=df['Cluster'], cmap='viridis', s=50, alpha=0.7)
plt.scatter(kmeans.cluster_centers_[:, 0], kmeans.cluster_centers_[:, 1], c='red', marker='x', s=200, label='Centroïdes')
plt.xlabel("Revenu Mensuel")
plt.ylabel("Dépenses Mensuelles")
plt.title("Segmentation des clients avec K-Means")
plt.legend()
plt.show()


### 🎯 Questions pour aller plus loin

1. Exécuter les deux premières cellules. Observer la répartition des données et conjecturer le nombre de centroïdes à utiliser.
2. A l'aide de la méthode du coude, vérifier qu'effectivement *k = 3*
3. Compléter le programme et en déduire les 3 classes de clients.