#  üå≥ TP : Clustering avec K-Means


## üìå 1. Introduction  
### üéØ Objectifs du TP  
L'objectif de ce TP est d'introduire la notion de clustering en utilisant l'algorithme **K-Means**. Nous allons appliquer cet algorithme sur un jeu de donn√©es simul√© et un jeu de donn√©es r√©elles concernant la segmentation de clients.

---

## üìñ 2. Th√©orie : Qu'est-ce que le clustering K-Means ?  
L'apprentissage non supervis√© permet de **regrouper des donn√©es similaires** sans √©tiquettes pr√©alables.  
L'algorithme **K-Means** divise un ensemble de donn√©es en *k* groupes (**clusters**) en fonction de leur proximit√©.

### ‚öôÔ∏è Principe de K-Means  
1Ô∏è‚É£ Choisir *k*, le nombre de clusters.  
2Ô∏è‚É£ Placer *k* centro√Ødes de mani√®re al√©atoire.  
3Ô∏è‚É£ Assigner chaque point de donn√©es au centro√Øde le plus proche **en utilisant la distance euclidienne**.  
4Ô∏è‚É£ Recalculer la position des centro√Ødes en prenant la moyenne des points assign√©s.  
5Ô∏è‚É£ R√©p√©ter les √©tapes 3 et 4 jusqu'√† convergence.



### Illustration du recalcul des centro√Ødes
Ex√©cutez le code ci-dessous apr√®s avoir mont√© l'image dans Jupyter :

In [None]:
from IPython.display import display, Image
try:
    display(Image(filename='method-k-means-steps-example.png'))
except FileNotFoundError:
    print("L'image n'est pas encore mont√©e. Veuillez la charger dans l'environnement Jupyter.")

### ‚úÖ Avantages et ‚ùå Inconv√©nients de K-Means

#### ‚úÖ Avantages :
‚úîÔ∏è Facile √† impl√©menter et rapide sur de grandes bases de donn√©es.  
‚úîÔ∏è Donne de bons r√©sultats lorsque les clusters sont bien s√©par√©s et sph√©riques.  
‚úîÔ∏è Peut √™tre utilis√© pour de nombreuses applications comme la segmentation de clients ou l'analyse d'image.  

#### ‚ùå Inconv√©nients :
‚ùå Sensible au choix du **nombre de centro√Ødes**, qui doit √™tre d√©fini √† l'avance.  
‚ùå Sensible aux valeurs aberrantes et aux formes de clusters non sph√©riques.  
‚ùå L'initialisation al√©atoire des centro√Ødes peut affecter les r√©sultats.  

üìñ **Pour aller plus loin :** [IBM - K-Means Clustering](https://www.ibm.com/fr-fr/topics/k-means-clustering)


## üî¨ 3. Exp√©rimentation : Application du K-Means sur un jeu de donn√©es simul√©


 ### üì¢ **Introduction**
 
Dans cette premi√®re exp√©rimentation, nous allons g√©n√©rer un jeu de donn√©es artificiel contenant plusieurs groupes de points r√©partis dans l‚Äôespace. L'objectif est d'appliquer **l'algorithme K-Means** pour d√©tecter automatiquement ces groupes (**clusters**). Nous utiliserons √©galement la **m√©thode du coude** pour d√©terminer le nombre optimal de clusters.

### **√âtapes du travail** 

‚úÖ G√©n√©rer des donn√©es al√©atoires repr√©sentatives de groupes bien distincts.  
‚úÖ Visualiser ces donn√©es pour comprendre leur distribution.  
‚úÖ Appliquer l'algorithme **K-Means** et observer la r√©partition automatique des clusters.  
‚úÖ V√©rifier l'impact du choix de *k* en utilisant la **m√©thode du coude**.  
‚úÖ Afficher les r√©sultats du clustering en illustrant les clusters d√©tect√©s.  


In [None]:
# Installation des biblioth√®ques
!pip install pandas numpy scikit-learn matplotlib

In [None]:
# Importation des biblioth√®ques
import numpy as np
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans
from sklearn.datasets import make_blobs

In [None]:
# G√©n√©ration de donn√©es avec 3 clusters
X, y = make_blobs(n_samples=300, centers=3, cluster_std=1.0, random_state=42)

# Visualisation des donn√©es
plt.scatter(X[:, 0], X[:, 1], s=50)
plt.title("Donn√©es avant clustering")
plt.show()

In [None]:
# Application de K-Means avec k=3
kmeans = KMeans(n_clusters=3, random_state=42)
kmeans.fit(X)

# R√©cup√©ration des √©tiquettes et des centro√Ødes
labels = kmeans.labels_
centroids = kmeans.cluster_centers_

In [None]:
# Affichage des clusters apr√®s application de K-Means
plt.scatter(X[:, 0], X[:, 1], c=labels, cmap='viridis', s=50, alpha=0.7)
plt.scatter(centroids[:, 0], centroids[:, 1], c='red', marker='x', s=200, label='Centro√Ødes')
plt.title("R√©sultat du clustering K-Means")
plt.legend()
plt.show()
del kmeans

### üéØ Questions pour aller plus loin

1. Pourquoi l‚Äôalgorithme K-Means n√©cessite-t-il de choisir le nombre de clusters *k* √† l'avance ?
2. Essayez de changer la valeur de *k* et observez les r√©sultats.
3. Que se passe-t-il si nous choisissons un *k* trop grand ou trop petit ?

### **La m√©thode du coude** (ou comment trouver le nombre adapt√© de centro√Ødes)

‚úÖ L'**inertie** est une mesure utilis√©e dans K-Means pour √©valuer la qualit√© du clustering.
Elle correspond √† la **somme des distances au carr√© entre chaque point et son centro√Øde** et doit √™tre **faible**.

‚úÖ L'id√©e est donc de tester le mod√®le K_Means avec diff√©rentes valeurs de *k* et de trouver √† partir de quelle valeur l'inertie devient faible.


In [None]:
# Liste des valeurs de k correspondant au nombre de centro√Ødes (on commence √† 2)
k_values = range(2, 10)
inertias = []  # L'inertie doit √™tre la plus faible possible

# Test du mod√®le avec diff√©rents nombres de centro√Ødes
for k in k_values: 
    kmeans = KMeans(n_clusters=k, random_state=42, n_init=10)
    kmeans.fit(X)
    inertias.append(kmeans.inertia_)
    
        
# Trac√© du graphe
plt.plot(k_values, inertias, marker='o')
plt.xlabel("Nombre de clusters k")
plt.ylabel("Inertie")
plt.title("M√©thode du coude pour choisir k")
plt.show()

## üî¨ 4. Application √† la segmentation des clients

üì¢ **Introduction**

Dans cette seconde exp√©rimentation, nous allons appliquer K-Means sur un jeu de donn√©es r√©el repr√©sentant des clients d'une entreprise . L'objectif est d'identifier des types de profils en fonction de leurs **revenus mensuels** et **d√©penses mensuelles** . Cela permettra, par exemple, √† une entreprise de mieux cibler ses offres et services.


üîπ **√âtapes du travail** :

‚úÖ Charger les donn√©es client r√©elles depuis un fichier CSV.

‚úÖ Visualiser la r√©partition des revenus et d√©penses des clients.

‚úÖ Appliquer K-Means pour identifier diff√©rents groupes de clients.

‚úÖ Utilisez la m√©thode du coude pour choisir le nombre optimal de clusters.

‚úÖ Analyser les r√©sultats et interpr√©ter les profils d√©tect√©s.

In [None]:
# Importation des biblioth√®ques et chargement des donn√©es
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans

# Chargement des donn√©es r√©elles
file_path = "segmentation_clients.csv"
df = pd.read_csv(file_path)

# Affichage des premi√®res lignes du jeu de donn√©es
print(df.head())


In [None]:
# Visualisation des donn√©es avant clustering
plt.scatter(df['Revenu_Mensuel'], df['Depenses_Mensuelles'], s=50)
plt.xlabel("Revenu Mensuel")
plt.ylabel("D√©penses Mensuelles")
plt.title("Donn√©es des clients avant clustering")
plt.show()


In [None]:
# M√©thode du coude pour choisir le bon k
X = df[['Revenu_Mensuel', 'Depenses_Mensuelles']]

inertias = []
k_values = range(2, 10)

# Test du mod√®le avec diff√©rents nombres de centro√Ødes
############## A COMPLETER ####################

    
plt.plot(k_values, inertias, marker='o')
plt.xlabel("Nombre de clusters k")
plt.ylabel("Inertie")
plt.title("M√©thode du coude pour choisir k (jeu de donn√©es r√©elles)")
plt.show()


In [None]:
# Application de K-Means avec le bon nombre de cluster
############## A COMPLETER ####################


# Ajout des labels au DataFrame
df['Cluster'] = kmeans.labels_


In [None]:
# Affichage des clusters apr√®s application de K-Means
plt.scatter(df['Revenu_Mensuel'], df['Depenses_Mensuelles'], c=df['Cluster'], cmap='viridis', s=50, alpha=0.7)
plt.scatter(kmeans.cluster_centers_[:, 0], kmeans.cluster_centers_[:, 1], c='red', marker='x', s=200, label='Centro√Ødes')
plt.xlabel("Revenu Mensuel")
plt.ylabel("D√©penses Mensuelles")
plt.title("Segmentation des clients avec K-Means")
plt.legend()
plt.show()


### üéØ Questions pour aller plus loin

1. Ex√©cuter les deux premi√®res cellules. Observer la r√©partition des donn√©es et conjecturer le nombre de centro√Ødes √† utiliser.
2. A l'aide de la m√©thode du coude, v√©rifier qu'effectivement *k = 3*
3. Compl√©ter le programme et en d√©duire les 3 classes de clients.