# TP : Clustering avec DBSCAN

## 1. Introduction

### üåü Objectifs du TP
- Comprendre le fonctionnement de l'algorithme DBSCAN.
- L'utiliser pour regrouper des donn√©es sans conna√Ætre √† l'avance le nombre de clusters.
- Comparer ses r√©sultats √† ceux de K-Means.

---

## 2. Th√©orie : DBSCAN

### üîç Qu'est-ce que DBSCAN ?
DBSCAN (Density-Based Spatial Clustering of Applications with Noise) est un algorithme de clustering bas√© sur la densit√© des points.
Il est capable de trouver des clusters de formes arbitraires et de reconna√Ætre les points isol√©s comme du bruit.

### ‚öôÔ∏è Param√®tres importants :
- `eps` : **distance maximale** pour qu‚Äôun point soit consid√©r√© comme voisin.
- `min_samples` : **nombre minimum de points** dans un voisinage pour former un cluster.

### üßπ Types de points :
- Point **central** : assez de voisins proches.
- Point **bordure** : proche d‚Äôun point central mais sans assez de voisins.
- Point **bruit** : trop √©loign√© des autres.

### üîç Attribution de label :
Le mod√®le DBSCAN attribue √† chaque point :

- soit un **num√©ro de cluster** (ex. 0, 1, 2‚Ä¶),

- soit -1 pour les points consid√©r√©s comme du **bruit** (outliers).



## 3. Avantages et inconv√©nients de DBSCAN

### ‚úÖ Avantages :
- Identifie des clusters de **forme irr√©guli√®re**.
- G√®re automatiquement les **points aberrants** (bruit).
- Pas besoin de pr√©ciser le nombre de clusters.

### ‚ùå Inconv√©nients :
- Sensible au choix des param√®tres `eps` et `min_samples`.
- Moins efficace si la densit√© varie beaucoup entre clusters.

### ‚ÑπÔ∏è Note p√©dagogique ‚Äì Post-traitement possible :
Une fois les clusters d√©tect√©s par DBSCAN, il est parfois utile de :

‚úÖ **Supprimer les clusters trop petits** consid√©r√©s comme peu significatifs.

üîÅ Ou **tenter de les fusionner** avec des clusters proches.

üí° *Ces √©tapes rel√®vent du post-traitement du clustering,
elles sont utiles mais ne sont pas abord√©es dans ce TP.*

---

## 4. Exp√©rimentation sur un jeu de donn√©es simul√©

### üìÅ 4.1 G√©n√©ration de donn√©es

In [None]:
# Installation des biblioth√®ques
!pip install pandas numpy scikit-learn matplotlib

In [None]:
from sklearn.datasets import make_moons
import matplotlib.pyplot as plt
import numpy as np

X, y = make_moons(n_samples=300, noise=0.05, random_state=42)
plt.scatter(X[:, 0], X[:, 1], s=50)
plt.title("Donn√©es simul√©es (formes en croissant)")
plt.show()

### üîå 4.2 Application de DBSCAN

In [None]:
from sklearn.cluster import DBSCAN

dbscan = DBSCAN(eps=0.2, min_samples=5)
labels = dbscan.fit_predict(X)

plt.scatter(X[:, 0], X[:, 1], c=labels, cmap='plasma', s=50)
plt.title("Clustering DBSCAN")
plt.show()

### üìä 4.3 Comparaison avec K-Means

In [None]:
from sklearn.cluster import KMeans

kmeans = KMeans(n_clusters=2, random_state=42, n_init=10)
kmeans.fit(X)
k_labels = kmeans.labels_

plt.scatter(X[:, 0], X[:, 1], c=k_labels, cmap='viridis', s=50)
plt.title("Clustering K-Means")
plt.show()

---

## üìò 5. Estimation automatique des param√®tres DBSCAN

Dans cette section, nous allons estimer automatiquement les param√®tres `min_samples` et `eps` √† partir des donn√©es. 

**<u>Important</u>** : une r√®gle *empirique* indique une fourchette entre **2 et 5 * nombre de crit√®res** (3 * nombre de crit√®res s'ils sont nombreux).


### üîÑ 5.1 D√©termination du couple eps / min_samples :

Ce code permet de tester plusieurs combinaisons de param√®tres pour l‚Äôalgorithme DBSCAN.

Il affiche un tableau r√©capitulatif des valeurs estim√©es pour :

- min_samples (nombre minimum de voisins)

- eps (distance maximale entre voisins)

Ensuite, il applique DBSCAN avec chaque couple (min_samples, eps)

Il affiche :

- le **nombre de clusters d√©tect√©s**

- le **nombre de points** consid√©r√©s comme **bruit**

- une visualisation claire des r√©sultats

üéØ L‚Äôobjectif est de comparer les r√©sultats pour choisir le **meilleur couple de param√®tres**.



In [None]:
from sklearn.neighbors import NearestNeighbors
import matplotlib.pyplot as plt
import numpy as np

# Calcul de la dimension n (nombre de crit√®res ici)
dimension = X.shape[1]

# R√®gle empirique pour d√©terminer l'intervalle de min_samples (seulement 2 dimensions ici)
min_samples_range = range(2, 5 * dimension)
eps_results = []  # Stocker les distances moyennes des plus grands √©carts visuels

# Test pour chaque valeur de min_samples : le KNN permet d'estimer l'EPS
for min_samples in min_samples_range:
    neighbors = NearestNeighbors(n_neighbors=min_samples).fit(X)
    distances, _ = neighbors.kneighbors(X)
    k_distances = np.sort(distances[:, min_samples - 1])

    # En guise d'estimation simple, on prend la valeur au 90e percentile
    eps_est = np.percentile(k_distances, 90)
    eps_results.append((min_samples, round(eps_est, 3)))

In [None]:
import matplotlib.pyplot as plt
import pandas as pd


# Cr√©ation du tableau √† partir des r√©sultats
eps_df = pd.DataFrame(eps_results, columns=["min_samples", "eps estim√©"])
print(eps_df)

# Affichage sous forme de tableau matplotlib
fig, ax = plt.subplots()
ax.axis('off')
table = ax.table(cellText=eps_df.values,
                 colLabels=eps_df.columns,
                 cellLoc='center',
                 loc='center')
table.auto_set_font_size(False)
table.set_fontsize(10)
fig.tight_layout()
plt.title("R√©sum√© des eps estim√©s")
plt.show()


# Boucle de test pour chaque couple (min_samples, eps)
from sklearn.cluster import DBSCAN

for min_s, eps in eps_results:
    dbscan = DBSCAN(eps=eps, min_samples=min_s)
    labels = dbscan.fit_predict(X)

    n_clusters = len(set(labels)) - (1 if -1 in labels else 0)
    n_noise = list(labels).count(-1)

    print(f"min_samples = {min_s}, eps = {eps:.3f}, clusters = {n_clusters}, bruit = {n_noise} points")

    plt.scatter(X[:, 0], X[:, 1], c=labels, cmap='tab10', s=50)
    plt.title(f"DBSCAN (min_samples={min_s}, eps={eps:.3f})")
    plt.show()

On voit ici que l'on choisit **min_samples = 7** et **eps = 0.136**.

In [None]:
from sklearn.cluster import DBSCAN

dbscan = DBSCAN(eps=0.136, min_samples=7)
labels = dbscan.fit_predict(X)

plt.scatter(X[:, 0], X[:, 1], c=labels, cmap='plasma', s=50)
plt.title("Clustering DBSCAN")
plt.show()

### üßæ 5.2 Pr√©diction de l'appartenance d'une donn√©e √† un cluster

üß† **<u>Important</u>** : DBSCAN ne permet pas la pr√©diction directe (pas de .predict() üòî)
mais on peut contourner ce probl√®me en :

- entra√Ænant un **mod√®le de classification supervis√©e (ex : KNN en particulier)** sur les r√©sultats de DBSCAN,

- puis en utilisant ce mod√®le pour pr√©dire l‚Äôappartenance d‚Äôun nouveau point.

**<u>ATTENTION</u>** : on veillera √† **supprimer les donn√©es catalogu√©es comme "bruit"** qui fausseraient les r√©sultats : on les rep√®re gr√¢ce √† leur label valant -1.

Comme le savez bien s√ªr üòÅ, l'algorithme des **plus proches voisins (KNN)** d√©pend du nombre de voisins pris en compte.
Pour conna√Ætre leur nombre le plus adapt√©, on peut se servir du code suivant, indiquant son score pour chaque k-voisins sollicit√©s.

In [None]:
from sklearn.datasets import make_moons
from sklearn.model_selection import cross_val_score
from sklearn.neighbors import KNeighborsClassifier
import matplotlib.pyplot as plt
import numpy as np


# Donn√©es tr√®s bruit√©es
X, y = make_moons(n_samples=300, noise=0.25, random_state=42)


# üìå Visualisation du nuage de points
plt.figure(figsize=(6, 4))
plt.scatter(X[:, 0], X[:, 1], c=y, cmap='coolwarm', s=50)
plt.title("Donn√©es make_moons avec bruit important")
plt.xlabel("x")
plt.ylabel("y")
plt.grid(True)
plt.show()


# üîç Validation crois√©e sur diff√©rentes valeurs de k
scores = []
k_values = range(1, 21)

for k in k_values:
    knn = KNeighborsClassifier(n_neighbors=k)
    score = cross_val_score(knn, X, y, cv=5).mean()
    scores.append(score)

    
# üìà Affichage des scores
plt.plot(k_values, scores, marker='o')
plt.xlabel("Nombre de voisins (k)")
plt.ylabel("Score de validation crois√©e")
plt.title("Choix optimal de k pour KNN (donn√©es bruit√©es)")
plt.grid(True)
plt.show()


# ‚úÖ Meilleur k
best_k = k_values[np.argmax(scores)]
print(f"Meilleur k estim√© : {best_k} avec un score de {max(scores):.3f}")


In [None]:
# On suppose le mod√®le pr√©c√©dent toujours entra√Æn√©
from sklearn.neighbors import KNeighborsClassifier


# Suppression des points de bruit (-1)
X_clean = X[labels != -1]
y_clean = labels[labels != -1]


# Entra√Ænement d'un classifieur KNN selon les "k_neighbors" sur les clusters trouv√©s
k_neighbors = 9   # D'apr√®s pr√©c√©demment 
knn = KNeighborsClassifier(n_neighbors=k_neighbors)
knn.fit(X_clean, y_clean)


# Exemple : nouvelle donn√©e √† pr√©dire
point_test = np.array([[1.0, 0.0]])
cluster_pred = knn.predict(point_test)
neighbors_idx = knn.kneighbors(point_test, return_distance=False)[0]
neighbors_points = X_clean[neighbors_idx]


# Visualisation
plt.figure(figsize=(8, 5))
unique_labels = set(labels)
colors = [plt.cm.plasma(each) for each in np.linspace(0, 1, len(unique_labels))]

for label, color in zip(unique_labels, colors):
    mask = labels == label
    if label == -1:
        color = (0, 0, 0, 1)  # noir pour le bruit
        label_name = "Bruit"
    else:
        label_name = f"Cluster {label}"
    plt.scatter(X[mask, 0], X[mask, 1], s=50, c=[color], label=label_name)

    
# Affichage du point test
plt.scatter(point_test[0, 0], point_test[0, 1], c="cyan", edgecolors="green", s=200, marker="*", label=f"Point test (cluster {cluster_pred})")

# Colorier les voisins KNN
plt.scatter(neighbors_points[:, 0], neighbors_points[:, 1], edgecolors="black", facecolors="none", s=200, linewidths=2, label="Voisins KNN")


plt.title("Visualisation DBSCAN avec pr√©diction d'un point test")
plt.xlabel("x")
plt.ylabel("y")
plt.legend()
plt.grid(True)
plt.show()

print(f"Le point {point_test[0]} est class√© dans le cluster {cluster_pred[0]}")
print(knn.predict_proba(point_test)) 

---

## üß† 6. TP : DBSCAN sur donn√©es r√©elles

Voici un exemple d'application de l‚Äôalgorithme **DBSCAN** √† des **donn√©es clients r√©alistes** sur deux crit√®res : le **salaire** et les **d√©penses** 

üìù **<u>Objectif</u>** : d√©tecter automatiquement des groupes de clients ayant des comportements similaires.


In [None]:
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.neighbors import NearestNeighbors
from sklearn.cluster import DBSCAN


# Chargement des donn√©es
df_clients = pd.read_csv("donnees_clients_dbscan.csv")
X = df_clients[["Revenu_Mensuel", "Depenses_Mensuelles"]].values

# Affichage des premi√®res lignes du jeu de donn√©es
print(df_clients.head())



# Choisir une plage de min_samples_range √† tester
min_samples_range = range(2,10)
eps_results = []  # Stocker les distances moyennes des plus grands √©carts visuels

# Test pour chaque valeur de min_samples : le KNN permet d'estimer l'EPS
################# A COMPLETER ####################
    



# Cr√©ation du tableau √† partir des r√©sultats
eps_df = pd.DataFrame(eps_results, columns=["min_samples", "eps estim√©"])
print(eps_df)

# Affichage sous forme de tableau matplotlib
fig, ax = plt.subplots()
ax.axis('off')
table = ax.table(cellText=eps_df.values,
                 colLabels=eps_df.columns,
                 cellLoc='center',
                 loc='center')
table.auto_set_font_size(False)
table.set_fontsize(10)
fig.tight_layout()
plt.title("R√©sum√© des eps estim√©s")
plt.show()



# Boucle de test pour chaque couple (min_samples, eps)
for min_s, eps in eps_results:
    dbscan = DBSCAN(eps=eps, min_samples=min_s)
    labels = dbscan.fit_predict(X)

    n_clusters = len(set(labels)) - (1 if -1 in labels else 0)
    n_noise = list(labels).count(-1)

    print(f"min_samples = {min_s}, eps = {eps:.3f}, clusters = {n_clusters}, bruit = {n_noise} points")

    plt.scatter(X[:, 0], X[:, 1], c=labels, cmap='tab10', s=50)
    plt.title(f"DBSCAN (min_samples={min_s}, eps={eps:.3f})")
    plt.show()

In [None]:
# D√©termination du meilleur k pour le KNN
scores = []
k_values = range(1, 21)

################# A COMPLETER ####################


    
# üìà Affichage des scores
plt.plot(k_values, scores, marker='o')
plt.xlabel("Nombre de voisins (k)")
plt.ylabel("Score de validation crois√©e")
plt.title("Choix optimal de k pour KNN (donn√©es bruit√©es)")
plt.grid(True)
plt.show()


# ‚úÖ Meilleur k
best_k = k_values[np.argmax(scores)]
print(f"Meilleur k estim√© : {best_k} avec un score de {max(scores):.3f}")


In [None]:
# Entra√Ænement du mod√®le DBSCAN avec le couple eps / min_samples d√©termin√©s ci-dessus    
################# A COMPLETER ####################
dbscan = DBSCAN(eps=75.9, min_samples=2)
labels = dbscan.fit_predict(X)


# Affichage des donn√©es (et clusters)
plt.scatter(X[:, 0], X[:, 1], c=labels, cmap='plasma', s=50)
plt.title("Clustering DBSCAN")
plt.show()

    
# Suppression des points de bruit (-1)
X_clean = X[labels != -1]
y_clean = labels[labels != -1]


# Entra√Ænement d'un classifieur KNN avec le meilleur k trouv√© pr√©c√©demment
################# A COMPLETER ####################


# Exemple : nouvelle donn√©e √† pr√©dire (√† l'aide de KNN)
################# A COMPLETER ####################


# Visualisation
plt.figure(figsize=(8, 5))
unique_labels = set(labels)
colors = [plt.cm.plasma(each) for each in np.linspace(0, 1, len(unique_labels))]

for label, color in zip(unique_labels, colors):
    mask = labels == label
    if label == -1:
        color = (0, 0, 0, 1)  # noir pour le bruit
        label_name = "Bruit"
    else:
        label_name = f"Cluster {label}"
    plt.scatter(X[mask, 0], X[mask, 1], s=50, c=[color], label=label_name)

    
# Affichage du point test
plt.scatter(point_test[0, 0], point_test[0, 1], c="cyan", edgecolors="green", s=200, marker="*", label=f"Point test (cluster {cluster_pred})")

# Colorier les voisins KNN
plt.scatter(neighbors_points[:, 0], neighbors_points[:, 1], edgecolors="black", facecolors="none", s=200, linewidths=2, label="Voisins KNN")


plt.title("Visualisation DBSCAN avec pr√©diction d'un point test")
plt.xlabel("x")
plt.ylabel("y")
plt.legend()
plt.grid(True)
plt.show()

print(f"Le point {point_test[0]} est class√© dans le cluster {cluster_pred[0]}")
print(knn.predict_proba(point_test)) 

### üìå Travail √† faire / Questions :

1. **Analyser les donn√©es** : visualiser le nuage de points et **estimer** le nombre de clusters.
2. **Choisir une plage de `min_samples` √† tester**.
3. Tester les r√©sultats de **DBSCAN** pour chaque couple (`min_samples`, `eps`).
4. ‚úÖ Choisir les **meilleurs param√®tres** `eps` / `min_samples` selon :
   - nombre de clusters d√©tect√©s selon la question 2.)
   - nombre de points bruit√©s (le moins possible)
   - coh√©rence des groupes
   
   
5. **D√©terminer** le cluster d'appartenance d'un client gagnant 2000 euros et d√©pendant 1500 euros par mois.
6. Quelles **am√©liorations** pourrait-on apporter √† ce mod√®le ? On observera la visualisation pour ce faire.
---

üí° **Aide** : s'inspirer de l‚Äôexemple pr√©c√©dent sur `make_moons`, copier-coller les cellules n√©cessaires en adaptant les donn√©es. On v√©rifiera √©galement que le meilleur couple `min_samples / eps` est *(2 , 75.9)* et que le meilleur `k` pour le KNN est *3* ou *4*.