# Clustering baseado en densidade: DBSCAN

DBSCAN (Density-Based Spatial Clustering of Applications with Noise) é un dos algoritmos de clustering baseado en densidade máis populares. Baséase no concepto de rexións densas, partindo da suposición de que os *clusters* naturais están compostos por puntos situados en zonas cunha grande densidade de datos. Para definir unha rexión densa, DBSCAN emprega dous parámetros principais:

- `Eps` (ε): Distancia máxima entre puntos para seren considerados veciños.
- `minPts`: Número mínimo de puntos dentro da distancia `Eps` para que unha rexión se considere densa.

Opcionalmente, o usuario pode escoller a métrica de distancia, pero xeralmente emprégase a distancia euclidiana (como en scikit-learn).

## Dependencias

In [None]:
!pip install numpy matplotlib scikit-learn seaborn pandas

In [None]:
import numpy as np 
import pandas as pd 
import matplotlib.pyplot as plt 
import seaborn as sns
from sklearn.preprocessing import MinMaxScaler, StandardScaler
from sklearn.cluster import DBSCAN
import warnings

In [None]:
warnings.filterwarnings("ignore")

### Datos

#### Exploración dos datos

Descargamos o dataset co que traballaremos.

In [None]:
!wget http://fegalaz.usc.es/~sdocio/apau2/p1/datasets/customers.csv

In [None]:
df = pd.read_csv(r'customers.csv')

In [None]:
df.head()

Seleccionamos as columnas coas que imos traballar.

In [None]:
df = df[['Annual Income (k$)', 'Spending Score (1-100)']]

In [None]:
df.head()

Normalizamos os datos para axustar a escala.

In [None]:
scaler = MinMaxScaler()

X = scaler.fit_transform(df)
df_scaled = pd.DataFrame(X, columns=df.columns, index=df.index)

In [None]:
df_scaled.head()

In [None]:
plt.figure(figsize=(15, 7))
plt.scatter(x='Annual Income (k$)', y='Spending Score (1-100)', data=df_scaled, s=100, edgecolors='k')
plt.show()

### Clustering

In [None]:
eps = .1
min_samples = 8

Adestramos o algoritmo usando os parámetros definidos e usamos o modelo para asignar cada punto de datos a un *cluster*.

In [None]:
dbscan = DBSCAN(eps=eps, min_samples=min_samples)
labels = dbscan.fit_predict(df_scaled)

In [None]:
labels


In [None]:
val, count = np.unique(labels, return_counts=True)

for v, c in sorted(zip(val, count), key=lambda x: x[1], reverse=True):
    print(f"  Cluster {v}: {c} puntos")

**Visualización**

In [None]:
df['Cluster'] = labels
df_clusters = df[df['Cluster'] != -1]
df_noise = df[df['Cluster'] == -1]

In [None]:
fig, ax = plt.subplots(figsize=(8, 6))
sns.scatterplot(x='Annual Income (k$)', y='Spending Score (1-100)', data=df_clusters, hue='Cluster', ax=ax, palette='Set2', edgecolors='k', s=75)
sns.scatterplot(x='Annual Income (k$)', y='Spending Score (1-100)', data=df_noise, color='black', ax=ax, s=25)
plt.show()