# DBSCAN

Siguendo con los algoritmos de clústering, existe otro que a diferencia de k-Means no requiere que especifiques de antemano el número de clústers.

Este algoritmo es conocido como DBSCAN, o <i>Density-Based Spatial Clustering of Applications with Noise</i>. 

Este algoritmo agrupa elementos dentro de un conjunto en función de su densidad en el espacio. Puntos que estén cercanos entre si se considerarán parte del mismo cluster, mientras que puntos que estén muy alejados se consideararán como ruido.

La implementación de <code>DBSCAN</code> está dentro del módulo <code>sklearn.cluster</code>:

In [None]:
from sklearn.cluster import DBSCAN

Vamos a generar un dataset con 5 blobs de datos, 5 clusters originalmente:

In [None]:
from sklearn.datasets import make_blobs

X, y_true = make_blobs(n_samples=500, centers=5, cluster_std=0.8, random_state=0)

Como con <code>DBSCAN</code> no requiere que se especifique el número de clusters, podemos inicializarlo con sus valores por default – y luego usaremos <code>fit_predict</code> para conseguir los clusters asignados:

In [None]:
dbscan = DBSCAN()
labels = dbscan.fit_predict(X)

Si revisamos las etiquetas, verás que hay algunas con el valor <code>-1</code>, estas son las que fueron identificadas como ruido:

In [None]:
labels

Podemos visualizar los clusters con la siguiente función.

In [None]:
from utils import view_dbscan

view_dbscan(X, y_true, [("Etiquetas predichas", dbscan)])

## Argumentos de <code>DBSCAN</code>

DBSCAN tiene varios argumentos, pero los más importantes a considerar son:

 - <code>eps</code>: El radio de vecindad que define la distancia máxima entre dos puntos para que se consideren vecinos. 

 - <code>min_samples</code>: El número mínimo de puntos requeridos para formar un clúster. Valores de <code>min_samples</code> demasiado pequeños pueden resultar en clústeres muy pequeños y ruido no deseado, mientras que valores demasiado grandes pueden hacer que se agrupen menos puntos.

## Visualización de los argumentos

### <code>eps</code>

El radio de vecindad que define la distancia máxima entre dos puntos para que se consideren vecinos. Valores de <code>eps</code> demasiado pequeños pueden hacer que se agrupen menos puntos o incluso que todos los puntos sean clasificados como ruido, mientras que valores demasiado grandes pueden agrupar puntos que no deberían estar juntos.

In [None]:
dbscan = DBSCAN()
labels = dbscan.fit_predict(X)

eps_list = [0.01, 0.1, 0.3, 0.5, 1]

trained_dbscans = []
for eps_value in eps_list:
    dbscan = DBSCAN(eps = eps_value)
    dbscan.fit(X)
    trained_dbscans.append((f"eps = {eps_value}", dbscan))

view_dbscan(X, y_true, trained_dbscans)

### <code>min_samples</code>

El número mínimo de puntos requeridos para formar un clúster. Valores de <code>min_samples</code> demasiado pequeños pueden resultar en clústeres muy pequeños y ruido no deseado, mientras que valores demasiado grandes pueden hacer que se agrupen menos puntos.

In [None]:
dbscan = DBSCAN()
labels = dbscan.fit_predict(X)

min_samples_list = [1, 3, 5, 20, 50]

trained_dbscans = []
for min_samples_value in min_samples_list:
    dbscan = DBSCAN(min_samples = min_samples_value)
    dbscan.fit(X)
    trained_dbscans.append((f"min_samples = {min_samples_value}", dbscan))

view_dbscan(X, y_true, trained_dbscans)

## Para elegir los hiperparámetros

Para medir la calidad de nuestra elección de hiperparámetros en dbscan podemos utilizar las métricas que ya vimos previamente como el coeficiente de Silhouette, el índice de Calinski-Harabasz o el índice de Davies-Bouldin para encontrar la mejor configuración de hiperparámetros.

También puedes usar métricas secundarias, de negocio, para definir los mejores valores.

## En comparación con k-Means

DBSCAN es más adecuado que K-means en situaciones donde el número de clusters es desconocido, los clusters tienen formas no convexas o diferentes densidades, y los datos contienen ruido o valores atípicos. En general, DBSCAN es una buena opción cuando se desea una solución más automatizada y menos sensible a suposiciones ad-hoc acerca del número de clusters y la forma de los datos.

Ahora ya conoces dos algoritmos de clústering disponibles en Scikit Learn.