![logo](images/untumbes.PNG)

<center><b>Prof. Dr. Jorge Zavaleta - zavaleta.jorge@gmail.com</b></center>

# Agrupación basada en densidad

La agrupación basada en densidad identifica los grupos individuales como regiones de alta densidad que están separadas por regiones de baja densidad. 

DBScan es uno de los algoritmos de agrupamiento basado en densidad más populares. En DBScan, los puntos de datos se clasifican en 3 tipos (puntos centrales, puntos fronterizos y puntos de ruido) según la densidad de su vecindario local. 

La densidad de vecindad local se define según 2 parámetros: radio del tamaño de la vecindad (eps) y número mínimo de puntos en la vecindad (min_samples).

Pa el ejemploue, utilizaremos un conjunto de datos bidimensional ruidoso creado originalmente por Karypis et al. [1] por evaluar su algoritmo CHAMELEON propuesto. El código de ejemplo que se muestra a continuación cargará y trazará la distribución de los datos.

In [None]:
# librarys
import pandas as pd
import numpy as np
from sklearn import cluster
from sklearn.cluster import DBSCAN
#
import matplotlib.pyplot as plt
%matplotlib inline
#
import warnings
warnings.filterwarnings("ignore")

In [None]:
# lectura de datos
data = pd.read_csv('data/chameleon.data', delimiter=' ', names=['x','y'])
data.plot.scatter(x='x',y='y');

>## Algoritmo DB SCAN

Aplicación del algoritmo de agrupamiento DBScan a los datos estableciendo el radio de vecindad (eps) en 15,5 y el número mínimo de puntos (min_samples) en 5. 

Los grupos se asignan a ID entre 0 y 8, mientras que los puntos de ruido se asignan a un grupo. ID es igual a -1.

In [None]:
db = DBSCAN(eps=15.5, min_samples=5).fit(data)
core_samples_mask = np.zeros_like(db.labels_, dtype=bool)
core_samples_mask[db.core_sample_indices_] = True
labels = pd.DataFrame(db.labels_,columns=['Cluster ID'])
resultado = pd.concat((data,labels), axis=1)
resultado.plot.scatter(x='x',y='y',c='Cluster ID', colormap='jet');

References: [1] George Karypis, Eui-Hong Han, and Vipin Kumar. CHAMELEON: A Hierarchical Clustering Algorithm Using Dynamic Modeling. IEEE Computer 32(8): 68-75, 1999.

---
<center><b>&copy;Jorge Zavaleta, 2024</b></center>