# DBSCAN
## ¿Qué es?
** D ** ensity ** B ** ased ** S ** patial ** C ** lustering of ** A ** pplications with ** N ** oise  ** DBSCAN**  es un algoritmo no supervisado de clasificación.

El algoritomo ofrece una clasificación (agrupación ó clustering) a partir de las propiedades (similaridad) de los datos.  

El algoritmo DBSCAN clasificará a partir de la densidad, es decir,  de cuántos elementos hay en una región. 

## ¿Cómo funciona? 
Primero se eligen sólo dos parámetros: 
- **Epsilon ( ε )** : Distancia máxima entre los puntos 
- **minPoints** : Mínimo de puntos requeridos para considerar una región densa. 

### Algunas definiciones
- **Vecindad de un punto A**: Disco (​n-esfera​) centrado en el punto A con radio Epsilon.  
- ** Densidad del punto A**: Cantidad de puntos dentro de la vecindad de A. 
- **Puntos de Ruido**:  Puntos que no están dentro de ningún cluster. 

## Procedimiento:
- Se empieza con un punto arbitrario y se crea su vecindad.  
- Se hace lo mismo para todos los puntos que están dentro de su vecindad.  
- Si el número de puntos dentro de todas las vecindades es mayor a minPoints, entonces a todos ellos son parte de un mismo  cluster. En caso contrario, todos esos puntos se consideran puntos ruido.  
- Se toma otro punto arbitrario fuera del cluster y se repite el proceso.

 <img src="dbscan1.png"/>

## Ventajas  
- A diferencia del algoritmo K-means, no debemos especificar el número de clusters que queremos, es decir, el algoritmo los encuentra por nosotros. 
 
- Sólo se necesitan dos parámetros lo cual lo hace fácil de usar. 
 
- También podemos encontrar clusters con formas geométricas arbitrarias.  
 
- Podemos decidir cuántos elementos tendrán los clusters.  




In [None]:
#Importar bibliotecas
from sklearn.cluster import DBSCAN
#from sklearn import metrics
from sklearn.datasets.samples_generator import make_blobs
from sklearn.preprocessing import StandardScaler
%matplotlib inline
import matplotlib.pyplot as plt
import numpy as np


In [None]:
# Generar datos de muestra
centers = [[0, -2], [-1, -1], [1, -1]]
X, labels_true = make_blobs(n_samples=750, centers=centers, cluster_std=0.4,
                            random_state=0)

X = StandardScaler().fit_transform(X)

In [None]:
#Datos generados
X

In [None]:
#Gráficar datos

fig = plt.figure()
fig.suptitle('Visualización gráfica de los datos')
ax = fig.add_subplot(1,1,1)
ax.set_xlabel('X')
ax.set_ylabel('Y')
ax.scatter(X[:,0],X[:,1])
plt.show()

In [None]:
# Implementar DBSCAN
#Pasamos como parámetros epsilon y el mínimo de puntos en cada vecindad.
db = DBSCAN(eps=.3, min_samples=25).fit(X) 


In [None]:
#Obtenemos las etiquetas de los clústers resultantes
#Los datos que resultaron ser ruido son etiquetados en el clúster -1
labels = db.labels_
labels

In [None]:
# Gráfica
core_samples_mask = np.zeros_like(db.labels_, dtype=bool)
core_samples_mask[db.core_sample_indices_] = True
n_clusters_ = len(set(labels)) - (1 if -1 in labels else 0)

unique_labels = set(labels)
colors = [plt.cm.Spectral(each)
          for each in np.linspace(0, 1, len(unique_labels))]
for k, col in zip(unique_labels, colors):
    if k == -1:
        #se colorean los puntos ruido de negro 
    
        col = [0, 0, 0, 1]

    class_member_mask = (labels == k)

    xy = X[class_member_mask & core_samples_mask]
    plt.plot(xy[:, 0], xy[:, 1], 'o', markerfacecolor=tuple(col),
             markeredgecolor='k', markersize=14)

    xy = X[class_member_mask & ~core_samples_mask]
    plt.plot(xy[:, 0], xy[:, 1], 'o', markerfacecolor=tuple(col),
             markeredgecolor='k', markersize=6)

plt.title('Número estimado de clústers: %d' % n_clusters_)
plt.show()