# DBSCAN

Este algoritmo funciona en base a la distribución dimensional de los puntos de entrada, como el resto de métodos que hemos visto hasta ahora. En este caso, el algoritmo agrupa los puntos de entrada dependiendo de la densidad espacial de los mismos.

En concreto, los pasos que sigue el algoritmo son los siguientes:

1. Se selecciona un punto del conjunto de datos de entrada y se determinan todos los puntos que se encuentren en un radio de distancia menor a $\varepsilon$.
2. Si existen al menos $minPoints$ dentro de dicho radio se marca como **punto núcleo** y se define un clúster.
3. Se analizan todos los puntos del cluster comprobando cuántos puntos tienen en un radio de distancia menor a $\varepsilon$. Si tienen al menos $minPoints$, se anotan como **puntos núcleo** y se expande el clúster. En caso contrario, el punto pertenecerá al clúster, pero no lo expandirá.
4. Se repite el proceso con los nuevos puntos que expandieron el clúster hasta que no haya nuevos puntos.
5. Si quedan puntos del conjunto de datos sin analizar, se reinicia el algoritmo en cualquiera de ellos creando un nuevo clúster.
6. Si un punto no tiene ningún otro punto a una distancia menor de $\varepsilon$, se considera ruido o *outlier*.

Por tanto tenemos tres hiper-parámetros:

- $\varepsilon$ (`eps`) para determinar el radio de similitud
- $minPoints$ para determinar cuántos puntos en su vecindad hacen a otro puntos convertirse en núcleo
- la función de similitud de los puntos

La siguiente imagen, [extraída de Wikpedia](https://es.wikipedia.org/wiki/DBSCAN), ilustra el proceso. Los puntos marcados como A son puntos núcleo. Los puntos B y C son densamente alcanzables desde A y densamente conectados con A, y pertenecen al mismo clúster. El punto N es un punto ruidoso que no es núcleo ni densamente alcanzable.

<img src="https://upload.wikimedia.org/wikipedia/commons/thumb/a/af/DBSCAN-Illustration.svg/1920px-DBSCAN-Illustration.svg.png" width=600>


Una de las grandes ventajas de DBSCAN es que permite trabajar muy bien con conjuntos de datos que no son separables linealmente. Al basar la construcción de los clústers en el concepto de cercanía (i.e. vecindarios), la topología de cada clúster estará condicionada a la disposición de los puntos en el espacio de búsqueda.

Veamos su funcionamiento en diferentes conjunto de datos:

In [None]:
import matplotlib.pyplot as plt
import numpy as np

def plot_dbscan (X, eps, min_samples):

  min = np.amin(X, axis=0)
  max = np.amax(X, axis=0)

  diff = max - min

  min = min - 0.1 * diff
  max = max + 0.1 * diff

  fig, axs = plt.subplots(len(eps), len(min_samples), figsize=(5*len(eps), 5*len(min_samples)))
  fig.tight_layout(pad=4.0)

  for i in range(len(eps)):
    for j in range(len(min_samples)):

      dbscan = DBSCAN(eps=eps[i], min_samples=min_samples[j]).fit(X)

      axs[i,j].set_title('eps=' + format(eps[i]) + ', min_samples='+ format(min_samples[j]))

      axs[i,j].set_xlabel('X1')
      axs[i,j].set_ylabel('X2')

      axs[i,j].set_xlim(min[0], max[0])
      axs[i,j].set_ylim(min[1], max[1])

      data = np.concatenate((X, dbscan.labels_.reshape(-1, 1)), axis=1)
      outlayers = data[data[:,2] == -1]
      samples = data[data[:,2] != -1]

      axs[i,j].scatter(samples[:,0], samples[:,1], c=samples[:,2], cmap='rainbow')
      axs[i,j].scatter(outlayers[:,0], outlayers[:,1], c='black', marker='x')

In [None]:
from sklearn.datasets import make_blobs
import matplotlib.pyplot as plt
from sklearn.cluster import DBSCAN

X, y = make_blobs(n_samples=500, cluster_std=[1.0, 2.0, 0.5], random_state=42)

plot_dbscan(X=X, eps=[0.5, 1.0, 1.5], min_samples=[5, 10, 20])

In [None]:
from sklearn.datasets import make_moons
import matplotlib.pyplot as plt
from sklearn.cluster import DBSCAN

X, y = make_moons(n_samples=500, noise=0.1, random_state=42)

plot_dbscan(X=X, eps=[0.05, 0.15, 0.30], min_samples=[5, 10, 20])

In [None]:
from sklearn.datasets import make_blobs
import matplotlib.pyplot as plt
from sklearn.cluster import DBSCAN

X, y = make_blobs(n_samples=500, cluster_std=2.0, random_state=42)

plot_dbscan(X=X, eps=[0.5, 1.1, 2.0], min_samples=[5, 10, 20])

In [None]:
from sklearn.datasets import make_blobs
import matplotlib.pyplot as plt
from sklearn.cluster import DBSCAN

X, y = make_blobs(n_samples=500, cluster_std=2.0, random_state=42)

transformation = [[0.6, -0.6], [-0.4, 1.0]]
X = np.dot(X, transformation)

plot_dbscan(X=X, eps=[0.5, 1.2, 2.0], min_samples=[5, 10, 20])

In [None]:
import numpy as np 
from sklearn.cluster import DBSCAN

X = np.random.rand(500, 2)

plot_dbscan(X=X, eps=[0.01, 0.1, 0.5], min_samples=[5, 10, 20])

In [None]:
from sklearn.datasets import make_circles
import matplotlib.pyplot as plt
from sklearn.cluster import DBSCAN

X, y = make_circles(n_samples=500, factor=0.6, noise=.05)

plot_dbscan(X=X, eps=[0.05, 0.15, 0.50], min_samples=[2, 5, 15])

## Caso práctico

Ahora vamos a probar el algoritmo usando un dataset del repositorio [UCI](https://archive.ics.uci.edu/ml/datasets/Online+Shoppers+Purchasing+Intention+Dataset). Es un conjunto de datos de características sobre las sesiones online de compradores en una tienda virtual.

Según la propia descripción del conjunto de datos:



> The dataset consists of 10 numerical and 8 categorical attributes.
The 'Revenue' attribute can be used as the class label.
>
> "Administrative", "Administrative Duration", "Informational", "Informational Duration", "Product Related" and "Product Related Duration" represent the number of different types of pages visited by the visitor in that session and total time spent in each of these page categories. The values of these features are derived from the URL information of the pages visited by the user and updated in real time when a user takes an action, e.g. moving from one page to another.
>
> The "Bounce Rate", "Exit Rate" and "Page Value" features represent the metrics measured by "Google Analytics" for each page in the e-commerce site. The value of "Bounce Rate" feature for a web page refers to the percentage of visitors who enter the site from that page and then leave ("bounce") without triggering any other requests to the analytics server during that session. The value of "Exit Rate" feature for a specific web page is calculated as for all pageviews to the page, the percentage that were the last in the session. The "Page Value" feature represents the average value for a web page that a user visited before completing an e-commerce transaction. The "Special Day" feature indicates the closeness of the site visiting time to a specific special day (e.g. Mother’s Day, Valentine's Day) in which the sessions are more likely to be finalized with transaction. The value of this attribute is determined by considering the dynamics of e-commerce such as the duration between the order date and delivery date.
>
>The dataset also includes operating system, browser, region, traffic type, visitor type as returning or new visitor, a Boolean value indicating whether the date of the visit is weekend, and month of the year.

Por tanto, tenemos 7 variables categóricas que habrá que transformar.


In [None]:
import pandas as pd

raw = pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/00468/online_shoppers_intention.csv')
target = raw['Revenue']
raw.drop('Revenue', axis=1, inplace=True)
raw.head(5)

In [None]:
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import MinMaxScaler, OneHotEncoder

nominal_features = ['Month', 'OperatingSystems', 'Browser', 'Region', 'TrafficType', 'VisitorType', 'Weekend']
numeric_features = list(set(raw.columns) - set(nominal_features))
preprocessor = ColumnTransformer(
    transformers=[
        ('num', MinMaxScaler(copy=False), numeric_features),
        ('cat', OneHotEncoder(categories='auto'), nominal_features)])

datos = preprocessor.fit_transform(raw)

In [None]:
datos.shape

Puesto que el hiper-parámetro $\varepsilon$ se basa en la distancia, para ajustarlo, es interesante conocer la distancía máxima existente:

In [None]:
from sklearn.neighbors import kneighbors_graph
distancias = kneighbors_graph(datos, 149, mode='distance')

In [None]:
distancias.todense().flatten().max()

Ahora, podemos calcular medidas de calidad para DBSCAN:

In [None]:
from sklearn.cluster import DBSCAN

modelo_dbs = DBSCAN(eps=7.0, min_samples=75, metric='manhattan')

In [None]:
labs = modelo_dbs.fit_predict(datos)

In [None]:
from sklearn.metrics import silhouette_score, adjusted_rand_score

print('Silhouette: ', silhouette_score(datos, labs))
print('Rand Index (con ground truth): ', adjusted_rand_score(target, labs))

Hay un proceso para determinar valores óptimos (locales) para los hyper-parámetros del algoritmo:

1. Se calculan las distancias desde cada punto a los $minPoints-1$ más cercanos
2. Se ordenan las distancias, se plotean y se elige el $\varepsilon$ donde la curva es más pronunciada


In [None]:
import numpy as np

from sklearn.neighbors import NearestNeighbors
from matplotlib import pyplot as plt

neigh = NearestNeighbors(n_neighbors=75)
nbrs = neigh.fit(datos)
distances, indices = nbrs.kneighbors(datos)
distances = np.sort(distances, axis=0)
distances = distances[:,1]
plt.plot(distances)

In [None]:
modelo_dbs = DBSCAN(eps=0.7, min_samples=75)
labs = modelo_dbs.fit_predict(datos)
print('Silhouette: ', silhouette_score(datos, labs))
print('Rand Index (con ground truth): ', adjusted_rand_score(target, labs))

---

Creado por **Raúl Lara** (raul.lara@upm.es) y **Fernando Ortega** (fernando.ortega@upm.es)

<img src="https://licensebuttons.net/l/by-nc-sa/3.0/88x31.png">