### Algoritmo DBSCAN de clustering

#### Utilizamos primero el comando DBSCAN del paquete sklearn.cluster


In [None]:
import scipy
import numpy as np
import pandas as pd
import seaborn as sns
import seaborn.objects as so

# Para clustering
from sklearn.datasets import make_blobs
from sklearn.datasets import make_circles
from sklearn.preprocessing import StandardScaler 
from sklearn.cluster import KMeans
from sklearn.cluster import DBSCAN


In [None]:
# Tomamos nubes aleatorias y graficamos los puntos.
X, v = make_blobs(n_samples=60, centers=4, cluster_std=0.60, random_state=0)
datos = pd.DataFrame(X)
datos.columns = ["x", "y"]
datos.head()

In [None]:
# El método Text nos permite incorporar texto a los nodos, es otro canal que podemos usar para codificar información.
# Podemos usarla para el número de nodo o para identificar el cluster.

(
    so.Plot(x = X[:,0], y = X[:,1], text = datos.index)
    .add(so.Dot())
    .add(so.Text(valign="bottom"))
    .limit(x=(-5, 6), y=(-1, 10))
    .layout(size=(6, 6))  # Conviene graficar en un cuadrado para ver correctamente las distancias
)

In [None]:
# Elegimos eps mas chico que la distancia que vemos entre clusters.
# Elegimos min_samples según la densidad de puntos (¿cuántos puntos tienen a distancia menor que eps los puntos del cluster?)
clustering = DBSCAN(eps=???, min_samples=???)
etiqueta = clustering.fit_predict(X)
print(etiqueta)

In [None]:
# Graficamos
(
    so.Plot(x = X[:,0], y = X[:,1], color = etiqueta.astype("str"), text = v.astype("str"))
    .add(so.Dot())
    .add(so.Text(valign="bottom"))
    #.layout(size=(4, 4))
)

En el último gráfico, ¿cuáles puntos fueron marcados como outliers? 

Fuera de los outliers, ¿quedó algún punto marcado incorrectamente?

Veamos ahora un ejemplo para el cual $k$-medias no resulta adecuado.

In [None]:
X, labels_true = make_circles(n_samples=1000, factor=0.5, noise=0.05, random_state = 42)
X = StandardScaler().fit_transform(X)

datos = pd.DataFrame(X)
datos.columns = ["x", "y"]
datos

In [None]:
# Graficamos
(
    so.Plot(data = datos, x = "x", y = "y")
    .add(so.Dot())
)

In [None]:
# Elegimos eps mas chico que la distancia que vemos entre clusters.
# Elegimos min_samples según la densidad de puntos (¿cuántos puntos tienen a distancia menor que eps los puntos del cluster?)
clustering = DBSCAN(eps=???, min_samples=???)
etiqueta = clustering.fit_predict(datos)

# Graficamos
(
    so.Plot(data = datos, x = "x", y = "y", color = etiqueta.astype("str"))
    .add(so.Dot())
)

Repetir para el siguiente ejemplo.

In [None]:
X, labels_true = make_circles(n_samples=1000, factor=0.3, noise=0.1, random_state = 5)
X = StandardScaler().fit_transform(X)   # Centramos los datos

datos = pd.DataFrame(X)
datos.columns = ["x", "y"]
datos

# Graficamos
(
    so.Plot(data = datos, x = "x", y = "y")
    .add(so.Dot())
)

In [None]:
# Elegimos eps mas chico que la distancia que vemos entre clusters.
# Elegimos min_samples según la densidad de puntos (¿cuántos puntos tienen a distancia menor que eps los puntos del cluster?)
clustering = DBSCAN(eps=???, min_samples=???)
etiqueta = clustering.fit_predict(datos)

# Graficamos
(
    so.Plot(data = datos, x = "x", y = "y", color = etiqueta.astype("str"))
    .add(so.Dot())
)

## Funciones útiles para la implementación del algoritmo

Implementar el algoritmo completo queda como ejercicio.

Vamos a implementar solo algunos funciones que pueden usarse para programar el algoritmo completo.

**Ejercicio 1**

1. Implementar una función que dado un conjunto de puntos (en un DataFrame), el índice de uno de los puntos y un radio eps, nos devuelva los índices de los puntos vecinos.
2. Aplicar la función al siguiente ejemplo para calcular los vecinos del punto 999.
3. Graficar todos los puntos, pintando de un color distinto los puntos hallados en el punto 2.

La salida de la función debe ser tipo "set" (conjunto), que permite fácilmente incorporar nuevos elementos al conjunto sin repetir.

In [None]:
# Datos
X, labels_true = make_circles(n_samples=1000, factor=0.5, noise=0.05, random_state = 42)
X = StandardScaler().fit_transform(X)

datos = pd.DataFrame(X)
datos.columns = ["x", "y"]

# Graficamos
(
    so.Plot(data = datos, x = "x", y = "y")
    .add(so.Dot())
)

In [None]:
# Pintamos el punto 999
ind = 999
etiquetas = np.zeros(len(datos))
etiquetas[ind] = 1

(
    so.Plot(data = datos, x = "x", y = "y", color = etiquetas.astype("str"))
    .add(so.Dot())
)

In [None]:
def obtener_vecinos(datos, ind_punto, eps):
    punto = datos.iloc[ind_punto]
    dist = np.sqrt(np.sum((datos-punto)**2, axis = 1))  # Lo vimos la clase pasada
    vecinos = ???
    return(vecinos)


In [None]:
cjto = obtener_vecinos(datos, ind, 0.1)
print(cjto)

### Tipo de datos set

In [None]:
A = {1, 2, 3, 5, 1, 4}
A

In [None]:
A.update({2,3,100})
A

### Volvemos

In [None]:
# Graficamos
etiquetas = np.zeros(len(datos))
etiquetas[list(cjto)] = 1

(
    so.Plot(data = datos, x = "x", y = "y", color = etiquetas.astype("str"))
    .add(so.Dot())
)

**Ejercicio 2**

1. Implementar una función que dado un conjunto de puntos (en un DataFrame), un vector de etiquetas correspondientes a clusters y la etiqueta de algún cluster, agregue al cluster todos los puntos directamente alcanzables desde algún punto central del cluster.
2. Aplicar la función al ejemplo del ejercicio anterior.
3. Graficar todos los puntos, pintando de un color distinto los puntos hallados en el punto 2.

Repetir los puntos 2 y 3 un par de veces y observar como crece el cluster. Qué faltaría para poder encontrar el cluster completo?

In [None]:
def extender_cluster(datos, etiquetas, cluster, eps, minPts):
    indices_cluster = ???
    for ind in indices_cluster:
        ???

    print("Puntos en el cluster: ", np.sum(etiquetas == cluster))
    return(etiquetas)            

In [None]:
# Pintamos el punto 999
ind = 999
etiquetas = np.zeros(len(datos))
etiquetas[ind] = 1

eps = 0.3
minPts = 5

In [None]:
etiquetas = extender_cluster(datos, etiquetas, etiquetas[ind], eps, minPts)
(
    so.Plot(datos, x = "x", y = "y", color = etiquetas.astype("str"))
    .add(so.Dot())
)

**Ejercicio 3**
1. Realizar mediante un for 20 iteraciones del procedimiento anterior y graficar el cluster resultante.
2. Si la cantidad de iteraciones no alcanzó para calcular todo el cluster aumentar la cantidad de iteraciones.
3. Identificar algún punto que no esté en el cluster encontrado, calcular el cluster correspondiente y graficar.

In [None]:
eps = 0.2
minPts = 5
ind = 999
etiquetas = np.zeros(len(datos))
etiquetas[ind] = 1

for i in range(20):
    etiquetas = extender_cluster(datos, etiquetas, 1, eps, minPts)
    
(
    so.Plot(datos, x = "x", y = "y", color = etiquetas.astype("str"))
    .add(so.Dot())
)

In [None]:
# Ahora queremos construir el otro cluster
etiquetas[0] = 2

for i in range(40):
    etiquetas = extender_cluster(datos, etiquetas, 2, eps, minPts)
    
(
    so.Plot(datos, x = "x", y = "y", color = etiquetas.astype("str"))
    .add(so.Dot())
)

# Ejemplo: detección de centros de actividad urbana
Fuente: https://bitsandbricks.github.io/post/dbscan-machine-learning-para-detectar-centros-de-actividad-urbana/

La S del nombre DBSCAN se refiere a "SPATIAL", este algoritmo es especialmente útil para detectar clusters en información espacial o en el plano, por ejemplo barrios, comunidades, focos de tormentas, etc.

Vamos a utilizarlo para detectar focos gastronómicos en la ciudad de Mendoza (más particularmente, bares).

In [None]:
# Cargamos los datos
df = pd.read_csv("../Datos/mendoza_poi.csv")
df

In [None]:
# Tenemos negocios de distintas categorias
df.categoria.unique()

In [None]:
# Veamos los distintos tipos de locales gastronomicos

# Utilizamos query en lugar de df[df.categoria == "gastronomia"]
df.query("categoria == 'gastronomia'").tipo.unique()

In [None]:
# Nos quedamos solo con los bares
datosBares = df.query("categoria == 'gastronomia' and tipo == 'bar'").reset_index()
datosBares

In [None]:
# Graficamos
so.Plot(data = datosBares, x = "lat", y = "lng").add(so.Dot())

In [None]:
# Aplicamos DBSCAN eligiendo los parámetros arbitrariamente.
# eps: a que distancia esperamos que esten los bares cercanos
# minPts: cuantos bares esperamos que tenga cerca un bar para considerarlo una zona de bares

# Usamos solo las variables de latitud y longitud para el agrupamiento.
# Para puntos más alejados (datos de un país o continente), podemos usar una función auxiliar para calcular la distancia entre puntos)

clustering = DBSCAN(eps=0.1, min_samples=6)
etiqueta = clustering.fit_predict(datosBares[["lat", "lng"]])

(
    so.Plot(data = datosBares, x = "lat", y = "lng", color = etiqueta.astype("str"))
    .add(so.Dot())
)

# Selección del hiperparámetro eps

Los valores eps y minPts son hiperparámetros, no se pueden aprender de los datos, pero algunas técnicas nos pueden ayudar.

Para el valor de esp, calculamos para cada bar a qué distancia está el bar más cercano y graficamos los valores ordenados de menor a mayor.

In [None]:
from sklearn.neighbors import NearestNeighbors

dataset = datosBares[["lat", "lng"]]
neighbors = NearestNeighbors(n_neighbors=2)  # Esta función nos devuelve los más cercanos incluyendo a si mismo, por eso tomamos 2.
neighbors_fit = neighbors.fit(dataset)


In [None]:
# Ordenamos de menor a mayor las distancias y graficamos
distances, indices = neighbors_fit.kneighbors(dataset)
distances = distances[:,1]
distances = np.sort(distances, axis=0)

so.Plot(x = np.arange(len(distances)), y = distances).add(so.Line())

In [None]:
# Elegimos el eps donde la curva hace un codo.
# De esta forma tenemos un valor pequeño que incluye a la mayoria de los datos.
# Tomamos eps = 0.005.
clustering = DBSCAN(eps=0.005, min_samples=6)
etiqueta = clustering.fit_predict(datosBares[["lat", "lng"]])

(
    so.Plot(data = datosBares, x = "lat", y = "lng", color = etiqueta.astype("str"))
    .add(so.Dot())
)

Entontramos 6 zonas de bares, una grande central y otras perifericas. 

Si queremos separar la zona central en distintas zonas, podemos tomar un valor de eps mas pequeño.
