# Introducción

En este cuaderno repetimos los pasos del fichero *nb2_kmeans.ipynb*, pero empleando el algoritmo **DBSCAN** de clustering, cuya fortaleza reside en asignar *clusters* en problemas donde los datos están congregados en grupos mayores, permitiendo el uso de un proceso de inferencia distinto a un algoritmo genérico como k-means.

# Sección 1: [DBSCAN mediante GPU](https://docs.rapids.ai/api/cuml/stable/api.html#dbscan)

## Carga y tratamiento de datos

Importaciones
* **os** y **os.path**: importan utilidades de Python para tratamiento de ficheros y comprobación de rutas.
* **cudf**, **cupy** y **cuml**: librerías de RAPIDS.
* **pandas** y **numpy**: librerías de manejo de DataFrames y gestión numérica, de vectores y tablas. Equivalentes a cudf y cupy respectivamente para CPU.
* **sklearn**: librería de manejo de modelos machine learning, equivalente de cuml en CPU.

In [211]:
import os
import os.path

import cudf
import cupy as cp
import cuml

import pandas as pd
import numpy as np
from sklearn.cluster import DBSCAN

Ficheros de utilidades:
* **f_northing**: conversión de coordenadas latitud-longitud a norte-este, empleados en manejo de mapas y coordenadas.
* **f_northing_numpy**: equivalente de f_northing para estructuras de numpy.
* **f_static_data**: funciones para cargar listas de datos estáticos, tales como nombres de ciudades a utilizar desde el directorio /data, columnas a leer por cada fichero CSV, y columnas a usar en el entrenamiento del modelo.
* **f_utils**: utilidades de conversión de datos a tipos float32/float64, limpiado de strings de precios, factorización de columnas complejas en mapas numéricos, etc.

In [212]:
%run ../utils/f_northing.py
%run ../utils/f_northing_numpy.py
%run ../utils/f_static_data.py
%run ../utils/f_utils.py

Inicialización de datos:
* **cities_to_use**: lista de directorios dentro de /data sobre los que leer datasets en formato CSV. Cada directorio es una ciudad, área, estado o país.
* **columns_to_use**: lista de columnas a leer dentro de cada CSV. Todas las columnas deben existir y sus nombres deben coincidir.
* **columns_to_fit**: lista de columnas a utilizar para el entrenamiento de modelos de machine learning. Nos permite hacer múltiples usos de un dataset sin necesidad de leerlo de nuevo.

In [213]:
#cities_to_use = ['sevilla']
#cities_to_use = ['shanghai']
cities_to_use = cities_to_use_1()
#cities_to_use = cities_to_use_2()

columns_to_use = ['host_id', 'host_response_rate', 'host_acceptance_rate',
                  'latitude', 'longitude', 'accommodates', 'price', 'number_of_reviews', 'reviews_per_month',
                 'neighbourhood_cleansed']

El DataFrame **listings** representa el conjunto de datos final sobre el que realizar operaciones de ciencia de datos o machine learning. Por cada directorio de datos, leemos todos los ficheros CSV disponibles y los agregamos a **listings**.
* **standard_object_type**: algunas columnas no tienen un formato único de datos; esto puede deberse a diferentes departamentos o metodologías empleadas durante los varios *scraping* de datos de la fuente. Esta función convierte columnas (detectadas manualmente a priori) en tipo genérico *object*, que después convertiremos a un tipo de datos más apropiado para nuestro uso.
* **drop_duplicates**: dado que utilizamos múltiples *datasets* por ciudades, hay listados de AirBnB que no cambian durante varios meses. En este caso, no necesitamos datos redundantes, y los removemos del DataFrame final.
* **reset_index**: los datos de cada fichero se han unido mediante un DataFrame diferente, y por lo tanto los índices del DataFrame quedan mezclados al final del proceso. Con esta instrucción forzamos el índice de **listings** a ordenarse. La instrución añade una columna adicional con el índice antiguo, que podemos obviar con el parámetro drop=**True**.
* **shape**: instrucción que devuelve el tamaño completo del DataFrame en formato (filas, columnas)

In [214]:
listings = cudf.DataFrame()

for city in cities_to_use:
    directory = '../data/' + city + '/'
    if os.path.exists(directory):
        for file in os.listdir(directory):
            if file.endswith('.csv'):
                temp_df = cudf.read_csv(directory + file, usecols = columns_to_use)
                standard_object_type(temp_df, ['host_acceptance_rate', 'neighbourhood_cleansed'])
                if listings.size == 0:
                    listings = temp_df
                else:
                    for column in listings.columns:
                        if listings[column].dtype != temp_df[column].dtype:
                            print('Found error: '+column+' type '+listings[column].dtype.name+' doesnt match '+temp_df[column].dtype.name)
                    listings = listings.append(temp_df)
                    
listings = listings.drop_duplicates().reset_index(drop=True)

Tratamiento simple:
* **type_conversion**: convertimos todas las columnas a un tipo de datos común: *float32* y *float64* son los más aceptados por los algoritmos de RAPIDS.
* **column_factorize**: dado que algunos algoritmos no suportan datos no numéricos, factorizamos las columnas de texto. La operación factorize() convierte una columna con valores no numéricos a un mapa en el que cada valor único se representa por un integer. En nuestro caso, no necesitaremos el mapa que reconoce cada valor, pero es posible usarlo para devolver formato a los datos de cara a estudio o representación.

In [215]:
type_conversion(listings, ['host_id', 'accommodates', 'number_of_reviews', 'reviews_per_month'])
column_factorize(listings, ['neighbourhood_cleansed'])

Tratamiento de cadenas:
* **clean_format_strings**: eliminamos el carácter '%' de campos que lo contienen, y convertimos el valor resultante a *float32*.
* **clean_format_price**: similar a la función anterior, pero eliminando caracteres de moneda (en nuestro caso, '$' y la coma de cantidades numéricas).

In [216]:
clean_format_strings(listings, ['host_response_rate', 'host_acceptance_rate'])
clean_format_price(listings, ['price'])

A fin de visualizar los datos en un formato 2D similar a un mapa, convertimos las coordatas latitud-longitud en distancias norte-este, y les asignamos columnas nuevas.

In [217]:
cupy_lat = cp.asarray(listings['latitude'])
cupy_long = cp.asarray(listings['longitude'])
n_cupy_array, e_cupy_array = latlong2osgbgrid_cupy(cupy_lat, cupy_long)
listings['northing'] = cudf.Series(n_cupy_array).astype('float32')
listings['easting'] = cudf.Series(e_cupy_array).astype('float32')

Visualización de las primeras 5 filas, para verificar el tratamiento de datos.

In [218]:
listings.head()

Unnamed: 0,host_id,host_response_rate,host_acceptance_rate,neighbourhood_cleansed,latitude,longitude,accommodates,price,number_of_reviews,reviews_per_month,northing,easting
0,23.0,-1.0,-1.0,31.0,30.17865,-97.74929,2.0,65.0,4.0,0.15,6796325.0,-10620581.0
1,23.0,-1.0,-1.0,31.0,30.17865,-97.74929,2.0,65.0,4.0,0.16,6796325.0,-10620581.0
2,23.0,-1.0,-1.0,31.0,30.17926,-97.74887,2.0,65.0,4.0,0.26,6796217.5,-10620283.0
3,23.0,-1.0,-1.0,31.0,30.17989,-97.74904,2.0,35.0,0.0,-1.0,6796309.0,-10620063.0
4,23.0,-1.0,-1.0,31.0,30.18025,-97.74941,2.0,40.0,0.0,-1.0,6796453.0,-10619977.0


## Aplicación de un algoritmo DBSCAN para visualizar clusters de listados

DBSCAN funciona de manera similar a otros algoritmos de clustering, aunque a nivel del código de RAPIDS existen algunas diferencias.

Hemos seleccionado un subconjunto de listados dentro del *dataset* completo, aquellos con un precio igual o superior a $200, a fin de visualizar *clusters* distintivos.

Parámetros:
* **eps**: máxima distancia entre puntos permitida por *cluster*. En nuestro problema las coordenadas están expresadas en metros, siendo este valor una distancia expresada en dicha unidad.

Funciones:
* **fit_predict**: ejecuta DBSCAN sobre el modelo y calcula automáticamente los centros de los *clusters*.
* **nunique**: función de cuDF que nos permite ver el número total de *clusters*.

In [219]:
%%time
dbscan = cuml.DBSCAN(eps=150)
price_df = listings[listings['price'] >= 200].reset_index(drop=True)
price_df['cluster'] = dbscan.fit_predict(price_df.loc[:, ['northing', 'easting']])
price_df['cluster'].nunique()

[W] [16:26:09.994645] Batch size limited by the chosen integer type (4 bytes). 6292 -> 5198. Using the larger integer type might result in better performance
CPU times: user 44.3 s, sys: 61 ms, total: 44.4 s
Wall time: 44.2 s


24120

# Sección 2: DBSCAN mediante CPU

## Carga y tratamiento de datos

La lectura y tratamiento de los datos iniciales sigue el mismo proceso que para GPU:
1. Creamos un nuevo DataFrame vacío.
2. Recorremos los directorios disponibles.
3. Agregamos los CSV, convirtiendo columnas dispares a tipo *object* si fuera necesario.
4. Eliminamos duplicados.
5. Reordenamos el índice.

In [220]:
listings_cpu = pd.DataFrame()

for city in cities_to_use:
    directory = '../data/' + city + '/'
    if os.path.exists(directory):
        for file in os.listdir(directory):
            if file.endswith('.csv'):
                temp_df_cpu = pd.read_csv(directory + file, usecols = columns_to_use)
                standard_object_type(temp_df_cpu, ['host_acceptance_rate', 'neighbourhood_cleansed'])
                if listings_cpu.size == 0:
                    listings_cpu = temp_df_cpu
                else:
                    for column in listings_cpu.columns:
                        if listings_cpu[column].dtype != temp_df_cpu[column].dtype:
                            print('Found error: '+column+' type '+listings_cpu[column].dtype.name+' doesnt match '+temp_df_cpu[column].dtype.name)
                    listings_cpu = listings_cpu.append(temp_df_cpu)
                    
listings_cpu = listings_cpu.drop_duplicates().reset_index(drop=True)

Las funciones **type_conversion**, **column_factorize** y **clean_format_strings** son las mismas empleadas para GPU, ya que las operaciones subyacentes tienen la misma semántica y uso para cuDF/cupy como para pandas/numpy.

* **clean_format_price_cpu**: versión específica del tratado de cadenas de precios para CPU. Es necesario cambiar ligeramente el órden y número de operaciones para que numpy pueda ejecutar el mismo reemplazo de cadenas de precios que en GPU.

In [221]:
type_conversion(listings_cpu, ['host_id', 'accommodates', 'number_of_reviews', 'reviews_per_month'])
column_factorize(listings_cpu, ['neighbourhood_cleansed'])

clean_format_strings(listings_cpu, ['host_response_rate', 'host_acceptance_rate'])
clean_format_price_cpu(listings_cpu, ['price'])

La única diferencia en la conversión de coordenadas latitud-logitud a norte-este es que utilizamos funciones aritméticas provistas por numpy en lugar de cupy.

In [222]:
numpy_lat = listings_cpu['latitude'].to_numpy()
numpy_long = listings_cpu['longitude'].to_numpy()
n_numpy_array, e_numpy_array = latlong2osgbgrid_numpy(numpy_lat, numpy_long)
listings_cpu['northing'] = pd.Series(n_numpy_array).astype('float32')
listings_cpu['easting'] = pd.Series(e_numpy_array).astype('float32')

In [223]:
listings_cpu.head()

Unnamed: 0,host_id,host_response_rate,host_acceptance_rate,neighbourhood_cleansed,latitude,longitude,accommodates,price,number_of_reviews,reviews_per_month,northing,easting
0,3159.0,100.0,100.0,0.0,52.36575,4.94142,2.0,59.0,278.0,2.05,296936.5,872297.875
1,32366.0,100.0,100.0,1.0,52.37802,4.8927,2.0,119.0,55.0,0.45,297980.5625,868856.625
2,59484.0,100.0,97.0,2.0,52.36509,4.89354,2.0,100.0,340.0,2.74,296550.625,869051.125
3,56142.0,-1.0,53.0,1.0,52.37297,4.88339,3.0,125.0,5.0,0.18,297359.4375,868277.75
4,97647.0,100.0,100.0,1.0,52.38761,4.89188,2.0,155.0,217.0,2.14,299039.84375,868699.0


## Aplicación de DBSCAN

La interfaz de scikit-learn para DBSCAN es muy similar a la de RAPIDS, con la diferencia de que el resultado de **fit_predict** debe ser convertido a un array de pandas antes de introducirlo en el DataFrame final.

In [224]:
%%time
dbscan_cpu = DBSCAN(eps=150)
price_df_cpu = listings_cpu[listings_cpu['price'] >= 200].reset_index(drop=True)
price_cpu_cluster = dbscan_cpu.fit_predict(price_df_cpu.loc[:, ('northing', 'easting')])
price_df_cpu['cluster'] = pd.array(price_cpu_cluster)
price_df_cpu['cluster'].nunique()

CPU times: user 2.81 s, sys: 15.2 ms, total: 2.83 s
Wall time: 2.83 s


24120

***Nota:*** no llamar a la instrucción reset si se desea visualizar los datos (ver Sección 3).

In [225]:
%reset -f

# Sección 3: Visualización de resultados mediante cuXfilter

Si se desea, es posible visualizar los *clusters* en un mapa, similar al del fichero *nb1_visual.ipynb*, con un selector por *cluster*.