# Introducción

En este cuaderno probaremos el uso de RAPIDS y scikit-learn para el cálculo de *clusters* sobre un *dataset* con coordenadas geográficas.

# Sección 1: [K-means mediante GPU]((https://docs.rapids.ai/api/cuml/stable/api.html#k-means-clustering))

## Carga y tratamiento de datos

Importaciones
* **os** y **os.path**: importan utilidades de Python para tratamiento de ficheros y comprobación de rutas.
* **cudf**, **cupy** y **cuml**: librerías de RAPIDS.
* **pandas** y **numpy**: librerías de manejo de DataFrames y gestión numérica, de vectores y tablas. Equivalentes a cudf y cupy respectivamente para CPU.
* **sklearn**: librería de manejo de modelos machine learning, equivalente de cuml en CPU.

In [1]:
import os
import os.path

import cudf
import cupy as cp
import cuml

import pandas as pd
import numpy as np
from sklearn.cluster import KMeans

Ficheros de utilidades:
* **f_northing**: conversión de coordenadas latitud-longitud a norte-este, empleados en manejo de mapas y coordenadas.
* **f_northing_numpy**: equivalente de f_northing para estructuras de numpy.
* **f_static_data**: funciones para cargar listas de datos estáticos, tales como nombres de ciudades a utilizar desde el directorio /data, columnas a leer por cada fichero CSV, y columnas a usar en el entrenamiento del modelo.
* **f_utils**: utilidades de conversión de datos a tipos float32/float64, limpiado de strings de precios, factorización de columnas complejas en mapas numéricos, etc.

In [2]:
%run ../utils/f_northing.py
%run ../utils/f_northing_numpy.py
%run ../utils/f_static_data.py
%run ../utils/f_utils.py

Inicialización de datos:
* **cities_to_use**: lista de directorios dentro de /data sobre los que leer datasets en formato CSV. Cada directorio es una ciudad, área, estado o país.
* **columns_to_use**: lista de columnas a leer dentro de cada CSV. Todas las columnas deben existir y sus nombres deben coincidir.
* **columns_to_fit**: lista de columnas a utilizar para el entrenamiento de modelos de machine learning. Nos permite hacer múltiples usos de un dataset sin necesidad de leerlo de nuevo.

In [3]:
cities_to_use = ['sevilla']
#cities_to_use = ['shanghai']
#cities_to_use = cities_to_use_1()
#cities_to_use = cities_to_use_2()

columns_to_use = ['host_id', 'host_response_rate', 'host_acceptance_rate',
                  'latitude', 'longitude', 'accommodates', 'price', 'number_of_reviews', 'reviews_per_month',
                 'neighbourhood_cleansed']

El DataFrame **listings** representa el conjunto de datos final sobre el que realizar operaciones de ciencia de datos o machine learning. Por cada directorio de datos, leemos todos los ficheros CSV disponibles y los agregamos a **listings**.
* **standard_object_type**: algunas columnas no tienen un formato único de datos; esto puede deberse a diferentes departamentos o metodologías empleadas durante los varios *scraping* de datos de la fuente. Esta función convierte columnas (detectadas manualmente a priori) en tipo genérico *object*, que después convertiremos a un tipo de datos más apropiado para nuestro uso.
* **drop_duplicates**: dado que utilizamos múltiples *datasets* por ciudades, hay listados de AirBnB que no cambian durante varios meses. En este caso, no necesitamos datos redundantes, y los removemos del DataFrame final.
* **reset_index**: los datos de cada fichero se han unido mediante un DataFrame diferente, y por lo tanto los índices del DataFrame quedan mezclados al final del proceso. Con esta instrucción forzamos el índice de **listings** a ordenarse. La instrución añade una columna adicional con el índice antiguo, que podemos obviar con el parámetro drop=**True**.
* **shape**: instrucción que devuelve el tamaño completo del DataFrame en formato (filas, columnas)

In [4]:
listings = cudf.DataFrame()

for city in cities_to_use:
    directory = '../data/' + city + '/'
    if os.path.exists(directory):
        for file in os.listdir(directory):
            if file.endswith('.csv'):
                temp_df = cudf.read_csv(directory + file, usecols = columns_to_use)
                standard_object_type(temp_df, ['host_acceptance_rate', 'neighbourhood_cleansed'])
                if listings.size == 0:
                    listings = temp_df
                else:
                    for column in listings.columns:
                        if listings[column].dtype != temp_df[column].dtype:
                            print('Found error: '+column+' type '+listings[column].dtype.name+' doesnt match '+temp_df[column].dtype.name)
                    listings = listings.append(temp_df)
                    
listings = listings.drop_duplicates().reset_index(drop=True)

Tratamiento simple:
* **type_conversion**: convertimos todas las columnas a un tipo de datos común: *float32* y *float64* son los más aceptados por los algoritmos de RAPIDS.
* **column_factorize**: dado que algunos algoritmos no suportan datos no numéricos, factorizamos las columnas de texto. La operación factorize() convierte una columna con valores no numéricos a un mapa en el que cada valor único se representa por un integer. En nuestro caso, no necesitaremos el mapa que reconoce cada valor, pero es posible usarlo para devolver formato a los datos de cara a estudio o representación.

In [5]:
type_conversion(listings, ['host_id', 'accommodates', 'number_of_reviews', 'reviews_per_month'])
column_factorize(listings, ['neighbourhood_cleansed'])

Nota: para poder visualizar los datos con los nombres de cada barrio/distrito, es necesario obtener el mapa de factorización de 'neighbourhood_cleansed', a fin de obtener los valores iniciales. Para ello, se debe emplear la siguiente celda, en lugar de la anterior.

Tratamiento de cadenas:
* **clean_format_strings**: eliminamos el carácter '%' de campos que lo contienen, y convertimos el valor resultante a *float32*.
* **clean_format_price**: similar a la función anterior, pero eliminando caracteres de moneda (en nuestro caso, '$' y la coma de cantidades numéricas).

In [6]:
clean_format_strings(listings, ['host_response_rate', 'host_acceptance_rate'])
clean_format_price(listings, ['price'])

A fin de visualizar los datos en un formato 2D similar a un mapa, convertimos las coordatas latitud-longitud en distancias norte-este, y les asignamos columnas nuevas.

In [7]:
cupy_lat = cp.asarray(listings['latitude'])
cupy_long = cp.asarray(listings['longitude'])
n_cupy_array, e_cupy_array = latlong2osgbgrid_cupy(cupy_lat, cupy_long)
listings['northing'] = cudf.Series(n_cupy_array).astype('float32')
listings['easting'] = cudf.Series(e_cupy_array).astype('float32')

Visualización de las primeras 5 filas, para verificar el tratamiento de datos.

In [8]:
listings.head()

Unnamed: 0,host_id,host_response_rate,host_acceptance_rate,neighbourhood_cleansed,latitude,longitude,accommodates,price,number_of_reviews,reviews_per_month,northing,easting
0,84759.0,-1.0,-1.0,67.0,37.40358,-5.98032,2.0,28.0,2.0,0.15,-1380266.25,47685.257812
1,84759.0,-1.0,-1.0,67.0,37.40358,-5.98032,2.0,28.0,2.0,0.23,-1380266.25,47685.257812
2,84759.0,-1.0,100.0,67.0,37.40358,-5.98032,2.0,28.0,2.0,0.16,-1380266.25,47685.257812
3,84759.0,-1.0,60.0,67.0,37.40358,-5.98032,2.0,28.0,2.0,0.17,-1380266.25,47685.257812
4,84759.0,-1.0,60.0,67.0,37.40358,-5.98032,2.0,28.0,2.0,0.19,-1380266.25,47685.257812


## Aplicación de un algoritmo k-means para visualizar *clusters* de listados

K-means es un algoritmo de clustering sencillo que calcula medias a partir de puntos aleatorios en el mapa de datos. Mediante una función de maximización (*Expectation Maximization*) agrupa los puntos más cercanos alrededor de las medias calculadas.

Parámetros:
* **n_clusters**: determina cuántas medias debe usar el modelo para centrar los resultados.

Funciones:
* **fit**: ejecuta el algoritmo k-means sobre los datos indicados, en nuestro caso las coordenadas norte-este del *dataset* completo.
* **labels_**: asigna a cada fila del *dataset* una etiqueta según el *cluster* al que se le ha asignado.
* **cluster_centers_**: propiedad del modelo, nos muestra las coordenadas de los centros de cada *cluster* calculado.

In [9]:
%%time
km = cuml.KMeans(n_clusters=5)
km.fit(listings[['easting', 'northing']])
listings['kmeans'] = km.labels_
km.cluster_centers_

CPU times: user 657 ms, sys: 0 ns, total: 657 ms
Wall time: 656 ms


Unnamed: 0,0,1
0,47547.394531,-1384925.875
1,46866.980469,-1380795.875
2,52415.117188,-1380745.125
3,46244.65625,-1382061.125
4,48771.554688,-1382529.625


# Sección 2: [K-means mediante CPU](https://scikit-learn.org/stable/modules/generated/sklearn.cluster.KMeans.html#sklearn.cluster.KMeans)

## Carga y tratamiento de datos

La lectura y tratamiento de los datos iniciales sigue el mismo proceso que para GPU:
1. Creamos un nuevo DataFrame vacío.
2. Recorremos los directorios disponibles.
3. Agregamos los CSV, convirtiendo columnas dispares a tipo *object* si fuera necesario.
4. Eliminamos duplicados.
5. Reordenamos el índice.

In [10]:
listings_cpu = pd.DataFrame()

for city in cities_to_use:
    directory = '../data/' + city + '/'
    if os.path.exists(directory):
        for file in os.listdir(directory):
            if file.endswith('.csv'):
                temp_df_cpu = pd.read_csv(directory + file, usecols = columns_to_use)
                standard_object_type(temp_df_cpu, ['host_acceptance_rate', 'neighbourhood_cleansed'])
                if listings_cpu.size == 0:
                    listings_cpu = temp_df_cpu
                else:
                    for column in listings_cpu.columns:
                        if listings_cpu[column].dtype != temp_df_cpu[column].dtype:
                            print('Found error: '+column+' type '+listings_cpu[column].dtype.name+' doesnt match '+temp_df_cpu[column].dtype.name)
                    listings_cpu = listings_cpu.append(temp_df_cpu)
                    
listings_cpu = listings_cpu.drop_duplicates().reset_index(drop=True)

Las funciones **type_conversion**, **column_factorize** y **clean_format_strings** son las mismas empleadas para GPU, ya que las operaciones subyacentes tienen la misma semántica y uso para cuDF/cupy como para pandas/numpy.

* **clean_format_price_cpu**: versión específica del tratado de cadenas de precios para CPU. Es necesario cambiar ligeramente el órden y número de operaciones para que numpy pueda ejecutar el mismo reemplazo de cadenas de precios que en GPU.

In [11]:
type_conversion(listings_cpu, ['host_id', 'accommodates', 'number_of_reviews', 'reviews_per_month'])
column_factorize(listings_cpu, ['neighbourhood_cleansed'])

clean_format_strings(listings_cpu, ['host_response_rate', 'host_acceptance_rate'])
clean_format_price_cpu(listings_cpu, ['price'])

La única diferencia en la conversión de coordenadas latitud-logitud a norte-este es que utilizamos funciones aritméticas provistas por numpy en lugar de cupy.

In [12]:
numpy_lat = listings_cpu['latitude'].to_numpy()
numpy_long = listings_cpu['longitude'].to_numpy()
n_numpy_array, e_numpy_array = latlong2osgbgrid_numpy(numpy_lat, numpy_long)
listings_cpu['northing'] = pd.Series(n_numpy_array).astype('float32')
listings_cpu['easting'] = pd.Series(e_numpy_array).astype('float32')
listings_cpu.head()

Unnamed: 0,host_id,host_response_rate,host_acceptance_rate,neighbourhood_cleansed,latitude,longitude,accommodates,price,number_of_reviews,reviews_per_month,northing,easting
0,139939.0,100.0,100.0,0.0,37.39468,-6.00183,4.0,99.0,168.0,1.47,-1381173.5,45738.527344
1,224697.0,-1.0,100.0,1.0,37.39855,-5.99365,3.0,49.0,42.0,0.37,-1380774.625,46481.183594
2,503692.0,80.0,54.0,2.0,37.39012,-5.98676,2.0,55.0,75.0,0.71,-1381736.25,47051.742188
3,589600.0,100.0,100.0,1.0,37.39939,-5.99237,6.0,65.0,81.0,0.76,-1380686.25,46598.492188
4,589600.0,100.0,100.0,3.0,37.3868,-5.99666,4.0,65.0,165.0,1.51,-1382067.625,46159.285156


In [13]:
listings_cpu.head()

Unnamed: 0,host_id,host_response_rate,host_acceptance_rate,neighbourhood_cleansed,latitude,longitude,accommodates,price,number_of_reviews,reviews_per_month,northing,easting
0,139939.0,100.0,100.0,0.0,37.39468,-6.00183,4.0,99.0,168.0,1.47,-1381173.5,45738.527344
1,224697.0,-1.0,100.0,1.0,37.39855,-5.99365,3.0,49.0,42.0,0.37,-1380774.625,46481.183594
2,503692.0,80.0,54.0,2.0,37.39012,-5.98676,2.0,55.0,75.0,0.71,-1381736.25,47051.742188
3,589600.0,100.0,100.0,1.0,37.39939,-5.99237,6.0,65.0,81.0,0.76,-1380686.25,46598.492188
4,589600.0,100.0,100.0,3.0,37.3868,-5.99666,4.0,65.0,165.0,1.51,-1382067.625,46159.285156


## Aplicación de algoritmo k-means

Las funciones y propiedades de k-means en scikit-learn son idénticas para nuestro caso de uso a las de RAPIDS.

In [14]:
%%time
km_cpu = KMeans(n_clusters=5)
km_cpu.fit(listings_cpu[['easting', 'northing']])
listings_cpu['kmeans'] = km_cpu.labels_
km_cpu.cluster_centers_

CPU times: user 3.25 s, sys: 61.4 ms, total: 3.31 s
Wall time: 581 ms


array([[   46808.434, -1380650.8  ],
       [   45773.887, -1382146.2  ],
       [   51808.875, -1380863.   ],
       [   48271.547, -1383990.   ],
       [   46874.246, -1381800.1  ]], dtype=float32)

***Nota:*** no llamar a la instrucción reset si se desea visualizar los datos (ver Sección 3).

In [15]:
%reset -f

# Sección 3: Visualización de resultados mediante cuXfilter

Si se desea, es posible visualizar los *clusters* en un mapa, similar al del fichero *nb1_visual.ipynb*, con un selector por *cluster*.