# Introducción

El objetivo de este cuaderno es simplemente demostrar el uso de las librerías de manipulación de datos de RAPIDS: **cuDF** para la gestión de DataFrames, **cupy** para el manejo de datos y operaciones de transformación y cálculo con los valores de los DataFrames y **cuXfilter** para la visualización de datos en gráficas. Los puntos principales a desarrollar son:
* Lectura de datos en formato CSV y agregación en un conjunto de desarrollo (para futuros usos de tratamiento/ciencia de datos o machine learning).
* Manipulación básica de datos (operaciones simples sobre columnas).
* Manipulación compleja de datos (manipulación de cadenas de texto, transformaciones aritméticas y/o geográficas).
* Creación y visualización de mapas de datos en dos dimensiones.

# Sección 1: Carga y manipulación de datos en GPU con RAPIDS

## Carga de datos

Importaciones
* **os** y **os.path**: importan utilidades de Python para tratamiento de ficheros y comprobación de rutas.
* **cudf** y **cupy**: librerías de RAPIDS.

In [19]:
import os
import os.path

import cudf
import cupy as cp

Ficheros de utilidades:
* **f_northing**: conversión de coordenadas latitud-longitud a norte-este, empleados en manejo de mapas y coordenadas.
* **f_northing_numpy**: equivalente de f_northing para estructuras de numpy.
* **f_static_data**: funciones para cargar listas de datos estáticos, tales como nombres de ciudades a utilizar desde el directorio /data, columnas a leer por cada fichero CSV, y columnas a usar en el entrenamiento del modelo.
* **f_utils**: utilidades de conversión de datos a tipos float32/float64, limpiado de strings de precios, factorización de columnas complejas en mapas numéricos, etc.

In [20]:
%run ../utils/f_northing.py
%run ../utils/f_northing_numpy.py
%run ../utils/f_static_data.py
%run ../utils/f_utils.py

Inicialización de datos:
* **cities_to_use**: lista de directorios dentro de /data sobre los que leer datasets en formato CSV. Cada directorio es una ciudad, área, estado o país.
* **columns_to_use**: lista de columnas a leer dentro de cada CSV. Todas las columnas deben existir y sus nombres deben coincidir.
* **columns_to_fit**: lista de columnas a utilizar para el entrenamiento de modelos de machine learning. Nos permite hacer múltiples usos de un dataset sin necesidad de leerlo de nuevo.

Los datos han sido obtenidos del [repositorio público de AirBnB](http://insideairbnb.com/get-the-data.html), por cada ciudad se utilizan todos los datasets de listados (listings.tar.gz) disponibles para el año 2020.

In [21]:
cities_to_use = ['sevilla']
#cities_to_use = ['shanghai']
#cities_to_use = cities_to_use_1()
#cities_to_use = cities_to_use_2()

columns_to_use = ['host_id', 'host_response_rate', 'host_acceptance_rate', 'latitude', 'longitude', 
                  'accommodates', 'price', 'number_of_reviews', 'reviews_per_month', 'neighbourhood_cleansed']

Debido a la cantidad de diferentes ficheros que debemos leer, y a que los diferentes _scraping_ realizados por el equipo(s) de AirBnB no siempre son iguales, podemos encontrar que en el dataset de algunos meses para algunas ciudades faltan columnas.

La siguiente celda recorre las ciudades disponibles y comprueba en qué datasets faltan columnas, dado que las trazas de error de RAPIDS y pandas no siempre son detalladas. El resultado esperado es que no se imprima ninguna línea por la consola, ya que significaría que todos los datasets disponibles tienen las columnas necesarias.

Esta celda está desactivada por defecto y es opcional, sólo requerida si se desea comprobar el estado de uno o más ficheros previa ejecución del paso de agregación, o si dicho paso no se ejecuta correctamente.

El DataFrame **listings** representa el conjunto de datos final sobre el que realizar operaciones de ciencia de datos o machine learning. Por cada directorio de datos, leemos todos los ficheros CSV disponibles y los agregamos a **listings**.
* **standard_object_type**: algunas columnas no tienen un formato único de datos; esto puede deberse a diferentes departamentos o metodologías empleadas durante los varios *scraping* de datos de la fuente. Esta función convierte columnas (detectadas manualmente a priori) en tipo genérico *object*, que después convertiremos a un tipo de datos más apropiado para nuestro uso.
* **drop_duplicates**: dado que utilizamos múltiples *datasets* por ciudades, hay listados de AirBnB que no cambian durante varios meses. En este caso, no necesitamos datos redundantes, y los removemos del DataFrame final.
* **reset_index**: los datos de cada fichero se han unido mediante un DataFrame diferente, y por lo tanto los índices del DataFrame quedan mezclados al final del proceso. Con esta instrucción forzamos el índice de **listings** a ordenarse. La instrución añade una columna adicional con el índice antiguo, que podemos obviar con el parámetro drop=**True**.
* **shape**: instrucción que devuelve el tamaño completo del DataFrame en formato (filas, columnas)

In [22]:
%%time
listings = cudf.DataFrame()

for city in cities_to_use:
    directory = '../data/' + city + '/'
    if os.path.exists(directory):
        for file in os.listdir(directory):
            if file.endswith('.csv'):
                temp_df = cudf.read_csv(directory + file, usecols = columns_to_use)
                standard_object_type(temp_df, ['host_acceptance_rate', 'neighbourhood_cleansed'])
                if listings.size == 0:
                    listings = temp_df
                else:
                    for column in listings.columns:
                        if listings[column].dtype != temp_df[column].dtype:
                            print('Found error: '+column+' type '+listings[column].dtype.name+' doesnt match '+temp_df[column].dtype.name)
                    listings = listings.append(temp_df)
                    
listings = listings.drop_duplicates().reset_index(drop=True)
listings.shape

CPU times: user 214 ms, sys: 24.3 ms, total: 238 ms
Wall time: 238 ms


(53927, 10)

La instrucción nvidia-smi nos permite leer la información de uso de la(s) GPU(s) disponible(s). En particular, es útil para controlar cuánta memoria de vídeo (VRAM) está en uso. Dado que RAPIDS carga todos los datos en la GPU para optimizar el acceso a la información, hay que controlar que haya suficiente memoria antes de leer datos.

Adicionalmente, algunas técnicas de machine learning requieren espacio libre igual al del *dataset* en uso, ya que lo duplican por completo. Por lo tanto, es aconsejable tener disponible al menos el doble de la memoria empleada por el *dataset* en uso.

In [23]:
!nvidia-smi

Sun Jul  4 12:27:13 2021       
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 450.80.02    Driver Version: 450.80.02    CUDA Version: 11.0     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|   0  GeForce GTX 106...  Off  | 00000000:01:00.0  On |                  N/A |
| 33%   43C    P2    31W / 120W |    730MiB /  6077MiB |     64%      Default |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------+
                                                                               
+---------------------------------------------------------------------------

## Tratamiento de datos con cuDF y cuPY

Tratamiento simple:
* **type_conversion**: convertimos todas las columnas a un tipo de datos común: *float32* y *float64* son los más aceptados por los algoritmos de RAPIDS.
* **column_factorize**: dado que algunos algoritmos no suportan datos no numéricos, factorizamos las columnas de texto. La operación factorize() convierte una columna con valores no numéricos a un mapa en el que cada valor único se representa por un integer. En nuestro caso, no necesitaremos el mapa que reconoce cada valor, pero es posible usarlo para devolver formato a los datos de cara a estudio o representación.

In [24]:
%%time
type_conversion(listings, ['host_id', 'accommodates', 'number_of_reviews', 'reviews_per_month'])
column_factorize(listings, ['neighbourhood_cleansed'])

CPU times: user 45.8 ms, sys: 487 µs, total: 46.2 ms
Wall time: 45.8 ms


*Nota:* para poder visualizar los datos con los nombres de cada barrio/distrito, es necesario obtener el mapa de factorización de 'neighbourhood_cleansed', a fin de obtener los valores iniciales. Para ello, se debe emplear la siguiente celda, en lugar de la anterior.

Tratamiento de cadenas:
* **clean_format_strings**: eliminamos el carácter '%' de campos que lo contienen, y convertimos el valor resultante a *float32*.
* **clean_format_price**: similar a la función anterior, pero eliminando caracteres de moneda (en nuestro caso, '$' y la coma de cantidades numéricas).

In [25]:
%%time
clean_format_strings(listings, ['host_response_rate', 'host_acceptance_rate'])
clean_format_price(listings, ['price'])

CPU times: user 7.19 ms, sys: 0 ns, total: 7.19 ms
Wall time: 7.06 ms


## Generación de datos geográficos

A fin de visualizar los datos en un formato 2D similar a un mapa, convertimos las coordatas latitud-longitud en distancias norte-este, y les asignamos columnas nuevas.

In [26]:
%%time
cupy_lat = cp.asarray(listings['latitude'])
cupy_long = cp.asarray(listings['longitude'])
n_cupy_array, e_cupy_array = latlong2osgbgrid_cupy(cupy_lat, cupy_long)
listings['northing'] = cudf.Series(n_cupy_array).astype('float32')
listings['easting'] = cudf.Series(e_cupy_array).astype('float32')

CPU times: user 24.8 ms, sys: 0 ns, total: 24.8 ms
Wall time: 24.1 ms


Resultado final del tratamiento de datos:
* **dtypes**: tipo de datos de cada columna.
* **head**: visuzalización de las primeras 5 filas del DataFrame.

In [27]:
listings.dtypes

host_id                   float32
host_response_rate        float32
host_acceptance_rate      float32
neighbourhood_cleansed    float32
latitude                  float64
longitude                 float64
accommodates              float32
price                     float32
number_of_reviews         float32
reviews_per_month         float32
northing                  float32
easting                   float32
dtype: object

In [28]:
listings.head()

Unnamed: 0,host_id,host_response_rate,host_acceptance_rate,neighbourhood_cleansed,latitude,longitude,accommodates,price,number_of_reviews,reviews_per_month,northing,easting
0,84759.0,-1.0,-1.0,67.0,37.40358,-5.98032,2.0,28.0,2.0,0.15,-1380266.25,47685.257812
1,84759.0,-1.0,-1.0,67.0,37.40358,-5.98032,2.0,28.0,2.0,0.23,-1380266.25,47685.257812
2,84759.0,-1.0,100.0,67.0,37.40358,-5.98032,2.0,28.0,2.0,0.16,-1380266.25,47685.257812
3,84759.0,-1.0,60.0,67.0,37.40358,-5.98032,2.0,28.0,2.0,0.17,-1380266.25,47685.257812
4,84759.0,-1.0,60.0,67.0,37.40358,-5.98032,2.0,28.0,2.0,0.19,-1380266.25,47685.257812


La visualización de datos se realizará en la sección 3.

# Sección 2: Carga y manipulación de datos en CPU con pandas y numPy

## Carga de datos

Importaciones
* **pandas** y **numpy**: librerías de manejo de DataFrames y gestión numérica, de vectores y tablas. Equivalentes a cudf y cupy respectivamente para CPU.

In [29]:
import pandas as pd
import numpy as np

La lectura y tratamiento de los datos iniciales sigue el mismo proceso que para GPU:
1. Creamos un nuevo DataFrame vacío.
2. Recorremos los directorios disponibles.
3. Agregamos los CSV, convirtiendo columnas dispares a tipo *object* si fuera necesario.
4. Eliminamos duplicados.
5. Reordenamos el índice.

In [30]:
%%time
listings_cpu = pd.DataFrame()

for city in cities_to_use:
    directory = '../data/' + city + '/'
    if os.path.exists(directory):
        for file in os.listdir(directory):
            if file.endswith('.csv'):
                temp_df_cpu = pd.read_csv(directory + file, usecols = columns_to_use)
                standard_object_type(temp_df_cpu, ['host_acceptance_rate', 'neighbourhood_cleansed'])
                if listings_cpu.size == 0:
                    listings_cpu = temp_df_cpu
                else:
                    for column in listings_cpu.columns:
                        if listings_cpu[column].dtype != temp_df_cpu[column].dtype:
                            print('Found error: '+column+' type '+listings_cpu[column].dtype.name+' doesnt match '+temp_df_cpu[column].dtype.name)
                    listings_cpu = listings_cpu.append(temp_df_cpu)
                    
listings_cpu = listings_cpu.drop_duplicates().reset_index(drop=True)
listings_cpu.shape

CPU times: user 689 ms, sys: 95 ms, total: 783 ms
Wall time: 782 ms


(53927, 10)

## Tratamiento de datos

Las funciones **type_conversion**, **column_factorize** y **clean_format_strings** son las mismas empleadas para GPU, ya que las operaciones subyacentes tienen la misma semántica y uso para cuDF/cupy como para pandas/numpy.

* **clean_format_price_cpu**: versión específica del tratado de cadenas de precios para CPU. Es necesario cambiar ligeramente el órden y número de operaciones para que numpy pueda ejecutar el mismo reemplazo de cadenas de precios que en GPU.

In [31]:
%%time
type_conversion(listings_cpu, ['host_id', 'accommodates', 'number_of_reviews', 'reviews_per_month'])
column_factorize(listings_cpu, ['neighbourhood_cleansed'])

CPU times: user 7.64 ms, sys: 0 ns, total: 7.64 ms
Wall time: 7.23 ms


In [32]:
%%time
clean_format_strings(listings_cpu, ['host_response_rate', 'host_acceptance_rate'])
clean_format_price_cpu(listings_cpu, ['price'])

CPU times: user 94.1 ms, sys: 0 ns, total: 94.1 ms
Wall time: 94.1 ms


## Generación de datos geográficos

La única diferencia en la conversión de coordenadas latitud-logitud a norte-este es que utilizamos funciones aritméticas provistas por numpy en lugar de cupy.

In [33]:
%%time
numpy_lat = listings_cpu['latitude'].to_numpy()
numpy_long = listings_cpu['longitude'].to_numpy()
n_numpy_array, e_numpy_array = latlong2osgbgrid_numpy(numpy_lat, numpy_long)
listings_cpu['northing'] = pd.Series(n_numpy_array).astype('float32')
listings_cpu['easting'] = pd.Series(e_numpy_array).astype('float32')

CPU times: user 75.3 ms, sys: 0 ns, total: 75.3 ms
Wall time: 74.3 ms


In [34]:
listings_cpu.dtypes

host_id                   float32
host_response_rate        float32
host_acceptance_rate      float32
neighbourhood_cleansed    float32
latitude                  float64
longitude                 float64
accommodates              float32
price                     float32
number_of_reviews         float32
reviews_per_month         float32
northing                  float32
easting                   float32
dtype: object

In [35]:
listings_cpu.head()

Unnamed: 0,host_id,host_response_rate,host_acceptance_rate,neighbourhood_cleansed,latitude,longitude,accommodates,price,number_of_reviews,reviews_per_month,northing,easting
0,139939.0,100.0,100.0,0.0,37.39468,-6.00183,4.0,99.0,168.0,1.47,-1381173.5,45738.527344
1,224697.0,-1.0,100.0,1.0,37.39855,-5.99365,3.0,49.0,42.0,0.37,-1380774.625,46481.183594
2,503692.0,80.0,54.0,2.0,37.39012,-5.98676,2.0,55.0,75.0,0.71,-1381736.25,47051.742188
3,589600.0,100.0,100.0,1.0,37.39939,-5.99237,6.0,65.0,81.0,0.76,-1380686.25,46598.492188
4,589600.0,100.0,100.0,3.0,37.3868,-5.99666,4.0,65.0,165.0,1.51,-1382067.625,46159.285156


El comando %reset nos permite limpiar todas las variables sin reiniciar el kernel. Esto nos permite aprovechar al máximo la gestión de memoria inicializada por RAPIDS, ejecutando pruebas múltiples veces en el mismo kernel inicializado.

In [36]:
%reset -f

# Sección 3: Visualización de resultados mediante cuXfilter

La librería cuXfilter nos permite visualizar datos gráficamente. Vamos a visualizar los listados de AirBnB en las ciudades seleccionadas durante el año 2020, con un selector por distritos/barrios.

*Nota:* para poder ver los distritos con el nombre dado por AirBnb, en lugar de ID's numéricas, es necesario obtener el mapa resultado de factorizar la columna 'neighbourhood_cleansed', utilizando la instrucción opcional de la sección 1.

Creamos un gráfico de tipo *scatter* para visualizar puntos en una escala 2D (en este caso marcada por las coordenadas norte-este), así como un *widget* donde escribimos los nombres de las zonas disponibles. Podremos seleccionar cada zona y ver los listados específicos.

***Nota:*** es necesario guardar el resultado de aplicar la operación **factorize** de cuDF/pandas sobre la columna 'neighbourhood_cleansed', lo cual no está soportado por las funciones de utilidad. Si se desea ejecutar este mapa, es necesario aplicar la operación manualmente en el notebook.

Abrimos el gráfico en un *dashboard* creado en el navegador:

***Nota:*** desde RAPIDS 0.18, el enlace generado no funciona correctamente. Las pruebas originales se realizaron en RAPIDS 0.16.

Para ver el gráfico sin abrir un widget podemos usar el siguiente comando:

Para detener la ejecución del gráfico, podemos usar el siguiente comando: