# Introducción

En este cuaderno emplearemos la técnica de regresión linear (*Linear Regression*) para entrenar un modelo capaz de predecir el precio de listados basado en otras características de los mismos.

La regresión linear es una de las formas más básicas de resolución de funciones de optimización mediante coeficientes. RAPIDS provee múltiples tipos de regresión simple, tales como *Logistic Regression*, *Ridge Regression* y *Lasso Regression*. Todos estos modelos comparten las mismas características de interfaz: customización de hiperparámetros, entrenamiento y predicción de un conjunto de prueba.

# Sección 1: Regresión por GPU

## Carga y tratamiento de datos

Importaciones
* **os** y **os.path**: importan utilidades de Python para tratamiento de ficheros y comprobación de rutas.
* **cudf**, **cupy** y **cuml**: librerías de RAPIDS.
* **pandas** y **numpy**: librerías de manejo de DataFrames y gestión numérica, de vectores y tablas. Equivalentes a cudf y cupy respectivamente para CPU.
* **sklearn**: librería de manejo de modelos machine learning, equivalente de cuml en CPU.

In [309]:
import os
import os.path

import cudf
import cupy as cp
import cuml
from cuml.metrics.regression import mean_squared_error as mnsq

import pandas as pd
import numpy as np
import sklearn
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error as mnsq_cpu

Ficheros de utilidades:
* **f_northing**: conversión de coordenadas latitud-longitud a norte-este, empleados en manejo de mapas y coordenadas.
* **f_northing_numpy**: equivalente de f_northing para estructuras de numpy.
* **f_price_range**: normalización de precios en rangos establecidos manualmente. Necesario para clasificación multiclase, no necesario para regresión (aunque representa una versión simplificada o normalizada del objetivo a resolver).
* **f_static_data**: funciones para cargar listas de datos estáticos, tales como nombres de ciudades a utilizar desde el directorio /data, columnas a leer por cada fichero CSV, y columnas a usar en el entrenamiento del modelo.
* **f_utils**: utilidades de conversión de datos a tipos float32/float64, limpiado de strings de precios, factorización de columnas complejas en mapas numéricos, etc.

In [310]:
%run ../utils/f_northing.py
%run ../utils/f_northing_numpy.py
%run ../utils/f_price_range.py
%run ../utils/f_static_data.py
%run ../utils/f_utils.py

Inicialización de datos:
* **cities_to_use**: lista de directorios dentro de /data sobre los que leer datasets en formato CSV. Cada directorio es una ciudad, área, estado o país.
* **columns_to_use**: lista de columnas a leer dentro de cada CSV. Todas las columnas deben existir y sus nombres deben coincidir.
* **columns_to_fit**: lista de columnas a utilizar para el entrenamiento de modelos de machine learning. Nos permite hacer múltiples usos de un dataset sin necesidad de leerlo de nuevo.

In [311]:
#cities_to_use = ['sevilla']
#cities_to_use = ['shanghai']
cities_to_use = cities_to_use_1()
#cities_to_use = cities_to_use_2()
columns_to_use = columns_to_use()
columns_to_fit = columns_to_fit()

El atributo **set_global_output_type** de cuml determina la salida de datos de las funciones de cuml. La opción 'cudf' devuelve tipos de datos que cumplen con la especificación de RAPIDS: cudf.DataFrame y Series.

Otros posibles valores (v0.18) son 'input' para mantener el formato de entrada, 'cupy' y 'numpy' para usar los formatos de las librerías correspondientes.

In [312]:
cuml.set_global_output_type('cudf')

El DataFrame **listings** representa el conjunto de datos final sobre el que realizar operaciones de ciencia de datos o machine learning. Por cada directorio de datos, leemos todos los ficheros CSV disponibles y los agregamos a **listings**.
* **standard_object_type**: algunas columnas no tienen un formato único de datos; esto puede deberse a diferentes departamentos o metodologías empleadas durante los varios *scraping* de datos de la fuente. Esta función convierte columnas (detectadas manualmente a priori) en tipo genérico *object*, que después convertiremos a un tipo de datos más apropiado para nuestro uso.
* **drop_duplicates**: dado que utilizamos múltiples *datasets* por ciudades, hay listados de AirBnB que no cambian durante varios meses. En este caso, no necesitamos datos redundantes, y los removemos del DataFrame final.
* **reset_index**: los datos de cada fichero se han unido mediante un DataFrame diferente, y por lo tanto los índices del DataFrame quedan mezclados al final del proceso. Con esta instrucción forzamos el índice de **listings** a ordenarse. La instrución añade una columna adicional con el índice antiguo, que podemos obviar con el parámetro drop=**True**.
* **shape**: instrucción que devuelve el tamaño completo del DataFrame en formato (filas, columnas)

In [313]:
listings = cudf.DataFrame()

for city in cities_to_use:
    directory = '../data/' + city + '/'
    if os.path.exists(directory):
        for file in os.listdir(directory):
            if file.endswith('.csv'):
                temp_df = cudf.read_csv(directory + file, usecols = columns_to_use)
                standard_object_type(temp_df, ['host_acceptance_rate', 'neighbourhood_cleansed'])
                if(temp_df['host_total_listings_count'].dtype != 'float64'):
                    temp_df['host_total_listings_count'] = temp_df['host_total_listings_count'].fillna(-1).astype('float64')
                if(temp_df['bathrooms'].dtype != 'float64'):
                    temp_df['bathrooms'] = temp_df['bathrooms'].fillna(-1).astype('float64')
                if(temp_df['bedrooms'].dtype != 'float64'):
                    temp_df['bedrooms'] = temp_df['bedrooms'].fillna(-1).astype('float64')
                if(temp_df['beds'].dtype != 'float64'):
                    temp_df['beds'] = temp_df['beds'].fillna(-1).astype('float64')
                if listings.size == 0:
                    listings = temp_df
                else:
                    for column in listings.columns:
                        if listings[column].dtype != temp_df[column].dtype:
                            print('Found error: '+column+' type '+listings[column].dtype.name+' doesnt match '+temp_df[column].dtype.name)
                    listings = listings.append(temp_df)
                    
listings = listings.drop_duplicates()
listings = listings.reset_index(drop=True)

Tratamiento simple:
* **type_conversion**: convertimos todas las columnas a un tipo de datos común: *float32* y *float64* son los más aceptados por los algoritmos de RAPIDS.
* **column_factorize**: dado que algunos algoritmos no suportan datos no numéricos, factorizamos las columnas de texto. La operación factorize() convierte una columna con valores no numéricos a un mapa en el que cada valor único se representa por un integer. En nuestro caso, no necesitaremos el mapa que reconoce cada valor, pero es posible usarlo para devolver formato a los datos de cara a estudio o representación.

Utilizamos versiones de tipo float64 para guardar el mayor grado posible de precisión sobre los valores numéricos, lo cual es deseable en  modelos de regresión.

In [314]:
type_conversion_64(listings, ['host_id', 'accommodates', 'number_of_reviews', 'reviews_per_month', 'minimum_nights', 'maximum_nights', 'availability_30', 'availability_90', 'availability_365', 'number_of_reviews_ltm', 'review_scores_rating', 'review_scores_accuracy', 'review_scores_cleanliness', 'review_scores_checkin', 'review_scores_communication', 'review_scores_location', 'review_scores_value', 'host_total_listings_count', 'bathrooms', 'bedrooms', 'beds'])
column_factorize_64(listings, ['neighbourhood_cleansed', 'host_response_time', 'host_is_superhost', 'host_has_profile_pic', 'host_identity_verified', 'property_type', 'room_type', 'instant_bookable'])

Tratamiento de cadenas:
* **clean_format_strings**: eliminamos el carácter '%' de campos que lo contienen, y convertimos el valor resultante a *float32*.
* **clean_format_price**: similar a la función anterior, pero eliminando caracteres de moneda (en nuestro caso, '$' y la coma de cantidades numéricas).
* **applyMap**: aplica una función sucesivamente a todos los valores de la columna indicada. Utilizaremos la función **priceRange** para normalizar los precios en rangos, a fin de simplificar el ejemplo. Esta normalización permite que el *dataset* pueda usarse para clasificación multiclase y regresión (con un margen potencial de error mayor que si empleamos los valores de precio originales).

In [315]:
clean_format_strings_64(listings, ['host_response_rate', 'host_acceptance_rate'])
clean_format_price_64(listings, ['price'])
listings['price'] = listings['price'].applymap(priceRange, 'float64')

A fin de visualizar los datos en un formato 2D similar a un mapa, convertimos las coordatas latitud-longitud en distancias norte-este, y les asignamos columnas nuevas.

El código necesario para visualizar datos se encuentra en el fichero *nb1_visual.ipynb*, Sección 3.

In [316]:
cupy_lat = cp.asarray(listings['latitude'])
cupy_long = cp.asarray(listings['longitude'])
n_cupy_array, e_cupy_array = latlong2osgbgrid_cupy(cupy_lat, cupy_long)
listings['northing'] = cudf.Series(n_cupy_array).astype('float64')
listings['easting'] = cudf.Series(e_cupy_array).astype('float64')

Visualización de las primeras 5 filas, para verificar el tratamiento de datos.

In [317]:
listings.head()

Unnamed: 0,host_id,host_response_time,host_response_rate,host_acceptance_rate,host_is_superhost,host_total_listings_count,host_has_profile_pic,host_identity_verified,neighbourhood_cleansed,latitude,...,review_scores_accuracy,review_scores_cleanliness,review_scores_checkin,review_scores_communication,review_scores_location,review_scores_value,instant_bookable,reviews_per_month,northing,easting
0,23.0,-1.0,-1.0,-1.0,0.0,2.0,1.0,1.0,31.0,30.17865,...,10.0,9.0,10.0,10.0,10.0,9.0,0.0,0.16,6796325.0,-10620580.0
1,23.0,-1.0,-1.0,-1.0,0.0,2.0,1.0,1.0,31.0,30.17865,...,10.0,9.0,10.0,10.0,10.0,9.0,0.0,0.16,6796325.0,-10620580.0
2,23.0,-1.0,-1.0,-1.0,0.0,2.0,1.0,1.0,31.0,30.17865,...,10.0,9.0,10.0,10.0,10.0,9.0,0.0,0.15,6796325.0,-10620580.0
3,23.0,-1.0,-1.0,-1.0,0.0,2.0,1.0,1.0,31.0,30.17926,...,10.0,9.0,10.0,10.0,10.0,9.0,0.0,0.26,6796218.0,-10620280.0
4,23.0,-1.0,-1.0,-1.0,0.0,2.0,1.0,1.0,31.0,30.17989,...,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,0.0,-1.0,6796309.0,-10620060.0


## Aplicación de modelo de regresión para predicción de valores

Los modelos de regresión linear entrenan un conjunto X de columnas de datos sobre los valores de un destino y, que es una columna singular con el valor a optimizar.

Funciones:
* **train_test_split**: funcion que toma un conjunto de datos y los separa en datos de entrenamiento y datos de prueba. Esto nos permite realizar predicciónes sin separar previamente los datos. El parámetro **train_size** indica qué porcentaje debería dedicarse a entrenamiento, en nuestro caso 0.9 = 90%.
* **fit**: entrena el modelo sobre el conjunto *(X,y)* indicado. El modelo resultante puede ser reutilizado para predecir valores múltiples veces.

In [318]:
%%time
regression = cuml.LinearRegression()
x_train, x_test, y_train, y_test  = cuml.train_test_split(listings[columns_to_fit], listings['price'], train_size=0.9)
x_test_index = x_test.reset_index(drop=True)
y_test_index = y_test.reset_index(drop=True)
regression.fit(x_train, y_train)

CPU times: user 124 ms, sys: 10.7 ms, total: 134 ms
Wall time: 134 ms


LinearRegression(algorithm='eig', fit_intercept=True, normalize=False, handle=<cuml.raft.common.handle.Handle object at 0x7f113b00b3f0>, verbose=4, output_type='cudf')

Visualización de los coeficientes de cada variable de entrada en X sobre el modelo.

In [319]:
coef_map = cudf.DataFrame()
coef_map['key'] = columns_to_fit
coef_map['value'] = regression.coef_
print("Coefficients:")
coef_map

Coefficients:


Unnamed: 0,key,value
0,accommodates,0.333803
1,reviews_per_month,-0.201775
2,neighbourhood_cleansed,0.002987
3,host_response_time,-0.070409
4,host_is_superhost,0.447388
5,host_has_profile_pic,0.242525
6,host_identity_verified,0.110022
7,property_type,0.014142
8,room_type,-0.657811
9,bathrooms,0.097766


Visualización de predicciones sobre el conjunto de prueba.

In [320]:
%%time
predictions = regression.predict(x_test_index)
y_results = cudf.DataFrame()
y_results['prediction'] = predictions
y_results['real'] = y_test_index
y_results[0:10]

CPU times: user 11.5 ms, sys: 0 ns, total: 11.5 ms
Wall time: 11.1 ms


Unnamed: 0,prediction,real
0,3.978677,3.0
1,5.63281,7.0
2,4.966476,4.0
3,5.771206,11.0
4,3.084744,2.0
5,0.125358,3.0
6,1.700613,3.0
7,5.171231,1.0
8,4.391876,5.0
9,5.944904,9.0


* **mean_squared_error (mnsq)**: calcula el error cuadrático medio sobre los valores de las columnas indicadas. Podemos ver así el error total de las predicciones.

In [321]:
loss = mnsq(y_test_index, predictions)
print(loss)

8.352847998135903


# Sección 2: Regresión por CPU

## Carga y tratamiento de datos

La lectura y tratamiento de los datos iniciales sigue el mismo proceso que para GPU:
1. Creamos un nuevo DataFrame vacío.
2. Recorremos los directorios disponibles.
3. Agregamos los CSV, convirtiendo columnas dispares a tipo *object* si fuera necesario.
4. Eliminamos duplicados.
5. Reordenamos el índice.

In [322]:
listings_cpu = pd.DataFrame()

for city in cities_to_use:
    directory = '../data/' + city + '/'
    if os.path.exists(directory):
        for file in os.listdir(directory):
            if file.endswith('.csv'):
                temp_df_cpu = pd.read_csv(directory + file, usecols = columns_to_use)
                standard_object_type(temp_df_cpu, ['host_acceptance_rate', 'neighbourhood_cleansed'])
                if(temp_df_cpu['host_total_listings_count'].dtype != 'float64'):
                    temp_df_cpu['host_total_listings_count'] = temp_df_cpu['host_total_listings_count'].fillna("-1").astype('float64')
                if(temp_df_cpu['bathrooms'].dtype != 'float64'):
                    temp_df_cpu['bathrooms'] = temp_df_cpu['bathrooms'].fillna("-1").astype('float64')
                if(temp_df_cpu['bedrooms'].dtype != 'float64'):
                    temp_df_cpu['bedrooms'] = temp_df_cpu['bedrooms'].fillna("-1").astype('float64')
                if(temp_df_cpu['beds'].dtype != 'float64'):
                    temp_df_cpu['beds'] = temp_df_cpu['beds'].fillna("-1").astype('float64')
                if listings_cpu.size == 0:
                    listings_cpu = temp_df_cpu
                else:
                    for column in listings_cpu.columns:
                        if listings_cpu[column].dtype != temp_df_cpu[column].dtype:
                            print('Found error: '+column+' type '+listings_cpu[column].dtype.name+' doesnt match '+temp_df_cpu[column].dtype.name)
                    listings_cpu = listings_cpu.append(temp_df_cpu)
                    
listings_cpu = listings_cpu.drop_duplicates()
listings_cpu = listings_cpu.reset_index(drop=True)

Las funciones **type_conversion**, **column_factorize**, **clean_format_strings** y **priceRange** son las mismas empleadas para GPU, ya que las operaciones subyacentes tienen la misma semántica y uso para cuDF/cupy como para pandas/numpy.

* **clean_format_price_cpu**: versión específica del tratado de cadenas de precios para CPU. Es necesario cambiar ligeramente el órden y número de operaciones para que numpy pueda ejecutar el mismo reemplazo de cadenas de precios que en GPU.

In [323]:
type_conversion_64(listings_cpu, ['host_id', 'accommodates', 'number_of_reviews', 'reviews_per_month', 'minimum_nights', 'maximum_nights', 'availability_30', 'availability_90', 'availability_365', 'number_of_reviews_ltm', 'review_scores_rating', 'review_scores_accuracy', 'review_scores_cleanliness', 'review_scores_checkin', 'review_scores_communication', 'review_scores_location', 'review_scores_value', 'host_total_listings_count', 'bathrooms', 'bedrooms', 'beds'])
column_factorize_64(listings_cpu, ['neighbourhood_cleansed', 'host_response_time', 'host_is_superhost', 'host_has_profile_pic', 'host_identity_verified', 'property_type', 'room_type', 'instant_bookable'])

clean_format_strings_64(listings_cpu, ['host_response_rate', 'host_acceptance_rate'])
clean_format_price_64_cpu(listings_cpu, ['price'])
listings_cpu['price'] = listings_cpu['price'].apply(priceRange, 'float64')

La única diferencia en la conversión de coordenadas latitud-logitud a norte-este es que utilizamos funciones aritméticas provistas por numpy en lugar de cupy.

In [324]:
numpy_lat = listings_cpu['latitude'].to_numpy()
numpy_long = listings_cpu['longitude'].to_numpy()
n_numpy_array, e_numpy_array = latlong2osgbgrid_numpy(numpy_lat, numpy_long)
listings_cpu['northing'] = pd.Series(n_numpy_array).astype('float64')
listings_cpu['easting'] = pd.Series(e_numpy_array).astype('float64')

In [325]:
listings_cpu.head()

Unnamed: 0,host_id,host_response_time,host_response_rate,host_acceptance_rate,host_is_superhost,host_total_listings_count,host_has_profile_pic,host_identity_verified,neighbourhood_cleansed,latitude,...,review_scores_accuracy,review_scores_cleanliness,review_scores_checkin,review_scores_communication,review_scores_location,review_scores_value,instant_bookable,reviews_per_month,northing,easting
0,3159.0,0.0,100.0,100.0,0.0,1.0,0.0,0.0,0.0,52.36575,...,10.0,10.0,10.0,10.0,9.0,10.0,0.0,2.05,296936.511643,872297.84608
1,32366.0,0.0,100.0,100.0,0.0,2.0,0.0,1.0,1.0,52.37802,...,10.0,10.0,10.0,10.0,10.0,10.0,0.0,0.45,297980.560905,868856.643198
2,59484.0,0.0,100.0,97.0,1.0,2.0,0.0,0.0,2.0,52.36509,...,10.0,10.0,10.0,10.0,10.0,9.0,0.0,2.74,296550.62697,869051.152298
3,56142.0,-1.0,-1.0,53.0,0.0,2.0,0.0,0.0,1.0,52.37297,...,10.0,10.0,10.0,10.0,10.0,10.0,1.0,0.18,297359.422896,868277.747731
4,97647.0,1.0,100.0,100.0,0.0,1.0,0.0,1.0,1.0,52.38761,...,10.0,10.0,10.0,10.0,10.0,10.0,0.0,2.14,299039.842167,868699.005281


## Aplicación de modelo de regresión

La implementación del algoritmo de división de conjuntos de entrenamiento y prueba, así como la implementación de regresión linear por parte de scikit-learn, lectura de coeficientes, predicciones y métricas de error en este ejemplo son idénticas a las empleadas por RAPIDS.

In [326]:
%%time
linreg_cpu = LinearRegression()
x_train_cpu, x_test_cpu, y_train_cpu, y_test_cpu  = train_test_split(listings_cpu[columns_to_fit], listings_cpu['price'], train_size=0.9)
x_test_cpu_index = x_test_cpu.reset_index(drop=True)
y_test_cpu_index = y_test_cpu.reset_index(drop=True)
linreg_cpu.fit(x_train_cpu, y_train_cpu)

CPU times: user 3.16 s, sys: 1.29 s, total: 4.44 s
Wall time: 1.14 s


LinearRegression()

In [327]:
coef_map_cpu = pd.DataFrame()
coef_map_cpu['key'] = columns_to_fit
coef_map_cpu['value'] = linreg_cpu.coef_
print("Coefficients:")
coef_map_cpu

Coefficients:


Unnamed: 0,key,value
0,accommodates,0.371593
1,reviews_per_month,-0.233381
2,neighbourhood_cleansed,-0.001831
3,host_response_time,-0.122217
4,host_is_superhost,-0.441128
5,host_has_profile_pic,-0.129714
6,host_identity_verified,-0.032085
7,property_type,0.034805
8,room_type,0.432928
9,bathrooms,0.456358


In [328]:
%%time
predictions_cpu = linreg_cpu.predict(x_test_cpu_index)
y_results_cpu = pd.DataFrame()
y_results_cpu['prediction'] = predictions_cpu
y_results_cpu['real'] = y_test_cpu_index
y_results_cpu[0:10]

CPU times: user 259 ms, sys: 246 ms, total: 505 ms
Wall time: 69.3 ms


Unnamed: 0,prediction,real
0,5.993625,11.0
1,3.335074,4.0
2,4.282507,11.0
3,2.971755,2.0
4,3.373346,4.0
5,3.883897,1.0
6,5.22048,11.0
7,5.986504,1.0
8,5.327412,11.0
9,6.108219,11.0


In [329]:
loss_cpu = mnsq_cpu(y_test_cpu_index, predictions_cpu)
print(loss_cpu)

8.438865219358801


In [330]:
%reset -f