# Sección 1: Coordinate Descent mediante GPU

## Carga y tratamiento de datos

Importaciones
* os y os.path: importan utilidades de Python para tratamiento de ficheros y comprobación de rutas.
* cudf, cupy y cuml: librerías de RAPIDS.
* pandas y numpy: librerías de manejo de DataFrames y gestión numérica, de vectores y tablas. Equivalentes a cudf y cupy respectivamente para CPU.
* sklearn: librería de manejo de modelos machine learning, equivalente de cuml en CPU.

In [None]:
import os
import os.path

import cudf
import cupy as cp
import cuml
from cuml.metrics.regression import mean_squared_error as mnsq

import pandas as pd
import numpy as np
import sklearn
from sklearn.linear_model import enet_path
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error as mnsq_cpu

Dibujo de gráficas (CPU)
* itertools es una librería de Python para crear iterables eficientes.
* matplotlib es una librería de dibujo de gráficas en Python. Debido a que no se encuentra por defecto en los entornos de instalación de RAPIDS, es necesario añadirla al entorno mediante conda u otro gestor de paquetes.

In [None]:
from itertools import cycle
import matplotlib.pyplot as plt

Ficheros de utilidades:
* f_northing: conversión de coordenadas latitud-longitud a norte-este, empleados en manejo de mapas y coordenadas.
* f_northing_numpy: equivalente de f_northing para estructuras de numpy.
* f_price_range: normalización de precios en rangos establecidos manualmente. Necesario para clasificación multiclase, no necesario para regresión (aunque representa una versión simple del modelo a resolver).
* f_static_data: funciones para cargar listas de datos estáticos, tales como nombres de ciudades a utilizar desde el directorio /data, columnas a leer por cada fichero CSV, y columnas a usar en el entrenamiento del modelo.
* f_utils: utilidades de conversión de datos a tipos float32/float64, limpiado de strings de precios, factorización de columnas complejas en mapas numéricos, etc.

In [None]:
%run ../utils/f_northing.py
%run ../utils/f_northing_numpy.py
%run ../utils/f_price_range.py
%run ../utils/f_static_data.py
%run ../utils/f_utils.py

Inicialización de datos:
* cities_to_use: lista de directorios dentro de /data sobre los que leer datasets en formato CSV. Cada directorio es una ciudad, área, estado o país.
* columns_to_use: lista de columnas a leer dentro de cada CSV. Todas las columnas deben existir y sus nombres deben coincidir.
* columns_to_fit: lista de columnas a utilizar para el entrenamiento de modelos de machine learning. Nos permite hacer múltiples usos de un dataset sin necesidad de leerlo de nuevo.

In [None]:
cities_to_use = ['sevilla']
#cities_to_use = ['shanghai']
#cities_to_use = cities_to_use_1()
#cities_to_use = cities_to_use_2()
columns_to_use = columns_to_use()
columns_to_fit = columns_to_fit()

El atributo set_global_output_type de cuml determina la salida de datos de las funciones de cuml. La opción 'cudf' devuelve tipos de datos que cumplen con la especificación de RAPIDS: cudf.DataFrame y Series.

Otros posibles valores (v0.18) son 'input' para mantener el formato de entrada, 'cupy' y 'numpy' para usar los formatos de las librerías correspondientes.

In [None]:
cuml.set_global_output_type('cudf')

En progreso...

In [None]:
listings = cudf.DataFrame()

for city in cities_to_use:
    directory = '../data/' + city + '/'
    if os.path.exists(directory):
        for file in os.listdir(directory):
            if file.endswith('.csv'):
                temp_df = cudf.read_csv(directory + file, usecols = columns_to_use)
                standard_object_type(temp_df, ['host_acceptance_rate', 'neighbourhood_cleansed'])
                if(temp_df['host_total_listings_count'].dtype != 'float64'):
                    temp_df['host_total_listings_count'] = temp_df['host_total_listings_count'].fillna(-1).astype('float64')
                if(temp_df['bathrooms'].dtype != 'float64'):
                    temp_df['bathrooms'] = temp_df['bathrooms'].fillna(-1).astype('float64')
                if(temp_df['bedrooms'].dtype != 'float64'):
                    temp_df['bedrooms'] = temp_df['bedrooms'].fillna(-1).astype('float64')
                if(temp_df['beds'].dtype != 'float64'):
                    temp_df['beds'] = temp_df['beds'].fillna(-1).astype('float64')
                if listings.size == 0:
                    listings = temp_df
                else:
                    for column in listings.columns:
                        if listings[column].dtype != temp_df[column].dtype:
                            print('Found error: '+column+' type '+listings[column].dtype.name+' doesnt match '+temp_df[column].dtype.name)
                    listings = listings.append(temp_df)
                    
listings = listings.drop_duplicates()
listings = listings.reset_index(drop=True)

type_conversion_64(listings, ['host_id', 'accommodates', 'number_of_reviews', 'reviews_per_month', 'minimum_nights', 'maximum_nights', 'availability_30', 'availability_90', 'availability_365', 'number_of_reviews_ltm', 'review_scores_rating', 'review_scores_accuracy', 'review_scores_cleanliness', 'review_scores_checkin', 'review_scores_communication', 'review_scores_location', 'review_scores_value', 'host_total_listings_count', 'bathrooms', 'bedrooms', 'beds'])
column_factorize_64(listings, ['neighbourhood_cleansed', 'host_response_time', 'host_is_superhost', 'host_has_profile_pic', 'host_identity_verified', 'property_type', 'room_type', 'instant_bookable'])

clean_format_strings_64(listings, ['host_response_rate', 'host_acceptance_rate'])
clean_format_price_64(listings, ['price'])
listings['price'] = listings['price'].applymap(priceRange, 'float64')

cupy_lat = cp.asarray(listings['latitude'])
cupy_long = cp.asarray(listings['longitude'])
n_cupy_array, e_cupy_array = latlong2osgbgrid_cupy(cupy_lat, cupy_long)
listings['northing'] = cudf.Series(n_cupy_array).astype('float64')
listings['easting'] = cudf.Series(e_cupy_array).astype('float64')

listings.head()

## Aplicación del algoritmo [Coordinate Descent de RAPIDS](https://docs.rapids.ai/api/cuml/stable/api.html#coordinate-descent)

El algoritmo Coordinate Descent localiza mínimos en funciones a optimizar, mediante el descenso por direcciones determinadas por coordenadas dadas por el dataset.

Parámetros:
* alpha: grado de regularización del descenso. 0 es equivalente a [mínimos cuadrados ordinarios (MCO)](https://es.wikipedia.org/wiki/M%C3%ADnimos_cuadrados_ordinarios), que es el solucionador empleado por una regresión linear.

In [None]:
model = cuml.CD(alpha=0.0)

In [None]:
%%time
X = listings[columns_to_fit]
y = listings['price']
x_train, x_test, y_train, y_test  = cuml.train_test_split(X, y, train_size=0.9)
model.fit(x_train, y_train)

In [None]:
%%time
predictions = model.predict(x_test)

In [None]:
y_test = y_test.reset_index(drop=True)

In [None]:
testdf = cudf.DataFrame()
testdf['pred'] = predictions.astype('float64')
testdf['real'] = y_test.astype('float64')
testdf.head()

In [None]:
print(testdf)

In [None]:
testdf.describe(include='all')

In [None]:
loss = mnsq(testdf['real'], testdf['pred'])
print(loss)

# Sección 2: regresión por coordenadas mediante CPU

## Carga y tratamiento de datos

In [None]:
listings_cpu = pd.DataFrame()

for city in cities_to_use:
    directory = '../data/' + city + '/'
    if os.path.exists(directory):
        for file in os.listdir(directory):
            if file.endswith('.csv'):
                temp_df_cpu = pd.read_csv(directory + file, usecols = columns_to_use)
                standard_object_type(temp_df_cpu, ['host_acceptance_rate', 'neighbourhood_cleansed'])
                if(temp_df_cpu['host_total_listings_count'].dtype != 'float64'):
                    temp_df_cpu['host_total_listings_count'] = temp_df_cpu['host_total_listings_count'].fillna("-1").astype('float64')
                if(temp_df_cpu['bathrooms'].dtype != 'float64'):
                    temp_df_cpu['bathrooms'] = temp_df_cpu['bathrooms'].fillna("-1").astype('float64')
                if(temp_df_cpu['bedrooms'].dtype != 'float64'):
                    temp_df_cpu['bedrooms'] = temp_df_cpu['bedrooms'].fillna("-1").astype('float64')
                if(temp_df_cpu['beds'].dtype != 'float64'):
                    temp_df_cpu['beds'] = temp_df_cpu['beds'].fillna("-1").astype('float64')
                if listings_cpu.size == 0:
                    listings_cpu = temp_df_cpu
                else:
                    for column in listings_cpu.columns:
                        if listings_cpu[column].dtype != temp_df_cpu[column].dtype:
                            print('Found error: '+column+' type '+listings_cpu[column].dtype.name+' doesnt match '+temp_df_cpu[column].dtype.name)
                    listings_cpu = listings_cpu.append(temp_df_cpu)
                    
listings_cpu = listings_cpu.drop_duplicates()
listings_cpu = listings_cpu.reset_index(drop=True)

type_conversion_64(listings_cpu, ['host_id', 'accommodates', 'number_of_reviews', 'reviews_per_month', 'minimum_nights', 'maximum_nights', 'availability_30', 'availability_90', 'availability_365', 'number_of_reviews_ltm', 'review_scores_rating', 'review_scores_accuracy', 'review_scores_cleanliness', 'review_scores_checkin', 'review_scores_communication', 'review_scores_location', 'review_scores_value', 'host_total_listings_count', 'bathrooms', 'bedrooms', 'beds'])
column_factorize_64(listings_cpu, ['neighbourhood_cleansed', 'host_response_time', 'host_is_superhost', 'host_has_profile_pic', 'host_identity_verified', 'property_type', 'room_type', 'instant_bookable'])

clean_format_strings_64(listings_cpu, ['host_response_rate', 'host_acceptance_rate'])
clean_format_price_64_cpu(listings_cpu, ['price'])
listings_cpu['price'] = listings_cpu['price'].apply(priceRange, 'float64')

numpy_lat = listings_cpu['latitude'].to_numpy()
numpy_long = listings_cpu['longitude'].to_numpy()
n_numpy_array, e_numpy_array = latlong2osgbgrid_numpy(numpy_lat, numpy_long)
listings_cpu['northing'] = pd.Series(n_numpy_array).astype('float64')
listings_cpu['easting'] = pd.Series(e_numpy_array).astype('float64')
listings_cpu.head()

## Aplicación de algoritmo de búsqueda [Elastic Net](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.enet_path.html#sklearn.linear_model.enet_path)

In [None]:
x_train, x_test, y_train, y_test  = train_test_split(listings_cpu[columns_to_fit], listings_cpu['price'], train_size=0.9)
x_test_index = x_test.reset_index(drop=True)
y_test_index = y_test.reset_index(drop=True)
alphas_enet, coefs_enet, _ = enet_path(x_train, y_train, eps=5e-3, l1_ratio=0.8, fit_intercept=False)

In [None]:
alphas_enet

In [None]:
coefs_enet

Usando matplotlib e itertools de Python, creamos un gráfico en el cual podemos ver el [resultado de computar el elastic path mediante descenso por coordenadas.](https://scikit-learn.org/stable/modules/linear_model.html#elastic-net)

In [None]:
plt.figure(1)
colors = cycle(['b', 'r', 'g', 'c', 'k'])
neg_log_alphas_enet = -np.log10(alphas_enet)
for coef_e, c in zip(coefs_enet, colors):
    l1 = plt.plot(neg_log_alphas_enet, coef_e, c=c)

plt.xlabel('-Log(alpha)')
plt.ylabel('coefficients')
plt.title('Elastic-Net Paths')
plt.axis('tight')
plt.show()

In [None]:
%reset -f