## Librerías y carga de datos

In [None]:
from google.colab import drive
import pandas as pd
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_absolute_error, mean_squared_error
import numpy as np
import os
import time
import pickle

Se monta drive en caso de que se trabaje en Colab. En otro caso, comentar celda:

In [None]:
drive.mount('/content/drive')

Mounted at /content/drive


Lectura de datos: en este caso se trabajó en colab, por lo que se debe correr la celda indicada más arriba y luego se modifica el file_path según el nombre de la carpeta de drive en la que estén almacenados los archivos train, val y test. En caso de trabajar local, se debe definir file_path como la dirección de la carpeta que contiene estos documentos.-

In [None]:
path_train = 'drive/MyDrive/ProyectoDataScience/train.csv'
path_test = 'drive/MyDrive/ProyectoDataScience/test.csv'
path_val = 'drive/MyDrive/ProyectoDataScience/val.csv'

train=pd.read_csv(path_train, delimiter = ',')

## Modelo Random Forest

#### Se crea columna de diferencia de distancia entre dos pulsos pareados.

In [None]:
train['Distancia_Total'] = train['DistanciaInicio2'] - train['DistanciaInicio1']

#### Creación del modelo y definición de hiperparámetros
En este caso se entrena con la columna de distancia como única feature y con el target la columna de diferencia de tiempo.

In [None]:
rf = RandomForestRegressor(n_estimators = 100, random_state = 42)
rf.fit(train['Distancia_Total'].values.reshape(-1,1), train['Diferencia'])

RandomForestRegressor(bootstrap=True, ccp_alpha=0.0, criterion='mse',
                      max_depth=None, max_features='auto', max_leaf_nodes=None,
                      max_samples=None, min_impurity_decrease=0.0,
                      min_impurity_split=None, min_samples_leaf=1,
                      min_samples_split=2, min_weight_fraction_leaf=0.0,
                      n_estimators=100, n_jobs=None, oob_score=False,
                      random_state=42, verbose=0, warm_start=False)

Una vez entrenado el modelo, se prepara el conjunto de test para medir resultados.

In [None]:
train=[] #liberamos memoria
test=pd.read_csv(path_test, delimiter = ',')

In [None]:
test['Distancia_Total'] = test['DistanciaInicio2'] - test['DistanciaInicio1'] #columna utilizada para predecir

#### Se realiza la predicción y se obtiene el error MAE global

In [None]:
predictions = rf.predict(test['Distancia_Total'].values.reshape(-1,1))

In [None]:
errors = abs(predictions - test['Diferencia'])

In [None]:
print('Mean Absolute Error:', round(np.mean(errors), 2), 'segundos')

Mean Absolute Error: 199.38 segundos


Alrededor de 3 minutos de error!

In [None]:
test = [] #se libera memoria

#### Validación

In [None]:
val=pd.read_csv(path_val, delimiter = ',') #se carga conjunto de validación

In [None]:
val['Distancia_Total'] = val['DistanciaInicio2'] - val['DistanciaInicio1'] #columna utilizada para predecir

In [None]:
def eval_range(model, dataset, top=60, bottom=0):
    """función que retorna error de la predicción por rango de tiempo"""  
    condition1 = dataset["Diferencia"] >= bottom
    condition2 = dataset["Diferencia"] < top
    total_cond = np.logical_and(condition1, condition2)
    filtered = dataset[total_cond]
    if filtered.shape[0] > 0:
        y_val = filtered["Diferencia"]
        X_val = filtered['Distancia_Total'].values.reshape(-1,1)
        y_pred = model.predict(X_val)
        rms = mean_squared_error(y_val, y_pred, squared=True)
        mae = mean_absolute_error(y_val, y_pred)
        r2 = r2_score(y_val, y_pred)
        return rms, mae, r2
    else:
        return None

In [None]:
rms, mae, r2 = eval_range(rf, val[['Distancia_Total', 'Diferencia']], top=1e20, bottom=0)
print("Errores globales")
print("\tRMS: \t{}".format(rms))
print("\tMAE: \t{}".format(mae))
print("\tR2: \t{}\n".format(r2))


ranges = [[0, 5*60], [5*60, 10*60], [10*60, 20*60], [20*60, 40*60], [40*60, 60*60]]
for bottom, top in ranges:
    mae= eval_range(rf, val[['Distancia_Total', 'Diferencia']], top=top, bottom=bottom)
    print("Errores para el rango {}min a {}min".format(bottom//60, top//60))
    print("\tRMS: \t{}".format(rms))
    print("\tMAE: \t{}".format(mae))
    print("\tR2: \t{}\n".format(r2))