In [None]:
import numpy as np
from math import sqrt
from pprint import pprint
from sklearn import datasets
from sklearn.dummy import DummyRegressor
from sklearn.model_selection import cross_validate
from sklearn.model_selection import KFold
from sklearn.metrics import make_scorer
from sklearn.metrics import mean_squared_error
from sklearn.model_selection import train_test_split

In [None]:
# Carga de datos.
datos = datasets.load_boston()
X = datos.data
y = datos.target
# pprint(datos)
# print(np.shape(datos.data))

In [None]:
# Partición EXTERNA. Test: hold-out split 80-20%.
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
print('Train dimensions: ', np.shape(X_train))
print('Test dimensions:  ', np.shape(X_test))

In [None]:
# Algoritmo de aprendizaje.
reg = DummyRegressor()

In [None]:
# Métricas de evaluación.
metricas = {
  'MAE': 'neg_mean_absolute_error',
  'RMSE': make_scorer(
          lambda y, y_pred:
            sqrt(mean_squared_error(y, y_pred)),
            greater_is_better=False),
  'MAPE': make_scorer(
          lambda y, y_pred:
            np.mean(np.abs((y - y_pred) / y)) * 100,
            greater_is_better=False)}

In [None]:
# Validación y evaluación del modelo.
# en "cv = KFold(n_splits=5)" se hace un cross-validation INTERNO!! 
evaluacion = cross_validate(reg, X_train, y_train, cv = KFold(n_splits=5), scoring = metricas)

In [None]:
# Presentación de los resultados de la evaluación.
pprint(evaluacion)

In [None]:
# Veamos como disminuye el error durante el cross-validation interno si utilizamos un algoritmo más complejo
# El objetivo es utilizar cross-validation INTERNO para optimizar los hiperpárametros (C, por ejemplo)
from sklearn.svm import SVR
svr = SVR(C=100)
results = cross_validate(svr, X_train, y_train, cv=KFold(n_splits=5), scoring=metricas)
pprint(results)

In [None]:
# Una vez hemos optimizado los hiperparámetros en el conjunto de validación, entrenamos un nuevo modelo que contenga
# todos los datos de entrenamiento (es decir, train + validation) para evaluar el test
from sklearn.metrics import mean_absolute_error
svr = SVR(C=100) # Definimos el modelo con los hiperparámetros optimizados
svr = svr.fit(X_train, y_train) # Entrenamos el modelo

# Extraemos las predicciones del test
y_pred = svr.predict(X_test)
# Observamos el error cometido (En este caso utilizando solo la métrica MAE)
print('Error MAE en test: ', mean_absolute_error(y_pred, y_test))

In [None]:
# También podemos ver cuánto difieren los valores predichos de los reales (observamos únicamente los 10 primeros valores)
print('Predicciones:   ', np.round(y_pred[:10], 1))
print('Valores reales: ', y_test[:10])