In [None]:
import numpy as np
from math import sqrt
from sklearn import datasets, linear_model
import sklearn.metrics as metrics
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_predict, cross_val_score, train_test_split
from sklearn import preprocessing
from sklearn.neighbors import KNeighborsRegressor
from evaluacion_funciones import * # pip install graphviz
from sklearn.preprocessing import StandardScaler
from sklearn.feature_selection import SelectPercentile, f_regression
from pprint import pprint

In [None]:
# Carga de datos.
dataset = datasets.load_boston()
X = dataset.data
y = dataset.target
print(np.shape(X))

In [None]:
# Métricas de evaluación.
metricas = {
  'MAE': metrics.mean_absolute_error,
  'RMSE': lambda y, y_pred:
          sqrt(metrics.mean_squared_error(y, y_pred)),
  'MAPE': lambda y, y_pred:
          np.mean(np.abs((y - y_pred) / y)) * 100,
  'R2': metrics.r2_score}

In [None]:
# 1) Partición de datos externa
X_training, X_testing, y_training, y_testing = train_test_split(X, y, test_size=0.2, random_state=42)
print(np.shape(X_training))

In [None]:
# 2) Extracción de características (no es necesario en este caso)

In [None]:
# 3) Estandarización de los datos de entrenamiento
standardizer = preprocessing.StandardScaler()
X_training = standardizer.fit_transform(X_training)

In [None]:
# # 4) Selección de atributos
sel = SelectPercentile(score_func=f_regression, percentile=90)
X_training = sel.fit_transform(X_training, y_training)
print(np.shape(X_training))

In [None]:
# 5) Construcción del algoritmo de aprendizaje.
k = 10
reg = KNeighborsRegressor(n_neighbors = k, weights='uniform', metric='euclidean')

In [None]:
# 5.1) Validación cruzada interna
# Extracción de predicciones con cross_val_predict
y_pred = cross_val_predict(reg, X_training, y_training, cv = KFold(n_splits=10, shuffle=True, random_state=42))

# Extraer directamente resultados del error para cada bolsa, en lugar de las predicciones
cross_val_results = cross_val_score(reg, X_training, y_training, 
                                    cv = KFold(n_splits=10, shuffle=True, random_state=42), scoring='neg_mean_absolute_error')
print("cross_val_MAE:   %0.4f +/- %0.4f" % (-cross_val_results.mean(), cross_val_results.std()))

# Visualización de resultados
results = evaluacion(y_training, y_pred, metricas)
grafica_real_vs_pred(y_training, y_pred, results, "KNN"+str(k))

In [None]:
# 5.2) Entrenamiento del modelo definitivo
model = reg.fit(X_training, y_training)

In [None]:
# ---- PREDICCIÓN ---- #

In [None]:
# 6) Extracción de las características de test

In [None]:
# 7) Estandarización de las característiacs de test
X_test = standardizer.transform(X_testing)

In [None]:
# 8) Selección de las características de test
X_test = sel.transform(X_test)

In [None]:
# 9) Predicción del conjunto de test
y_pred_test = model.predict(X_test)

In [None]:
# 10) Evaluación del modelo sobre el conjunto de test
results = evaluacion(y_testing, y_pred_test, metricas)
pprint(results)

In [None]:
# Comparación con el algoritmo de regresión lineal en test
reg_OLS = linear_model.LinearRegression() # definición
model_OLS = reg_OLS.fit(X_training,y_training) # entrenamiento completo
y_pred_OLS = model_OLS.predict(X_test) # Predicción
results = evaluacion(y_testing, y_pred_OLS, metricas) # Evaluación de resultados
pprint(results)