# En este notebook vamos a aplicar algunas herrammientas aprendidas para hacer regresión. Para ello, usaremos la dataset boston, que se encuentra entre los datasets incluidos en scikit

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import sklearn

In [None]:
from sklearn.datasets import load_boston
boston = load_boston()

In [None]:
print(boston.keys())

In [None]:
print(boston.data.shape)

In [None]:
print(boston.feature_names)

In [None]:
print(boston.DESCR)

In [None]:
bos = pd.DataFrame(boston.data)
print(bos.head())

In [None]:
bos.columns = boston.feature_names
print(bos.head())

In [None]:
print(boston.target.shape)

In [None]:
#añadimos el target
bos['PRICE'] = boston.target
print(bos.head())

In [None]:
print(bos.describe())

In [None]:
X = bos.drop('PRICE', axis = 1)
Y = bos['PRICE']

In [None]:
#Veamos el ajuste más sencillo 
from sklearn.linear_model import LinearRegression

#Definimos el objeto del clasificador
lm = LinearRegression()
# Hacemos fit
lm.fit(X, Y)
# Hacemos predict
Y_pred = lm.predict(X)

In [None]:
plt.scatter(Y, Y_pred, s=5)
plt.xlabel("Precio reales: $Y_i$")
plt.ylabel("Precios predichos: $\hat{Y}_i$")
plt.title("Precios reales vs Precios predichos: $Y_i$ vs $\hat{Y}_i$")
pass

#### Y cómo miramos la performance del algoritmo? Usando cualquier de las métricas presentadas en la teoría y que se puede encontrar en el módul `metrics` de scikit

In [None]:
evs = sklearn.metrics.explained_variance_score(Y, Y_pred)
mae = sklearn.metrics.mean_absolute_error(Y, Y_pred)
mse = sklearn.metrics.mean_squared_error(Y, Y_pred)
mne=  sklearn.metrics.median_absolute_error(Y, Y_pred)
r2= sklearn.metrics.r2_score(Y, Y_pred)

print("la varianza explicada es igual a= " , evs)
print("El error absoluto medio es igual a = " , mae)
print("El error cuadrado medio es igual a = " , mse)
print("El error absoluto mediano es igual a = ", mne)
print("el r2 es igual a = " , r2)

#### Y como cambiaría esto si usamos otros algoritmos, por ejemplo, los introducidos en la teoría?

In [None]:
from sklearn.linear_model import LinearRegression, Lasso, Ridge, ElasticNet

In [None]:
# Definimos los objetos 
clf_1 = LinearRegression()
clf_2 = Lasso()
clf_3 = Ridge()
clf_4 = ElasticNet()

In [None]:
list_clfs = [clf_1,clf_2,clf_3,clf_4]
clas_names = ['Linear Regression', 'Lasso', 'Ridge','ElasticNet']

In [None]:
fig, axs = plt.subplots(ncols=2, nrows=2, sharey=True, sharex=True)
axs=axs.flatten()
for idx,clf in enumerate(list_clfs):
    ax=axs[idx]
    # Hacemos fit
    clf.fit(X, Y)
    # Hacemos predict
    Y_pred = clf.predict(X)
    
    axs[idx].scatter(Y, Y_pred, s=5)
    axs[idx].plot([Y.min(), Y.max()], [Y.min(), Y.max()], 'k--', lw=4)
    axs[idx].set_xlabel('')
    axs[idx].set_ylabel('')
    axs[idx].set_title(clas_names[idx])
plt.show()

In [None]:
for idx,clf in enumerate(list_clfs):
    # Hacemos fit
    clf.fit(X, Y)
    # Hacemos predict
    Y_pred = clf.predict(X)
    
    evs = sklearn.metrics.explained_variance_score(Y, Y_pred)
    mae = sklearn.metrics.mean_absolute_error(Y, Y_pred)
    mse = sklearn.metrics.mean_squared_error(Y, Y_pred)
    mne=  sklearn.metrics.median_absolute_error(Y, Y_pred)
    r2= sklearn.metrics.r2_score(Y, Y_pred)
    
    print(" las metricas para el modelo ", clas_names[idx], " son ")
    print("evs = " , np.round(evs, 3), " mae= ", np.round(mae,3), " mse= ",np.round(mse,3),\
          " mne = ", np.round(mne,3), " r2 = ", np.round(r2, 3))
    print(" ")
    