In [None]:
%matplotlib notebook

# Regularización
## Regresión Lineal, Ridge, Lasso y ElasticNet

En esta práctica aplicaremos los principios de regularización al set de datos escazu40, empleando para ello distintas extensiones de la regresión lineal (OLS).

In [None]:
import numpy as np
import matplotlib.pyplot as plt

from sklearn.linear_model import LinearRegression, Ridge, Lasso, ElasticNet
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import mean_squared_error


In [None]:
## Cargue el archivo CSV
data = np.genfromtxt("escazu40.csv", delimiter=';')

## Extraiga lo interesante
areas = np.array(data[:,0])
Y = np.array(data[:,3])[:,None]

### ¡Nunca olvidar la normalización!

In [None]:
normalizer = StandardScaler()
nareas = normalizer.fit_transform(areas[:,None])

## Genere la matriz de diseño vector de diseño
N=9  ## Orden de polinomios a usar
## Aproveche el 'broadcasting' para elevar al rango de potencias
X = nareas**np.arange(N+1)[:,None].T


## Prepare algunas cosas para los plot
minArea = np.min(areas)
maxArea = np.max(areas)

minPrecio = 0
maxPrecio = np.max(Y)

xplot = np.linspace(minArea,maxArea,200)[:,None]
nxplot = normalizer.transform(xplot)
Xplot = nxplot**np.arange(N+1)[:,None].T

## Regresión lineal

In [None]:
lr = LinearRegression()

# Entrene
lr.fit(X,Y)

# Prediga el mismo set para ver el error
yp = lr.predict(X)

# Muestre los coeficientes y el error
print('Coeficientes: ',lr.coef_)
print('Train MSE: %.2f' % mean_squared_error(Y,yp))

plt.figure()
y_lr=lr.predict(Xplot)
plt.plot(xplot,y_lr,label='LinReg')
plt.scatter(areas,Y,color='black',label='Training data')
plt.legend(loc="upper left")
plt.ylim([minPrecio,maxPrecio])


## Ridge

Revisar la documentación en

https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.Ridge.html

- ¿Qué tipo de regularización se usa aquí?
- ¿Con qué parámetro se ajusta el término de regularización?

In [None]:
plt.figure()

plt.scatter(areas,Y,color='black',label='Training data')
plt.plot(xplot,y_lr,label='LinReg')

for alpha in [0.1,1,10,100,1000,10000]:
    rdg = Ridge(alpha=alpha)

    # Entrene
    rdg.fit(X,Y)

    # Prediga el mismo set para ver el error
    yrp = rdg.predict(X)

    # Muestre los coeficientes y el error
    print('Coeficientes: ',rdg.coef_)
    print('Train MSE: %.2f' % mean_squared_error(Y,yrp))

    y_rdg=rdg.predict(Xplot)
    plt.plot(xplot,y_rdg,label="Ridge a={0}".format(alpha))
    
plt.legend(loc="upper left")
plt.ylim([minPrecio,maxPrecio])

Repita lo anterior con Lasso y ElasticNet

# Lasso

Revisar la documentación en

https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.Lasso.html

¿Qué tipo de regularización se usa aquí?
¿Con qué parámetro se ajusta el término de regularización?

In [None]:
# Do it yourself!

# ElasticNet

Revisar la documentación en

https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.ElasticNet.html

¿Qué tipo de regularización se usa aquí?
¿Con qué parámetros se ajustan los términos de regularización?

In [None]:
# Do it yourself!