In [None]:
! mkdir -p datasets
%cd datasets
! wget -nc https://raw.githubusercontent.com/pablonoya/zigzag-ml/master/datasets/housing.csv
%cd ..

# Overfitting y Underfitting
Son dos problemas que pueden ocurrir luego de haber entrenado al modelo.  
El *overfitting*, o **sobreajuste**, ocurre cuando el modelo se ajusta demasiado a los datos de entrenamiento, como una curva que intenta cruzar por la mayor cantidad de puntos posible. Se lo conoce tambi√©n como *high variance* o **varianza alta** .  
En cambio el *underfitting*, o ajuste d√©bil, sucede cuando el modelo no se ajusta bien a los datos, como una recta que no puede alcanzar gran parte de los datos. Se lo conoce tambi√©n como *high bias* o **sesgo elevado**.  

![Ajuste debil, ideal y sobreajuste](img/5.0.1_Overfitting_right_underfitting.png)

¬øRecuerdas que una recta no bastaba? un polinomio de grado 3 fue mejor, y un polinomio de alto grado se ajusta demasiado a los datos, por el hecho de tener m√°s curvas.

**Incluir m√°s _features_ aumenta la complejidad** del modelo, m√°s par√°metros para entrenar dejan **mayor libertad** de valores para aprender, y si esta es alta podemos llegar al **sobreajuste**. Por el contrario, **reducir las features** causa que el modelo tenga **menos libertad** y aprenda de poca informaci√≥n, lo que deriva en **ajuste debil**.  

Debido a esto es **importante mezclar los datos y tener la mayor variedad posible** en nuestros conjuntos de entrenamiento y prueba üòâ.

# Bias-variance trade-off
Esta situaci√≥n que depende de las *features* nos indica que hay una **compensaci√≥n** entre **varianza** y **_bias_**, incrementar la varianza disminuye el sesgo y viceversa üîÅ.  
Un modelo con **alto bias** es m√°s simple y realizar√° predicciones simples, como la **primera** gr√°fica.
Uno complejo tendr√° **alta varianza** realizando predicciones m√°s complejas que pueden ser muy variadas, como la **tercera** gr√°fica.

Por lo que debemos encontrar un **balance** entre ambos, el modelo no debe ser demasiado simple ni demasiado complejo, como en la **segunda** gr√°fica. Esto asegura que no perdamos el panorama general üòÉ.

# ¬øQu√© est√° mal en mi modelo?
Para saber a qu√© problema nos enfrentamos es necesario hacer pruebas con ambos conjuntos, tendremos **_overfitting_** cuando el **error en uno de los conjuntos sea mucho menor**, con frecuencia es el de entrenamiento üò®.  
Y **_underfitting_** cuando el **error de ambos conjuntos sea elevado** üò∞.

## Solucionando el underfitting
La recomendaci√≥n general es **incrementar la complejidad del modelo**, esto se logra a√±adiendo m√°s features, o subiendo el grado polin√≥mico al que elevemos algunas.  
Es importante tomar en cuenta que **las features que a√±adamos deben estar siempre disponibles**, caso contrario, no podremos utilizar el modelo en la vida real ‚òπ. 

## Solucionando el overfit
Lo contrario ser√≠a **disminuir la complejidad**, pero aqu√≠ tenemos m√°s opciones, como **entrenar utilizando mayor cantidad de datos** lo cual ayuda a no perder el objetivo general, o usar **regularizaci√≥n**, el nombre se debe a que regularemos la libertad de los coeficientes para que **no sean tan altos**, reduciendo la varianza.

![regularizaci√≥n](img/5.3.2_Regularization.png)

Existen ~~dos~~ tres tipos de regularizaci√≥n: $L_2$ o Ridge, $L_1$ o Lasso, y Elastic net, la combinaci√≥n de ambas. Todas se aplican sobre la regresi√≥n lineal üòâ.

## Ridge Regularization
Esta regularizaci√≥n minimiza los coeficientes acerc√°ndolos a cero, pero nunca llegan a cero.
Tenemos esta regularizaci√≥n en el objeto `Ridge`, es parecido a `LinearRegression` pero recibe el par√°metro `alpha` que va de 0 a 1, mientras m√°s alto sea, mayor ser√° la restricci√≥n sobre el modelo.

Seguiremos el mismo procedimiento que antes: cargar los datos, seleccionar features, dividir en train y test para finalmente entrenar dos modelos y comparar sus coeficientes, pero esta vez entrenaremos sobre una peque√±a muestra de 20 datos, porque utilizar m√°s soluciona el overfitting üòÑ.

In [None]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split

np.random.seed(42)
data_housing = pd.read_csv('./datasets/housing.csv')
data_housing.dropna(inplace=True)

X = data_housing['median_income']
y = data_housing['median_house_value']

# podemos tomar un n√∫mero espec√≠fico si pasamos un entero
X_train, _, y_train, _ = train_test_split(X.values.reshape(-1, 1), y, train_size=20)

In [None]:
# importamos tambi√©n Ridge
from sklearn.linear_model import LinearRegression, Ridge
from sklearn.preprocessing import PolynomialFeatures

# exageremos el grado para incrementar complejidad
poly = PolynomialFeatures(degree=4, include_bias=False)
X_train_poly = poly.fit_transform(X_train)

# tendremos 2 modelos para comparar
model = LinearRegression()
model_l2 = Ridge(alpha=1)

model.fit(X_train_poly, y_train)
model_l2.fit(X_train_poly, y_train)

print(f"Coeficientes Linear {model.coef_}")
print(f"Coeficientes Ridge  {model_l2.coef_}")

Como ves, los coeficientes han sido reducidos, pero ninguno ha desaparecido.
Esto modifica al modelo de la siguiente manera:

In [None]:
import matplotlib.pyplot as plt

xpoints = np.linspace(min(X_train[:, 0]), max(X_train[:, 0]), 30)
xpoints_poly = poly.transform(xpoints.reshape(-1, 1))
ypoints = model.predict(xpoints_poly)

plt.figure(figsize=(8,5))
plt.scatter(X_train[:, 0], y_train, color="grey")

# el par√°rmetro color define el color de la linea
plt.plot(xpoints, ypoints, color="red", label="Linear")
plt.plot(xpoints, model_l2.predict(xpoints_poly), color="blue", linewidth="2", label="Ridge")

plt.legend(loc="best")

La regularizaci√≥n ha restringido la curva, ya no se ajusta demasiado a los datos.
El par√°metro `linewitdh` cambia el grosor, y `label` pone etiquetas a las gr√°ficas, pero para mostrarlas debemos llamar a `plt.legend` el par√°metro `loc` con el valor "best" tratar√° de determinar la mejor ubicaci√≥n para las etiquetas.

## Lasso Regularization
El objeto `Lasso` es id√©ntico a `Ridge` con la diferencia de que **s√≠ puede** reducir los coeficientes menos importantes a cero. Esto nos puede ayudar a decidir qu√© features son menos importantes

In [None]:
from sklearn.linear_model import Lasso

model_l1 = Lasso(alpha=1)
model_l1.fit(X_train_poly, y_train)

print(f"Coeficientes Linear {model.coef_}")
print(f"Coeficientes Lasso  {model_l1.coef_}")

plt.scatter(X_train[:, 0], y_train, color="grey")

# tambien puedes usar la letra inicial de ciertos colores
plt.plot(xpoints, ypoints, color="r", label="Linear")
plt.plot(xpoints, model_l1.predict(xpoints_poly), color="b", linewidth="2", label="Lasso")

plt.legend(loc="best")

La curva se ha aplanado m√°s, y en este caso una curva es de hecho m√°s adecuada que una recta, pero quiz√° bastar√≠a una de grado 3.

## Elastic Net
Pretende equilibrar a Lasso combin√°ndolo con Ridge, e incluye el par√°metro `l1_ratio` que determina cu√°nta importancia, entre 0 y 1, se le dar√° a Lasso. Por tanto Ridge tendr√° el **complemento** de ese par√°metro, si `l1_ratio` es 0.3 entonces L2 tendr√° 0.7

In [None]:
from sklearn.linear_model import ElasticNet

model_elastic_net = ElasticNet(alpha=0.5, l1_ratio=0.4)
model_elastic_net.fit(X_train_poly, y_train)

print(f"Coeficientes Ridge (L2)   {model_l2.coef_}")
print(f"Coeficientes Lasso (L1)   {model_l1.coef_}")
print(f"Coeficientes Elastic net  {model_elastic_net.coef_}")

Elastic Net s√≥lo ha reducido un coeficiente a cero, de esta manera controlamos que no se eliminen varias features, por esto puede ser preferible usarla en lugar de Lasso, pero tenemos otro par√°metro que determinar.

# Ejercicios
Grafica la curva de Elastic Net, luego var√≠a el valor alfa de todos los modelos, ¬øQu√© ocurre con valores bajos?

In [None]:
# misma gr√°fica, diferente modelo


Provoca deliberadamente (como en este cap√≠tulo) *overfitting* o *underfitting* con varias features, luego aplica las correcciones necesarias y eval√∫a el resultado con m√©tricas. 

In [None]:
# revisa los dos cap√≠tulos anteriores


# Par√°metros e Hiperpar√°metros
Hasta ahora he llamado "par√°metro" a dos t√©rminos que son muy parecidos: los **coeficientes del modelo** y los **argumentos** de las funciones y objetos que usamos. Pero tienen una diferencia fundamental:

La lista de coeficientes es **determinada por el modelo**, esto en *machine learning* se sigue conociendo como **par√°metro** üòÑ.  

Aquello que **no determina el modelo** es un **hiperpar√°metro**, como las features elegidas, el porcentaje de divisi√≥n entre train y test, el grado de las features polinomiales, el coeficiente de regularizaci√≥n o el ratio entre $L_1$ y $L_2$ para Elastic Net.

Aprenderemos m√°s hiperpar√°metros seg√∫n aprendamos m√°s conceptos, y uno de los **hiper**par√°metros m√°s importantes es el *learning rate* o **ratio de aprendizaje**, este controla qu√© tanto se ajusta un modelo por cada iteraci√≥n del algoritmo que permite a un modelo aprender üß†.

Para la regresi√≥n lineal, el algoritmo es *Gradient Descent* o [Descenso del gradiente](6_Descenso_del_gradiente.ipynb).