# Otro tipo de regresiones

Existen otros dos tipos de regresiones en scikit-learn: Lasso y Ridge. Estas se caracterizan por poner restricciones a la magnitud de los coeficientes de la regresión.

## Ridge

La primera de las que les quiero hablar es conocida como Ridge.

Esta regresión, a diferencia de la regresión lineal tradicional, se penaliza el la magnitud de los coeficientes aprendidos. Esto a su vez reduce la varianza de los coeficientes estimados y mejora la estabilidad del modelo cuando existe co-linealidad, es decir, la correlación entre nuestras variables predictoras.

La penalización que utiliza Ridge es conocida como L2, te dejo más detalles sobre esta penalización en los recursos de la sesión para que conozcas más.

Antes de comenzar, vamos a generar algunos datos:

In [None]:
from sklearn.datasets import make_regression
from sklearn.model_selection import train_test_split

X, y = make_regression(n_samples=100, n_features=10, bias=2.0, noise=5.0, random_state=42)
X_train, X_test, y_train, y_test = train_test_split(X, y)

Para usar ridge, hay que importarla de <code>linear_model</code>, y llamar al constructor:

In [None]:
from sklearn.linear_model import Ridge

ridge = Ridge()

Y como todo otro estimador en scikit-learn, tiene los métodos <code>fit</code> y <code>predict</code> para interactuar con ella:

In [None]:
ridge.fit(X_train, y_train)
y_pred = ridge.predict(X_test)

### Argumentos

La clase comparte un par de argumentos con <code>LinearRegression</code>, estos son <code>fit_intercept</code> y <code>normalize</code>. Pero además incluye algunos específicos:

 - <code>alpha</code>: Es un parámetro de tipo flotante que especifica el nivel de regularización en el modelo. Un valor más alto de alpha da como resultado coeficientes más pequeños y, por lo tanto, un modelo más simplificado. El valor predeterminado es 1.0 – este es un hiperparámetro que es recomendable tunear.

 - <code>solver</code>: Es una cadena que indica el solucionador utilizado en el problema de optimización subyacente. Los valores posibles son "auto", "svd", "cholesky", "lsqr" y "sparse_cg". El valor predeterminado es "auto", y en general funciona bien.

 - <code>max_iter</code>: Es un entero que especifica el número máximo de iteraciones permitidas en el solucionador – algunos solucionadores funcionan de manera iterativa. El valor predeterminado es None, lo que significa que se utiliza un valor razonable en función del tamaño del conjunto de datos.

## Lasso

Esta regresión, a diferencia de la regresión lineal tradicional, se penaliza el la magnitud de los coeficientes aprendidos – parecido a la regresión Ridge.

La penalización que utiliza Lasso es conocida como L1, te dejo más detalles sobre esta penalización en los recursos de la sesión para que conozcas más. Pero algo a notar es que Lasso puede forzar a que algunos coeficientes se vuelvan cero, excluyendo así algunas de las variables de entrada de los cálculos del modelo, reduciendo así la complejidad de este.

Las variables "castigadas" son aquellas que el modelo considere irrelevantes o con alta colinearidad.

El algoritmo de Lasso funciona de forma iterativa por definición, esa es otra diferencia con la regresión lineal tradicional que tiene una solución analítica cerrada.

Ridge también está disponible en el módulo <code>linear_model</code> de <code>sklearn</code>:

In [None]:
from sklearn.linear_model import Lasso

lasso = Lasso()

Y desde luego, comparte la interfaz de otros estimadores en scikit-learn:

In [None]:
ridge.fit(X_train, y_train)
y_pred = ridge.predict(X_test)

### Argumentos

Al igual que la regresión Ridge, también tiene los argumentos <code>alpha</code> para controlar la fuerza con la que aplica la penalización, así como el parámetro <code>max_iter</code> que tiene mayor importancia aquí porque este sí es un algoritmo completamente iterativo.

Además tiene los siguientes argumentos que te pueden ayudar en el entrenamiento:

 - <code>tol</code>: Es la tolerancia para la convergencia del algoritmo de optimización. Si la diferencia entre dos iteraciones consecutivas es menor que <code>tol</code>, se considera que el algoritmo ha convergido. El valor predeterminado es 1e-4.

 - <code>warm_start</code>: Este parámetro es booleano y especifica si se deben utilizar los coeficientes de la regresión anterior como punto de partida para la regresión actual. Si es <code>True</code>, se utiliza la solución anterior como punto de partida para la optimización, lo que puede acelerar el proceso de ajuste. El valor predeterminado es <code>False</code>.

## Atributos

Ambas clases ofrecen los atributos de la regresión lineal que nos ayudan a entender un poco más sobre nuestros valores de entrada. Si recuerdas, en la sesión anterior sobre regresión lineal vimos cómo es que los atributos <code>coef_</code> e <code>intercept_</code> pueden ser usados para interpretar los resultados. Lasso y Ridge cuentan con ellos también. 

### Comparison

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.datasets import  make_regression
from sklearn.linear_model import LinearRegression, Lasso, Ridge

# Generate a random regression dataset
X, y = make_regression(n_samples=1000, n_features=10, n_informative=5, noise=10, random_state=42)

# Fit Linear Regression
lr = LinearRegression()
ridge = Ridge()
lasso = Lasso()

# Fit regressions
lr.fit(X, y)
ridge.fit(X, y)
lasso.fit(X, y)

# Plot the coefficients
fig, ax = plt.subplots(figsize=(10, 6))
models = ['Linear Regression', 'Ridge Regression', 'Lasso Regression']
coefficients = [lr.coef_, ridge.coef_, lasso.coef_]
colors = ['blue', 'green', 'red']

for i, (model, coef) in enumerate(zip(models, coefficients)):
    ax.bar(np.arange(len(coef)) + i*0.25, coef, color=colors[i], width=0.25, label=model)

ax.set_xticks(np.arange(len(coef)))
ax.set_xticklabels(['Feature '+str(i) for i in range(len(coef))])
ax.set_ylabel("Coeficiente")
ax.legend()

## ¿Cuando usar cada una?

 - La regresión lineal es una buena opción cuando la relación entre las variables independientes y la variable dependiente es aproximadamente lineal, siempre es un buen método a considerar, aunque sea para establecer un baseline.

 - La regresión de ridge es una buena opción cuando hay muchas características y se espera que algunas de ellas tengan efectos pequeños o moderados en la variable dependiente. Ridge ayuda en la regularización al encoger los coeficientes de algunas características hacia cero, pero no a cero como Lasso.

 - La regresión de lasso es una buena opción cuando hay muchas características y se espera que algunas de ellas sean irrelevantes o redundantes. Lasso ayuda en la selección de características y la regularización al convertir algunos coeficientes de características en cero, efectivamente desapareciéndolas del modelo.

Y pues ahí lo tienes, otros dos tipos de regresión muy parecidos a la regresión lineal pero que incluyen un nivel de penalización para los coeficientes que nos ayuda a reducir overfitting y la complejidad general del modelo.
