<div align="center">

# <span style="color:#ffc509;"> **Regresión Lasso L1** (Least Absolute Shrinkage and Selection Operator) </span>

</div>

_____

El algoritmo de regresión LASSO (Least Absolute Shrinkage and Selection Operator), también conocido como regresión L1, es una técnica de regresión lineal que realiza tanto la selección de características como la regularización para mejorar la precisión predictiva e interpretabilidad de un modelo estadístico.

### <span style="color:#ffc509"> **¿Qué es la regularización?** </span>

En el contexto del aprendizaje automático, la regularización es un conjunto de técnicas utilizadas para prevenir el sobreajuste (overfitting) en los modelos. El sobreajuste ocurre cuando un modelo aprende demasiado bien los datos de entrenamiento, incluyendo el ruido, y por lo tanto, tiene un mal desempeño con datos nuevos o no vistos. La regularización añade una "penalización" a la función de costo del modelo, lo que desalienta el aprendizaje de modelos demasiado complejos con coeficientes (pesos) muy grandes.

### <span style="color:#ffc509">  **¿Cómo funciona la regresión LASSO (L1)?** </span>

La regresión LASSO utiliza la **regularización L1**. Esto significa que añade a la función de costo una penalización proporcional a la **suma del valor absoluto** de las magnitudes de los coeficientes de las variables predictoras.

La función de costo que la regresión LASSO trata de minimizar es:

$$ J(\beta) = \text{Error} + \lambda \sum_{i=1}^{p} |\beta_i| $$

Donde:

* $J(\beta)$ es la función de costo.
* $\text{Error}$ es una medida del error entre los valores predichos y los valores reales (por ejemplo, la suma de los errores al cuadrado en la regresión lineal estándar).
* $\lambda$ (lambda) es el **parámetro de regularización** (un hiperparámetro que se ajusta). Controla la fuerza de la penalización. Cuanto mayor sea el valor de $\lambda$, mayor será la penalización.
* $\sum_{i=1}^{p} |\beta_i|$ es la **norma L1** de los coeficientes, que es la suma de los valores absolutos de todos los coeficientes ($\beta_i$).
* $p$ es el número de variables predictoras.

### <span style="color:#ffc509">  **La clave de la regresión LASSO: Selección de características** </span>

La principal característica distintiva de la regularización L1 (y por lo tanto de la regresión LASSO) es su capacidad para **forzar algunos de los coeficientes de las variables predictoras a ser exactamente cero**.

* Cuando $\lambda$ es suficientemente grande, la penalización L1 puede hacer que los coeficientes de las variables menos importantes se reduzcan a cero, eliminando efectivamente esas variables del modelo.
* Esto convierte a la regresión LASSO en un método útil para la **selección de características**, ya que identifica automáticamente las variables más relevantes para la predicción.
* El modelo resultante es más **parsimonioso** (tiene menos variables) y, por lo tanto, a menudo más fácil de interpretar.

### <span style="color:#ffc509">  **Diferencias Clave entre Regresión LASSO (L1) y Regresión Ridge (L2)** </span>

| Característica          | Regresión LASSO (L1)                                      | Regresión Ridge (L2)                                           |
|-------------------------|-----------------------------------------------------------|----------------------------------------------------------------|
| **Tipo de Regularización** | Norma L1: Suma del valor absoluto de los coeficientes ($|\beta_i|$) | Norma L2: Suma del cuadrado de los coeficientes ($\beta_i^2$) |
| **Efecto en Coeficientes** | Puede reducir algunos coeficientes a **exactamente cero**.  | Reduce la magnitud de los coeficientes, pero **raramente a cero**. |
| **Selección de Características** | **Realiza selección de características** al eliminar variables. | **No realiza una selección de características explícita**.      |
| **Parsimonia del Modelo** | Tiende a generar modelos **más parsimoniosos** (menos variables). | Tiende a mantener todas las variables en el modelo (aunque con pesos pequeños). |
| **Interpretabilidad** | Puede mejorar la **interpretabilidad** al simplificar el modelo. | La interpretabilidad puede ser menor debido a la presencia de todas las variables. |
| **Manejo de Multicolinealidad** | Tiende a seleccionar una variable de un grupo correlacionado. | Distribuye el peso entre las variables correlacionadas.          |

### <span style="color:#ffc509">  **Ventajas de la regresión LASSO:** </span>

* Selección de características automática: Identifica y elimina variables irrelevantes, simplificando el modelo.
* Ayuda a prevenir el sobreajuste: Reduce la complejidad del modelo al penalizar los coeficientes grandes.
* Útil en conjuntos de datos de alta dimensión: Funciona bien cuando hay muchas variables predictoras, algunas de las cuales pueden ser irrelevantes.
* Mejora la interpretabilidad del modelo: Al tener menos variables, el modelo es más fácil de entender.
* Puede manejar cierta multicolinealidad: Tiende a seleccionar una variable de un grupo de variables altamente correlacionadas y a establecer los coeficientes de las otras en cero.

### <span style="color:#ffc509">  **Desventajas de la regresión LASSO:** </span>

* Puede descartar variables relevantes: Si $\lambda$ es demasiado grande, podría eliminar variables que realmente tienen un impacto en la predicción.
* Selección arbitraria en alta multicolinealidad: Si hay grupos de variables muy correlacionadas, LASSO puede seleccionar una de ellas arbitrariamente, lo que puede ser inestable.
* Puede no funcionar tan bien como Ridge si todas las variables son relevantes: Si la mayoría de las variables tienen algún impacto en la predicción, la regresión Ridge podría dar mejores resultados en términos de precisión predictiva.
* La elección del parámetro $\lambda$ es crucial: Un valor incorrecto de $\lambda$ puede llevar a un modelo subajustado (si $\lambda$ es demasiado grande) o sobreajustado (si $\lambda$ es demasiado pequeño). La selección óptima de $\lambda$ a menudo se realiza mediante técnicas de validación cruzada.

En resumen, el algoritmo de regresión LASSO (L1) es una poderosa herramienta para construir modelos lineales más robustos e interpretables, especialmente en situaciones con muchas variables predictoras donde se sospecha que algunas de ellas son irrelevantes. Su capacidad para realizar la selección de características de forma inherente lo convierte en una técnica valiosa en el campo del aprendizaje automático y la estadística.

___
## <span style="color:#ffc509">  **Links útiles** </span>

https://www.ibm.com/es-es/think/topics/lasso-regression