# Régularisations L1 (Lasso) et  L2 (Ridge)

Les régularisations Lasso et Ridge sont utilisées afin de réduire l'overfitting dans un problème de régression.

### Rappel : Overfitting

On parle d'Overfitting ou sur-apprentissage quand un modèle prédictif s'adapte trop bien aux données de Train.

![image.png](attachment:image.png)

En bleu, on voit le modèle de prédiction passer par toutes les données de Train (en vert), mais faire de grosses erreurs sur les données de Test (en rouge).

Ce modèle est de la forme :   $\hat{y} = w_0 + w_1x_1 + w_2x_2 + \dots + w_nx_n$  
  
Où:  
$\hat{y}$ est la prédiction  
$n$ est le nombre de features  
$x_n$ est le $n$-ième feature  
$w_n$ est le poids associé à ce feature (peut prendre une valeur de $-\infty$ à $+\infty$)

Dans ce cas, un modèle de régression linéaire (droite verte), de la forme $\hat{y} = w_0 + w_1x_1$ semble meilleur car bien qu'il ne colle pas exactement aux données de Train, il prédit des valeur plus proche de la réalité pour de nouvelles valeurs.

On se rend donc compte que plus de complexité peut entraîner de l'overfitting.

## Comment y remédier?

Une solution à ce problème d'overfitting est la régularisation.

Pour s'entraîner, le modèle cherche à minimiser la **fonction de loss**. Dans le cas d'une régression, on peut utiliser la MSE (Mean square error). Moins il a de degrés de liberté, plus il lui est difficile de surajuster les données.

### $MSE = \frac{1}{N}\sum_{i=1}^{N} (y_i - \hat{y_i})^2$  
où $N$ est le nombre de prédictions

ou plus explicitement:

### $MSE = \frac{1}{N}\sum_{i=1}^{N} (y_i - (w_0 + w_1x_1 + w_2x_2 + \dots + w_nx_n)_i)^2$ 

Comme il n'y aucune contrainte sur les poids que peut déterminer le modèle, il est plus libre de choisir des poids collant parfaitement aux données de train.

En pratique, deux types de régularisations sont utilisées pour limiter cette liberté: **Lasso** (ou L1) et **Ridge** (ou L2)

## Lasso

La régularisation Lasso s'assure que seuls les paramètres utiles auront un poids différent de zéro.  
Pour l'appliquer, on ajoute à la fonction de loss $\lambda\sum_{i=1}^{n} |w_i|$  
où $\lambda$ est un hyperparamètre compris entre $0$ et $+\infty$ à déterminer.

La fonction de loss à minimiser devient alors:

### $MSE + \lambda\sum_{i=1}^{n} |w_i|$

En mettant à $0$ les poids des features les moins utiles du modèle, la régularisation Lasso produit un modèle "simplifié", avec moins de features, et donc réduit les risques d'overfitting

![image.png](attachment:image.png)

En augmentant $\lambda$, on voit que l'influence des features baisse jusqu'à atteindre $0$

## Ridge

La régularisation Ridge fait en sorte que les paramètres les plus utiles auront un poids plus élevé, mais contrairement à Lasso, elle ne mets pas à $0$ les poids des paramètres moins utiles.  
Pour l'appliquer, on ajoute à la fonction de loss $\lambda\sum_{i=1}^{n} w_i^2$  
où $\lambda$ est un hyperparamètre compris entre $0$ et $+\infty$ à déterminer.

La fonction de loss à minimiser devient alors:

### $MSE + \lambda\sum_{i=1}^{n} w_i^2$

![image.png](attachment:image.png)

En augmentant $\lambda$, on voit que l'influence des features baisse mais sans atteindre $0$.

Dans les deux cas, en pratique, la valeur optimale de $\lambda$ se détermine par cross-validation.

### Animation

[https://developers.google.com/machine-learning/crash-course/regularization-for-sparsity/l1-regularization?hl=fr](https://developers.google.com/machine-learning/crash-course/regularization-for-sparsity/l1-regularization?hl=fr)

### Sources

[https://codingstartups.com/practical-machine-learning-ridge-regression-vs-lasso/](https://codingstartups.com/practical-machine-learning-ridge-regression-vs-lasso/)

[https://developers.google.com/machine-learning/crash-course/regularization-for-sparsity/l1-regularization?hl=fr](https://developers.google.com/machine-learning/crash-course/regularization-for-sparsity/l1-regularization?hl=fr)

[https://developers.google.com/machine-learning/crash-course/regularization-for-simplicity/l2-regularization?hl=fr](https://developers.google.com/machine-learning/crash-course/regularization-for-simplicity/l2-regularization?hl=fr)

[https://medium.com/datadriveninvestor/l1-l2-regularization-7f1b4fe948f2](https://medium.com/datadriveninvestor/l1-l2-regularization-7f1b4fe948f2)

[https://towardsdatascience.com/intuitions-on-l1-and-l2-regularisation-235f2db4c261#f810](https://towardsdatascience.com/intuitions-on-l1-and-l2-regularisation-235f2db4c261#f810)

[https://mrmint.fr/overfitting-et-underfitting-quand-vos-algorithmes-de-machine-learning-derapent](https://mrmint.fr/overfitting-et-underfitting-quand-vos-algorithmes-de-machine-learning-derapent)