On va implémenter des modèles de régression régularisée (ridge, LASSO et ElasticNet) sur le jeu de données "California Housing".

In [None]:
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd

On commence par charger les données comme précédemment :

In [None]:
import tarfile
import urllib.request
import os

url = "http://www.dcc.fc.up.pt/~ltorgo/Regression/cal_housing.tgz"
filename = "cal_housing.tgz"
urllib.request.urlretrieve(url, filename)

with tarfile.open(filename) as tar:
    tar.extractall()

csv_path = "CaliforniaHousing/cal_housing.data"
column_names = [
    "longitude", "latitude", "housing_median_age", "total_rooms",
    "total_bedrooms", "population", "households", "median_income", "median_house_value"
]
data = pd.read_csv(csv_path, header=None, names=column_names)

La régularisation est particulièrement pertinente lorsque les variables explicatives sont corrélées.

1. Afficher la matrice de corrélation des variables explicatives en utilisant la méthode `.corr()` des dataframes pandas. Quels couples de variables sont particulièrement corrélés entre eux ?

In [None]:
# cor = ...

Le package `seaborn` permet de visualiser cette matrice de corrélation.

In [None]:
import seaborn as sns

plt.figure(figsize=(16,8))
sns.heatmap(cor, cmap="rainbow", annot=True)
plt.show()

On commence par la régression ridge.

2. Commencer par importer les fonctions nécessaires, définir la matrice de design et séparer les données entre entraînement et test.

3. Normaliser les variables explicatives.

4. Implémenter une validation croisée pour optimiser $\lambda$ dans une régression ridge.

5. Quelle est la valeur du $\lambda$ optimal ? Tombe-t-elle bien au sein de l'intervalle de la grille des $\lambda$ considérés ?

6. Ajuster une régression ridge avec le $\lambda$ optimal et comparer le $r^2$ et la RMSE avec ceux d'un modèle multilinéaire simple.

Passons à présent à la régression LASSO.

7. Importer les fonctions nécessaires.

8. Appliquer la méthode `LassoCV` pour implémenter une régression LASSO avec validation croisée sur les données. Stocker le résultat dans la variable `lasso`. Attention, contrairement à ridge, il n'y a pas besoin de spéficier le vecteur des $\lambda$ à tester -- il est calculé automatiquement par la méthode et est disponible dans `lasso.alphas_`.

9. Afficher la valeur des coefficients de régression en fonction de $\lambda$. Indice : calculer les coefficients en bouclant sur les valeurs dans `lasso.alphas_`.

10. Lorsque la pénalité est très forte ($\lambda$ très grand), il ne reste plus qu'un seul coefficient non-nul qui correspond à la variable explicative la plus pertinente pour le modèle. Quelle est-elle ?

11. La valeur optimale de $\lambda$ est stockée dans `lasso.alpha_`. Ajuster une régression LASSO pour cette valeur de $\lambda$ et prédire les valeurs sur les données de test.

Tentons à présent sur un autre jeu de données. On cherche à prédire le prix d'une voiture (`price`) en fonction de diverses caractéristiques.

In [None]:
df = pd.read_csv('https://github.com/mahatosourav91/Linear-Regression/raw/master/CarPrice_Assignment.csv')
df.head()

Il y a beaucoup de variables dans ce jeu de données. Sélectionnons celles qui sont numériques (`int` ou `float`)

12. Afficher les corrélations entre variables. Quelle différence à première vue avec le jeu de données précédent ?

13. Implémenter une régression LASSO avec validation croisée sur ce jeu de données. Comparer avec le modèle multilinéaire sans régularisation.

14. Les performances des deux modèles semblent très proches. Combien de variables explicatives le modèle LASSO utilise-t-il ? Et le modèle sans régularisation ?

15. Pour ceux qui ont le temps : implémenter une régression ElasticNet sur les données, en utilisant `GridSearchCV` pour trouver une combinaison optimale des paramètres `alpha` ($\lambda$ dans les slides) et `l1_ratio` ($\alpha$ dans les slides).