# Régression linéaire pénalisée

Dans ce notebook, vous découvrirez comment utiliser la régression linéaire pénalisée Lasso (L1), Ridge (L2) et Elasticnet (L1 + L2).

Ces pénalités intégrées à la fonction de coût vous aideront à former des modèles moins complexes afin d'éviter le sur-apprentissage.


# Importation des packages

In [None]:
# Importation of the data for our regression example
from sklearn.datasets import fetch_california_housing

# Importation of the function to standardize the data
from sklearn.preprocessing import StandardScaler

# Importation of the train_test_split function which split randomly our data
# into a train and test set
from sklearn.model_selection import train_test_split

# Importation of the linear regression algorithm
from sklearn.linear_model import LinearRegression
from sklearn.linear_model import Lasso
from sklearn.linear_model import Ridge
from sklearn.linear_model import ElasticNet

# Importation of the performance metrics
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score

# Importation of the maplotlib package to create graphics
import matplotlib.pyplot as plt

# Importation of numpy to use of vectors, matrices, tensors.
import numpy as np

# Importation des données

In [None]:
# Data frame for ou regression example
boston = fetch_california_housing()
X_reg = boston.data[:, ]
y_reg = boston.target

Utilisez la fonction Sklearn *train_test_split* pour diviser votre ensemble de données en deux ensembles aléatoires.

Utilisez un random_state de 123 et utilisez 10% de votre jeu de données pour l'ensemble de test.

N'hésitez pas à utiliser le [doc](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html).


In [None]:
# Use the function train_test_split to create your train and test set
X_train_reg, X_test_reg, y_train_reg, y_test_reg = None

# Etape 1 : Standardisation des données

Pour l'utilisation d'un modèle linéaire, il est indispensable de passer par une étape de normalisation des données.

Cette étape permet de rendre le modèle interprétable mais aussi de faciliter la convergence du modèle.

N'hésitez pas à utiliser le [doc](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.StandardScaler.html).


In [None]:
# Initialize the StandardScaler function
scaler = None

# Fit the StandardScaler on the trainig set
None

# Standardization of the training set
X_train_reg_norm = None

# Standardization of the validation set
X_test_reg_norm = None

In [None]:
print('Mean of the training set : '+str(X_train_reg_norm.mean(axis=0)))
print('Standard deviation of the training set : '+str(X_train_reg_norm.std(axis=0)))

print('Mean of the testing set : '+str(X_test_reg_norm.mean(axis=0)))
print('Standard deviation of the testing set : '+str(X_test_reg_norm.std(axis=0)))

Réponse attendue :

Mean of the training set : [-6.47223423e-17  1.68363492e-17  5.99764438e-16 -9.00378673e-17
 -5.52281054e-15 -4.49359719e-15 -7.98628563e-16 -9.09650865e-16
 -1.07362227e-17  3.31846882e-17  1.65064543e-14  1.13037022e-14
  1.83174599e-15]


Standard deviation of the training set : [1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1.]


Mean of the testing set : [ 0.06747655  0.05717168 -0.14001179  0.41277236 -0.12235192  0.2219691
  0.05579181 -0.00310857 -0.03264025 -0.06104133 -0.06444473 -0.1090823
 -0.25945322]


Standard deviation of the testing set : [1.10921879 1.02009199 0.89698995 1.53927663 0.79001036 1.06378901
 0.93794752 0.87199757 1.00028353 0.98200915 1.08832968 1.10249559
 0.90211127]

# Etape 2 : Initialisation du modèle

Dans le cas de la régression, il n'y a pas de choix d'hyperparamètre.

Il suffit donc d'initialiser la fonction.

N'hésitez pas à utiliser le [doc](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html).

In [None]:
reg = None

Dans le cas de la régression lasso, vous devez choisir une valeur pour alpha.

Alpha contrôlera la régularisation du modèle.

$ J(w) =  \frac{1}{2m}[\sum^m_{i=1}(\hat{y}^{(i)}-y^{(i)})^2+\alpha\sum^n_{j=1}|w_j|$

Pour cet exemple, initialisez la régression avec un alpha de 0,2 et un état aléatoire de 123.

N'hésitez pas à utiliser le [doc](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.Lasso.html#sklearn.linear_model.Lasso).


In [None]:
lasso = None

Dans le cas de la régression ridge, vous devez choisir une valeur pour alpha.

Alpha contrôlera la régularisation du modèle.

$ J(w) =  \frac{1}{2m}[\sum^m_{i=1}(\hat{y}^{(i)}-y^{(i)})^2+\alpha\sum^n_{j=1}w_j^2$

Pour cet exemple, initialisez la régression avec un alpha de 0,1 et un état aléatoire de 123.

N'hésitez pas à utiliser le [doc](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.Ridge.html#sklearn.linear_model.Ridge).


In [None]:
ridge = None

Dans le cas de la régression par elasticnet, vous devez choisir une valeur pour alpha et ratio.

Alpha contrôlera la régularisation du modèle.

ratio est le paramètre de mélange entre lasso (ratio=0) et ridge (ratio=1).


$ J(w) =  \frac{1}{2m}[\sum^m_{i=1}(\hat{y}^{(i)}-y^{(i)})^2+\alpha[\frac{1-ratio}{2}\sum^n_{j=1}w_j^2 + ratio\sum^n_{j=1}|w_j|]]$

Pour cet exemple, initialisez la régression avec un alpha de 0,15, un ratio l1 de 0,5 et un état aléatoire de 123.

N'hésitez pas à utiliser le [doc](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.ElasticNet.html#sklearn.linear_model.ElasticNet).


In [None]:
elasticnet = None

# Etape 3 : Entraînement du modèle

Vous devez former les quatre modèles.

In [None]:
# Classic linear regression
None

In [None]:
# Lasso regression
None

In [None]:
# Ridge regression
None

In [None]:
# ElasticNet regression
None

# Etape 4 : Validation des modèles

Votre modèle est maintenant entraîné, utilisez-le pour prédire le prix de l'appartement pour votre ensemble d'entraînement et de test pour les quatre modèles.

In [None]:
# Classic linear regression
x_train_reg_prediction = None

x_test_reg_prediction = None

In [None]:
# Lasso regression
x_train_lasso_prediction = None

x_test_lasso_prediction = None

In [None]:
# Ridge regression
x_train_ridge_prediction = None

x_test_ridge_prediction = None

In [None]:
# ElasticNet regression
x_train_elasticnet_prediction = None

x_test_elasticnet_prediction = None

Calculer le MAE pour chaque modèle

In [None]:
# Classic linear regression
mae_train_reg = None

mae_test_reg = None

print('MAE for the training set : '+str(mae_train_reg))

print('MAE for the testing set : '+str(mae_test_reg))

In [None]:
# Lasso regression
mae_train_lasso = None

mae_test_lasso = None

print('MAE for the training set : '+str(mae_train_lasso))

print('MAE for the testing set : '+str(mae_test_lasso))

In [None]:
# Ridge regression
mae_train_ridge = None

mae_test_ridge = None

print('MAE for the training set : '+str(mae_train_ridge))

print('MAE for the testing set : '+str(mae_test_ridge))

In [None]:
# ElasticNet regression
mae_train_elasticnet = None

mae_test_elasticnet = None

print('MAE for the training set : '+str(mae_train_elasticnet))

print('MAE for the testing set : '+str(mae_test_elasticnet))

# Etape 5 : Impact du terme de régularisation sur le coefficient

Impact du terme de régularisation pour la régression Lasso.


In [None]:
for alpha_values in [0.1, 0.2, 0.5, 1, 10] :
  # model initialization
  lasso = None
  # model training
  None

  print('Alpha = '+str(alpha_values))
  print(lasso.coef_)

Impact du terme de régularisation pour la régression Ridge.

In [None]:
for alpha_values in [0.1, 1, 10, 10000000000] :
  # model initialization
  ridge = None
  # model training
  None
  print('Alpha = '+str(alpha_values))
  print(ridge.coef_)

Impact du terme de régularisation et du ratio l1 pour la régression elasticnet.


In [None]:
for alpha_values, ratio_values in zip([0.5, 0.5, 1, 10, 100, 100], [0, 1, 0.1, 0.5, 1, 0]) :

  # model initialization
  elasticnet = None
  # model training
  None
  print('Alpha = '+str(alpha_values))
  print('ratio_values = '+str(ratio_values))
  print(elasticnet.coef_)