# Régression linéaire pénalisée

Dans ce notebook, vous découvrirez comment utiliser la régression linéaire pénalisée Lasso (L1), Ridge (L2) et Elasticnet (L1 + L2).

Ces pénalités intégrées à la fonction de coût vous aideront à former des modèles moins complexes afin d'éviter le sur-apprentissage.


# Importation des packages

In [1]:
# Importation of the data for our regression example
from sklearn.datasets import fetch_california_housing

# Importation of the function to standardize the data
from sklearn.preprocessing import StandardScaler

# Importation of the train_test_split function which split randomly our data
# into a train and test set
from sklearn.model_selection import train_test_split

# Importation of the linear regression algorithm
from sklearn.linear_model import LinearRegression
from sklearn.linear_model import Lasso
from sklearn.linear_model import Ridge
from sklearn.linear_model import ElasticNet

# Importation of the performance metrics
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score

# Importation of the maplotlib package to create graphics
import matplotlib.pyplot as plt

# Importation of numpy to use of vectors, matrices, tensors.
import numpy as np

# Importation des données

In [2]:
# Data frame for ou regression example
boston = fetch_california_housing()
X_reg = boston.data[:, ]
y_reg = boston.target

Utilisez la fonction Sklearn *train_test_split* pour diviser votre ensemble de données en deux ensembles aléatoires.

Utilisez un random_state de 123 et utilisez 10% de votre jeu de données pour l'ensemble de test.

N'hésitez pas à utiliser le [doc](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html).


In [3]:
# Use the function train_test_split to create your train and test set
X_train_reg, X_test_reg, y_train_reg, y_test_reg = train_test_split(X_reg, y_reg,
                                                                    test_size=0.10,
                                                                    random_state=123)

# Etape 1 : Standardisation des données

Pour l'utilisation d'un modèle linéaire, il est indispensable de passer par une étape de normalisation des données.

Cette étape permet de rendre le modèle interprétable mais aussi de faciliter la convergence du modèle.

N'hésitez pas à utiliser le [doc](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.StandardScaler.html).


In [4]:
# Initialize the StandardScaler function
scaler = StandardScaler()

# Fit the StandardScaler on the trainig set
scaler.fit(X_train_reg)

# Standardization of the training set
X_train_reg_norm = scaler.transform(X_train_reg)

# Standardization of the validation set
X_test_reg_norm = scaler.transform(X_test_reg)

In [5]:
print('Mean of the training set : '+str(X_train_reg_norm.mean(axis=0)))
print('Standard deviation of the training set : '+str(X_train_reg_norm.std(axis=0)))

print('Mean of the testing set : '+str(X_test_reg_norm.mean(axis=0)))
print('Standard deviation of the testing set : '+str(X_test_reg_norm.std(axis=0)))

Mean of the training set : [-6.16351285e-15 -1.31516245e-16  1.74250564e-15  1.44054512e-14
  3.88034183e-17 -4.48410703e-16 -1.63466965e-13 -5.75888569e-14]
Standard deviation of the training set : [1. 1. 1. 1. 1. 1. 1. 1.]
Mean of the testing set : [ 0.04290292  0.01368919  0.01167416 -0.00874779 -0.02716651  0.01826815
  0.01825062 -0.01908789]
Standard deviation of the testing set : [1.03731529 0.99775588 0.83580315 0.76633485 0.91587305 1.31979865
 1.00592461 1.01925165]


Réponse attendue :

Mean of the training set : [-6.47223423e-17  1.68363492e-17  5.99764438e-16 -9.00378673e-17
 -5.52281054e-15 -4.49359719e-15 -7.98628563e-16 -9.09650865e-16
 -1.07362227e-17  3.31846882e-17  1.65064543e-14  1.13037022e-14
  1.83174599e-15]


Standard deviation of the training set : [1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1.]


Mean of the testing set : [ 0.06747655  0.05717168 -0.14001179  0.41277236 -0.12235192  0.2219691
  0.05579181 -0.00310857 -0.03264025 -0.06104133 -0.06444473 -0.1090823
 -0.25945322]


Standard deviation of the testing set : [1.10921879 1.02009199 0.89698995 1.53927663 0.79001036 1.06378901
 0.93794752 0.87199757 1.00028353 0.98200915 1.08832968 1.10249559
 0.90211127]

# Etape 2 : Initialisation du modèle

Dans le cas de la régression, il n'y a pas de choix d'hyperparamètre.

Il suffit donc d'initialiser la fonction.

N'hésitez pas à utiliser le [doc](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html).

In [6]:
reg = LinearRegression()

Dans le cas de la régression lasso, vous devez choisir une valeur pour alpha.

Alpha contrôlera la régularisation du modèle.

$ J(w) =  \frac{1}{2m}[\sum^m_{i=1}(\hat{y}^{(i)}-y^{(i)})^2+\alpha\sum^n_{j=1}|w_j|$

Pour cet exemple, initialisez la régression avec un alpha de 0,2 et un état aléatoire de 123.

N'hésitez pas à utiliser le [doc](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.Lasso.html#sklearn.linear_model.Lasso).


In [7]:
lasso = Lasso(alpha=0.2, random_state=123)

Dans le cas de la régression ridge, vous devez choisir une valeur pour alpha.

Alpha contrôlera la régularisation du modèle.

$ J(w) =  \frac{1}{2m}[\sum^m_{i=1}(\hat{y}^{(i)}-y^{(i)})^2+\alpha\sum^n_{j=1}w_j^2$

Pour cet exemple, initialisez la régression avec un alpha de 0,1 et un état aléatoire de 123.

N'hésitez pas à utiliser le [doc](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.Ridge.html#sklearn.linear_model.Ridge).


In [8]:
ridge = Ridge(alpha=0.5, random_state=123)

Dans le cas de la régression par elasticnet, vous devez choisir une valeur pour alpha et ratio.

Alpha contrôlera la régularisation du modèle.

ratio est le paramètre de mélange entre lasso (ratio=0) et ridge (ratio=1).


$ J(w) =  \frac{1}{2m}[\sum^m_{i=1}(\hat{y}^{(i)}-y^{(i)})^2+\alpha[\frac{1-ratio}{2}\sum^n_{j=1}w_j^2 + ratio\sum^n_{j=1}|w_j|]]$

Pour cet exemple, initialisez la régression avec un alpha de 0,15, un ratio l1 de 0,5 et un état aléatoire de 123.

N'hésitez pas à utiliser le [doc](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.ElasticNet.html#sklearn.linear_model.ElasticNet).


In [9]:
elasticnet = ElasticNet(alpha=0.15, l1_ratio=0.5, random_state=123)

# Etape 3 : Entraînement du modèle

Vous devez former les quatre modèles.

In [10]:
# Classic linear regression
reg.fit(X_train_reg_norm, y_train_reg)

In [11]:
# Lasso regression
lasso.fit(X_train_reg_norm, y_train_reg)

In [12]:
# Ridge regression
ridge.fit(X_train_reg_norm, y_train_reg)

In [13]:
# ElasticNet regression
elasticnet.fit(X_train_reg_norm, y_train_reg)

# Etape 4 : Validation des modèles

Votre modèle est maintenant entraîné, utilisez-le pour prédire le prix de l'appartement pour votre ensemble d'entraînement et de test pour les quatre modèles.

In [14]:
# Classic linear regression
y_train_reg_prediction = reg.predict(X_train_reg_norm)

y_test_reg_prediction = reg.predict(X_test_reg_norm)

In [15]:
# Lasso regression
y_train_lasso_prediction = lasso.predict(X_train_reg_norm)

y_test_lasso_prediction = lasso.predict(X_test_reg_norm)

In [16]:
# Ridge regression
y_train_ridge_prediction = ridge.predict(X_train_reg_norm)

y_test_ridge_prediction = ridge.predict(X_test_reg_norm)

In [17]:
# ElasticNet regression
y_train_elasticnet_prediction = elasticnet.predict(X_train_reg_norm)

y_test_elasticnet_prediction = elasticnet.predict(X_test_reg_norm)

Calculer le MAE pour chaque modèle

In [18]:
# Classic linear regression
mae_train_reg = mean_absolute_error(y_train_reg_prediction, y_train_reg)

mae_test_reg = mean_absolute_error(y_test_reg_prediction, y_test_reg)

print('MAE for the training set : '+str(mae_train_reg))

print('MAE for the testing set : '+str(mae_test_reg))

MAE for the training set : 0.5309276110967656
MAE for the testing set : 0.5286516568124461


In [19]:
# Lasso regression
mae_train_lasso = mean_absolute_error(y_train_lasso_prediction, y_train_reg)

mae_test_lasso = mean_absolute_error(y_test_lasso_prediction, y_test_reg)

print('MAE for the training set : '+str(mae_train_lasso))

print('MAE for the testing set : '+str(mae_test_lasso))

MAE for the training set : 0.6558731207034398
MAE for the testing set : 0.6696359148649897


In [20]:
# Ridge regression
mae_train_ridge = mean_absolute_error(y_train_ridge_prediction, y_train_reg)

mae_test_ridge = mean_absolute_error(y_test_ridge_prediction, y_test_reg)

print('MAE for the training set : '+str(mae_train_ridge))

print('MAE for the testing set : '+str(mae_test_ridge))

MAE for the training set : 0.5309258736996794
MAE for the testing set : 0.528653428072666


In [21]:
# ElasticNet regression
mae_train_elasticnet = mean_absolute_error(y_train_elasticnet_prediction, y_train_reg)

mae_test_elasticnet = mean_absolute_error(y_test_elasticnet_prediction, y_test_reg)

print('MAE for the training set : '+str(mae_train_elasticnet))

print('MAE for the testing set : '+str(mae_test_elasticnet))

MAE for the training set : 0.6202555977769126
MAE for the testing set : 0.633415781772718


# Etape 5 : Impact du terme de régularisation sur le coefficient

Impact du terme de régularisation pour la régression Lasso.


In [22]:
for alpha_values in [0.1, 0.2, 0.5, 1, 10] :
  lasso = Lasso(alpha=alpha_values, random_state=123)
  lasso.fit(X_train_reg_norm, y_train_reg)
  print('Alpha = '+str(alpha_values))
  print(lasso.coef_)

Alpha = 0.1
[ 0.70310117  0.10254183 -0.          0.         -0.         -0.
 -0.01451181 -0.        ]
Alpha = 0.2
[ 0.59188614  0.         -0.         -0.         -0.         -0.
 -0.         -0.        ]
Alpha = 0.5
[ 0.29188614  0.          0.         -0.         -0.         -0.
 -0.         -0.        ]
Alpha = 1
[ 0.  0.  0. -0. -0. -0. -0. -0.]
Alpha = 10
[ 0.  0.  0. -0. -0. -0. -0. -0.]


Impact du terme de régularisation pour la régression Ridge.

In [23]:
for alpha_values in [0.1, 1, 10, 10000000000] :
  ridge = Ridge(alpha=alpha_values, random_state=123)
  ridge.fit(X_train_reg_norm, y_train_reg)
  print('Alpha = '+str(alpha_values))
  print(ridge.coef_)

Alpha = 0.1
[ 0.8266784   0.11754318 -0.26618123  0.3075377  -0.00611289 -0.0414756
 -0.89549562 -0.86129663]
Alpha = 1
[ 0.82664915  0.11760699 -0.26604355  0.3073595  -0.00609033 -0.04147583
 -0.89488242 -0.86067774]
Alpha = 10
[ 0.82635     0.11823867 -0.2646638   0.30557942 -0.00586687 -0.0414777
 -0.88880494 -0.854543  ]
Alpha = 10000000000
[ 1.47100476e-06  2.18280894e-07  3.23196856e-07 -9.59750057e-08
 -5.28791958e-08 -4.49879203e-08 -3.16114571e-07 -8.74148695e-08]


Impact du terme de régularisation et du ratio l1 pour la régression elasticnet.


In [24]:
for alpha_values, ratio_values in zip([0.5, 0.5, 1, 10, 100, 100], [0, 1, 0.1, 0.5, 1, 0]) :
  elasticnet = ElasticNet(alpha=alpha_values, l1_ratio=ratio_values, random_state=123)
  elasticnet.fit(X_train_reg_norm, y_train_reg)
  print('Alpha = '+str(alpha_values))
  print('ratio_values = '+str(ratio_values))
  print(elasticnet.coef_)

  model = cd_fast.enet_coordinate_descent(


Alpha = 0.5
ratio_values = 0
[ 5.19269683e-01  1.15855063e-01  3.65213050e-02 -1.98382184e-02
 -6.90128661e-05 -2.41555352e-02 -1.59167520e-01 -1.15510098e-01]
Alpha = 0.5
ratio_values = 1
[ 0.29188614  0.          0.         -0.         -0.         -0.
 -0.         -0.        ]
Alpha = 1
ratio_values = 0.1
[ 0.36530283  0.0325332   0.         -0.         -0.         -0.
 -0.02161542 -0.        ]
Alpha = 10
ratio_values = 0.5
[ 0.  0.  0. -0. -0. -0. -0. -0.]
Alpha = 100
ratio_values = 1
[ 0.  0.  0. -0. -0. -0. -0. -0.]
Alpha = 100
ratio_values = 0
[ 0.00783477  0.0011738   0.00170523 -0.00051929 -0.00027919 -0.00024128
 -0.00168483 -0.00047822]


  model = cd_fast.enet_coordinate_descent(
