# Méthode de Régularisation : Lasso / Ridge / ElasticNet


Dans le domaine des mathématiques et des statistiques, et plus particulièrement dans le domaine de l'apprentissage automatique, la régularisation fait référence à un processus consistant à **ajouter de l'information à un problème pour éviter le surapprentissage. Cette information prend généralement la forme d'une pénalité envers la complexité du modèle.** D'un point de vue bayésien, l'utilisation de la régularisation revient à imposer une distribution a priori sur les paramètres du modèle. 

## Consigne du jour


### Objectifs 
Comprendre ces trois approches en les appliquant sur un cas pratique : le pricing d'un appartement ! 

### Livrables
Vous avez 2 livrables à m'envoyer **pour le vendredi 19 juin 2019 23h59** : 
- Ce notebook complété avec les commentaires en conséquence (Sujet / Verbe / Complément)
- Un résumé de veille  sur les méthodes de régularisation Ridge, Lasso et ElasticNet. Les prises de notes ne sont pas valables. Vous pouvez vous inspirer de votre atelier Dataiku afin de créer un petit article synthétique. Je n'attends pas de code Python sur ce résumé.



# I. Preprocessing

**1. Importer vos librairies**

In [3]:
import numpy as np 
import pandas as pd 
from sklearn import preprocessing
from sklearn.model_selection import train_test_split
import matplotlib.pyplot as plt 
import seaborn as sns
sns.set(style="white") #white background style for seaborn plots
sns.set(style="whitegrid", color_codes=True)

ImportError: cannot import name '_mklinit' from partially initialized module 'numpy' (most likely due to a circular import) (C:\Users\pierremarie\Anaconda3\lib\site-packages\numpy\__init__.py)

**2. Importer les données boston depuis scikitlearn et afficher les dimensions.**

In [None]:
from sklearn.datasets import load_boston
boston_data = pd.DataFrame(load_boston().data,columns=load_boston().feature_names)
boston_data.head(10)

In [None]:
load_boston()

In [None]:
boston_data.shape

**3. Comment sont stockées vos donnnées?**

In [None]:
boston_data.info()

**4. Transformez vos variables explicatives en en dataframe et récupérer la target appelée `MEDV`. Vous trouverez ci-bas le détail des features.**

In [None]:
df=pd.DataFrame(load_boston().data,columns=load_boston().feature_names) 
X = boston_data

In [None]:
print(X)

In [None]:
print(Y)

##### data: contains the information for various houses
##### target: prices of the house
##### feature_names: names of the features
##### DESCR: describes the dataset

###### CRIM: Per capita crime rate by town
##### ZN: Proportion of residential land zoned for lots over 25,000 sq. ft
##### INDUS: Proportion of non-retail business acres per town
##### CHAS: Charles River dummy variable (= 1 if tract bounds river; 0 otherwise)  
##### NOX: Nitric oxide concentration (parts per 10 million)
##### RM: Average number of rooms per dwelling
##### AGE: Proportion of owner-occupied units built prior to 1940
##### DIS: Weighted distances to five Boston employment centers
##### RAD: Index of accessibility to radial highways 
##### TAX: Full-value property tax rate per $10,000$

##### PTRATIO: Pupil-teacher ratio by town
##### B: 1000(Bk — 0.63)², where Bk is the proportion of [people of African American descent] by town
##### LSTAT: Percentage of lower status of the population
##### MEDV: Median value of owner-occupied homes in $1000s

**5. Missing Values.**

In [None]:
boston_data.isnull().sum()

**6. Analyser la distibution de la target et analyser la corrélation des features.**

In [None]:
sns.distplot(boston_data['RM'], kde=False, rug=True)

In [None]:
fg, ax = plt.subplots(figsize=(10, 10))
plt.title('Correlation entre variables')
sns.heatmap(boston_data.corr(),linewidths=0.25,vmax=1.0, square=True, cmap="YlGnBu", linecolor='black', annot=True)

**7. Analyser les relations entre la target et les variables `LSTAT` et `RM`.**

In [None]:
df=pd.DataFrame(load_boston().data,columns=load_boston().feature_names) 
df['MEDV']=Y.values 
sns.jointplot(x='LSTAT',y=df['MEDV'],data = boston_data)

In [None]:
df=pd.DataFrame(load_boston().data,columns=load_boston().feature_names) 
df['MEDV']=Y.values 
sns.jointplot(x='RM',y=df['MEDV'],data = boston_data)

**8. Les variables catégorielles sont mal traitées. Corriger cela.**

In [None]:
boston_data.describe(include='all')

In [None]:
print(load_boston().DESCR)

In [None]:
ZN = pd. get_dummies(X.ZN)
ZN.columns = ['ZN{}'.format(j) for j in X.ZN.unique()]
CHAS = pd. get_dummies(X.CHAS)
CHAS.columns = ['CHAS{}'.format(j) for j in X.CHAS.unique()]
RAD = pd. get_dummies(X.RAD)
RAD.columns = ['RAD{}'.format(j) for j in X.RAD.unique()]
X = pd.concat([X,ZN,CHAS,RAD],1)
X.drop('ZN',1).drop('CHAS',1).drop('RAD',1)

In [None]:
X = pd.DataFrame(load_boston().data,columns=load_boston().feature_names)
X.CHAS = X.CHAS.astype('category')
RAD = pd.get_dummies(X.RAD)
RAD.columns = ['RAD_{}'.format(j) for j in X.RAD.unique()]
X = pd.concat([X,RAD],1)
del X['RAD']

In [None]:
boston_data.head(10)

**9. Train Test Split avec `random_state = 42`. Afficher les dimensions des objets obtenus.**

In [None]:
from sklearn.model_selection import train_test_split

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, Y, test_size=0.33, random_state=42)

In [None]:
print(X_train)
print(X_test)
print(y_train)
print(y_test)
print(X_train.shape)
print(X_test.shape)
print(y_train.shape)
print(y_test.shape)


# II. Régression linéaire

**1. A des fins de comparaions, modéliser un premier modèle de régression linéaire avec toutes les variables et évaluer les performances du modèle.**

In [None]:
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error

In [None]:

X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size = 0.2, random_state=5)
print(X_train.shape)

In [None]:
lmodellineaire = LinearRegression()
lmodellineaire.fit(X_train, Y_train)

In [None]:
# Evaluation du training set
from sklearn.metrics import r2_score
y_train_predict = lmodellineaire.predict(X_train)
rmse = (np.sqrt(mean_squared_error(Y_train, y_train_predict)))
r2_train = r2_score(Y_train, y_train_predict)
 
print('La performance du modèle sur la base dapprentissage')
print('--------------------------------------')
print('Lerreur quadratique moyenne est {}'.format(rmse))
print('le score R2 est {}'.format(r2))
print('\n')
rmse_train = format(rmse.round(2))
r2_train = format(r2_train.round(2))

# model evaluation for testing set
y_test_predict = lmodellineaire.predict(X_test)
rmse = (np.sqrt(mean_squared_error(Y_test, y_test_predict)))
r2_test = r2_score(Y_test, y_test_predict)
 
print('')
print('--------------------------------------')
print(' {}'.format(rmse))
print('le score R2 est {}'.format(r2))
rmse_test = format(rmse.round(2))
r2_test = format(r2_test.round(2))


# III. Régression Ridge

**1. Rappelez le principe de la méthode et la pénalisation Ridge.**

Ajouter une contrainte sur les coefficients lors de la modélisation pour maîtriser
l’amplitude de leurs valeurs (« pour éviter qu’elles partent dans tous les sens »)

**2. Quels sont les paramètres à faire varier?**

λ (λ ≥ 0) est un paramètre (coefficient
de pénalité) qui permet de contrôler
l’impact de la pénalité : à fixer

**3. Instancier un modèle `Ridge` en faisant varier le paramètre `alpha` avec une `GridSearchCV` (5k-fold) et lala liste ci dessous.**

In [None]:
from sklearn.linear_model import Ridge
from sklearn.linear_model import Lasso
from sklearn.linear_model import ElasticNet
from sklearn.model_selection import GridSearchCV 
alpha_ridge = [1e-15, 1e-10, 1e-8, 1e-6, 1e-4, 1e-3, 1e-2, 1e-1, 1, 5, 10, 20]

**4. Evaluer votre modèle. Afficher le meilleur paramètre et le meilleur score obtenu.**

https://scikit-learn.org/stable/modules/model_evaluation.html

In [None]:
alpha_ridge = [1e-15, 1e-10, 1e-8, 1e-6, 1e-4, 1e-3, 1e-2, 1e-1, 1, 5, 10, 20]
print(alpha_ridge)

In [None]:
ridge=Ridge()
paremeter={'alpha':alpha_ridge}
ridge_regression=GridSearchCV(ridge,parameters,cv=5)
ridge_regression=ridge_regression.fit(X_train, Y_train)
print(ridge_regression.best_params_)
print(ridge_regression.best_score_)

In [None]:
rmse = np.sqrt(mean_squared_error(y_test,pred))

# IV. Régression Lasso

**1. Rappelez le principe de la méthode et la pénalisation Lasso.**

**2. Quels sont les paramètres à faire varier?**

c'est le paremetre  alpha que l'on doit faire varier

**3. Instancier un modèle `Lasso` en faisant varier le paramètre `alpha` avec une `GridSearchCV` (5k-fold) et lala liste ci dessous.**

In [None]:

alpha_lasso = [1e-15, 1e-10, 1e-8, 1e-6, 1e-4, 1e-3, 1e-2, 1e-1, 1, 5, 10, 20]
#lasso=Lasso
paremeter={'alpha':alpha_lasso}
lasso_regression=GridSearchCV(ElasticNet(),parameters,cv=5)
lasso_regression=lasso_regression.fit(X_train, Y_train)
print(lasso_regression.best_params_)
print(lasso_regression.best_score_)
print(np.sqrt(mean_squared_error(y_train,pred_train_lasso)))
print(r2_score(y_train,pred_train_lasso))

In [None]:
lasso_regressions.core(X_test, y_test)

In [None]:
print(np.sqrt(mean_squared_error(y_train,pred_train_lasso)))
print(r2_score(y_train, pred_train_lasso))

In [None]:
pred_test_lasso= model_lasso.predict(X_test)
print(np.sqrt(mean_squared_error(y_test,pred_test_lasso))) 
print(r2_score(y_test, pred_test_lasso))

**4. Evaluer votre modèle en utilisant le paramètre `scoring` adéquat et afficher le meilleur paramètre et le meilleur score obtenu.**

https://scikit-learn.org/stable/modules/model_evaluation.html

# V. Elasticnet

**1. Rappelez le principe de la méthode et la pénalisation ElasticNet.**

**2. Quels sont les paramètres à faire varier?**

In [None]:
alpha 

**3. Instancier un modèle `ElasticNet` en faisant varier le paramètre `alpha` avec une `GridSearchCV` (5k-fold) et lala liste ci dessous.**

In [None]:
alpha_elasticnet= [1e-15, 1e-10, 1e-8, 1e-6, 1e-4, 1e-3, 1e-2, 1e-1, 1, 5, 10, 20]
paremeter={'alpha':alpha_elasticnet}
elasticnet_regression=GridSearchCV(ElasticNet(),parameters,cv=5)
elasticnet_regression=lasso_regression.fit(X_train, Y_train)
print(elasticnet_regression.best_params_)
print(elasticnet_regression.best_score_)

**4. Evaluer votre modèle en utilisant le paramètre `scoring` adéquat et afficher le meilleur paramètre et le meilleur score obtenu.**

https://scikit-learn.org/stable/modules/model_evaluation.html

In [None]:
print(elasticnet_regression.best_params_)
print(elasticnet_regression.best_score_)

# VI. Résultats.

**Regrouper vos résultats dans un dataframe et interpréter.**

https://scikit-learn.org/stable/modules/model_evaluation.html

In [None]:
df_models = {'Linear Regression' : ['None','None',rmse_train,r2_train,rmse_test,r2_test],
            'Ridge' : [ridge_regression.bestparams,ridge_regression.bestscore,rmse_ridge1,r2ridge1,rmse_ridge2,r2ridge2],
            'Lasso' : [lasso_regression.bestparams,lasso_regression.bestscore,rmse_lasso1,r2lasso1,rmse_lasso2,r2lasso2],
            'ElasticNet':[elasticnet_regression.bestparams,elasticnet_regression.bestscore,rmse_elnet1,r2elnet1,rmse_elnet2,r2elnet2]}
df_res=pd.DataFrame(df_models,index=['best_params','best_score','RMSE1','R2_1','RMSE2','R2_2'])
df_res

In [None]:
#pd.DataFrame(Res)