## Régularisation

Les méthodes de régularisations consistent à ajouter de l'information au problème afin par exemple d'orienter l'apprentissage du modèle.

Par exemple la régularisation L1 ou L2 consiste à changer la formule de la fonction de coût pour inciter l'entraînement à trouver des paramètre theta davantage proche de 0.

L'objet de ce notebook est d'étudier un peu l'impact de la régularisation L1 et L2 sur les paramètre du modèle

Charger le dataset houses.csv avec pandas

In [None]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
import numpy as np
from sklearn.metrics import mean_squared_error

In [None]:
df = pd.read_csv("houses.csv")

Faire un train test split du dataset histoire de garder cette bonne habitude

In [None]:
df1 = pd.get_dummies(df['orientation'], prefix='orientation')
df = df.join(df1)


In [None]:
x=df[['size','nb_rooms','garden','orientation_Est','orientation_Nord','orientation_Ouest','orientation_Sud']]
y=df['price']
x_train,x_test, y_train , y_test = train_test_split(x,y,test_size=0.33, random_state=42 )

Faire un modèle qui prédit le prix de la maison en fonction des autres caractéristiques.

Faites les éventuels traitement de donnée nécessaire.

In [None]:
model = LinearRegression().fit(x_train, y_train)

Depuis le module sklearn.linear_model instancier une régression linéaire et entraîner le modèle sur les données.

In [None]:
model = LinearRegression()

model.fit(x_train, y_train)

Afficher les paramètres du modèle (ainsi que le biais) et calculer la norme du vecteur des paramètres

In [None]:
model.intercept_, model.coef_

np.linalg.norm(model.coef_)

Créer un nouveau model RidgeRegression depuis le module linear_model


Choisir alpha = 0.3 à la création du modèle (consulter la documentation)

In [None]:
from sklearn.linear_model import Ridge
ridge = Ridge(alpha=0.3)


Entraîner le modèle à nouveau  avec alpha = 0.6 et afficher à nouveau les valeurs des paramètres et la norme. Comment cela a-t-il évoluer ?

In [None]:
ridge2 = Ridge(alpha=0.6)

Afficher la MSE sur le train et le test du modèle originel et du model régularisé

Faites une boucle for qui va entraînér une dizaine de modèle différents avec alpha valant successivement les valeurs suivantes :

[2, 1, 0.5, 0.2, 0.1, 0.05, 0.02, 0.01, 0.005, 0]


Vous afficherez sur un graphique l'évolution de la norme des paramètres en fonction de alpha

In [None]:
def sqrt_mse(model, x, y):
    y_pred = model.predict(x)
    mse = mean_squared_error(y_pred, y)
    return np.sqrt(mse)

sqrt_mse(model, x_train, y_train)

L = [2, 1, 0.5, 0.2, 0.1, 0.05, 0.02, 0.01, 0.005, 0]

for i in L:
    model_i = Ridge(alpha = i)


Afficher également la mse de train et la mse de test en fonction de alpha

In [None]:
# Calculer et afficher la MSE sur le train et le test pour chaque alpha
train_mses = []
test_mses = []
norm_params = []

for alpha in alphas:
    ridge_model = Ridge(alpha=alpha)
    ridge_model.fit(x_train, y_train)
    train_mse = mean_squared_error(ridge_model.predict(x_train), y_train)
    test_mse = mean_squared_error(ridge_model.predict(x_test), y_test)
    train_mses.append(train_mse)
    test_mses.append(test_mse)
    norm_params.append(np.linalg.norm(ridge_model.coef_))
    print(f"Alpha: {alpha}, Train MSE: {train_mse}, Test MSE: {test_mse}")

Pouvez-vous expliquer l'évolution de la MSE quand on fait varier alpha ?

L'évolution de la MSE en fonction de alpha dépend d'un compromis entre la réduction de la variance et l'augmentation du biais. Un alpha plus élevé réduit la variance mais peut augmenter le biais, tandis qu'un alpha plus faible réduit le biais mais peut augmenter la variance. Le choix optimal d'alpha dépendra du problème spécifique et de la quantité de données disponibles.

Coder une fonction l2_mse(X, theta, y, lambda) qui retourne la MSE régularisée selon L2



Calculer la loss theta = [0.5, 0.5, 0.5] et [0.4, 0.4, 0.4 ]

## Régularisation l1


On va maintenant étudier la régularisation L1

La régularisation L1 ne vas pas utiliser la norme L2 mais la norme L1 du vecteurs des paramètres.

On va voir quelle peut avoir un effet plus drastique.


Avant de reprendre l'étude précédente faire en sorte de créer une nouvelle colonne size_2 qui est size * (1.5 + np.random.randn)


L'idée est d'avoir des colonne corélée et voir l'impact de la régularisation l1




Reprendre l'étude faite sur la régularisation l2 et entraîner plusieurs régularisation L1 avec la même variation pour alpha.

Mais cette fois ci vous utiliserez https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.html

<a style='text-decoration:none;line-height:16px;display:flex;color:#5B5B62;padding:10px;justify-content:end;' href='https://deepnote.com?utm_source=created-in-deepnote-cell&projectId=5911237d-bf07-4252-964e-d1881f596410' target="_blank">
 </img>
Created in <span style='font-weight:600;margin-left:4px;'>Deepnote</span></a>