<h1>L1 (Lasso) und L2 (Ridge) Regulation von Modellen</h1>

L1 und L2 Regulierungen können Modellen helfen, die unter Overfitting leiden. 

Mit einer Regulierung kann der Score beim Testen und später beim Einsatz mit echten Daten verbessert werden.

<i>Abb1</i>: Überblick der drei verschiedenen Fittings. 

<img src="files_data/img/ml_fitting_1.PNG" width=700 hight=500>

Die Abbilding 1 zeigt links ein Model das unter Overfitting leidet, was zu einer hohen Varianz führt.

Die Varianz bezeichnet den deutlich sichtbaren Unterschied in dem Score, wenn aus demselben Dataset andere Datenpunkte für das Testen genommen werden.

Wenn wir ein Model haben, das unter Overfitting leidet, können durch den Einsatz von L2 die Werter der Koeffizienten des Models gesenkt/klein gehalten werden, was auch als Penalty bezeichnet wird. 

Lambda ist ein feier Parameter. <br>
L2 Quadriert jeden Wert eines Parameters und addiert diesen zu der Originalen Lossfunktion (z. B. MSE bei linearer Regression). <br>
Das Resultat ist, das die Koeffizienten (werden niemals 0) der Parameter (z. B. 3x³) reduziert werden, um den Fehler besser zu verteilen, was das Overfitting reduziert.
- Verändert den Einfluss von Features, anwendbar wenn alle Features eines Datasets genutzt werden und es zu Overfitting kommt.

> L2 Regulierung (Ridge):
$$
Loss = Loss + \lambda \sum_{i=1}^n( x_i ^ 2 )
$$
> L1 Regulierung (Lasso):
$$
Loss = Loss + \lambda \sum_{i=1}^n(  |x_i|  )
$$
> Elastic Net:
$$
Loss = Loss + \lambda \sum_{i=1}^n(  |x_i|  ) + \lambda \sum_{i=1}^n( x_i ^ 2 )
$$

Die L1 Regulierung macht fast dasselbe, nur dass die Koeffizienten als Betrag summiert werden.
- L1 wird oft als Lasso bezeichnet => Least Absolute Shrinkage and Selection Operator.

Der Effekt, der hier entsteht, ist, dass L1 einige Koeffizienten in die Richtung der 0 treibt, was dazu führt, dass eher die Features herausstechen, die am "wichtigsten" sind. So können aus vielen Features diejenigen identifiziert werden, die den meisten Einfluss haben. 

Die Kombination von L1 und L2 wird als Elastic Next bezeichnet, und kann für eine Balance der zwei verschiedenen Eigenschaften sogen.

Die Regulierungen sind einfach zu verwenden, das untere Beispiel zeigt es.

Dataset: https://www.kaggle.com/datasets/sukhmandeepsinghbrar/housing-price-dataset [Letzter Zugriff: 10,06.2024]
> "Housing Price Dataset" by SUKHMANDEEP SINGH BRAR on Kaggle.com

**For this specific Case I will choose a different Dataset, this will be edit later.

In [89]:
# Imports

import pandas as pd
import matplotlib.pyplot as plt

from sklearn.linear_model import Lasso  # L1 für lineare Regression.
from sklearn.linear_model import Ridge  # L2 für lineare Regression.  
from sklearn.linear_model import LinearRegression

from sklearn.model_selection import train_test_split

In [72]:
data_df = pd.read_csv('./files_data/data/Housing_Price_Dataset.zip', compression='zip')
data_df.head()

Unnamed: 0,id,date,price,bedrooms,bathrooms,sqft_living,sqft_lot,floors,waterfront,view,...,grade,sqft_above,sqft_basement,yr_built,yr_renovated,zipcode,lat,long,sqft_living15,sqft_lot15
0,7229300521,20141013T000000,231300.0,2,1.0,1180,5650,1.0,0,0,...,7,1180,0,1955,0,98178,47.5112,-122.257,1340,5650
1,6414100192,20141209T000000,538000.0,3,2.25,2570,7242,2.0,0,0,...,7,2170,400,1951,1991,98125,47.721,-122.319,1690,7639
2,5631500400,20150225T000000,180000.0,2,1.0,770,10000,1.0,0,0,...,6,770,0,1933,0,98028,47.7379,-122.233,2720,8062
3,2487200875,20141209T000000,604000.0,4,3.0,1960,5000,1.0,0,0,...,7,1050,910,1965,0,98136,47.5208,-122.393,1360,5000
4,1954400510,20150218T000000,510000.0,3,2.0,1680,8080,1.0,0,0,...,8,1680,0,1987,0,98074,47.6168,-122.045,1800,7503


In [73]:
# Filtere Spalten aus.
data_df = data_df[['price', 'bedrooms', 'sqft_living','sqft_basement', 'yr_built' ]]
data_df.head()

Unnamed: 0,price,bedrooms,sqft_living,sqft_basement,yr_built
0,231300.0,2,1180,0,1955
1,538000.0,3,2570,400,1951
2,180000.0,2,770,0,1933
3,604000.0,4,1960,910,1965
4,510000.0,3,1680,0,1987


In [74]:
data_df.isnull().sum()

price            0
bedrooms         0
sqft_living      0
sqft_basement    0
yr_built         0
dtype: int64

Wir werden gleich sehen, ob das Model ein Overfitting Problem hat.

In [75]:
data_df.shape

(21613, 5)

In [79]:
X_train, X_test, y_train, y_test = train_test_split( \
    data_df.drop('price', axis="columns"), data_df['price'],test_size=0.40)

In [84]:
# Overfitting: Trainscore ist um einiges besser als Testscore. 
model = LinearRegression()
model.fit(X_train, y_train)
model.score(X_train, y_train)  # Teste mit Trainingset

0.5495568725114214

In [85]:
model.score(X_test, y_test)  # Teste mit Testset

0.5252211734398953

In [88]:
# Zeige Model an.
model.__dict__

{'fit_intercept': True,
 'copy_X': True,
 'n_jobs': None,
 'positive': False,
 'feature_names_in_': array(['bedrooms', 'sqft_living', 'sqft_basement', 'yr_built'],
       dtype=object),
 'n_features_in_': 4,
 'coef_': array([-6.16955387e+04,  3.57597536e+02, -3.12694442e+01, -2.72125903e+03]),
 'rank_': 4,
 'singular_': array([1.08843108e+05, 4.41744485e+04, 2.99308965e+03, 8.86184629e+01]),
 'intercept_': 5377949.676913661}

In [107]:
model_lasso = Lasso(
    alpha = 70,  # Lambda vor dem L1 Term.
)

In [108]:
model_lasso.fit(X_train, y_train)
model.score(X_train, y_train)  # Teste mit Trainingset

0.5495568725114214

In [109]:
model_lasso.score(X_test, y_test)  # Teste mit Testset

0.5252275844143669

In [106]:
model_lasso.__dict__

{'alpha': 70,
 'l1_ratio': 1.0,
 'fit_intercept': True,
 'precompute': False,
 'max_iter': 1000,
 'copy_X': True,
 'tol': 0.1,
 'warm_start': False,
 'positive': False,
 'random_state': None,
 'selection': 'cyclic',
 'feature_names_in_': array(['bedrooms', 'sqft_living', 'sqft_basement', 'yr_built'],
       dtype=object),
 'n_features_in_': 4,
 'n_iter_': 10,
 'coef_': array([-6.15592155e+04,  3.57519777e+02, -3.12829742e+01, -2.72108884e+03]),
 'dual_gap_': 8876921374.187698,
 'intercept_': 5377319.687146853}

In [110]:
model_ridge = Ridge(
    alpha = 70  # Lambda vor dem L2 Term. 
)

In [111]:
model_ridge.fit(X_train, y_train)
model_ridge.score(X_train, y_train)  # Teste mit Trainingset

0.5495556218890753

In [112]:
model_ridge.score(X_test, y_test)  # Teste mit Testset

0.525247908973574