## Grundlagen Maschineller Lernverfahren | ML_INF19A | 2021
**Datum: 11.11.2021**

# Regularisierung
Ressourcen: https://scikit-learn.org/stable/modules/classes.html#module-sklearn.linear_model

In [None]:
# Lade notwendigen Bibliotheken
import numpy as np
import matplotlib.pyplot as plt

## Erzeuge Daten

In [None]:
#Setup Pseudo Zufallszahlen
np.random.seed(2021)

In [None]:
# Daten erstellen
n_samples = 75
x_lim = 2

X = -x_lim * np.random.rand(n_samples, 1) + x_lim * np.random.rand(n_samples, 1)# Zufallswerte für die X-Achse
y = 0.25 + 0.75 * X**2 + 0.75 * np.random.rand(n_samples, 1) # Zufallswerte für die Y-Achse

# "Format" der erzeugten Daten anzeigen
print("Datensatz X:", X.shape)

# Daten anzeigen
plt.figure(figsize=(15,9))
plt.plot(X,y,'b.')
plt.xlabel("x")
plt.ylabel("y")
plt.show()

## Trenne in Daten für Training und Test

In [None]:
# Lade Bibliothek
from sklearn.model_selection import train_test_split

In [None]:
# Führe Trennung durch
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2)

In [None]:
# Prüfe Dimensionen
print(X_train.shape)
print(y_train.shape)
print(X_test.shape)
print(y_test.shape)

## Anwendung


### Ridge

In [None]:
# Lade Bibliotheken
from sklearn.linear_model import Ridge # https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.Ridge.html

In [None]:
# Lade Bibliotheken
from sklearn.preprocessing import PolynomialFeatures

pf = PolynomialFeatures(degree = 13)

# Erweitere Datensätze
X_train_poly = pf.fit_transform(X_train)
X_test_poly = pf.fit_transform(X_test)

In [None]:
reg_ridge_1 = Ridge(alpha = 0) # Ohne Regularisierung
reg_ridge_2 = Ridge(alpha = 8) # Ein wenig Regularisierung
reg_ridge_3 = Ridge(alpha = 1000) # Sehr starke Regularisierung

In [None]:
reg_ridge_1.fit(X_train_poly, y_train)
y_pred_train1 = reg_ridge_1.predict(X_train_poly)
y_pred_test1 = reg_ridge_1.predict(X_test_poly)

reg_ridge_2.fit(X_train_poly, y_train)
y_pred_train2 = reg_ridge_2.predict(X_train_poly)
y_pred_test2 = reg_ridge_2.predict(X_test_poly)

reg_ridge_3.fit(X_train_poly, y_train)
y_pred_train3 = reg_ridge_3.predict(X_train_poly)
y_pred_test3 = reg_ridge_3.predict(X_test_poly)

In [None]:
# Erstelle X Werte für das Zeichnen einer Geraden
Xline = np.linspace(np.min(X), np.max(X), 100)
Xline_poly = pf.transform(Xline.reshape(100, 1))

# Plot der Datenmenge, der Geraden und der beiden neuen X_unknown Werte
plt.figure(figsize=(15,9))
plt.plot(X,y,'b.')
plt.plot(X_train, y_train,'r^')
plt.plot(X_test, y_test,'m+')
plt.xlabel("x")
plt.ylabel("y")
plt.plot(Xline, reg_ridge_1.predict(Xline_poly).reshape(-1,1), 'g', label="alpha = 0")
plt.plot(Xline, reg_ridge_2.predict(Xline_poly).reshape(-1,1), 'b', label="alpha = 8")
plt.plot(Xline, reg_ridge_3.predict(Xline_poly).reshape(-1,1), 'y', label="alpha = 1000")
plt.legend()
plt.show()

### Lasso

In [None]:
# Lade Bibliotheken
from sklearn.linear_model import Lasso # https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.Lasso.html

In [None]:
# Lade Bibliotheken
from sklearn.preprocessing import PolynomialFeatures

pf = PolynomialFeatures(degree = 13)

# Erweitere Datensätze
X_train_poly = pf.fit_transform(X_train)
X_test_poly = pf.fit_transform(X_test)

In [None]:
reg_lasso_1 = Lasso(alpha = 0) # Ohne Regularisierung
reg_lasso_2 = Lasso(alpha = 0.3) # Ein wenig Regularisierung
reg_lasso_3 = Lasso(alpha = 2) # Sehr starke Regularisierung

In [None]:
reg_lasso_1.fit(X_train_poly, y_train)
y_pred_train1 = reg_lasso_1.predict(X_train_poly)
y_pred_test1 = reg_lasso_1.predict(X_test_poly)

reg_lasso_2.fit(X_train_poly, y_train)
y_pred_train2 = reg_lasso_2.predict(X_train_poly)
y_pred_test2 = reg_lasso_2.predict(X_test_poly)

reg_lasso_3.fit(X_train_poly, y_train)
y_pred_train3 = reg_lasso_3.predict(X_train_poly)
y_pred_test3 = reg_lasso_3.predict(X_test_poly)

In [None]:
# Erstelle X Werte für das Zeichnen einer Geraden
Xline = np.linspace(np.min(X), np.max(X), 100)
Xline_poly = pf.transform(Xline.reshape(100, 1))

# Plot der Datenmenge, der Geraden und der beiden neuen X_unknown Werte
plt.figure(figsize=(15,9))
plt.plot(X,y,'b.')
plt.plot(X_train, y_train,'r^')
plt.plot(X_test, y_test,'m+')
plt.xlabel("x")
plt.ylabel("y")
plt.plot(Xline, reg_lasso_1.predict(Xline_poly).reshape(-1,1), 'g', label="alpha = 0")
plt.plot(Xline, reg_lasso_2.predict(Xline_poly).reshape(-1,1), 'b', label="alpha = 0.3")
plt.plot(Xline, reg_lasso_3.predict(Xline_poly).reshape(-1,1), 'y', label="alpha = 2")
plt.legend()
plt.show()

### ElasticNet

In [None]:
# Lade Bibliotheken
from sklearn.linear_model import ElasticNet # https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.ElasticNet.html

# Lade Bibliotheken
from sklearn.preprocessing import PolynomialFeatures

pf = PolynomialFeatures(degree = 13)

# Erweitere Datensätze
X_train_poly = pf.fit_transform(X_train)
X_test_poly = pf.fit_transform(X_test)

reg_en_1 = ElasticNet(alpha = 0, l1_ratio = 0.6) # Ohne Regularisierung
reg_en_2 = ElasticNet(alpha = 1, l1_ratio = 0.6) # Ein wenig Regularisierung
reg_en_3 = ElasticNet(alpha = 100, l1_ratio = 0.6) # Sehr starke Regularisierung

reg_en_1.fit(X_train_poly, y_train)
y_pred_train1 = reg_en_1.predict(X_train_poly)
y_pred_test1 = reg_en_1.predict(X_test_poly)

reg_en_2.fit(X_train_poly, y_train)
y_pred_train2 = reg_en_2.predict(X_train_poly)
y_pred_test2 = reg_en_2.predict(X_test_poly)

reg_en_3.fit(X_train_poly, y_train)
y_pred_train3 = reg_en_3.predict(X_train_poly)
y_pred_test3 = reg_en_3.predict(X_test_poly)

# Erstelle X Werte für das Zeichnen einer Geraden
Xline = np.linspace(np.min(X), np.max(X), 100)
Xline_poly = pf.transform(Xline.reshape(100, 1))

# Plot der Datenmenge, der Geraden und der beiden neuen X_unknown Werte
plt.figure(figsize=(15,9))
plt.plot(X,y,'b.')
plt.plot(X_train, y_train,'r^')
plt.plot(X_test, y_test,'m+')
plt.xlabel("x")
plt.ylabel("y")
plt.plot(Xline, reg_en_1.predict(Xline_poly).reshape(-1,1), 'g', label="alpha = 0")
plt.plot(Xline, reg_en_2.predict(Xline_poly).reshape(-1,1), 'b', label="alpha = 1")
plt.plot(Xline, reg_en_3.predict(Xline_poly).reshape(-1,1), 'y', label="alpha = 100")
plt.legend()
plt.show()

### Dropout

Die Architektur entspricht der aus der Übung zu Neuronalen Netzwerken

In [None]:
# Lade Bibliothek
from sklearn.datasets import load_iris

# Lade Datensatz
data = load_iris()

# Daten in Eingabe (X) und Labels (y) sortieren und "lokal" abspeichern
X = data.data
y = data.target

# Lade Bibliothek
from sklearn.preprocessing import normalize # Normalisiere die Daten

# Führe Vorverarbeitung durch
X_norm = normalize(X) # NUR Eingabedaten, nicht die Label!

# Lade Bibliothek
from sklearn.model_selection import train_test_split

# Führe Trennung durch
X_train, X_test, y_train, y_test = train_test_split(X_norm,y,test_size=0.2)

# Lade Bibliotheken
import tensorflow as tf

from tensorflow.keras.models import Sequential # Modelinstanz
from tensorflow.keras.layers import Dense # Einzelne Layer
from tensorflow.keras import Input # Spezieller Eingabelayer

# NEU
from tensorflow.keras.layers import Dropout # Dropout Layer

import numpy as np

# Prüfe wieviele Label/Klassen in der Aufgabe vorkommen 
num_classes = len(np.unique(y_train)) # -> bestimmt die Anzahl der Knoten im Ausgabelayer

# Prüfe ob für Training und Test gleich viele Klassen vorhanden sind
assert len(np.unique(y_train)) == len(np.unique(y_test))



## Setup Hyperparameter des Neuronalen Netzwerkes

# Anzahl der Knoten im Eingabelayer
input_size = X_norm.shape[1:] # Nur Anzahl der Features relevant (150 stellt Batch-Dimension dar)

# Anzahl der Knoten im Ausgabelayer
output_size = num_classes # Speichere Anzahl der verschiedenen Klassen

# Größe des Batches beim Training
batch_size = 10

# Anzahl der Epochen beim Training
epochs = 10


# Lade Bibliothek
from tensorflow.keras.utils import to_categorical # OneHot-Encoding (vgl. Doku: https://www.tensorflow.org/api_docs/python/tf/keras/utils/to_categorical)

# Umwandlung in One-Hot Vektor (vgl. Dokumentation "to_categorical")
y_train_1hot = to_categorical(y_train, num_classes)
y_test_1hot = to_categorical(y_test, num_classes)


In [None]:
# Erstelle eine Instanz des Sequential Modells
model = Sequential()

# Definition des einfachen Modells (Struktur: Input -> Hidden -> Output)

# Eingabe
model.add(Input(shape=X_norm.shape[1:], name="Eingabe")) # Ohne Batch Dimension, nur "X-Achsen" Dimension

# Hidden Layer (3x)
model.add(Dense(1000, activation="relu", name="Hidden1"))
# NEU
model.add(Dropout(rate = 0.2, name= "Dropout1")) # rate = 0.2 -> 0.9999
model.add(Dense(500, activation="relu", name="Hidden2"))
model.add(Dense(300, activation="relu", name="Hidden3"))

# Ausgabe
model.add(Dense(3, activation="softmax", name="Ausgabe")) # Hinweis: Bei mehreren Klassen nimmt man in der Regel die Softmax Aktivierungsfunktion (weitere Infos: vgl. Literatur)

# "Baue" das Modell zusammen
model.compile(loss='categorical_crossentropy', metrics='accuracy') # Angeben von diversen Hyperparametern (vgl. Doku für mehr Informationen)

# Modell anzeigen
model.summary() 

In [None]:
# Training über die bekannte Funktion "fit" unter Angabe von Hyperparametern (vgl. Dokumentation: https://www.tensorflow.org/api_docs/python/tf/keras/Sequential#fit)
model.fit(X_train, y_train_1hot, batch_size=batch_size, epochs=epochs, verbose=1)

# Evaluiere das Modell auf Basis der Validierungsdatenmenge
model.evaluate(X_test, y_test_1hot)

### Early Stopping


**Anwendung bei "traditionellen" ML Ansätze wie SGDClassifier**

* Vgl. Doku und verwende den entsprechenden Parameter "early_stopping = True" wenn verfügbar (z.B. SGDClassifier) 
* Wenn kein Parameter vorhanden ist prüfe für jede Trainingsiteration die Performancewerte für die Validierungsdaten und entscheide anhand eines Kriteriums (z.B. ob der Wert wieder steigt) ob das Training abgebrochen werden soll.





**Anwendung bei Neuronalen Netzwerken**

- Verwende Callbacks (https://www.tensorflow.org/api_docs/python/tf/keras/callbacks)

In [None]:
# Lade Bibliothek
from tensorflow.keras.callbacks import EarlyStopping

# Definiere Callback
cb = tf.keras.callbacks.EarlyStopping(monitor = 'val_loss', patience = 3, verbose = 1)

In [None]:
# Hinweis: Verwende das Modell "model" aus dem Abschnitt "Dropout"!

# Training diesmal unter Verwendung des Callbacks
model.fit(X_train, y_train_1hot, validation_data=(X_test, y_test_1hot), batch_size=batch_size, epochs=50, verbose=1, callbacks=[cb])

# Evaluiere das Modell auf Basis der Validierungsdatenmenge
model.evaluate(X_test, y_test_1hot)