# Vorlesungswiederholung
Bestimmung einer Funktion zur Vorhersage von Merkmalen (Nominal/Ordinal/Kardinal) unter Verwendung von vollständigen Trainingsdaten (training-set). Nach ihrer Bestimmung wird die Funktion anhand weiterer Daten getestet (testing-set).

### Klassifizierung
Alle vor dem Lernprozess verfügbaren Daten liegen kategorisiert vor. Jeder Datenpunkt besteht aus Merkmalen (Kovariablen) und einer zugeordneten Kategorie. Ziel der Klassifizierung ist eine Funktion abzuleiten, welche neue Daten der gegebenen Menge von Kategorien zuordnet. Die zur Bestimmung der Funktion verwendeten Trainingsdaten bestehen je aus einem Eingangsvektor und dem gewünschten Rückgabewert (Überwachungssignal). Eine weitere Generalisierung hat zum Ziel vollständig unbekannte Datenpunkte einer passenden Kategorie zuzuordnen. 

### Regression
Anstelle den Daten zugeordnete Kategorien liegen kontinuierliche Ausgangsgrößen (abhängige Variablen) vor. Ziel ist die Erstellung einer Schätzfunktion mit kontinuierlichem Wertebereich. 

### Lineare Modelle
Umfassen Methoden zur Datenmodellierung mittels linearer Regression. Der vorhergesagte Zielwert $y$ (target) wird durch eine Linearkombination aller gegebenen Merkmale (features) berechnet:

$$y(w,x)=w_{0}+w_{1}x_{1}+...+w_{n}x_{n}$$

Vektor $\vec{x}=(x_{1},..,x_{n})$ enthält die Merkmalswerte und Vektor $\vec{w}=(w_{0},w_{1},..,w_{n})$ enthält die Regressionskoeffizienten. Die Schätzung der Regressionskoeffizienten setzt die Unabhängigkeit aller Merkmale in $\vec{x}$ voraus. Ist diese Voraussetzung nicht erfüllt, ist eine hohe Modellvarianz die Folge (Schon durch kleine Schwankungen der Zielwerte, z.B. durch zufällige Fehler, entstehen große Abweichungen innerhalb der Regressionskoeffizienten.)

Das Beispiel im folgenden Bild enthält beobachtete Punkte und ihre Approximation mit einem linearen Modell. Die Approximation erfolgt durch die Minimierung der RSS (residual sum of sqaures) zwischen den vorhandenen Daten und den vorhergesagten Daten. (Klasse: sklearn.linear_model.LinearRegression) 
<img src="Lineares_Modell.png" style="width: 800px; height: 600px">

### Polynomiale Regression nichtlinearer Daten
Lineare Modelle (Schätzer) lassen sich durch polynomiale Regression auch auf nichtlineare Abbildungen von Daten anwenden. Dabei wird der Merkmalbereich um  interagierende oder potenzierte Merkmale erweitert, denen jeweils ein neuer linearer Regressionskoeffizient zugeordnet wird.

Ein ebenes lineares Modell könnte folgendermaßen aussehen:

$$y(w,x)=w_{0}+w_{1}x_{1}+w_{2}x_{2}$$

Durch eine entsprechende lineare Modellerweiterung (Transformierung) nimmt das Modell die Form eines Paraboloids an:

$$y(w,x)=w_{0}+w_{1}x_{1}+w_{2}x_{2}+w_{3}x_{1}x_{2}+w_{4}x_{1}^{2}+w_{5}x_{2}^{2}$$

Eine Neubenennung der Merkmale verdeutlicht, dass sich dieses Modell mit den Methoden der linearen Modellierung an die Trainingsdaten anpassen lässt:

$$y(w,x)=w_{0}+w_{1}z_{1}+w_{2}z_{2}+w_{3}z_{3}+w_{4}z_{4}+w_{5}z_{5},$$

mit$$\vec{z}=(x_{1},x_{2},x_{1}x_{2},x_{1}^{2},x_{2}^{2}).$$

Im folgenden Bild ist die polynomiale Regression eindimensionaler Daten in Abhängigkeit des Erweiterungsgrades dargestellt. 
(Klassen: sklearn.preprocessing.PolynomialFeatures und sklearn.linear_model.LinearRegression) 
<img src="Polynomiale_Modelle.png" style="width: 800px; height: 600px">

___
# Interaktiver Teil #
**Ziel:** Erstellen eines Modells, welches gut angepasst auf die Daten ist.

Zur Verdeutlichung des Einflusses, welchen polynomial erzeugte Merkmale und ihr höchster Grad auf ein berechnetes Modell haben, wird zunächst einmal eine nichtpolynomiale lineare Regression von sinusförmig verteilten Daten durchgeführt.

Zu Beginn werden die der Modellierung zugrunde liegenden Daten erzeugt. Das Merkmal X enthält zufällige Punkte (samples) zwischen $0$ und $2\pi$. Die abhängige Variable Y erhält man durch die Anwendung der Sinusfunktion auf die Definitionsmenge. Die erzeugten Daten sind somit unsortiert, aber haben eine feste Reihenfolge.

In [None]:
import numpy as np
import pandas as pd
X = np.arange(start = 0, stop = 2*np.pi, step = 0.1)
Y_sin = np.sin(X)

data_of_sin = pd.DataFrame({'X':X, 'Y': Y_sin})
data_of_sin

Im Plot sehen die Daten folgendermaßen aus:

In [None]:
import matplotlib.pyplot as plt

# Ploten der Daten
plt.figure(figsize=(4,3))
plt.title('Elements given by the sinus function')
plt.scatter(data_of_sin["X"], data_of_sin['Y'],label='target_values',s=5)
plt.legend(loc='lower left')
plt.xlabel('X') #
plt.ylabel('Y')
plt.show()

Im Folgenden wird zu allen Daten eine normalverteilte Streuung ergänzt, wie sie auch bei real gemessenen Daten auftritt.

In [None]:
random_factor = 0.2 #Scaling of the random noise
Y_sin_rand = np.sin(X)+ random_factor * np.random.randn(len(X))
data_of_sin = pd.DataFrame({'X':X, 'Y': Y_sin_rand})

# Ploten der Daten
plt.figure(figsize=(4,3))
plt.title('Elements given by the randomized sinus function')
plt.scatter(data_of_sin["X"], data_of_sin['Y'],s=5)
plt.xlabel('X')
plt.ylabel('Y')
plt.show()

In [None]:
from sklearn.model_selection import train_test_split

x_values = data_of_sin["X"].to_numpy() #Convert to numpy
y_values = data_of_sin['Y'].to_numpy() #Convert to numpy

x_train, x_test, y_train, y_test = train_test_split(x_values, y_values, test_size=0.2)

Die Unterteilten Trainingsdaten werden noch einmal geplottet. Sie sehen nun so aus:

In [None]:
plt.figure(figsize=(4,3))
plt.title('Training- vs. Testdata')
plt.scatter(x_train, y_train, label='Training data',s=5, c='blue')
plt.scatter(x_test, y_test, label='Test data',s=5, c='red')
plt.legend(loc='lower left')
plt.xlabel('X')
plt.ylabel('Y')
plt.show()

Um die Daten zum überwachten Lernen einzusetzen müssen sie zunächst in Trainings- und Testdaten unterteilt und in Matrixform (n_samples $\times$ n_features/n_targets) (hier für x_train (50 $\times$ 1)) gebracht werden. In diesen Beispiel liegen sie jedoch als (n_samples,) vor. Sie werden daher umgewendelt.

In [None]:
print('Vorher ', x_train.shape)
x_train = x_train[:,np.newaxis]
x_test = x_test[:,np.newaxis]
y_train = y_train[:,np.newaxis]
y_test = y_test[:,np.newaxis]
print('Nachher ', x_train.shape)

Anhand der Trainigsdaten führen wir anschließend eine einfache Regression durch und fertigen ein lineares Modell an. Dafür verwenden wir das Modul "sklearn.linear_model" und erzeugen eine Instanz vom Typ "LinearRegression": 

In [None]:
from sklearn import linear_model

reg = linear_model.LinearRegression() #Definition of the model
reg.fit(x_train,y_train) #Fit of the model

Das untrainierte Modell kann nun an die Trainingsdaten angepasst werden. Das Resultat ist eine Schätzfunktion mit fixen Regressionskoeffienten und wird "predictor" genannt. 

In [None]:
print('{string:<25} {n_feat}'.format(string = 'Anzahl der Merkmale', n_feat = reg.n_features_in_))
print('{string:<25} {coef}'.format(string = 'Koeffizienten', coef = reg.coef_))
print('{string:<25} {inter}'.format(string = 'Achsenabschnitt', inter = reg.intercept_))

Mit dem trainierten Modell können nun anhand der Testdaten Vorhersagen gemacht werden, welche mit den wahren Zielwerten (testing_targets) verglichen werden können. Zur Einschätzung der Vorhersagekraft werden die Ergebnisse geplottet und die mittlere quadratische Abweichung (MSE, kleiner ist besser) zwischen den vorhergesagten Zielwerten und den wahren Zielwerten sowie das Bestimmtheitsmaß $R^2$ (1 ist optimal) berechnet.

In [None]:
from sklearn.metrics import mean_squared_error as MSE, r2_score

predicted_targets = reg.predict(x_test) #Model predict x_test

plt.figure(figsize=(10,8))
plt.title('Prediction with testing data')

plt.scatter(x_train,reg.predict(x_train),label='Model prediction training data', color='gray' , marker = 'x')
plt.scatter(x_train,y_train,label='Training data', color='gray', marker = 'o')

plt.scatter(x_test,predicted_targets,label='Model prediction test data', color='red', marker = 'x')
plt.scatter(x_test,y_test,label='test data', color='red', marker = 'o')
plt.legend(loc='lower left')
plt.show()

print('{string:<25} {MSE:.2f}'.format(string = 'MSE', MSE = MSE(y_test, predicted_targets)))
print('{string:<25} {R2:.2f}'.format(string = 'R2', R2 = r2_score(y_test, predicted_targets)))

Die Vorhersagekraft des nichtpolynomial erzeugten Modells ist nicht hoch. Um die Vorhersagekraft zu optimieren werden im Folgenden polynome Merkmale mittels eines Transformators ergänzt und die Fähigkeit zur Schätzung der Zielwerte in Abhängigkeit vom Erweiterungsgrad überwacht.
***
Der Transformator erzeugt mit den Daten der vorherigen Trainingsmatrix eine neue Trainingsmatrix, welche zusätzlich zu den alten Merkmalen neu errechnete Merkmale höheren Grades enthält. Der höchste Grad wird im Vorfeld bei der Instanziierung des neuen Transformationsobjekts definiert (es ist aber auch möglich ausschließlich Interaktionen der Merkmale zu berücksichtigen). 

Mit den neuen Trainingsdaten kann anschließend ein einfaches lineares Modell mit einer linearen Regression an die Trainingsdaten angepasst werden. 

In [None]:
from sklearn.preprocessing import PolynomialFeatures
poly2 = PolynomialFeatures(degree=2, include_bias=False) #Create the transformer
poly2.fit(x_train) 
poly2_x_train = poly2.transform(x_train) 
poly2_x_test = poly2.transform(x_test) 

print('{string:<25} {n_feat}'.format(string = 'Merkmale vorher', n_feat = poly2.n_features_in_))
print('{string:<25} {n_feat}\n'.format(string = 'Merkmale nachher', n_feat = poly2.n_output_features_))

print(poly2_x_train[-10:]) #10 data points are output for illustration purposes

Nun kann wie bereits oben vorgeführt eine neue lineare Regression anhand der gewonnenen polynomen Traningsdaten durchgeführt werden. Anschließend benutzen wir das neue Modell um Vorhersagen zu machen und diese mit den ebenfalls polynomisierten Testdaten zu vergleichen. 

In [None]:
poly2_reg = linear_model.LinearRegression()
poly2_reg.fit(poly2_x_train, y_train) #Training

print('{string:<25} {n_feat}'.format(string = 'Anzahl Regr. Merkmale', n_feat = poly2_reg.n_features_in_))
print('{string:<25} {coef}'.format(string = 'Regr. Koeffizienten', coef = poly2_reg.coef_))
print('{string:<25} {inter}\n'.format(string = 'Achsenabschnitt', inter = poly2_reg.intercept_))

# Prediction
predicted_targets = poly2_reg.predict(poly2_x_test)

plt.figure(figsize=(10,8))
plt.title('Testing data, degree 2')

plt.scatter(x_train, poly2_reg.predict(poly2_x_train),label='Model prediction training data', color='gray' , marker = 'x')
plt.scatter(x_train,y_train,label='Training data', color='gray', marker = 'o')

plt.scatter(x_test, predicted_targets,label='Model prediction test data', color='red', marker = 'x')
plt.scatter(x_test,y_test,label='test data', color='red', marker = 'o')
plt.legend(loc='lower left')
plt.show()

print('{string:<25} {MSE:.2f}'.format(string = 'MSE', MSE = MSE(y_test, predicted_targets)))
print('{string:<25} {R2:.2f}'.format(string = 'R2', R2 = r2_score(y_test, predicted_targets)))

Das angepasste Modell mit Grad 2 hat nun einen quadratischen Verlauf, schneidet aber bei der Validierung mit den Testdaten nicht in jedem Fall besser ab (Erkennbar an der Anpassungsgüte). Das liegt daran, dass das Modell ausschließlich auf den Trainingsdaten beruht.
***
Nun soll betrachtet werden, was passiert, wenn ein Modell eines höheren Polynomgrades verwendet werden soll. Hierzu fassen wir die durchgeführten Schritte zu einer Funktion zusammen.

In [None]:
def fit_reg_model(degree, x_train, y_train, x_test, y_test):
    poly = PolynomialFeatures(degree=degree, include_bias=False) #Erzeugen des Transformators
    poly.fit(x_train)
    
    poly_x_train = poly.transform(x_train) 
    poly_x_test = poly.transform(x_test) 
    
    reg = linear_model.LinearRegression()
    reg.fit(poly_x_train, y_train)
    
    predicted_y_test = reg.predict(poly_x_test)
    predicted_y_train = reg.predict(poly_x_train)
    
    MSE_Train = MSE(predicted_y_train, y_train)
    MSE_Test = MSE(predicted_y_test, y_test)
    
    return(MSE_Train, MSE_Test, reg)

Über degree wird der Grad des Ansatzes für das Polynom festgelegt. Hierzu wird die Funktion mehrfach durchlaufen.

In [None]:
plt.figure()
for degree in range(20):
    if degree == 0: #No transformation possile if degree == 0
        MSE_train, MSE_test, _ = fit_reg_model(degree + 1, x_train, y_train, x_test, y_test)
        plt.scatter(degree, MSE_train, c='red', label = 'training')
        plt.scatter(degree, MSE_test, c='blue',label = 'test')
    else:
        MSE_train, MSE_test, _= fit_reg_model(degree + 1, x_train, y_train, x_test, y_test)
        plt.scatter(degree, MSE_train, c='red')
        plt.scatter(degree, MSE_test, c='blue')
    
plt.legend()
plt.show()

Wie der MSE Wert und die Anpassungsgüte $R^2$ zeigen, wird der Anpassungsfehler bei den Trainingsdaten mit steigendem Grad immer kleiner, aber die Vorhersagekraft bei den Testdaten nimmt mit steigendem Grad irgendwann wieder ab. 

### Bias vs. Variance

Im letzten Beispiel sieht man sehr gut, dass mit steigender Modellkomplexität die Anpassung an das Modell optimaler wird (kleinerer Bias), aber im Gegensatz dazu die Vorhersagekraft stark abnimmt (höhere Modellvarianz). Bei zu geringer Komplexität ist die Anpassung des Modells an die Trainingsdaten schlecht, woraus auch eine schlechte Vorhersagekraft resultiert. Es gilt daher ein ausgewogenes Maß bei der Annäherung an die Trainingsdaten während der Modellierung zu finden.

<img src="Bias_Variance_Trade Off.jpg">

Das Modell wir die mit höheren Polynomgrad immer komplexer. Findet eine starke Verbesserung des Modells statt. Bei hohen Polynomgraden nimmt die Performance der Modelle stark ab (bzw. der MSE nimmt stark zu). Modelle mit niedrigen Polynomgrad sind nicht komplex genug, um die gegebenen Daten ausreichend genau fitten zu können. Die Modell zeigen Unterfitting. Modelle mit hohen Polynomgrad zeigen eine Überanpassung an die Daten und überfitten.

In [None]:
degree_underfit = 1
degree_good = 5
degree_overfit = 20

_, _, underfit_model = fit_reg_model(degree_underfit, x_train, y_train, x_test, y_test)
_, _, good_model = fit_reg_model(degree_good, x_train, y_train, x_test, y_test)
_, _, overfit_model = fit_reg_model(degree_overfit, x_train, y_train, x_test, y_test)

plt.figure(figsize=(10,8))
plt.title('Overfit vs. Underfit')

poly = PolynomialFeatures(degree=degree_underfit, include_bias=False)
poly.fit(x_train)
plt.plot(X, underfit_model.predict(poly.transform(X[:,np.newaxis])), label = 'Underfit', color = 'blue', linewidth=3)

poly = PolynomialFeatures(degree=degree_good, include_bias=False)
poly.fit(x_train)
plt.plot(X, good_model.predict(poly.transform(X[:,np.newaxis])), label = 'Good', color = 'green', linewidth=3)

poly = PolynomialFeatures(degree=degree_overfit, include_bias=False)
poly.fit(x_train)
plt.plot(X, overfit_model.predict(poly.transform(X[:,np.newaxis])), label = 'Overfit', color = 'red', linewidth=3)

poly = PolynomialFeatures(degree=degree_overfit, include_bias=False)
poly.fit(x_train)
plt.plot(X, Y_sin, label = 'Target', linewidth=5, color = 'black')

plt.legend()
plt.show()