# Einfache Regressionsverfahren
In diesem Jupyter Notebook sollen die Regressionsverfahren aus der Vorlesung angewandt und ausprobiert werden. Zu diesem Zweck stehen einige (synthetische) [Datensätze](https://github.com/MarkEich96/Maschinelles-Lernen-SoSe-2024/tree/main) zur Verfügung. 

## Vorbereitungen
Zum einen, sollen große Datenmengen besonders effizient verarbeitet werden, wozu das Paket `numpy` benötigt wird. Andererseits ist es auch praktisch die Ergebnisse grafisch aufzutragen. Hierzu wird das Paket `matplotlib` herangezogen.

In [None]:
import numpy as np
import matplotlib.pyplot as plt

## Eindimensionale lineare Regression
Im Datensatz `linear_regression_data01.dat` sind die Ergebnisse eines Experiments zum Photoelektrischen Effekt aufgetragen. Bei diesem wird eine Kupferplatte mit Licht unterschiedlicher Frequenzen bestrahlt. Aus der Platte treten Elektronen aus, deren (kinetische) Energie gemessen wird. Die Frequenzen sind in $\mathrm{PHz}=10^{15}\,\mathrm{Hz}$ angegeben, während die Energien in $\mathrm{eV}=1{,}6\cdot 10^{-19}\,\mathrm{J}$ angegeben sind.

__Aufgabe__: Vervollständige das untenstehende Codegerüst, um Dich davon zu überzeugen, dass zwischen den Energien und den Frequenzen ein linearer Zusammenhang besteht. 

In [None]:
# Lade den Datensatz
f, E = 

# Trage die Daten in einem Streudiagramm auf
plt.scatter()

# Achsenbeschriftung 
plt.xlabel(r'$f$ in $\mathrm{PHz}$')
plt.ylabel(r'$E$ in $\mathrm{eV}$')

# Koordinatengitter
plt.xticks(np.arange(11))
plt.grid(True, linestyle = '--')

plt.show()

### Ideale Parameter

In der Vorlesung wurde besprochen, dass für eine Ausgleichsgerade $y = w_1x+w_0$ die idealen Gewichte durch
$$
w_1 = \frac{s(x, y)}{s(x, x)}\quad\quad w_0 = \langle y\rangle-w_1\langle x\rangle
$$
gegeben sind. Hierbei ist 
$ \langle x\rangle =\frac{1}{N}\sum_{i=1}^{N}x_i$
das _arithemtrische Mittel_ und $s(x, y)=\langle x\cdot y\rangle-\langle x\rangle\langle y\rangle$ die _Kovarianz_.

__Aufgabe__: Implimentiere zunächst mit Hilfe der Funktion `np.sum()` das arithemtrische Mittel `mittel()` und die Kovarianz `kovar()` als eine Python-Funktion. Verwende diese dann, um die idealen Gewichte zu bestimme. Fertige dann eine Skizze mit den Daten und der Ausgleichsgeraden an.

#### Aritmetrisches Mittel und Kovarianz als Funktion

In [None]:
# Funktion die das arithmetrische Mittel eines Arrays zurück gibt
def mittel(x):
    return 

# Funktion die die Kovarianz zweier Arrays gleicher Länge zurück gibt.
def kovar(x, y):
    return 

#### Bestimmen der idealen Gewichte

In [None]:
# Bestimmen der Steigung gemäß obiger Formel
w1 =

# Bestimmen des Achsenabschnitts gemäß obiger Formel
w0 = 

# Ausgabe der Werte
print(f'Die Steigung der Ausgleichsgerade ist durch {w1:.2f} eV/PHz gegeben.')
print(f'Der E-Achsenabschnitt der Ausgleichsgerade ist durch {w0:.2f} eV gegeben.')

#### Skizzieren der Daten und Ausgleichsgeraden

In [None]:
# Trage die Daten in einem Streudiagramm auf
plt.scatter()

# Erstellen eines Arrays an Frequenzen für die Auftragung
F = np.linspace(0, 10, 100)

# Auftragen der Ausgleichsgerade


# Achsenbeschriftung 
plt.xlabel(r'$f$ in $\mathrm{PHz}$')
plt.ylabel(r'$E$ in $\mathrm{eV}$')

# Koordinatengitter
plt.xticks(np.arange(11))
plt.grid(True, linestyle = '--')

plt.show()

### Gradientenabstieg

In der Vorlesung wurde auch besprochen, dass sich die idealen Gewichte durch ein Gradientenabstiegsverfahren zumindest näherungsweise bestimmen lassen sollten. Dazu wurde der Gradient des empirischen Risikos durch
$$
    \nabla_{\vec{w}} \hat{R}(\vec{w})=\frac{2}{N}\underline{X}'(\underline{X}'\vec{w}-\vec{y})
$$
ermittelt. Darin sind $\vec{w}\in\mathbb{R}^2$ der Gewichtsvektor, $\vec{y}\in\mathbb{R}^N$ der Ergebnisvektor und 
$$
\underline{X}'=\begin{pmatrix}
1 & x_1\\
1 & x_2\\
\vdots & \vdots\\
1 & x_N
\end{pmatrix}\in\mathbb{R}^{N\times 2}
$$
die erweiteret Datenmatrix. Bei einer Iteration sind die neuen Gewichte durch
$$
\vec{w}^{(n+1)}=\vec{w}^{(n)}-\eta  \nabla_{\vec{w}} \hat{R}(\vec{w}^{(n)})
$$
bestimmt, wobei $\eta$ die Lernrate ist.

__Aufgabe__: Ergänze das nachstehende Code-Gerüst, um das Gradientenabstiegsverfahren zu implementieren und bestimme auf diese Weise die Ausgleichsgerade. Probiere verschiedene Werte für die Lernrate und die Anzahl der Lernepochen aus. Gibt es Wahlen dieser (Hyper-) Parameter, die die gleichen Ergebnisse wie die idealen Gewichte ergeben? 
_Tipp_: Unterschlage den Faktor $\frac{2}{N}$ im Gradienten.

#### Implementieren des Gradientanabstiegsverfahrens

In [None]:
# Festlegen der Lernrate 
eta = 10**(-4)

# Festlegen der Anzahl der benötigten Schritte
epochen = 1000

# Festlegen initialer Gewichte
W = 

# Formatieren der Frequenzen in eine erweiteret Datenmatrix
N = len(f)    # Anzahl der Datenpunkte
X = 

for n in range(N):
    X[n] = 
    
# Ausführen des Gradientenabstiegsverfahren
for n in range(epochen):
    W = 
    
# Ausgabe der Werte
print(f'Die Steigung der Ausgleichsgerade ist durch {W[1]:.2f} eV/PHz gegeben.')
print(f'Der E-Achsenabschnitt der Ausgleichsgerade ist durch {W[0]:.2f} eV gegeben.')

#### Auftragen der Ausgleichsgeraden

In [None]:
# Trage die Daten in einem Streudiagramm auf
plt.scatter()

# Erstellen eines Arrays an Frequenzen für die Auftragung
F = np.linspace(0, 10, 100)

# Auftragen der idealen Ausgleichsgerade
plt.plot()

# Auftragen der Ausgleichsgeraden aus dem Gradientenabstieg
plt.plot()

# Achsenbeschriftung 
plt.xlabel(r'$f$ in $\mathrm{PHz}$')
plt.ylabel(r'$E$ in $\mathrm{eV}$')

# Koordinatengitter
plt.xticks(np.arange(11))
plt.grid(True, linestyle = '--')

plt.show()

## Feature engineering
In der Vorlesung wurde besprochen, dass manche Daten vorher durch eine Funktion $\phi$ in einen passenden Raum überführt werden müssen, um eine lineare Regression durchführen zu können. Betrachte dazu den Datensatz `linear_regression_data02.dat`. Darin sind die Abstände der Planeten von der Sonne in Vielfachen des Erdabstandes ($\sim 149{,}6\cdot 10^9\,\mathrm{m}$) und ihre Umlaufzeiten in Vielfachen von Erdjahren ($\sim 3{,}156\cdot 10^{7}\,\mathrm{s}$) angegeben. 

__Aufgabe__: Trage die Umlaufszeiten $T$ gegen die Abstände $a$ auf und stelle eine Vermutung über den funktionalen Zusammenhang an.

In [None]:
# Lade den Datensatz
a, T = 

# Trage die Daten in einem Streudiagramm auf
plt.scatter()

# Achsenbeschriftung 
plt.xlabel(r'$a$ in $\mathrm{AE}$')
plt.ylabel(r'$T$ in $\mathrm{yr}$')

# Koordinatengitter
plt.grid(True, linestyle = '--')

plt.show()

### Feature map auswählen
In der Vorlesung haben wir einige mögliche Feature maps besprochen. Diese sind Abbildungen $\phi_x:X\to \mathbb{R}^n$, $\phi_y:Y\to \mathbb{R}^m$, die es erlauben auch nicht lineare Zusammenhänge durch eine lineare Regression behandeln zu können.

__Aufageb__: Wähle eine solche aus und trage damit die Daten nocheinmal auf. Verwende das Gradientenabstiegsverfahren, um eine lineare Regression durchzuführen und bestimme so den funktionalen Zusammenhang zwischen der Umlaufzeit und dem Abstand zur Sonne. Welche Umlaufszeit würdest Du nach diesem Modell für einen Planet in Abstand $a = 2{,}766\,\mathrm{AE}$ erwarten?

#### Feature map und Auftragung der Daten

In [None]:
# Wende die Feature map an
a, T = 

# Trage die Daten in einem Streudiagramm auf
plt.scatter()

# Koordinatengitter
plt.grid(True, linestyle = '--')

plt.show()

#### Bestimmen der Ausgleichsgeraden

In [None]:
# Aufbauen der erweiterten Datenmatrix
N = len(a)
X = 
for n in range(N):
    X[n] = 

# Durchführen der linearen Regression
epochen = 1000
learning_rate = 10**(-4)

w = 

for n in range(epochen):
    w = 

print(w)

#### Auftragen der Ausgleichsgeraden

In [None]:
# Trage die Daten in einem Streudiagramm auf
plt.scatter()

# Auftragen der Ausgleichsgeraden
A = np.linspace(-1, 3.5, 100)
plt.plot()


# Koordinatengitter
plt.grid(True, linestyle = '--')

plt.show()

## Polynomielle Modelle durch lineare Regression

In der Vorlesung wurde auch darüber gesprochen, wie sich ein polynomielles Modell mit einer linearen Regression bestimmen lassen kann. Im Datensatz `linear_regression_data03.dat` ist der Ort eines Autos in Metern zu festen Zeitpunkten in Sekunden angegeben. 

__Aufgabe__: Trage die Daten auf und entscheide, welchen Grad das polynomielle Modell haben sollte.

In [None]:
# Laden der Daten
t, x = 

# Auftragen der Daten
plt.scatter()

# Beschriften der Achsen
plt.xlabel('Zeit in Sekunden')
plt.ylabel('Ort in Meter')

plt.show()

Ein linearer Zusammenhang besteht sicher nicht. Ein quadratischer Zusammenhang ist möglich, falls es sich beim ersten Datenpunkt um einen Ausreißer handelt. Ein Polynom dritten Grades könnte die Daten sehr gut annähren.

### Optimales Modell finden
__Aufgabe__: Führe nun ein Gradientenabstiegverfahren sowohl für ein quadratisches ($g=2$), wie auch ein kubisches ($g = 3$) Modell durch. Plotte beide Modelle in die gleiche Skizze und ermittle deren jeweiligen Trainingsfehler $$\hat{R}(D_{\mathrm{Tr}})=\frac{1}{N}\sum_{i=1}^{N}(h_{\vec{w}}(x_i)-y_i)^2$$

_Tipp_: In diesem Fall lohnt es sich, bereits gute Startparameter zu schätzen.

#### Quadratisches Modell

In [None]:
# Anzahl der Datenpunkte 
N = len(t)

# Aufstellen der erweiterten Datenmatrix
X_quadr = 
for n in range(N):
    X_quadr[n] = 
    
# Ermitteln der idealen Gewichte
w_quadr = np.array([0,0,0])

learning_rate = 10**(-4)
epochen = 1000

for n in range(epochen):
    w_quadr = 

# Bestimmen des Trainingsfehlers
R_quadr = 

print(f'Der Trainingsfehler des quadratischen Modells liegt bei {R_quadr:.2f}')

#### Kubisches Modell

In [None]:
# Aufstellen der erweiterten Datenmatrix
X_kub = 
for n in range(N):
    X_kub[n] = 
    
# Ermitteln der idealen Gewichte
w_kub = np.array([0,0,0,0])

learning_rate = 10**(-4)
epochen = 1000

for n in range(epochen):
    w_kub = 

# Bestimmen des Trainingsfehlers
R_kub = 

print(f'Der Trainingsfehler des kubischen Modells liegt bei {R_kub:.2f}')

#### Gemeinsames Auftragen der Daten

In [None]:
# Auftragen der Daten
plt.scatter()

# Auftragen des quadratischen Modells
T = np.linspace(np.min(t), np.max(t), 100)
plt.plot()

# Auftragen des kubischen Modells
plt.plot()

# Beschriften der Achsen
plt.xlabel('Zeit in Sekunden')
plt.ylabel('Ort in Meter')

plt.show()

### Testen der Modell
Im Datensatz `linear_regression_data04.dat` liegt eine genauere Messung der Situation vor. 

__Aufgabe__: Verwende diese, um den Testfehler und den Verallgemeinerungsfehler (Generalization Gap) der beiden Modelle zu bewerten. Welches der Modelle beschreibt die Situation besser? Was sind die Bedeutungen der einzelnen Parameter?

In [None]:
### Auftragen der neuen Daten und der Modelle ###
t_test, x_test = 

plt.scatter()

# Auftragen des quadratischen Modells
T = np.linspace(np.min(t_test), np.max(t_test), 100)
plt.plot()

# Auftragen des kubischen Modells
plt.plot()

# Beschriften der Achsen
plt.xlabel('Zeit in Sekunden')
plt.ylabel('Ort in Meter')

plt.show()

In [None]:
# Anzahl der Datenpunkte 
N = len(t_test)

### Quadratisches Modell ###
# Aufstellen der erweiterten Datenmatrix
X_quadr_test = 
for n in range(N):
    X_quadr_test[n] = 

# Bestimme den Test- und Verallgemeinerungsfehler für das quadratische Modell
R_quadr_test = 
G_quadr =


### kubisches Modell ###
# Aufstellen der erweiterten Datenmatrix
X_kub_test = 
for n in range(N):
    X_kub_test[n] = 

# Bestimme den Validerungs- und Verallgemeinerungsfehler für das quadratische Modell
R_kub_test =
G_kub =

print(f'Der Testfehler des quadratischen Modells ist {R_quadr_test:.2f} und der Verallgemeinerungsfehler ist {G_quadr:.2f}')
print(f'Der Testfehler des kubischen Modells ist {R_kub_test:.2f} und der Verallgemeinerungsfehler ist {G_kub:.2f}')
