# Lineare Regression

<!--- TODO TOC -->

> Vorhersage einer numerischen Zielvariable in Abhängigkeit von einer oder mehreren Eingangsvariablen = Welchen Wert `y` erhält man für ein gegebenes `x` ?

Trainingsdaten enthält:

1. Feature: *Input*(Eingangsvariable)
2. Label: *Output*(Zielvariable)

---

**TLDR:**

* Ziel: Aus Datensatz(Paaren $(x,y)$) Vorhersagemodell welches möglichst genaue Vorhersagen macht trainieren:

1. Datensatz in Trainings- & Testdaten aufzuteilen(80/20)
2. Durch Lineare Regression auf Trainingsdaten **Modell trainieren**. Dabei Gradient Descent nutzen um optimalen Parameer $w_0,w_1$ zu finden, welcher die Kostenfunktion auf den Trainingsdaten minimiert
3. **Vorhersagegenauigkeit** des trainierten Modells auf ungesehene Daten vornehmen und MSE ermitteln

---

## Fragestellung

> Welche Gerade $f(x) = w_0 + w_1 x$ beschreibt die Daten(Bspw. Punkte auf 2d-Diagramm) am besten?

## Lösungsmöglichkeit: MSE

> Die Gerade, die den Abstand(*Fehler*) zu Trainingsdaten minimiert

* Durschnittlichen Qudratischen Fehler über alle n Datenpunkte entspricht dem **mean squared error**:

$MSE =  \frac{1}{n} \sum_{i=0}^n e^2_i = \frac{1}{n} \sum_{i=0}^n (y_i - f(x_i))^2 = \frac{1}{n} \sum_{i=0}^n (y_i - (w_0 + w_1x_i))^2$

* MSE hängt nur v. Parametern $w_0$ und $w_1$ ab und wird als **Kostenfunktion** *J*(**Cost function**) angegeben: $J(w_0, w_1) = \frac{1}{n} \sum_{i=0}^n (y_i - (w_0 + w_1x_i))^2$

$\Rightarrow$ Ziel: **minimalen Koten** zu finden um den Fehler auf den Trainingsdaten zu minimieren.

## Gradient Descent

> **Optimum**(Paar v. $\hat{w_0}$ und $\hat{w_1}$) finden durch bspw. **Gradient Descent**:

* An beliebigen Stelle starten und schrittweiße ein Richtung des steilsten Abstiegs sich bewegen bis keine Verbesserung mehr erreicht wird.
* Negativer Gradient($\approx$Steigung) ist Vektor, der in Richtung d. steilsten Abstiegs zeigt:

<img  style="display: block; margin: auto;" src="https://miro.medium.com/max/1400/1*HrFZV7pKPcc5dzLaWvngtQ.png" width="400" height="400" />

* Gradient einer Funktion, ist Vektor, dessen Einträge ersten **partiellen Ableitungen** der Funktion sind
* Jeder Eintrag gibt dabei **Anstiegt** d. Funktion in Richtung d. Variablen an nach der abgeleitet wurde

$\Rightarrow$ $grad(f) = \begin{pmatrix} f_x \\ f_y  \end{pmatrix}$ berechnen, in dem man partielle Ableitung nach den jeweiligen Variablen macht!

### Anwendung von Gradient Decent

1. Wähle zufällige Startwerte für $\hat{w_0}$ und $\hat{w_1}$
2. Bestimme Richtung d. steilsten Abstiegs(Negativer Gradient)
3. Bewege($w_0, w_1$) in Richtung d. steilsten Abstiegs
4. WDH Schritte 2 & 3 bis keine Verbeserung mehr erreicht wird

Minimum der Kostenfuntion, durch Gradienten der Kostenfunktion bezüglich $w_0, w_1$:

Siehe MSE: $J(w_0, w_1) = \frac{1}{n} \sum_{i=0}^n (y_i - (w_0 + w_1x_i))^2$

> $\frac{\nabla}{\nabla w_0} J(w_0, w_1) = \frac{1}{n} \sum_{i=1}^n -2(y_i - (w_0 + w_1 x_i))$

> $\frac{\nabla}{\nabla w_1} J(w_0, w_1) = \frac{1}{n} \sum_{i=1}^n -2x_i(y_i - (w_0 + w_1 x_i))$

### Pseudocode zum Gradient Descent

* $\alpha$: Schrittgröße(*Lernrate*) in Richtung d. Gradienten
* Konvergiert, wenn sich $w_0, w_1$ zwischen 2 Iterationen nicht mehr als ein gegebenes $\epsilon$ ändert(Default sklearn: $0.001$).
* Jeder Durchlauf der Schleife beschreibt neue Gereade, die näher an Trainingsdaten liegt als vorherige:

![](./img/gd.png)

### Lernrate

> Lernrate $\alpha$ bestimmt die Schrittgröße

1. Lernrate zu klein $\rightarrow$ Sehr langsame Annäherung an das Minimum
2. Lernrate zu groß $\rightarrow$ Gefahr, dass man über das Minimum hinaus springt

## Modelltraining

> Interne Parameter des ML-Modells so anpassen, dass diese bestmöglich Trainingsdaten beschreiben

* Finden Parameter $\hat{=}$ Modelltraing oder Lernen des ML-Modells

### Training-Test-Split

> Evaluieren wie gut Vorhersage des Modells auf neuen Datenpunkten ist

! **Modell nicht auf selben Daten auf denen Model trainiert wird evaluieren** !

* Vor Beginn des Trainings, alle zu Verfügung stehenden Daten zufällig in *Trainingsdaten* & *Testdaten* unterteilt(*80/20*)

### Performance-Evaluation

1. Mache für jeden Datenpunkt $x_i$ in Testdaten Vorhersage $f(x_i)$
2. Bestimme *Vorhersagefehler* $y_i - f(x_i)$
3. Bestimme mittleren quadratischen Fehler(MSE) über alle Datenpunkte

$\Rightarrow$ Metrik(MSE) wurde auf Trainingsdaten angewandt. Jetzt gleiches Prinzip auf Testdaten

## Ausblick

### Mehrdimensionale Regression

> Gleiche Prinzip wie beschrieben auf mehrere Variablen anwenden

* n-Dimensionale Vorhersagefunktione nutzen

<!-- TODO ausführlicher machen ? -->

### Polynomale Regression

> Andere Muster, bei denen keine direkten lineare Zusammenhänge bestehen

<!-- TODO ausführlicher machen ? -->

## Quellen

* Bild: https://miro.medium.com/max/1400/1*HrFZV7pKPcc5dzLaWvngtQ.png
* Pseudocode: ML Kurs Folien
* General informations: https://towardsdatascience.com/linear-regression-simplified-ordinary-least-square-vs-gradient-descent-48145de2cf76