# Lineare Regression

Lineare Regressionsmodelle sind ein guter Ausgangspunkt für Regressionsaufgaben.

Solche Modelle sind beliebt, weil sie sehr schnell angepasst werden können und sehr gut interpretierbar sind. 

Die einfachste Form eines linearen Regressionsmodells ist die Anpassung einer geraden Linie an Daten, wir werden nachher aber auch sehen, wie man kompliziertere Modelle anpassen kann.

Wir beginnen mit den Standard-Importen:

In [None]:
%matplotlib inline
import matplotlib.pyplot as plt
import seaborn as sns; sns.set()
import numpy as np

plt.rcParams["figure.figsize"] = (10,8)

## Einfache lineare Regression

Eine Gerade ist durch die Gleichung

$y = b + wx$

gegeben, wobei $w$ die Steigung der Gerade ist und $b$ als y-Achsenabschnitt/Bias/Intercept bezeichnet wird.

Generieren wir uns ein paar Daten, die um die Gerade $y = -5 + 2x$ gestreut sind:

> NumPys `np.ramdom.default_rng` gibt einen Pseudo-Zufallsgenerator zurück. Damit wir bei unseren Experimenten
> nachvollziehbare Werte bekommen, initiieren wir ihn mit einem festen `seed` - hier 1.
>
> `random` gibt Werte im Bereich $[0, 1)$ zurück. Mit `random(100)` erhalten wir ein Array von 100 Zufallswerten.
>
> `standard_normal` gibt analog Werte zurück, allerdings diesmal Standard-Normalverteilt. `random` ist gleichverteilt.

**Beachte:** Obwohl `x` ein Array ist, können wir damit in normaler "skalarer" Schreibweise `y` als Array errechnen.

In [None]:
m = 100

rng = np.random.default_rng(1)
x = 10 * rng.random(m)
y = 2 * x - 5 + rng.standard_normal(m)
sns.scatterplot(x, y);

Wir können Scikit-Learns `LinearRegression Estimator` verwenden, um die beste Gerade zu ermitteln:

> `np.linspace` erzeugt ein "linear verteiltes" Array. D.h. `np.linspace(0, 10, 1000)` verteilt ermittelt 1000 gleichweit verteilte Punkte zwischen 0 und 10.

> `np.newaxis` erhöht die Dimension eines Vektors oder einer Matrix: aus einer ein-dimensionalen Struktur wird eine zwei-Dimensionale etc.


> `x[:,np.newaxis]` erzeugt aus dem Vektor (1D) $[x^{(1)}, x^{(2)}, \dots, x^{(n)}]$ eine Matrix (2D) $[[x^{(1)}], [x^{(2)}], \dots, [x^{(n)}]]$ - unsere Design-Matrix.

In [None]:
v = 10 * rng.random(5)

print('Ursprüngliches Array v: {} - {}'.format(v.shape, v))
print('Nach v[:, np.newaxis]: {} - \n{}'.format(v[:, np.newaxis].shape, v[:, np.newaxis]))
print('Nach v[np.newaxis, :]: {} - {}'.format(v[np.newaxis, :].shape, v[np.newaxis, :]))

`variable.shape()` ist dein Freund: Es hilft regelmäßig zu prüfen, ob die Dimensionen der Matrizen tatsächlich zusammen passen

In [None]:
from sklearn.linear_model import LinearRegression
model = LinearRegression(fit_intercept=True)

model.fit(x[:, np.newaxis], y)

xfit = np.linspace(0, 10, 1000)
yfit = model.predict(xfit[:, np.newaxis])

sns.scatterplot(x, y)
sns.lineplot(xfit, yfit);


Die Steigung und der y-Achsenabschnitt sind in den Anpassungsparametern des
Modells enthalten. Diese sind in Scikit-Learn immer durch einen abschließenden Unterstrich
gekennzeichnet. Hier sind es die Parameter `coef_` und `intercept_`:

In [None]:
print("Modell: y = {} + {} * x".format(model.intercept_, model.coef_[0]))

Wir sehen, dass die Ergebnisse sehr nahe an den Inputs liegen.


## Multivariater Fall

Der LinearRegression-Schätzer ist jedoch noch viel leistungsfähiger.
Er kann neben einfachen Geradengleichungen auch mehrdimensionale lineare Modelle
der Form

$y=a_0+a_1x_1+a_2x_2+\dots$

mit höher-dimensionalen x ermitteln.

Geometrisch entspricht dies der Anpassung einer Ebene an Punkte in drei Dimensionen
oder der Anpassung einer Hyperebene an Punkte in höheren Dimensionen.

Die mehrdimensionale Natur solcher Regressionen macht es schwieriger, sie zu
visualisieren, aber wir können ja einfach mal testen, ob die lineare Regression die Parameter für Eingabedaten
**ohne Fehler** ermittelt:

In [None]:
rng = np.random.default_rng(1)
X = rng.random((4, 3))
y = 0.5 + np.dot(X, [1.5, -2., 1.])

model.fit(X, y)
print(f'X: {X}')
print(f'X.shape: {X.shape}')
print(f'y: {y}')
print(f'Bias: {model.intercept_}')
print(f'Weights: {model.coef_}')

Wir ermitteln $y$ als Punkte der Hyperebene, die durch die vier zufälligen Stützpunkte $x$ definiert sind, und die lineare
Regression gewinnt die Koeffizienten zurück, die zur Konstruktion der Hyperebene verwendet wurden.

> **Beachte:** Oben hatten wir Skalare mit einem Array multipliziert - dies können wir in Python mit dem gewöhnlichen Multiplikations-Operator tun. Hier multiplizieren wir zwei Vektoren: $(3,1)$ mal $(1,3)$ - dafür brauchen wir die [Matrizenmultiplikation (dot-Produkt)](https://de.wikipedia.org/wiki/Matrizenmultiplikation)