## Einfache lineare Regression
----------------------------------------

In diesem Abschnitt wird eine spezielle Art der Regression behandelt, die als <a href="https://en.wikipedia.org/wiki/Simple_linear_regression">einfache lineare Regression</a> bezeichnet wird. In diesem speziellen Fall der Regressionsanalyse wird die Beziehung zwischen der Antwortvariablen $y$ und der Prädikatorvariablen $x$ in Form einer **linearen** Gleichung dargestellt

$$y= a + bx\text{,}$$

wobei $a$ und $b$ Konstanten sind. Die Zahl $a$ wird als **Achsenabschnitt** bezeichnet und definiert den Schnittpunkt der Regressionslinie mit der $y$-Achse ($x=0$). Die Zahl $b$ wird als **Regressionskoeffizient** bezeichnet. Er ist ein Maß für die Steigung der **Regressionsgeraden**. So gibt $b$ an, um wie viel sich der $y$-Wert ändert, wenn sich der $x$-Wert um $1$ Einheit erhöht. Das Adjektiv **einfach** bezieht sich auf die Tatsache, dass die Ergebnisvariable mit einem einzigen Vorhersagewert verknüpft ist. Das Modell wird als **deterministisches Modell** betrachtet, da es eine genaue Beziehung zwischen $x$ und $y$ herstellt.

Lassen Sie uns ein einfaches Beispiel betrachten. Gegeben ist eine Grundgesamtheit von $n=3$ Punkten mit kartesischen Koordinaten ($x_i,y_i$) von ($1,6$), ($2,8$) und ($3,10$). Diese Punkte liegen auf einer Geraden und können daher durch ein lineares Gleichungsmodell in der Form $y=a+bx$ beschrieben werden, wobei der Schnittpunkt $a=4$ und $b=2$ ist.

![Alt-Text](95_linearreg.png)

In vielen Fällen ist die Beziehung zwischen zwei Variablen $x$ und $y$ jedoch nicht exakt. Das liegt daran, dass die Antwortvariable $y$ von anderen unbekannten und/oder zufälligen Prozessen beeinflusst wird, die von der Prädikatorvariable $x$ nicht vollständig erfasst werden. In einem solchen Fall liegen die Datenpunkte nicht auf einer Geraden. Die Daten können jedoch immer noch einer zugrunde liegenden linearen Beziehung folgen. Um diese Unbekannten zu berücksichtigen, wird der linearen Modellgleichung ein **Zufallsfehlerterm**, bezeichnet mit $ϵ$, hinzugefügt, was im Gegensatz zum oben beschriebenen deterministischen Modell zu einem **probabilistischen Modell** führt.

$$y = a + b x + \epsilon$$

wobei angenommen wird, dass der Fehlerterm $\epsilon_i$ aus unabhängigen normalverteilten Werten besteht, $\epsilon_i \sim N(0,\sigma^2)$.

Bei der linearen Regressionsmodellierung werden folgende Annahmen über das Modell getroffen (Mann 2012).

- Der zufällige Fehlerterm $\epsilon$ hat für jedes $x$ einen Mittelwert gleich Null.
- Die mit verschiedenen Beobachtungen verbundenen Fehler sind unabhängig.
- Für jedes gegebene $x$ ist die Verteilung der Fehler normal.
- Die Verteilung der Fehler für jedes $x$ hat die gleiche (konstante) Standardabweichung, die mit $\sigma_\epsilon$ bezeichnet wird.

Betrachten wir ein weiteres Beispiel. Diesmal nehmen wir eine Zufallsstichprobe mit dem Stichprobenumfang $n=8$ aus einer Grundgesamtheit. Um zu betonen, dass die Werte des Abschnitts und der Steigung aus Stichprobendaten berechnet werden, werden $a$ und $b$ mit $\beta_0$ bzw. $\beta_1$ bezeichnet. Außerdem wird der Fehlerterm $\epsilon$ als $e$ bezeichnet. $\beta_0$, $\beta_1$ und $e$ sind also Schätzungen auf der Grundlage von Stichprobendaten für die Grundgesamtheitsparameter $a$, $b$ und $\epsilon$.

$$\hat y = \beta_0 + \beta_1 x + e \text{,}$$

wobei $\hat y$ der **geschätzte oder vorhergesagte Wert** von $y$ für einen bestimmten Wert von $x$ ist.

![Alt-Text](95_linearreg2.png)

Der Fehler $e_i$ für jedes einzelne Wertepaar ($x_i,y_i$), auch **Residuum** genannt, wird aus der Differenz zwischen dem beobachteten Wert $y_i$ und dem durch $\hat{y}_i$ gegebenen vorhergesagten Wert errechnet.

$$e_i = y_i - \hat y_i$$

Je nach Datenlage ist $e_i$ eine negative Zahl, wenn $y_i$ unterhalb der Regressionslinie liegt, oder eine positive Zahl, wenn $y_i$ oberhalb der Regressionslinie liegt.