# Linear Regression

Bei der einfachen linearen Regression wird eine quantitative Zielvariable (response variable) $Y$ mit nur einer Prädiktorvariablen $X$ vorhergesagt. Mathematisch läßt sich das durch einen linearen Zusammenhang ausdrücken:

$$Y \approx \beta_0 + \beta_1 X$$

Das Symbol $\approx$ bedeutet "wird näherungsweise modelliert als".

Die unbekannten Konstanten $\beta_0, \beta_1$ heißen **Parameter** oder **Koeffizienten** und repräsentieren den Ordinatenabstand (*intercept*) und die Steigung (*slope*) der Regressionsgeraden.

Hat man mittels Trainingsdaten die Koeffizienten $\hat{\beta}_0$ und $\hat{\beta}_1$ geschätzt, kann man zukünftige Werte für die Responsevariable mit folgender Gleichung vorhersagen:

$$\hat{y} = \hat{\beta}_0 + \hat{\beta}_1 x$$

wobei $\hat{y}$ anzeigt, dass es sich um einen geschätzten Wert handelt.

## Berechnung der Koeffizienten

Bei der linearen Regression wird versucht eine Gerade derart durch die Datenpunkte zu legen, dass der Abstand der Geraden zu den Datenpunkten minimal wird. Es gibt mehrere Methoden, ein Distanzmaß zu definieren, am häufigsten wird die Methode der kleinsten Quadrate genommen, daher nennt man diese Form der Regression auch **ordinary least squares regression (OLSR)**.

### Residuen

$\hat{y}_i$ ist die Vorhersage der Variable $Y$ für den i-ten Wert von $X$:

$$\hat{y}_i = \hat{\beta}_0 + \hat{\beta}_1 x_i$$

Der Wert

$$e_i = y_i - \hat{y}_i$$

ist das i-te **Residuum**, also der Unterschied des vorhergesagten zum beobachteten Wert.

### Residual Sum of Squares (RSS)

Die quadrierte Summe der Residuen bezeichnet man mit **RSS (Residual sum of squares)**:

$$RSS = e_1^2 + e_2^2 + \dots + e_n^2 = \sum_{i=1}^{n} e_i^2$$
$$= \sum_{i=1}^{n} (y_i - \hat{y}_i)^2$$
$$= \sum_{i=1}^{n} (y_i - \hat{\beta}_0 - \hat{\beta}_1 x_i)^2$$


### Minimierung der RSS 

> Bei der Methode der kleinsten Quadrate werden $\hat{\beta}_0$ und $\hat{\beta}_1$ so bestimmt, dass RSS minimal wird. 

Mathematisch gesehen wird die erste Ableitung Null gesetzt.

$$\frac{\partial RSS}{\partial \hat{\beta}_0} = \sum_{i=1}^{n} -2 (y_i - \hat{\beta}_0 - \hat{\beta}_1 x_i) = 0$$

$$\frac{\partial RSS}{\partial \hat{\beta}_1} = \sum_{i=1}^{n} -2 x_i (y_i - \hat{\beta}_0 - \hat{\beta}_1 x_i) = 0$$

### Koeffizienten

Zunächst wird $\hat{\beta}_0$ bestimmt:

$$0 = \sum_{i=1}^{n} -2 (y_i - \hat{\beta}_0 - \hat{\beta}_1 x_i)$$

$$0= \sum_{i=1}^{n} (y_i - \hat{\beta}_0 - \hat{\beta}_1 x_i)$$

$$0= \sum_{i=1}^{n} y_i - \sum_{i=1}^{n} \hat{\beta}_0 - \sum_{i=1}^{n} \hat{\beta}_1 x_i$$

$$0= n \bar{y} - n\hat{\beta}_0 - n\hat{\beta}_1 \bar{x}$$

$$0= \bar{y} - \hat{\beta}_0 - \hat{\beta}_1 \bar{x}$$

> Der Wert des Koeffizienten $\hat{\beta}_0$ ist
> 
> $$\hat{\beta}_0 = \bar{y} - \hat{\beta}_1 \bar{x}$$

Um $\hat{\beta}_1$ zu bestimmen, setzen wir in Zeile 2 den eben ermittelten Wert für $\hat{\beta}_0$ ein:

$$0 = \sum_{i=1}^{n} -2 x_i (y_i - \hat{\beta}_0 - \hat{\beta}_1 x_i)$$

$$= \sum_{i=1}^{n} x_i y_i - \hat{\beta}_0 \sum_{i=1}^{n} x_i - \hat{\beta}_1 \sum_{i=1}^{n} x_i^2$$

$$= \sum_{i=1}^{n} x_i y_i - (\bar{y} - \hat{\beta}_1 \bar{x}) \sum_{i=1}^{n} x_i - \hat{\beta}_1 \sum_{i=1}^{n} x_i^2$$

$$= \sum_{i=1}^{n} x_i (y_i - \bar{y}) - \hat{\beta}_1 \sum_{i=1}^{n} x_i^2 - \hat{\beta}_1 \bar{x}\sum_{i=1}^{n} x_i$$

$$= \sum_{i=1}^{n} x_i (y_i - \bar{y}) - \hat{\beta}_1 \sum_{i=1}^{n}x_i(x_i - \bar{x})$$

und somit

> Der Wert des Koeffizienten $\hat{\beta}_1$ ist
> 
> $$\hat{\beta}_1 = \frac{\sum_{i=1}^{n} x_i (y_i - \bar{y})}{\sum_{i=1}^{n}x_i(x_i - \bar{x})}$$

Den Regressionsparameter $\hat{\beta}_1$ findet man in der Literatur meist in drei verschiedenen Darstellungen. Eine weitere gängige Darstellung ergibt sich, in dem man die Summen aufspaltet und die Mittelwerte einsetzt:

$$
\hat{\beta}_1 = \frac{\sum_{i=1}^{n} x_i y_i - \frac{1}{n}\sum_{i=1}^{n}x_i \sum_{i=1}^{n}y_i}{\sum_{i=1}^{n}x_i^2 - \frac{1}{n}(\sum_{i=1}^{n} x_i)^2}
$$

Die wohl bekannteste Darstellung ergibt sich, in dem man die Summenregeln für Mittelwerte anwendet:

$$
\hat{\beta}_1 = \frac{\sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})}{\sum_{i=1}^{n}(x_i - \bar{x})^2} 
$$

### Überprüfung der Minimalität

Es gilt noch zu überprüfen, ob es sich bei den gefundenen Werten tatsächlich um Minima handelt. Dazu sieht man sich im zweidimensionalen Fall zunächst die zweiten partiellen Ableitungen an:

$$\frac{\partial^2 RSS}{\partial \hat{\beta}_0^2} = -2 \sum_{i=1}^{n} (-1) = 2n$$

$$\frac{\partial^2 RSS}{\partial \hat{\beta}_1^2} = 2 \sum_{i=1}^{n}x_i^2$$

$$\frac{\partial^2 RSS}{\partial \hat{\beta}_0\partial\hat{\beta}_1} = 2 \sum_{i=1}^{n}x_i = 2n\bar{x}$$

Die entsprechende Hesse-Matrix ist:

$$
H =  
 \left (
 {\begin{array}{cc}
   2n & 2n\bar{x} \\
   2n\bar{x} & 2 \sum_{i=1}^{n}x_i^2 \\
  \end{array} } 
  \right )
$$

Damit ein Minimum vorliegt, muss die Hesse-Matrix positiv definit sein. Das wird nun auf zwei Arten überprüft. 

Sind die Determinanten der Hauptminoren positiv? 

$$\det H_1 = 2n > 0$$

$$\det H_2 = \det H = 4n \sum x_i^2 - 4 n^2 \bar{x}^2 > 0$$

$$\sum x_i^2 - n \bar{x}^2 > 0$$

$$\sum x_i^2 - \frac{\left (\sum x_i \right )^2}{n} > 0$$

$$n \sum x_i^2 > \left (\sum x_i \right)^2$$

Mit Hilfe der Cauchy-Schwarz Ungleichung mit $a_i = x_i$ und $b_i = 1$ folgt:

$$\left (\sum x_i \right )^2 = \left (\sum x_i \cdot 1 \right )^2 \leq \sum x_i^2 \cdot \sum 1^2 = n \sum x_i^2$$

Da Gleichheit nur gilt wenn alle $x_i$ gleich sind ist die positive Definitheit bewiesen.

Alternativ kann man sich die Definition einer positiv definiten Matrix ansehen und mit einem beliebigen zweidimensionalen (Spalten-)Vektor $v$ testen ob $v^T H v > 0$ ist:

$$
\left (
\begin{array}{cc}
   a & b 
\end{array}
\right )
\cdot
\left (
\begin{array}{cc}
   2n & 2n\bar{x} \\
   2n\bar{x} & 2 \sum_{i=1}^{n}x_i^2 \\
\end{array}
\right )
\cdot
\left (
\begin{array}{c}
   a \\
   b\\
  \end{array}
\right ) > 0
$$

Zunächst wird $v^T$ mit $H$ multipliziert. Das Produkt eines $1 \times 2$ Vektors mit einer $2 \times 2$ Matrix liefert einen $1 \times 2$ Vektor:

$$
\left (
\begin{array}{cc}
   2an + 2nb\bar{x} & 2na\bar{x} + 2b \sum x_i^2
\end{array}
\right )
\cdot
\left (
\begin{array}{c}
   a \\
   b\\
  \end{array}
\right ) > 0
$$

Nun wird ein $1 \times 2$ Vektor mit einem $2 \times 1$ Vektor multipliziert, das Ergebnis ist demnach eine Zahl ($1 \times 1$):

$$a \cdot \left ( 2na + 2nb\bar{x} \right ) + b\cdot \left ( 2na\bar{x} + 2b\sum x_i^2 \right) > 0$$

$$na^2 + 2nab\bar{x} + b\sum x_i^2 > 0$$

$$\sum a^2 + 2ab\sum x_i + 2b\sum x_i^2 > 0$$

$$\sum \left (a^2 + 2ab x_i + b^2 x_i^2 \right ) > 0$$

$$\sum (a + bx_i)^2 > 0$$

## Genauigkeit des Modells

### Standardfehler und Residual Standard Error (RSE)

Die **Standardfehler der Koeffizienten** $\hat{\beta}_0, \hat{\beta}_1$ geben an, wie nahe die geschätzten Koeffizienten bei den tatsächlichen Werten von $\beta_0$ und $\beta_1$ liegen. Es gelten folgende Formeln: 

$$SE(\hat{\beta}_0)^2 = \sigma^2 \cdot \left ( \frac{1}{n}+\frac{\bar{x}^2}{\sum_{i=1}^{n}(x_i - \bar{x})^2} \right )$$

$$SE(\hat{\beta}_1)^2 = \frac{\sigma^2}{\sum_{i=1}^{n}(x_i - \bar{x})^2}$$

Das $\sigma^2$ ist die Varianz des Fehlerterms, die allerdings unbekannt ist. Die Abschätzung dafür nennt man **Residual Standard Error (RSE)**:

$$RSE = \sqrt{\frac{RSS}{n-p-1}} = \sqrt{\frac{1}{n-p-1}\sum_{i=1}^n \left (y_i - \hat{y}_i \right )^2}$$

wobei $p$ die Anzahl der Prädiktoren ist (in unserem Fall der simplen Regression ist $p=1$). Der RSE ist eine Abschätzung der Standardabweichung von $\epsilon$, oder grob gesagt die durchschnittliche Abweichung von der wahren Regressionslinie. 

Das RSE ist somit ein Maß wie gut das Model an die Daten angepasst wurde, denn ist $\hat{y}_i \approx y_i \forall i=1,\dots,n$, dann wird das RSE sehr klein. 

> **Je kleiner** RSE, **desto besser** ist das Model an die Daten angepasst. 

### Mean squared error (MSE)

Ein sehr häufig verwendetes Maß bei Regressionen ist der **Mean Squared Error (MSE)**, der durch 

$$MSE = \frac{1}{n} \sum_{i=1}^{n} \left ( y_i - \hat{y}_i \right )^2 = \frac{RSS}{n}$$

gegeben ist. 

> Ein **kleiner** MSE bedeutet, dass die vorhergesagten Werte nahe bei den tatsächlichen Werten liegen.

### Konfidenzintervall

Mit Hilfe der Standardfehler der Koeffizienten können wir nun Konfidenzintervalle berechnen. Bekanntlich sagt uns ein 95% Konfidenzintervall, dass der wahre Wert der unbekannten Parameter mit 95% Wahrscheinlichkeit in dem Bereich des Konfidenzintervalls liegen.

Näherungsweise gilt für die Koeffizienten $\hat{\beta}_i \, (i=0,1)$: 

$$CI = \left [ \hat{\beta}_i - 2\cdot SE(\hat{\beta_i}), \hat{\beta}_i + 2\cdot SE(\hat{\beta_i})\right ]$$

Der Faktor 2 gilt nur als Approximation, für ein genaues Ergebnis benötigt man den Wert der t-Verteilung für $n-2 = 6$ Freiheitsgrade und 95% Konfidenz. Ein Blick in eine Tabelle liefert 2.4469.

### Hypothesentests

Die Standardfehler ermöglichen es uns auch, *Hypothesentests* für die Koeffizienten durchzuführen, da die Teststatistik 

$$\frac{\hat{\beta}_i - \beta_{(H_0)}}{SE(\hat{\beta}_i)}$$

einer t-Verteilung mit $n-p$ Freiheitsgraden folgt. Dabei ist $\beta_{(H_0)}$ der Regressionskoeffizient, der in der Nullhypothese postuliert wird (meistens 0).

Die gängiste Variante eines Hypothesentests für die Regression ist (mit der Nullhypothese $H_0$ und der Alternativhypothese $H_1$):

$$H_0: \beta_1 = 0$$

$$H_1: \beta_1 \neq 0$$

Um die Nullhypothese zu testen berechnen wir eine t-Statistik (auch bekannt als Wald-Test)

$$t = \frac{\hat{\beta}_1 - 0}{SE(\hat{\beta}_1)}$$

die angibt, wie viele Standardabweichungen $\hat{\beta}_1$ von 0 entfernt ist. Ergibt unser Test bei einem Signifikanzniveau von $\alpha = 0.05$ ein $p < 0,05$, dann wird $H_0$ verworfen (erinnere: *if p is low, $H_0$ must go*).

### $R^2$

Der RSE ist in Einheiten von $Y$ gemessen. Um ein skalenunabhängiges Maß zu haben verwendet man eine Verhältnisgröße der erklärten Varianz, die zwischen 0 und 1 liegt. 

Bezeichnen wir zunächst mit **TSS** (*total sum of squares*) die gesamte Streuung der Daten (Varianz):

$$TSS = \sum_{i=1}^n \left ( y_i - \bar{y} \right )^2$$

Dann lässt sich diese in Analogie zur Varianzanalyse zerlegen (mit $\bar{y} = (1/n)\sum \hat{y}_i$):

$$\sum_{i=1}^n \left ( y_i - \bar{y} \right )^2 = \sum_{i=1}^n \left ( \hat{y}_i - \bar{y} \right )^2 + \sum_{i=1}^n \left ( y_i - \hat{y}_i \right )^2$$

oder anders gesagt: Die gesamte Varianz ist die Varianz der Schätzwerte plus der Varianz der Residuen. Das gesuchte Maß ist dann: 

$$R^2 = \frac{TSS - RSS}{TSS} = 1 - \frac{RSS}{TSS}$$

> Ein Wert von $R^2$ nahe 1 bedeutet, dass ein großer Teil der Variabilität der Response durch die Regression erklärt wird.

### Adjusted $R^2$

Bei Modellen mit mehreren Variablen wird das $R^2$ angepasst, um die Güte von Modellen mit unterschiedlicher Anzahl an ausgewählten Variablen bewerten zu können - mehr dazu später. An dieser Stelle wollen wir uns nur die Formel dafür ansehen, wobei $d$ die Anzahl der gewählten Variablen ist (also $d=1$):

$$R_{adj}^2 = 1 - \frac{RSS/(n-d-1)}{TSS/(n-1)} = 1 - \frac{(n-1)\cdot RSS}{(n-2)\cdot TSS}$$

### F-Statistik

Die F-Statistik spielt für Hypothesentests bei der multiplen linearen Regression eine Rolle. An dieser Stelle sei nur die Formel dafür erwähnt:

$$F = \frac{(TSS-RSS)/p}{RSS/(n-p-1)} = (n-2)\frac{TSS-RSS}{RSS}$$

### Log-Likelihood

Die Likelihood-Funktion für die lineare Regression ist (unabhängige Beobachtungen vorausgesetzt) das Produkt der Wahrscheinlichkeitsdichten für die $n$ Beobachtungen:

$$L = \prod_{i=1}^{n} \frac{1}{\sigma\sqrt{2\pi}} exp \left (- \frac{(y_i - \hat{\beta}_0 - \hat{\beta}_1 x_i)^2}{2 \sigma^2} \right )=$$

$$= \left ( \frac{1}{\sigma\sqrt{2\pi}} \right )^n exp \left (- \frac{1}{2 \sigma^2} \sum_{i=1}^n (y_i - \hat{\beta}_0 - \hat{\beta}_1 x_i)^2 \right )=$$

$$= \left ( \frac{1}{\sigma\sqrt{2\pi}} \right )^n e^{-RSS/2\sigma^2}=$$

$$= (2\pi\sigma^2)^{-n/2} \cdot e^{-RSS/2\sigma^2}$$

Die Log-Likelihood-Funktion für die lineare Regression ist daher (mit $RSS = \sigma^2 \cdot n$): 

$$LL = \ln(L) = \ln ( (2\pi\sigma^2)^{-n/2} \cdot e^{-RSS/2\sigma^2}) = $$

$$= \ln((2\pi\sigma^2)^{-n/2}) - \left ( \frac{RSS}{2\sigma^2} \right ) = $$

$$= -\frac{n}{2}\ln(2\pi\sigma^2) - \frac{n\sigma^2}{2\sigma^2} = $$

$$= -\frac{n}{2}\ln(2\pi) - \frac{n}{2} \ln(\sigma^2) - \frac{n}{2} = $$

$$= -\frac{n}{2}\ln(2\pi) -\frac{n}{2}\ln \left (\frac{RSS}{n}\right ) -\frac{n}{2}$$


### AIC, BIC

Das Akaike Information Criterion (AIC) und das Bayesian Information Criterion (BIC) sind definiert als: 

$$AIC = 2k - 2\cdot LL$$

$$BIC = \ln(n)\cdot k - 2\cdot LL$$

mit $k$ der Anzahl der zu schätzenden Parameter (also in unserem Fall mit $\beta_0, \beta_1, \epsilon$ ist $k=3$).

AIC und BIC werden verwendet, um verschiedene Modelle miteinander zu vergleichen.

## Ein einfaches Beispiel

In [2]:
import pandas as pd
import numpy as np
from sklearn.linear_model import LinearRegression
from sklearn import metrics
import statsmodels as sm
import statsmodels.formula.api as smf

from bdsm import quality
from bdsm.datasets import sunshine

In [3]:
# Datensatz laden
df = sunshine()

In [4]:
quality(df)

Dataframe has 8 rows and 2 columns.

0 columns have missing values.


Unnamed: 0,type,unique,missing_abs,missing_rel
Sonnenstunden,float64,8,0,0.0
Konzertbesucher,int64,7,0,0.0


### Lineare Regression händisch berechnen

**Response- und Predictorvariable festlegen**

Wir speichern die Werte der Predictorvariablen $X$ in $x$ und die der Responsevariablen $Y$ in $y$ und führen einige Abkürzungen zur besseren Lesbarkeit ein:

In [5]:
x = np.array(df.Sonnenstunden)
y = np.array(df.Konzertbesucher)

# Nützliche Abkürzungen
x_bar = np.mean(x)
y_bar = np.mean(y)
SXX = np.sum((x-x_bar)**2)
SXY = np.sum((x-x_bar)*(y-y_bar))

# Anzahl der Datenpunkte
n = np.size(x)

# Anzahl der Prädiktoren
p = 1

#### Berechnung der Koeffizienten

In der neuen Schreibweise berechnet sich der Regressionskoeffizient $\hat{\beta}_1$ als

$$\hat{\beta}_1 = \frac{SXY}{SXX}$$

Somit erhalten wir für die Regressionskoeffizienten:

In [6]:
beta_hat_1 = SXY/SXX
beta_hat_0 = y_bar - beta_hat_1 * x_bar

In [7]:
beta_hat_1

5.336410534890034

In [8]:
beta_hat_0

15.728319304914475

#### Residuen

Mit den Werten für $\hat{\beta}_0$ und $\hat{\beta}_1$ können wir die Prädiktoren $\hat{y}$ bestimmen:

In [9]:
y_hat = beta_hat_1 * x + beta_hat_0

Daraus ergeben sich sofort die Residuen $e_i$, die wir in der Variable `res` speichern:

In [10]:
# Residuen
res = y - y_hat
res

array([-3.86749932,  3.93065436, -2.80483302,  5.99332066, -2.80944882,
        3.92142275, -5.21314146,  0.84952484])

#### Standardfehler

Für die Berechnung der Standardfehler (Koeffizienten und Residuen) benötigen wie die RSS sowie $\sigma^2$, welches wir in `sigma_sq` speichern:

In [11]:
# Residual Sum of Squares (RSS)
RSS = np.sum(res**2)

# Sigma squared
sigma_sq = RSS/(n-p-1)

# Residual Standard Error (RSE)
RSE = np.sqrt(sigma_sq)
print("RSE: ", RSE)

# Standard Error of Regression Coefficients
se_beta_0 = np.sqrt(sigma_sq * (1/n + (x_bar**2)/SXX))
se_beta_1 = np.sqrt(sigma_sq/SXX)
print("SE(beta_0): ", se_beta_0, " SE(beta_1): ", se_beta_1)

RSE:  4.570989515784033
SE(beta_0):  4.437227000146887  SE(beta_1):  0.9527289390578388


#### Mean Squared Error

In [12]:
MSE = RSS/n
print("MSE:", MSE)

MSE: 15.670458865055664


#### Konfidenzintervall

In [13]:
from scipy import stats

# Näherungsweise
CI_approx = np.array([[beta_hat_0 - 2*se_beta_0, beta_hat_0 + 2*se_beta_0],[beta_hat_1 - 2*se_beta_1, beta_hat_1 + 2*se_beta_1]])

# Den Wert für die t-Verteilung mit df=6 bekommt man auch direkt aus Python
studT = stats.t.ppf(1-0.025,6)

CI = np.array([[beta_hat_0 - studT*se_beta_0, beta_hat_0 + studT*se_beta_0],[beta_hat_1 - studT*se_beta_1, beta_hat_1 + studT*se_beta_1]])

print("CI_approx:\n", CI_approx)
print("CI:\n", CI)

CI_approx:
 [[ 6.8538653  24.60277331]
 [ 3.43095266  7.24186841]]
CI:
 [[ 4.87081598 26.58582263]
 [ 3.00516681  7.66765426]]


#### Hypothesentests

Wir berechnen die t-Statistik für beide Regressionskoeffizienten:

In [14]:
# t-Values
t_beta_1 = beta_hat_1/se_beta_1
t_beta_0 = beta_hat_0/se_beta_0
print("t_beta_0: ", t_beta_0, "\nt_beta_1: ", t_beta_1)

t_beta_0:  3.544628053600552 
t_beta_1:  5.6011844671867035


Dazu interessieren uns jetzt die p-Werte, zu deren Berechnung Python einen Näherungsalgorithmus verwendet:

In [15]:
t = 3.54462805 # t-Value
f = 1.0
tz = 1.0
j = 2.0 # Zählvariable
k = 6.0 # Anzahl der Freiheitsgrade

z = 1 + (t**2)/k

while (j <= (k-2)) :
    tz = tz * ((j-1)/(z*j))
    f = f + tz
    j = j + 2
    
p = f * t / np.sqrt(z * k)
p = 0.5 + 0.5*p
p = 2*(1-p)
print(p)

0.012150695888024199


Man sieht sofort, dass die `while` Schleife in unserem einfachen Fall nur zweimal durchlaufen wird. Daher gilt für die Variablen $tz$ und $f$ mit $tz_0 = 1, j_0 = 2$:

$$tz_1 = tz_0 \frac{j_0 - 1}{zj_0} = \frac{1}{2z}$$
$$tz_2 = tz_1 \frac{j_i - 1}{zj_1} = \frac{1}{2z}\frac{3}{4z} = \frac{3}{8z^2}$$
$$f_1 = f_0 + tz_1 $$
$$f_2 = f_1 + tz_2 = f_0 + tz_1 + tz_2 = 1 + \frac{1}{2z} + \frac{3}{8z^2}$$

Somit folgt nach einer kleinen Umformung für die p-Werte:

$$p = 1 - \Big( 1 + \frac{1}{2z} + \frac{3}{8z^2} \Big) \frac{t}{\sqrt{6z}}$$

Eine Formel, die sich mit jedem besseren Taschenrechner ausrechnen läßt! Das wollen wir gleich testen:

In [16]:
t = t_beta_0
z = 1 + (t**2)/6

p_val = 1 - (1 + 1/(2*z) + 3/(8*(z**2)))*t/np.sqrt(6*z)
p_beta_0 = p_val
p_beta_0

0.012150695835125958

In [17]:
t = t_beta_1
z = 1 + (t**2)/6

p_val = 1 - (1 + 1/(2*z) + 3/(8*(z**2)))*t/np.sqrt(6*z)
p_beta_1 = p_val
p_beta_1

0.001379362627713876

#### $R^2$

In [18]:
# Total sum of Squares
TSS = np.sum((y-y_bar)**2)

# R^2
R_sq = 1 - RSS/TSS
R_sq

0.8394574407934108

#### Adjusted $R^2$

In [19]:
# Adjusted R^2
R_sq_adj = 1 - ((n-1)*RSS)/((n-2)*TSS)
R_sq_adj

0.8127003475923127

#### F-Statistik

Leider gibt es für den p-Wert der F-Statistik keine einfache Näherungsformel, sondern nur eine komplizierte Iteration von Gamma- und Betafunktionen, deren Herleitung den Rahmen dieser Lehrveranstaltung übersteigt.

In [20]:
# F-Statistic
F_stat = (n-2)*((TSS-RSS)/RSS)
F_stat

31.373267435453595

#### Log-Likelihood

In [21]:
LogLik = -(n/2)*np.log(2*np.pi) - (n/2)*np.log(RSS/n)-n/2
LogLik

-22.358617621507904

#### AIC, BIC

In [22]:
k = 3
AIC = 2*k - 2*LogLik
BIC = np.log(n)*k - 2*LogLik
print("AIC: ", AIC, "\nBIC: ", BIC)

AIC:  50.71723524301581 
BIC:  50.95555986805532


In [23]:
# Mean Squared Error (MSE)
MSE = TSS/n
MSE

97.609375

### Regression in Python mit sklearn

#### Response- und Predictorvariable festlegen

`sklearn` benötigt die Predictorvariable(n) $X$ und die Responsevariable $Y$ als Spaltenvektoren. Dazu verwenden wir die `reshape` Methode von numpy:

In [24]:
X = np.array(df.Sonnenstunden).reshape((-1, 1))
Y = np.array(df.Konzertbesucher).reshape((-1, 1))

In [25]:
Y

array([[22],
       [33],
       [30],
       [42],
       [38],
       [49],
       [42],
       [55]], dtype=int64)

#### Berechnung der Koeffizienten

Die eigentliche Regression wird mit der Methode `fit()` durchgeführt:

In [26]:
model = LinearRegression().fit(X,Y)

Sehen wir uns die Koeffizienten der Regression an:

In [27]:
from IPython.display import display, Math, Latex
beta_0 = model.intercept_[0]
beta_1 = model.coef_[0][0]

display(Latex(r'$\hat{\beta}_0$:')) 
display(Math(r'{}'.format(beta_0)))
display(Latex(r'$\hat{\beta}_1$:'))
display(Math(r'{}'.format(beta_1)))

<IPython.core.display.Latex object>

<IPython.core.display.Math object>

<IPython.core.display.Latex object>

<IPython.core.display.Math object>

Die Regressionsgleichung ist somit:

In [28]:
display(Math(r'Y = {} + {} \cdot X'.format(round(beta_0,2),round(beta_1,2))))

<IPython.core.display.Math object>

#### $R^2$

Nun wollen wir uns die Responsevariable $\hat{Y}$ vorhersagen lassen und in `Y_hat` speichern:

In [29]:
Y_hat = model.predict(X)

Das $R^2$ bekommen wir entweder direkt aus `model`oder mittels `metrics.r2_score`:

In [30]:
model.score(X,Y)

0.8394574407934109

In [31]:
metrics.r2_score(Y, Y_hat)

0.8394574407934109

#### Mean Squared Error

In [32]:
metrics.mean_squared_error(Y,Y_hat)

15.67045886505566

### Regression in Python mit statsmodels

Eine bequemere Art die lineare Regression durchzuführen ist das Paket `statsmodels` zu verwenden, wie schon die wesentlich kompaktere und übersichtlichere Syntax zeigt:

In [33]:
results = smf.ols('Konzertbesucher ~ Sonnenstunden', data=df).fit()

`statsmodels` bietet auch eine nette Übersicht der Parameter:

In [34]:
print(results.summary())

                            OLS Regression Results                            
Dep. Variable:        Konzertbesucher   R-squared:                       0.839
Model:                            OLS   Adj. R-squared:                  0.813
Method:                 Least Squares   F-statistic:                     31.37
Date:                Mon, 08 Nov 2021   Prob (F-statistic):            0.00138
Time:                        15:44:02   Log-Likelihood:                -22.359
No. Observations:                   8   AIC:                             48.72
Df Residuals:                       6   BIC:                             48.88
Df Model:                           1                                         
Covariance Type:            nonrobust                                         
                    coef    std err          t      P>|t|      [0.025      0.975]
---------------------------------------------------------------------------------
Intercept        15.7283      4.437      3.545



Wir sehen uns jetzt die von uns berechneten Größen im Vergleich zur Ausgabe von `statsmodel` an:

In [35]:
print("Value\t\tStatsmodel\t\tManual\t\t\tDelta")
print("beta_0\t\t", results.params[0],"\t",beta_hat_0,"\t", abs(results.params[0]-beta_hat_0))
print("beta_1\t\t", results.params[1], "\t", beta_hat_1,"\t", abs(results.params[1]-beta_hat_1))
print("t beta_0\t", results.tvalues[0], "\t", t_beta_0, "\t", abs(results.tvalues[0]-t_beta_0))
print("t beta_1\t", results.tvalues[1], "\t", t_beta_1, "\t", abs(results.tvalues[1]-t_beta_1))
print("p beta_0\t", results.pvalues[0], "\t", p_beta_0, "\t", abs(results.pvalues[0]-p_beta_0))
print("p beta_1\t", results.pvalues[1], "\t", p_beta_1, "\t", abs(results.pvalues[1]-p_beta_1))
print("CI beta0 lo\t", results.conf_int().values[0][0], "\t", CI[0][0], "\t", abs(results.conf_int().values[0][0]-CI[0][0]))
print("CI beta0 hi\t", results.conf_int().values[0][1], "\t", CI[0][1], "\t", abs(results.conf_int().values[0][1]-CI[0][1]))
print("CI beta1 lo\t", results.conf_int().values[1][0], "\t", CI[1][0], "\t", abs(results.conf_int().values[1][0]-CI[1][0]))
print("CI beta1 hi\t", results.conf_int().values[1][1], "\t", CI[1][1], "\t", abs(results.conf_int().values[1][1]-CI[1][1]))
print("R^2\t\t", results.rsquared, "\t", R_sq, "\t", abs(results.rsquared - R_sq))
print("adj. R^2\t", results.rsquared_adj, "\t", R_sq_adj, "\t", abs(results.rsquared_adj - R_sq_adj))
print("F-Stat\t\t", results.fvalue, "\t", F_stat, "\t", abs(results.fvalue - F_stat))
print("LogLik\t\t", results.llf, "\t", LogLik, "\t", abs(results.llf - LogLik))
print("AIC\t\t", results.aic, "\t", AIC,"\t", abs(results.aic-AIC))
print("BIC\t\t", results.bic, "\t", BIC,"\t", abs(results.bic-BIC))

Value		Statsmodel		Manual			Delta
beta_0		 15.728319304914468 	 15.728319304914475 	 7.105427357601002e-15
beta_1		 5.3364105348900335 	 5.336410534890034 	 8.881784197001252e-16
t beta_0	 3.5446280536005523 	 3.544628053600552 	 4.440892098500626e-16
t beta_1	 5.601184467186704 	 5.6011844671867035 	 8.881784197001252e-16
p beta_0	 0.012150695835125904 	 0.012150695835125958 	 5.377642775528102e-17
p beta_1	 0.001379362627713965 	 0.001379362627713876 	 8.912141857830846e-17
CI beta0 lo	 4.870815982476692 	 4.870815982476692 	 0.0
CI beta0 hi	 26.585822627352243 	 26.585822627352258 	 1.4210854715202004e-14
CI beta1 lo	 3.0051668052226814 	 3.0051668052226814 	 0.0
CI beta1 hi	 7.6676542645573855 	 7.667654264557387 	 1.7763568394002505e-15
R^2		 0.8394574407934108 	 0.8394574407934108 	 0.0
adj. R^2	 0.8127003475923126 	 0.8127003475923127 	 1.1102230246251565e-16
F-Stat		 31.373267435453595 	 31.373267435453595 	 0.0
LogLik		 -22.358617621507904 	 -22.358617621507904 	 0.0
AIC		 48.

Etwas später werden wir die Differenz bei AIC und BIC erklären.

### Gemeinsamkeiten und Unterschiede zu R

Wir sehen uns nun die lineare Regression in R an:

<a href="http://rstudio.bds.fhstp.ac.at" target="new">R Studio Server Pro</a>

#### Residuen

Sehen wir uns an, wie Python standardmässig die Quartile der Residuen ausgibt. Dazu berechnen wir sie zunächst:

In [36]:
residuals = y - y_hat
residuals.sort()
residuals

array([-5.21314146, -3.86749932, -2.80944882, -2.80483302,  0.84952484,
        3.92142275,  3.93065436,  5.99332066])

In [37]:
np.quantile(residuals,[.0,.25,.5,.75,1])

array([-5.21314146, -3.07396144, -0.97765409,  3.92373065,  5.99332066])

Die standardmässige Ausgabe liefert das gleiche Ergebnis wie der Standard bei R. Aber auch in Python gibt es mehrere Optionen. Die Option `type=2` aus R ist in Python `interpolation='midpoint'`:

In [38]:
np.quantile(residuals,[.25,.5,.75], interpolation='midpoint') # R type=2,5

array([-3.33847407, -0.97765409,  3.92603856])

#### AIC, BIC in Python Statsmodel

Statsmodel hat eine andere Art das AIC zu berechnen. In `linear_model.py` ist die Funktion `aic()` definiert als

```python
    def aic(self):
        return -2 * self.llf + 2 * (self.df_model + self.k_constant)
```

wobei `df.model` die Freiheitsgrade des Modells sind (also in dem Fall 1, da wir nur eine unabhängige Variable haben) und `k.constant` ist für die lineare Regression = 1. `llf` ist der LogLikelihood Wert und stimmt mit dem von R überein. Wir haben daher als Unterschied: 

$$AIC_R = -2\cdot LL + 2 \cdot 3$$
$$AIC_{Py} = -2 \cdot LL + 2 \cdot 2$$

Das `self.df_model` wird berechnet als

```python
self._df_model = float(self.rank - self.k_constant)
```

wobei hier `rank` der Rang der Matrix der Singulärwerte von $X$ ist, in unserem Fall = 2. Würde Python für das AIC statt `self.df_model` den Wert `df.rank` verwenden, hätte man das gleiche Ergebnis wie in R.