## Mathematik für Biologiestudierende II

Sommersemester 2024

11.06.2024

&copy; 2024 Prof. Dr. Rüdiger W. Braun 

In [None]:
import numpy as np
import pandas as pd
from scipy import stats
import seaborn as sns
sns.set_theme()

# Lineare Modelle

* eine lineare Funktion einer Variablen ist eine Funktion der Form
$$   y = m \cdot x + b
$$
* bei der linearen Regression besteht die Aufgabe darin, $m$ und $b$ zu bestimmen
* beim linearen Modell werden $m$ und $b$ auch bestimmt, man erhält aber zusätzlich noch ein Konfidenzintervall für sie

* Literatur: "Linear Models with Python" von Faraway
* Statsmodels: https://www.statsmodels.org/stable/user-guide.html

Wir beginnen mit den Blutdruckdaten

In [None]:
df = pd.read_csv("blutdruckdaten.csv")
df.head()

In [None]:
sns.regplot(df, x='Alter', y='Blutdruck');

In [None]:
import statsmodels.formula.api as smf

In [None]:
formel = 'Blutdruck ~ Alter'

Das bedeutet:

* wir wollen den Blutdruck modellieren
* als einzigen unabhängigen Parameter wählen wir das Alter

In [None]:
modell = smf.ols(formel, df)

* `ols`: ordinary least squares
* Lektion 20: die Regression ist "bestmöglich" in dem Sinn, dass
$$
    \sum_{j=1}^n (m \cdot x_j + b - y_j)^2 
$$
minimal wird
* daher der Name "Methode der kleinsten Quadrate"

In [None]:
res = modell.fit()

In [None]:
res.summary()

* Ich werde die wichtigsten Daten aus dieser Ausgabe erkären
* aber nicht alle

zum Vergleich:  wir hatten in Lektion 20 die lineare Regression zu Fuß gerechnet und für die Steigung den folgenden Wert erhalten:

In [None]:
cov = 348.57
var_x = 231.13
m = cov / var_x
np.round(m, 4)

* Das ist genau die Zahl, die in der Spalte `coef` und der Zeile `Alter` steht

* Der Wert für den Ordinatenabschnitt (engl: "intercept") war damals

In [None]:
xq = 44.800  # Mittelwert für x
yq = 147.93  # Mittelwert für y
b = yq - m*xq
np.round(b, 4)

* Das ist die Zahl, die in der Spalte `coef` und der Zeile `Intercept` steht
* es gibt eine kleine Abweichung durch Rundungsfehler


Wir schauen uns die Zeile `Alter` weiter an:

In [None]:
res.summary()

* Der Eintrag `P>|t|` bezeichnet den p-Wert für den zweiseitigen Test, dass `coef` ungleich 0 ist.
* `coef` ist das *m* aus der Formel der linearen Regression


* wenn die Nullhypothese $H_0=\{m\ne0\}$ nicht abgelehnt werden kann, dann bedeutet das, dass zum Signifikanzniveau $\alpha=0.05$ nicht nachgewiesen wurde, dass das Alter überhaupt einen Einfluss auf den Blutdruck hat

* zum Vergleich fügen wir eine zufällige Zeile an

In [None]:
P = stats.norm()
df['Zufallsdaten'] = P.rvs(size=30)

In [None]:
formel2 = 'Blutdruck ~ Zufallsdaten'
modell2 = smf.ols(formel2, df)

In [None]:
res2 = modell2.fit()
res2.summary()

* Der Wert für `P>|t|` ist größer als 0.05
* Daher kann die Nulhypothese, dass `Zufallsdaten` keinen Einfluss auf `Blutdruck` hat, nicht abglehent werden

In [None]:
sns.regplot(df, x='Zufallsdaten', y='Blutdruck');

Weiter mit der Zeile `Alter`

In [None]:
res.summary()

* Die Einträge `[0.025` und `0.975]` geben die untere und die obere Vertrauensgrenze des Konfidenzintervalls zum Konfidenzniveau 0.95 an

* Variante:  99%-Konfidenzintervall
* Achtung:  Für Konfidenzintervall zum Konfidenzniveau $1-\alpha$ muss $\alpha$ eingegeben werden

In [None]:
res.conf_int(alpha=.01)

Der Wert für $m$ in der Formel für die lineare Regression liegt mit 99% Sicherheit zwischen 0.993 und 2.034.

* Der Eintrag `t` ist der Wert der Teststatistik, aus dem der p-Wert bestimmt worden ist

In Lektion 21 hattenn wir den Korrelationskoeffizienten bestimmt

In [None]:
r = 0.83705

In [None]:
r**2

In [None]:
res.summary()

* $r^2$ ist die Größe, die in `res.summary()` als `R-squared` auftaucht

# Anderes Beispiel: Größen von Vätern und Söhnen

In [None]:
df = pd.read_csv('galton.csv')
df.head()

Ein Datensatz zum Buch "Linear Models with Python" von Faraway

In [None]:
formel = 'childHeight ~ mother'

In [None]:
modell = smf.ols(formel, df)

In [None]:
res = modell.fit()
res.summary()

``childHeight = 0.4465*father  + 38.3626``

Vorfaktor ist kleiner als 1:  Regression to the mean

In [None]:
sns.regplot(df, x='father', y='childHeight')