## Mathematik für Biologiestudierende II

Sommersemester 2024

28.05.2024

&copy; 2024 Prof. Dr. Rüdiger W. Braun 

In [None]:
import numpy as np
import pandas as pd
from scipy import stats
import seaborn as sns
sns.set_theme()

# Konfidenzintervalle

# Konfidenzintervall für den Erwartungswert

* $X_1, \dots, X_n$ seien normalverteilt mit unbekanntem Erwartungswert und unbekannter Streuung
* Für den Erwartungswert soll ein Konfidenzintervall zum Konfidenzniveau $1-\alpha$ geschätzt werden
* Benötigt werden das $1 - \frac\alpha2$-Quantil $t_{n-1, 1-\alpha/2}$ der $t$-Verteilung mit $n-1$-Freiheitsgraden,
* das arithmetische Mittel $\overline x$ der Daten,
* und die Stichprobenstreuung $s$ der Daten
* Das Konfidenzintervall ist
$$   \left[ \overline x - \frac{s \cdot t_{n-1, 1-\alpha/2}}{\sqrt n},\,
        \overline x + \frac{s \cdot t_{n-1, 1-\alpha/2}}{\sqrt n} \right]  $$

### Bedeutung des Konfidenzintervalls

* Das Konfidenzintervalls zum Konfidenzniveau $1-\alpha$ ist ein Intervall, in welchem der wahre Erwartungswert $\mu$ mit Wahrscheinlichkeit $1-\alpha$ liegt
* Die beiden Grenzen des Konfidenzintervalls bezeichnet man als obere und untere *Vertrauensgrenze*
* Das Konfidenzintervall ist die zufallsbehaftete Größe, nicht der Erwartungswert
  \end{itemize}

### Beispiel: Roggenpflanzen

* Gesunde Roggenpflanzen einer bestimmten Art sind im Mittel $102.5cm$ lang.  Die Länge sei normalverteilt
* Durch Umwelteinflüsse änderte sich möglicherweise die mittlere Halmlänge.  Das soll zum Konfidenzniveau 95% überprüft werden
* Die folgenden Längen werden gemessen

In [None]:
df = pd.DataFrame()
df['Länge'] = [96.62, 94.91, 85.05, 101.61, 109.55, 93.05, 97.86, 96.66, 95.08, 98.87]
df

In [None]:
df.describe()

* $1 - \alpha = 0.95$, also $\alpha = 0.05$ und $1 - \frac\alpha2 = 0.975$
* Es wird das Quantil $t_9,0.975$ benötigt

In [None]:
P = stats.t(9)
P.ppf(0.975)

In [None]:
ugrenze = 96.926 - 6.233*P.ppf(0.975) / np.sqrt(10)
ugrenze

In [None]:
ogrenze = 96.926 + 6.233*P.ppf(0.975) / np.sqrt(10)
ogrenze

* Der Erwartungswert für gesunde Pflanzen beträgt 102.5$cm$.  Da er nicht in dem Konfidenzintervall zum Konfidenzniveaub 95% liegt, kann man zum Signifikanzniveau 95% sagen, dass die Roggenpflanzen geschädigt sind
* Kennt man also das Konfidenzintervall zum Konfidenzniveau $1-\alpha$, so kann man den *zweiseitigen* t-Test zum Signifikanzniveau $\alpha$ durchführen

* dasselbe mit `statsmodels`

In [None]:
import statsmodels.stats.api as sms

sms.DescrStatsW(df.Länge).tconfint_mean()

### Plot des Konfidenzintervalls

<img src="bilder/roggen2.svg" alt="Konfidenzintervall" width="75%"/>

Der gelbe Bereich ist das Konfidenzintervall zum Konfidenzniveau 95%

# Korrelation 

Die Datei enthält Alter und Blutdruck von 30 Probanden

In [None]:
df = pd.read_csv('blutdruckdaten.csv')
df

In [None]:
sns.regplot(df, x='Alter', y='Blutdruck', fit_reg=False);

Wir wollen die "beste" Gerade durch diese Punkte

In [None]:
sns.regplot(df, x='Alter', y='Blutdruck');

Die Bedeutung des hellblauen Bereichs verstehen wir nach der Erläuterung der Geraden

# Empirische Kovarianz

* Empirische Kovarianz: Wie empirische Varianz, aber für Datenpaare
* Wir haben $n$ Datenpaare $(x_1, y_1), (x_2, y_2), \dots, (x_n,y_n)$
* das arithmetische Mittel der $x_j$ ist $\overline x$, das der $y_j$ ist $\overline y$
* die *empirische Kovarianz* von $x$ und $y$ ist
$$ \text{covar}_{\text{emp}}(x,y) 
      = \frac1{n-1} \bigl( (x_1-\overline x)(y_1-\overline y) + (x_2-\overline
        x)(y_2-\overline y) + \dots + (x_n-\overline x)(y_n-\overline y)\bigr) $$

* Formel ohne Pünktchen
$$   \text{covar}_{\text{emp}}(x,y) = \frac1{n-1} \sum_{j=1}^n (x_j - \overline x)(y_j - \overline y) $$
* Die Kovarianz misst, wie $x$ und $y$ zusammenhängen

In [None]:
df.cov()

* Die Tabelle zeigt für jedes Faktorpaar die zugehörige Kovarianz
* Sie ist symmetrisch
* Auf der Diagonalen stehen die empirischen Varianzen

# Lineare Regression

* "Lineare Regression":  Bestimmung einer Regressionsgeraden 
* "linear": auf einer Gerade liegend
* "Gerade": Funktionsvorschrift
$$      y = m \cdot x + b  $$
* Hierbei ist 
  * $m$ die Steigung der Geraden
  * $b$ der Ordinatenabschnitt der Geraden

* Die Regressionsgerade ist die Gerade mit der bestmöglichen Annäherung an die Datenpunkte 
* "bestmöglich" bedeutet
$$ \sum_{j=1}^n (m \cdot x_j + b - y_j)^2 \overset{!}{=} \min $$

## Formel für die lineare Regression

* Gegeben: Datenpaare $(x_1, y_1), (x_2, y_2), \dots, (x_n, y_n)$
* Gesucht: Regressionsgerade $y = m \cdot x + b$
* Rechenvorschrift:  
    \begin{align*}
      m &= \frac{\text{covar}_\text{emp}(x,y)}{s_x^2} \\
      b &= \overline y - m \overline x
    \end{align*}
* Dabei:
  * $\overline x$ und $\overline y$: arithmetisches Mittel von $x$ und $y$
  * $s_x^2$ empirische Varianz von $x$ 
  * $\text{covar}_\text{emp}(x,y)$ empirische Kovarianz von $x$ und $y$

### Beispiel Blutdruck

In [None]:
cov = 348.57
var_x = 231.13
m = cov / var_x
m

In [None]:
df.describe()

In [None]:
xq = 44.8

In [None]:
yq = 147.93

In [None]:
b = yq - m*xq
b

# Blutdruckdaten: Interpretation

* Pro Jahr steigt der Blutdruck um 1.5\,$mm$\,Hg 
* $b$ hat hier keine eigenständige Bedeutung, denn nahe $x=0$ wurden keine Daten erhoben
* Bei einem 50jährigen erwartet man einen Blutdruck von
  $$ 1.51 \cdot 50 + 80.4 = 155.9 $$
* Das ist absolut ungesund!

In [None]:
sns.regplot(df, x='Alter', y='Blutdruck');

## Bedeutung des hellblauen Bereichs

* `seaborn`berechnet ein Konfidenzintervall für $m$ und eins für $b$
* und daraus ein Konfidenzintervall für die erwarteten Werte für jedes Alter
* an den Rändern wird die Schätzung ungenauer, daher geht der Konfidenzbereich zu den Rändern hin etwas auseinander

* dasselbe für ein kleineres $\alpha$
* Achtung:  der Parameter `ci` wird in % angegeben

In [None]:
sns.regplot(df, x='Alter', y='Blutdruck', ci=99.9);

* `seaborn` bestimmt das Konfidenzintervall mit einer nichtparametrischen Methode

### Beispiel für zwei unkorrelierte Größen

* formal ist es auch möglich, Regressionsplot für zwei unkorrelierte Größen auszurechnen

* man glaubt, einen Zusammenhang zu sehen
* das ist ein Irrtum
* die Größe habe ich als normalverteilte Zufallsdaten an den Datensatz angefügt

In [None]:
df['Zufall'] = stats.norm().rvs(30)

In [None]:
sns.regplot(df, x='Zufall', y='Blutdruck');