## Mathematik für Biologiestudierende II

Sommersemester 2024

04.06.2024

&copy; 2024 Prof. Dr. Rüdiger W. Braun 

## Vorlesungsevaluation

* Bitte füllen Sie den Evaluationsbogen aus
* Der Bogen hat **drei** Seiten, die als zwei getrennte Blätter durchgereicht werden
* Bitte stecken Sie den ausgefüllten Bogen in den Briefumschlag, der durch die Reihen geht


| Nr | Tag | Zeit  | Leitung|  | Nr | Tag | Zeit  | Leitung         |
|:--:|:---:|------:|:------:|--|:--:|:---:|------:|:---------------:|
| 1  | Di  | 14:30 | Adams  |  | 6  | Do  | 12:30 | Dreher (online) |
| 2  | Do  | 10:30 | Dubovci|  | 7  | Do  | 17:30 | Dreher (online) |
| 3  | Do  | 11:30 | Dubovci|  | 8  | Fr  | 11:30 | Mones           |
| 4  | Di  | 13:30 | Adams  |  | 9  | Fr  | 12:30 | Mones           |
| 5  | Mi  | 12:30 | Pukhova|  |    |     |       |                 |

In [None]:
import numpy as np
import pandas as pd
from scipy import stats
import seaborn as sns
sns.set_theme()

# Korrelation

* Eine Korrelation zwischen zwei Datensätzen ist eine gemeinsame oder gegenläufige Tendenz.
* Beispielsweise steigt der Blutdruck tendenziell mit dem Alter.
* Gemessen wird die Korrelation durch den empirischen Korrelationskoeffizienten.
* Der empirischen Korrelationskoeffizient beantwortet die Frage
 
>      Gibt es eine Korrelation?

* Die Antwort ist "ja", wenn der empirische Korrelationskoeffizient nahe bei $1$ oder bei $-1$ liegt.

# Empirischer Korrelationskoeffizient

* Kennzahl zur Überprüfung gemeinsamer Tendenz
* $s_x$ sei die Stichprobenstreuung der $x_j$ und $s_y$ die Stichprobenstreuung der $y_j$ 
* dann ist der *empirische Korrelationskoeffizient* gleich
$$      r = \frac{\text{covar}_{\text{emp}}(x,y)}{s_x \cdot s_y} $$

* Der Korrelationskoeffizient ist dimensionslos

### Beispiel: Blutdruckdaten 
    
Wir hatten in der letzten Woche die Kovarianz für die Blutdruckdaten bestimmt  

In [None]:
df = pd.read_csv('blutdruckdaten.csv')
df.cov()

In [None]:
df.describe()

In [None]:
cor = 348.57 / (15.203*27.391)
cor

## Berechnung mit `pandas`

In [None]:
df.corr()

## Interpretation

Der Korrelationskoeffizient zeigt an, ob zwei Datensätze eine gemeinsame Tendenz aufweisen

* wenn er nahe bei $1$ liegt, dann wachsen $x$ und $y$ gemeinsam (gemeinsame Tendenz)
* wenn er nahe bei $-1$ liegt, dann fällt $y$, wenn $x$ wächst (gegenläufige Tendenz)
* wenn er nahe bei $0$ liegt, dann gibt es kein gemeinsames Verhalten

* auch ein negativer Korrelationskoeffizient hat eine Bedeutung
* Beispiel:  Je weniger Pestizide ich im Garten ausbringe, desto mehr Bienen habe ich

## Beispiele

### Sehr gute Korrelation

In [None]:
df1 = pd.DataFrame()
P = stats.norm()
df1['x'] = np.arange(30)
df1['y'] = -2*df1['x'] + P.rvs(size=30)
df1

In [None]:
sns.regplot(df1, x='x', y='y');

In [None]:
df1.corr()

## schlechte Korrelation

In [None]:
df2 = pd.DataFrame()
df2['x'] = np.arange(30)
df2['y'] = P.rvs(size=30)
df2

In [None]:
sns.regplot(df2, x='x', y='y');

In [None]:
df2.corr()

* Man kann immer eine lineare Regression berechnen.  Bei schlechter Korrelation ist sie allerdings bedeutungslos.

# Regression zum Mittelwert

* Der Begriff *Regression* kommt von Francis Galton, einem Neffen von Charles Darwin
* Er hatte den auf der nächsten Folie gezeigten Datensatz analysiert
* Auf der $x$-Achse stehen die Größen der Väter in Zoll
* Auf der $y$-Achse stehen die Größen der Söhne in Zoll

<img src="bilder/galton.svg" alt="Daten von F. Galton" height="85%"/>

## Regression zum Mittelwert:  Interpretation

* Die Söhne ungewöhnlich großer oder kleiner Väter sind im Mittel selbst zwar auch größer bzw. kleiner als der Mittelwert, aber diese Differenz ist kleiner als bei den Vätern
* Galton bezeichnet dies (ziemlich unfreundlich) als "Regression to mediocrity"
* Das gilt aber nur für die Individuen, nicht für die Population als Ganzes
* auch in der nächsten Generation gibt es wieder ungewöhnlich große Individuen, aber in anderen Familien

# Korrelation $\ne$ Kausalität

* Wenn der Korrelationskoeffizient von $x$ und $y$ nahe $0$ liegt, dann gibt es keinen kausalen Zusammenhang     zwischen ihnen (seltene nichtlineare Pänomene mal ausgenommen)
* Man kann aber im umgekehrten Fall von einem Korrelationskoeffizienten nahe bei $1$ nicht auf einen kausalen     Zusammenhang schließen

* Zum Beispiel nimmt seit Jahrzehnten in Deutschland sowohl die Zahl der Geburten als auch die Zahl der Störche ab
* Der kausale Zusammenhang ist aber umstritten

* Beispiel aus der Schlafforschung:  Mittagsschlafdauern über 90 Minuten sind ungesund 

* Bei Menschen korreliert die Rechtschreibfähigkeit mit der Schuhgröße

* zumindest bei Menschen unter zehn Jahren

<img src="https://imgs.xkcd.com/comics/correlation.png" alt="xkcd Cartoon 552" width="85%"/>

Quelle: http://xkcd.com/552

## Beispiel: Bleibelastung im Gewebe von Ratten

* kontaminiertes Gelände: fange 10 Ratten
* unbelastetes Vergleichsgelände:  fange 10 Ratten
* für jede Ratte wird ihr Alter in Monaten und der Bleigehalt im Gewebe bestimmt

In [None]:
df = pd.read_csv('ratten.csv')
df

In [None]:
df_b = df[df.Gelände=='belastet']
df_u = df[df.Gelände=='unbelastet']

In [None]:
df_b.describe()

In [None]:
df_u.describe()

* Es gibt einen Unterschied in der Bleibelastung; aber auch eine große Stichprobenstreuung.

In [None]:
stats.ttest_ind(df_u.Belastung, df_b.Belastung, alternative='less')

* Der Unterschied ist nicht signifikant.
* Es fällt aber auf, dass die Ratten von dem belasteten Gebiet im Mittel jünger als die anderen sind.
* Wir wollen das Alter herausrechnen

* Steigt die Bleibelastung mit dem Alter

In [None]:
df_b.corr(numeric_only=True)

In [None]:
df_u.corr(numeric_only=True)

Wir plotten beide Regressionen in ein Bild, ähnlich wie bei `distplot`

In [None]:
sns.lmplot(df, x='Alter', y='Belastung', hue='Gelände');