# Mathematik für Biologiestudierende II

Sommersemester 2024

30.04.2024

&copy; 2024 Prof. Dr. Rüdiger W. Braun 

In [None]:
import numpy as np
import pandas as pd
from scipy import stats
import seaborn as sns
sns.set_theme()

# Mutiples Testen

### Beispiel Gummibärchen

![Cartoon aus xkcd](bilder/signi1.png)

Quelle: https://xkcd.com/882

![Cartoon aus xkcd](bilder/signi2.png)

![Cartoon aus xkcd](bilder/signi3.png)

![Cartoon aus xkcd](bilder/signi4.png)

* Ein Fall von Data Snooping
* Bei einem Signifikanztest zum Nivea $\alpha=0.05$ wird in 5% der Fälle die Nullhypothese fälschlich abgelehnt
* In dem Beispiel des Cartoons gibt es 20 Experimente; es ist zu erwarten, dass in einem Fall die Nullhypothese zu unrecht abgelehnt wird

## Multiple Vergleiche

Möglichkeiten für korrektes Vorgehen
 

Man testet die Nullhypothese 

> $H_0$ = "Grüne Gummibärchen verursachen keine Akne"

in einem neuen Experiment zum Signifikanzniveau~5\%

oder man rechnet des multiple Experiment mit einer Korrektur des Signifikanzniveaus

* Bonferroni-Korrektur
* Bonferroni-Holm-Korrektur
* False Discovery Rate

## Bonferroni-Korrektur

* Wenn man simultan $n$ Vergleiche durchführt, dann schreibt die Bonferroni-Korrektur vor, dass man jeden einzelnen Vergleich zum Signifikanzniveau $\frac\alpha n$ durchführt
* Im Beispiel der Gummibärchen hätten die Einzelversuche zum Signifikanzniveau $\frac\alpha{20} = 0.0025$ durchgeführt werden müssen

* Im Beispiel der Schwarzstörche hätte für jeden Einzeltest das Signifikanzniveau $\alpha = \frac{0.05}{100} =  0.0005$ gewählt werden müssen

## Bonferroni-Holm-Korrektur 

erkläre ich, nachdem ich die Bonferroni-Korrektur für die ANOVA vorgemacht habe

## False Discovery Rate

* Beispiel Bilddaten: 20 MNR-Aufnahmen von gesunden Gehirnen und 20 MNR-Aufnahmen von erkrankten Gehirnen, wobei die Gehirne auf einen Standardatlas normalisiert werden
* In einem Bild werden alle Voxel (3D-Pixel) markiert, bei denen der Eisengehalt der Gruppe der Erkrankten signifikant über dem der Gruppe der Gesunden liegt

*  Millionen von parallelen Experimenten:  Bonferroni-Korrektur praktisch unmöglich
* Alternative: False Discovery Rate
* FDR von 1% sagt: im Schnitt sind nur 1% aller markierten Voxel falsch
* Zum Vergleich: Ein multipler Test zum Signifikanzniveau 5% sagt: Die Wahrscheinlichkeit, dass auch nur ein einziges Voxel zu Unrecht markiert ist, beträgt höchstens 5%

# ANOVA

Zurück zu den Pinguinen

In [None]:
df = sns.load_dataset("penguins") 
gA = df[df.species=='Adelie'].bill_length_mm
gG = df[df.species=='Gentoo'].bill_length_mm
gC = df[df.species=='Chinstrap'].bill_length_mm

In [None]:
res = stats.f_oneway(gA.dropna(), gG.dropna(), gC.dropna())
res

Die Schnabellängen unterscheiden sich also

Wir hätten auch drei t-Tests rechnen können

In [None]:
r1 = stats.ttest_ind(gA.dropna(), gG.dropna())
r1

In [None]:
r2 = stats.ttest_ind(gA.dropna(), gC.dropna())
r2

In [None]:
r3 = stats.ttest_ind(gG.dropna(), gC.dropna())
r3

* Das ist multiples Testen, muss also korrigiert werden

* Drei Tests gerechnet
* Gewünscht: $\alpha=0.01$
* Bonferroni-Korrektur:  Jeden einzelnen Test zu $\frac\alpha3 = 0.003333$ auswerten

* Zu $\alpha=0.01$ werden Unterschiede in den Schnabellängen zwischen Adelie- und Eselspinguinen und zwischen Adelie- und Zügelpinguinen gefunden
* Der Unterschied zwischen Esels- und Zügelpinguinen ist nicht signifikant

# Post-hoc Analyse

* Wenn die ANOVA einen signifikanten Unterschied zwischen den Gruppen gezeigt hat, dann versucht man mit der post-hoc Analyise herauszubekommen, zwischen welchen beiden Gruppen signifikante Unterschiede bestehen
* Die post-hoc Analyse muss für multiple Vergleiche korrigiert werden

In [None]:
from statsmodels.sandbox.stats.multicomp import MultiComparison

Achtung:  Hier wird irgendwann der Bestandteil `sandbox` überflüssig

Wir müssen die nan-Werte los werden

In [None]:
df_dropped = df[df.bill_length_mm.notnull()]
df_dropped.head()

In [None]:
muc = MultiComparison(df_dropped.bill_length_mm, df_dropped.species)

In [None]:
muc.allpairtest(stats.ttest_ind, alpha=0.01, method='bonferroni')[0]

### Dasselbe mit Bonferroni-Holm

In [None]:
muc.allpairtest(stats.ttest_ind, alpha=0.01, method='holm')[0]

## Bonferroni-Holm

* n multiple Vergleiche werden durchgeführt
* Die p-Werte werden der Größe nach geordnet
* der kleinste p-Wert muss signifikant zu $\frac\alpha n$ sein
* der zweitkleinste zu $\frac\alpha{n-1}$
* drittkleinste zu $\frac\alpha{n-2}$
* usw.
* der größte zum Niveau $\alpha$

Bei den Pinguinen

* der kleinste p-Wert ist 2.79721289e-72, er ist kleiner als $\frac{0.01}3 = 0.003333$
* der zweitkleinste p-Wert ist 4.02351804e-62, er ist kleiner als $\frac{0.01}2 = 0.005$
* der drittkleinste p-Wert ist 0.006175813142, er ist kleiner als $\alpha = 0.01$


* Wendet man Bonferroni-Holm an, so unterscheiden sich auch die Schnabellängen zwischen Esels- und Zügelpinguinen signifikant

* Genau wie die Wahl des Signifikanzniveaus muss die Frage nach der Korrektur des p-Werts innerhalb der Fachwissenschaft beantwortet werden

In [None]:
sns.displot(df, x='bill_length_mm', col='species');

### Beispiel Taxis

In [None]:
df = sns.load_dataset('taxis')

In [None]:
df.head()

In [None]:
df.dropoff_borough.value_counts()

In [None]:
m = df[df.dropoff_borough=='Manhattan'].tip
q = df[df.dropoff_borough=='Queens'].tip
b = df[df.dropoff_borough=='Brooklyn'].tip
x = df[df.dropoff_borough=='Bronx'].tip
s = df[df.dropoff_borough=='Staten Island'].tip

In [None]:
stats.f_oneway(m, q, b, x, s)

Das Trinkgeld hängt vom Aussteigeort ab

Bei den nans machen wir es uns jetzt einfach

In [None]:
df_dropped = df.dropna()

In [None]:
df_dropped.describe()

In [None]:
muc = MultiComparison(df_dropped.tip, df_dropped.dropoff_borough)

In [None]:
muc.allpairtest(stats.ttest_ind, method='holm')[0]