# Mathematik für Biologiestudierende

Wintersemester 2025/26

18.11.2025

&copy; 2025 Prof. Dr. Rüdiger W. Braun 

## Wiederholung (interaktiv)

Gehen Sie auf die Website

* https://pingo.coactum.de

und geben Sie folgende Zugangsnummer ein

* **670719**

oder scannen Sie den QR-Code

![QR-Code](bilder/qr02.png)

## Themen heute

* Bedingte Wahrscheinlichkeit
* Wahrscheinlichkeitsbäume
* Hardy-Weinberg Gesetz
* Grundlagen der Hypothesentests
* Binomialtest

In [1]:
import numpy as np
np.set_printoptions(legacy='1.21')
import seaborn as sns
sns.set_theme()
sns.set_context('talk')
import pandas as pd

# Bedingte Wahrscheinlichkeit

$$   P(A|B) = \frac{P(A \cap B)}{P(B)}  $$

bezeichnet man als *bedingte Wahrscheinlichkeit* von $A$ unter der Hypothese $B$

man sagt auch "Wahrscheinlichkeit von $A$ gegeben $B$"

### Beispiel Röntgenreihenuntersuchung

In den 1960-er Jahren wurden Röntgenreihenuntersuchungen durchgeführt.  Beispielhafte Daten:

* bei 94\% aller Erkrankten schlägt der Test an
* bei 1% der Gesunden schlägt der Test an 
* 99.8% aller Probanden sind gesund

Zufällig herausgegriffener Proband
* $A$: "Verdacht auf TB"
* $B$: "an TB erkrankt" 

* $P(B) = 0.002$ gegeben
* $P(A|B) = 0.94$ gegeben
* $P(A|B^c) = 0.01$ gegeben
* $P(A) = 0.01186$ hatten wir mit dem Satz von der totalen Wahrscheinlichkeit bestimmt

# Bayessche Formel

Bekannt:
* totale Wahrscheinlichkeit $P(B)$
* bedingte Wahrscheinlichkeiten $P(A|B)$ und $P(A|B^c)$
* totale Wahrscheinlichkeit $P(A)$ aus dem Satz von der totalen Wahrscheinlichkeit

Gesucht: bedingte Wahrscheinlichkeit $P(B|A)$
$$   P(B|A) = \frac{P(A|B) \cdot P(B)}{P(A)}  $$

"Falsch positiver Befund": Krankheit zu Unrecht diagnostiziert
    
Letztes Mal ausgerechnet:      
$$      \begin{align*}
        P(B^c | A) 
        &= 1 - P(B|A) \\
        &= 1 - \frac{P(A|B) \cdot P(B)}{P(A)} \\
        &= 1 - \frac{0.94 \cdot 0.002}{0.01186} \\
        &= 1 - 0.1585 \\
        &= 0.8415
      \end{align*}
$$

Wer mit Verdachtsdiagnose aus der Röntgenreihenuntersuchung kam, war mit nahezu 85% Wahrscheinlichkeit **gesund**

Beispiel:  Mit welcher Wahrscheinlichkeit ist ein Proband, bei dem die Untersuchung keinen Verdacht zeigt, auch tatsächlich gesund?

Gesucht $P(B^c|A^c)$ 

In der Bayesschen Formel
$$
   P(B|A) = \frac{P(A|B) \cdot P(B)}{P(A)}
$$
müssen wir $A$ durch $A^c$ und $B$ durch $B^c$ ersetzen.  

Benötigte Größen

* $P(A^c|B^c) = 1 - P(A|B^c) = 1 - 0.01 = 0.99$
* $P(B^c) = 0.998$
* $P(A^c) = 1 - P(A) = 1 - 0.01186 = 0.98814$

$$
    \begin{align*}  P(B^c|A^c) &= \frac{P(A^c|B^c)\cdot P(B^c)}{P(A^c)} \\
        &= \frac{0.99 \cdot 0.998}{0.98814} \\
        &= 0.99988
    \end{align*}
$$

In dieser Situation arbeitet der Test fast perfekt.

Wo kommt die hohe Rate an falsch positiven Befunden her?

* Unter $100\,000$ Probanden sind nur $200$ Erkrankte,
* aber $1\,186$ Verdachtsfälle

# Wahrscheinlichkeitsbäume

<img src="https://www.math.uni-duesseldorf.de/~braun/bio2526/w-baum.svg" alt="Wahrscheinlichkeitsbaum" width="75%"/>

## Juwelenwespen

Juwelenwespen legen Eier in Puppen anderer Insekten.  Das Geschlechterverhältnis ist

* 95% weibliche und 5% männliche Eier, wenn die Puppe noch nicht von einer anderen Juwelenwespe infiziert wurde
* 10% weibliche und 90% männliche Eier andernfalls

Folgendes Experiment wird modelliert:
      
Eine Puppe wurde von zwei Juwelenwespen gestochen.  Beide Wespen haben dieselbe Anzahl Eier gelegt.

* $A$: Ei ist weiblich 
* $A^c$: Ei ist männlich 
* $B$ : Ei ist von erster Wespe 
* $B^c$ : Ei ist von zweiter Wespe 

### Wahrscheinlichkeitsbaum Juwelenwespe
     
Der Wahrscheinlichkeitsbaum für eine zweimal gestochene Puppe. Beide Wespen haben dieselbe Anzahl Eier gelegt.

<img src="https://www.math.uni-duesseldorf.de/~braun/bio2526/wespe1.svg" alt="Wahrscheinlichkeitsbaum" width="75%"/>

### Wahrscheinlichkeitsbaum Juwelenwespe
     
Totale Wahrscheinlichkeiten für die zweimal gestochene Puppe

<img src="https://www.math.uni-duesseldorf.de/~braun/bio2526/wespe2.svg" alt="Wahrscheinlichkeitsbaum" width="75%"/>

Eine Puppe wurde zweimal gestochen.  Beide Wespen haben dieselbe Anzahl Eier gelegt.  Mit welcher Wahrscheinlichkeit stammt ein zufällig ausgewähltes, männliches Ei von der zweiten Wespe?

* $A$: Ei ist weiblich 
* $A^c$: Ei ist männlich 
* $B$ : Ei ist von erster Wespe 
* $B^c$ : Ei ist von zweiter Wespe 
      
Gesucht $P(B^c|A^c)$

Bekannt:
$$    P(A^c) = 0.475, \qquad P(B^c) = 0.5, \qquad P(A^c|B^c) = 0.90  $$

$$    P(B^c|A^c) = \frac{P(A^c|B^c)P(B^c)}{P(A^c)}
        = \frac{0.90 \cdot 0.5}{0.475}
        = 0.947  $$

Die Wahrscheinlichkeit, dass ein zufällig ausgewähltes männliches Ei von der zweiten Wespe stammt, beträgt 94.7%

### Juwelenwespe: Genetische Vielfalt

* Ein männliches Ei stammt mit Wahrscheinlichkeit 0.053 von der ersten und mit Wahrscheinlichkeit 0.947 von der zweiten Wespe
* Ein weibliches Ei stammt mit Wahrscheinlichkeit 0.905 von der ersten und mit Wahrscheinlichkeit 0.095 von der zweiten Wespe
* Treffen ein männliches und ein weibliches Ei aufeinander, so beträgt die Wahrscheinlichkeit, dass sie von derselben Wespe abstammen
$$       0.053 \cdot 0.905 + 0.947 \cdot 0.095 = 0.138  $$

# Hardy-Weinberg Gleichgewicht

* Ein Gen komme in zwei Ausprägungen vor, genannt $A$ und $a$.  Dann hat jedes Individuum einen der folgenden
Genotypen:  $AA$, $Aa$ oder $aa$.  
* Wenn die Population in Hinblick auf dieses Gen im Gleichgewicht ist, dann haben diese drei Genotypen
bestimmte Wahrscheinlichkeiten $ u $, $ 2v $ und $w$ 
* Wenn $A$ das dominante Allel ist, dann kann man die Zahl $w$ beobachten, die Zahlen $ u $ und $v$ aber nicht.

## Modell


* $V_{AA}$: "Vater mit Genotpy $AA$" 
* $V_{Aa}$: "Vater mit Genotyp $Aa$"
* $V_{aa}$: "Vater mit Genotyp $aa$"
* $M_{AA}$: "Mutter mit Genotyp $AA$"
* $K_{AA}$: "Kind mit Genotyp $AA$"
* $M_{Aa}$, $M_{aa}$, $K_{Aa}$ und $K_{aa}$ sollten dann klar sein

* Gegeben $P(V_{AA}) = P(M_{AA}) = u$, $P(V_{Aa}) = P(M_{Aa}) = 2v$ und $P(V_{aa}) = P(M_{aa}) = w$.  
* Dieselben Größen für die Kindgeneration.  
* Bestimmen wir die bedingten Wahrscheinlichkeiten $P(K_{AA} \mid V_{XY} \cap M_{ZW})$ etc. nach den Mendelschen Regeln für jede Variante von $XY$ bzw. $ZW$ als $AA$, $Aa$ oder $aa$

* $P(K_{AA} \mid V_{XY} \cap M_{ZW})$
$$    \begin{array}{c|ccc}
      \text{Mutter} \Bigm\backslash \text{Vater} & AA & Aa & aa \\\hline
      AA & 1 & 1/2 & 0 \\
      Aa & 1/2 & 1/4 & 0 \\
      aa & 0 & 0 & 0 
    \end{array}  $$

* $P(K_{Aa} \mid V_{XY} \cap M_{ZW})$
$$    \begin{array}{c|ccc}
      \text{Mutter} \Bigm\backslash \text{Vater} & AA & Aa & aa \\\hline
      AA & 0 & 1/2 & 1 \\
      Aa & 1/2 & 1/2 & 1/2 \\
      aa & 1 & 1/2 & 0 
    \end{array}  $$

* $P(K_{aa} \mid V_{XY} \cap M_{ZW})$
$$    \begin{array}{c|ccc}
      \text{Mutter} \Bigm\backslash \text{Vater} & AA & Aa & aa \\\hline
      AA & 0 & 0 & 0 \\
      Aa & 0 & 1/4 & 1/2 \\
      aa & 0 & 1/2 & 1 
    \end{array}  $$

Mit der Formel für die totale Wahrscheinlichkeit

\begin{align*}
    P(K_{AA}) &= (u+v)^2 \\
    P(K_{Aa}) &= 2v + 2 u \cdot w - 2 v^2 \\
    P(K_{aa}) &= (v+w)^2
\end{align*}

Die Population ist im Gleichgewicht, wenn 
$$ \begin{align*}
    P(K_{AA}) &= P(V_{AA}) = P(M_{AA}) \\
    P(K_{Aa}) &= P(V_{Aa}) = P(M_{Aa}) \\
    P(K_{aa}) &= P(V_{aa}) = P(M_{aa})
\end{align*}
$$

d. h. wenn die Hardy-Weinberg Gleichungen gelten:
$$ \begin{align*}
  (u+v)^2 &= u\\
  2v + 2(u \cdot w - v^2) &= 2v\\
  (w+v)^2 &= w
\end{align*} $$

Dies ist genau dann der Fall ist, wenn
\begin{equation*}
  v^2 = u \cdot w
\end{equation*}

## Seltene Erberkrankungen 

Die Friedreich-Ataxie ist eine autosomal rezessiv vererbte Krankheit, von der ungefähr
1 Mensch unter 40000 betroffen ist.  Wir wollen $u$, $v$ und $w$ bestimmen.  

* Da die Krankheit rezessiv vererbt wird, ist $w = 1/40000$.  
* Man macht keinen großen Fehler, wenn man $u = 1$ setzt.  Dann folgt aus den Hardy-Weinberg Gleichungen
$$ v^2 = u \cdot w \cong w = \frac1{40000}  $$
also
$$ v = \frac1{200} $$

Also ist jeder hunderste ein Genträger dieser seltenen Erkrankung.  

Die SCA (spinozerebelläre Ataxie) ist eine Ataxie, die autosomal dominant vererbt wird.  Sie ist ungefähr genauso häufig wie die Friedreich-Ataxie.  

* In diesem Fall sind die Leute mit Genkombination $ aa $ die einzig gesunden, also $ w = 1 - 1/40000 $.  
* Dann ergeben die Hardy-Weinberg Gleichungen näherungsweise die Identität
$$  v^2 = u $$
* $v$ ist winzig, dann ist $u$ also noch winziger.  Wir vernachlässigen daher $u$ in der Formel $u + 2v + w = 1$ und erhalten
$$   2v = 1 - u - w \cong 1 -  w = \frac1{40000} $$

# Schließende Statistik

# Hypothesentests

#### Beispiel

Es wird vermutet, dass Wärme den Keimerfolg eines Getreides verringert.  900 Saatkörner werden ausgebracht.

* bunte Felder:  Erfolg
* schwarze Felder:  Misserfolg

<img src="https://www.math.uni-duesseldorf.de/~braun/bio2526/saatgut.svg" alt="Keimerfolge in kühlem und warmem Klima" width="50%"/>

#### Frage

Gibt es weniger Erfolge bei dem Anbauversuch im Warmen?

* im kühlem Klima gab es 720 Keimerfolge
* im warmen nur 696

die richtige Frage ist aber

* beruht der Unterschied auf Zufall
* oder ist er signifikant?

#### Zwei Probleme

die aber miteinander verbunden sind

#### Zufallseinflüsse unvermeidlich

* Sichere Aussagen unmöglich
* Vorgabe des Signifikanzniveaus begrenzt Fehlerwarscheinlichkeit

#### Binäre Antwort wird erwartet

obwohl prinzipiell drei Szenarien möglich sind

* klare Hinweise auf "ja"
* klare Hinweise auf "nein"
* unklares Ergebnis

"klar" und "unklar" bemisst sich nach dem Signifikanzniveau

#### Beispiel Saatgut

Generell sind vier Ausgänge des Experiments möglich

#### Beeinträchtigt die Temperaturerhöhung den Keimerfolg?

* Die Temperaturerhöhung beeinträchtigt den Keimerfolg nicht und die statistische Auswertung des Experiments führt zur Antwort "nein"

  &#128994; Korrekte Antwort

*  Die Temperaturerhöhung beeinträchtigt den Keimerfolg nicht und die statistische Auswertung des Experiments führt zur Antwort "ja"

    &#128308; Falsche Antwort

* Die Temperaturerhöhung beeinträchtigt den Keimerfolg und die statistische Auswertung des Experiments führt zur Antwort "nein"

  &#128308; Falsche Antwort

* Die Temperaturerhöhung beeinträchtigt den Keimerfolg und die statistische Auswertung des Experiments führt zur Antwort "ja"

  &#128994; Korrekte Antwort

Was soll im Fall unklarer Datenlage die Antwort sein?

* Forschungsteam hat Zusammenhang zwischen Temperatur und Keimerfolg entdeckt und will Ergebnis in angesehener Zeitschrift publizieren
* Die Zeitschrift fordert stichhaltige Beweise
* Wenn die Zeitschrift die Datenlage für unklar hält, wird sie die Publikation ablehnen

Die Zeitschrift möchte ausschließen, dass ein zufälliger Effekt aufgebauscht wird

* *Nullhypothese*:  Es gibt keinen Effekt
* Das Gegenteil der Nullhypothese ist die *Alternative*
* Die Alternative ist also das, was "bewiesen" werden soll
* Wenn die Daten klar für die Alternative sprechen, wird die Alternative angenommen
* In allen anderen Fällen wird die Nullhypothese beibehalten

# Nullhypothese und Alternativhypothese

Durch die Auswahl der Stichprobe kommt Zufall ins Spiel. Falsche Antworten sind unvermeidbar.

* Ziel der Statistik ist es, Schranken für die Wahrscheinlichkeit falscher Antworten zu geben
* *Nullhypothese* $H_0$: Das ist diejenige Hypothese, deren fälschliche Ablehnung man nach Möglichkeit vermeiden will
* *Alternativhypothese* $H_1$: Das ist die Alternative zur Nullhypothese

**bei unklarer Datenlage wird also die Nullhypothese beibehalten**

* Wissenschaft ist konservativ.  Wer mit einer neuen Idee kommt, muss zeigen, dass sie besser ist als die alte
* typische Nullhypothesen:
    * bestehende Theorie mindestens so gut wie der neue Ansatz
    * der untersuchte Stoff ist ohne Einfluss
    * das Präparat ist wirkungslos
    * der beobachtete Unterschied im Gen ist folgenlos 

### Kleines Theaterstück

* Forscher:  Habe wichtige Beobachtung gemacht
* Statistikerin:  Ist doch alles Zufall
* Forscher:  Kann überhaupt nicht sein
* Statistikerin:  Zeigen Sie mal die Daten
* Forscher zeigt Daten
* Statistikerin rechnet

#### Happy End

* Statistikerin:  Mit Wahrscheinlichkeit 1% beruht das Ergebnis auf Zufall
* Forscher:  das ist eine sehr kleine Wahrscheinlichkeit
* Forscher reicht Arbeit bei Zeitschrift ein

#### offenes Ende

* Statistikerin:  Mit Wahrscheinlichkeit 20% beruht das Ergebnis auf Zufall
* Forscher:  Ich hätte gedacht, die Wahrscheinlichkeit sei viel kleiner
* Abgang Tür rechts zurück ins Labor

# Fehler erster und zweiter Art

* *Der Fehler 1. Art* ist die fälschliche Ablehnung der Nullhypothese
* *Der Fehler 2. Art* ist die fälschliche Beibehaltung der Nullhypothese 

Die Priorität liegt auf der Vermeidung des Fehlers 1. Art.  Diese Asymmetrie ist ein entscheidendes Merkmal der Testtheorie.

|                     | $H_0$ wird beibehalten | $H_0$ wird abgelehnt  |
|---------------------|:----------------------:|:---------------------:|
| $H_0$ **trifft zu** | richtige Entscheidung  | Fehler 1. Art         |
| $H_1$ **trifft zu** | Fehler 2. Art          | richtige Entscheidung |

## Sprechweise

* $H_0$ wird beibehalten oder abgelehnt
* $H_1$ wird angenommen oder verworfen

# Signifikanztests

* Für den Fall, dass $H_0$ zutrifft, bezeichnet man die Wahrscheinlichkeit, dass $H_0$ trotzdem abgelehnt wird, als *Fehlerwahrscheinlichkeit erster Art*
* Ein Test heißt *Signifikanztest* zum Niveau $\alpha$, wenn alle Fehlerwahrscheinlichkeiten erster Art $\le \alpha$ sind
* Das übliche Niveau ist 0.05
* Für den Fall, dass $H_0$ nicht zutrifft, bezeichnet man die Wahrscheinlichkeit, dass $H_0$ trotzdem beibehalten wird, als *Fehlerwahrscheinlichkeit zweiter Art*

# Binomialtests

#### Beispiel: Saatgut

* Wir konstruieren einen Test zum Signifikanzniveau $\alpha = 0.05$
* Stichprobenumfang ist 900
* $p_0 = 0.80$ ist die Vergleichswahrscheinlichkeit, denn in kühlem Klima keimen 80% des Saatguts
* $p$ ist die unbekannte tatsächliche Wahrscheinlichkeit, dass im warmen Klima ein zufällig herausgegriffenes Korn keimt
* Nullhypothese $H_0 = \{ p \ge p_0 \}$, d.h. die Nullhypothese besagt, dass der Keimerfolg in warmem Klima *nicht* geringer ist als in kühlem
  

* Bei der Bestimmung des Fehlers 1. Art gehen wir davon aus, dass $H_0$ wahr ist
* `Python`sagt: Mit Wahrscheinlichkeit 0.0452 beobachten wir in diesem Fall 699 oder weniger Keimerfolge
* Wenn wir also sagen:  Bei  oder weniger Bakterien wird $H_0$ abgelehnt, dann machen wir den Fehler 1. Art mit
  einer Wahrscheinlichkeit von ca 4.5%

Wo kommen diese Zahlen her:

In [2]:
from scipy import stats

In [3]:
P = stats.binom(900, 0.80)  #  W'keitsverteilung unter Nullhypothese

In [4]:
P.cdf(699)   # cumulative distribution function
# W'keit, dass 699 oder weniger Keimerfolge

0.045195625799864816

Zum Vergleich:

In [5]:
P.cdf(700)

0.05346354525840081

Diese Fehlerwahrscheinlichkeit ist höher als das Signifikanzniveau $\alpha=0.05$

Wir hätten den Wert 700 finden können mittels

In [6]:
P.ppf(0.05)

700.0

* `P.ppf`:  percent point function
* `P.ppf(0.05)` ist das kleinste $k$, für das `P.cdf(k)` über 0.05 liegt

#### Entscheidungsregel für das Beispiel

* $n=900$ und $p_0=0.80$ und $H_0=\{p\ge p_0\}$ und $\alpha=0.05$

* Die Nullhypothese wird abgelehnt, wenn 699 oder weniger Erfolge beobachtet werden
* Bei 700 oder mehr Erfolgen wird die Nullhypothese beibehalten

Im Beispiel hatten wir 696 Keimerfolge.  Also ist nachgewiesen, dass der Keimerfolg in warmem Klima sinkt