# Mathematik für Biologiestudierende

Wintersemester 2024/25

20. November 2024

&copy; 2024 Prof. Dr. Rüdiger W. Braun 

# Stochastische Unabhängigkeit

Zwei diskrete Zufallsvariable $X$ und $Y$ sind *stochastisch unabhängig,* wenn für alle möglichen Werte $k$
und $m$
\begin{equation*}
P(X=k, Y=m) = P(X=k) \cdot P(Y=m)
\end{equation*}

Ein Beispiel, wo die Unabhängigkeit auf eine subtile Weise nicht gegeben war

## Beispiel: Lotterie

* Eine Lotterie wurde nach den folgenden Regeln gespielt:
* In  einer Trommel befinden sich 70 Kugeln, und zwar für jede Ziffer je sieben
* Es werden nacheinander sieben Kugeln gezogen
* Dadurch entsteht eine siebenstellige Zahl
* Den Hauptgewinn erhält, wer diese Zahl auf seinem Los hat

* Das ist kein faires Spiel

## Lotterie: Kritik

* Die Wahrscheinlichkeit, gezogen zu werden, ist für alle Kugeln gleich

* aber nicht für alle Losnummern
* Es gibt
$$      7^7 = 823\,543  $$
Möglichkeiten, Einzelkugeln so auszuwählen, dass die Losnummer 1234567 herauskommt

* Es gibt aber nur 
$$ 7! = 5040 $$
Möglichkeiten, Einzelkugeln so auszuwählen, dass die Losnummer 1111111 herauskommzt

In [1]:
import numpy as np
np.set_printoptions(legacy='1.21')
import scipy

anzahl_gesamt = 70*69*68*67*66*65*64
anzahl_gesamt

6041824588800

In [2]:
anzahl1234567 = 7**7
anzahl1234567

823543

In [3]:
anzahl1111111 = scipy.special.factorial(7)
anzahl1111111

5040.0

In [4]:
P1234567 = anzahl1234567 / anzahl_gesamt
P1234567

1.363070026108733e-07

In [5]:
P1111111 = anzahl1111111 / anzahl_gesamt
P1111111

8.341850919245278e-10

In [6]:
P1234567 / P1111111

163.4013888888889

Die Gewinnwahrscheinlichkeit des Loses mit der Nummer 1234567 ist mehr als 160 mal so groß wie die des Loses mit der Nummer 1111111

Die Zufallsvariablen
* $X_1$:  Ziffer auf der ersten Kugel
* $X_2$:  Ziffer auf der zweiten Kugel

sind stochastisch nicht unabhängig

Wenn die erste Kugel eine 1 zeigt, dann ist die Wahrscheinlichkeit, dass die zweite das auch tut, kleiner als die Wahrscheinlichkeit, dass die zweite eine 2 zeigt.

## Bedingte Wahrscheinlichkeit

## Nutzung von Zusatzinformationen

* Die bedingte Wahrscheinlichkeit ist eine Wahrscheinlichkeit unter Berücksichtigung von Zusatzinformationen
* Beispielsweise ist für einen 50 jährigen die Wahrscheinlichkeit, 80 Jahre zu werden, höher als für ein        Neugeborenes
* Allgemein wird mit $P(A|B)$ die Wahrscheinlichkeit von $A$ bezeichnet, wenn bereits bekannt ist, dass $B$ eingetreten ist
* Das Ereignis $B$, dessen Eintritt vorausgesetzt ist, heißt *Hypothese*

## Bedingte Wahrscheinlichkeit

$$   P(A|B) = \frac{P(A \cap B)}{P(B)}  $$

bezeichnet man als *bedingte Wahrscheinlichkeit* von $A$ unter der Hypothese $B$

man sagt auch "gegeben $B$"

* Die Hypothese $B$ ist also vorausgesetzt (im Beispiel ist jemand bereits 50 Jahre alt geworden)
* Das Ereignis $A$ ist das Ereignis, dessen Wahrscheinlichkeit interessiert (im Beispiel ist $A$ das Ereignis, älter als 80 zu werden)

* Man bezeichnet $P(A)$ auch als *totale* Wahrscheinlichkeit, wenn man den Unterschied zu einer bedingten   Wahrscheinlichkeit verdeutlichen will

### Beispiel zur bedingten Wahrscheinlichkeit 

* Sei $E_{m50}$ das Ereignis, dass ein männliches Neugeborenes ein Alter von mindestens 50 Jahren erreichen wird; laut Sterbetafel ist $P(E_{m50}) = 0.919$
* für 80 Jahre $P(E_{m80}) = 0.365$

* dann wegen $E_{m50} \cap E_{m80} = E_{m80}$
$$   P(E_{m80} | E_{m50}) 
          = \frac{P(E_{m80} \cap E_{m50})}{P(E_{m50})}
          = \frac{0.365}{0.919}
          = 0.397 $$

* für weibliche Neugeborene $P(E_{w50}) = 0.958$ und $P(E_{w80}) = 0.566$      
$$          P(E_{w80} | E_{w50}) 
          = \frac{P(E_{w80} \cap E_{w50})}{P(E_{w50})}
          = \frac{0.566}{0.958}
          = 0.591   $$

## Beispiele für Hypothesen

* Frage: Wie groß ist die Wahrscheinlichkeit für eine Frau an ihrem hundertsten Geburtstag, dass sie ihren nächsten Geburtstag erlebt? 

Hypothese:  Eine Frau erreicht ihren hundersten Geburtstag

* Frage: Wie groß ist die Wahrscheinlichkeit auf Darmkrebs, wenn Spuren von Blut im Stuhl gefunden wurden?

Hypothese:  Es wurden Spuren von Blut im Stuhl gefunden

* Frage:  Wie groß ist die Wahrscheinlichkeit, dass ein TB-Test die Krankheit anzeigt?

Hypothese:  Patient ist krank

* Frage:  Wie groß ist die Wahrscheinlichkeit, dass ein positiv getesteter Proband tatsächlich an TB erkrankt ist?

Hypothese:  Patient wurde positiv getestet

* Frage:  Wie hoch ist die Wahrscheinlichkeit einer geimpften Person für einen schweren Krankheitsverlauf?

Hypothese: Person ist geimpft

### Beispiel aus dem Wahlkampf 2017

* Richtige Aussage: 40% der befristet Beschäftigten sind zwischen 25 und 35 Jahren alt
* Falsche Aussage eines Spitzenpolitikers: 40% der Beschäftigten zwischen 25 und 35 Jahren sind                 befristet beschäftigt

## Heuristische Begründung der Formel

$$  P(A|B) = \frac{P(A\cap B)}{P(B)}  $$

* unter der Hypothese $B$ ist $B$ sicher, also $P(B|B) = 1$; daher wird durch $P(B)$ geteilt
* unter der Hypothese $B$ sind diejenigen Elementarereignisse von $A$, die nicht in $B$ liegen, irrelevant; daher steht im Zähler $P(A \cap B)$ und nicht $P(A)$

## Rechenregeln

* $P(A|B)$ ist eine Wahrscheinlichkeit für $A$, erfüllt also die Rechenregeln für Wahrscheinlichkeiten
* die wichtigste ist die Regel für die Wahrscheinlichkeit des Komplementärereignisses 
$$   P(A^c|B) = 1 - P(A|B) $$

## Produktformel

$$        P(A \cap B) = P(A|B) \cdot P(B)  $$

Für unabhängige $ A $ und $ B $ lautet die Produktformel
$$         P(A \cap B) = P(A) \cdot P(B)  $$

Also sind $ A $ und $ B $ genau dann unabhängig, wenn
$$          P(A|B) = P(A)   $$

## Satz von der totalen Wahrscheinlichkeit

Bekannt:
* totale Wahrscheinlichkeit $P(B)$ und damit auch $P(B^c)$
* bedingte Wahrscheinlichkeiten $P(A|B)$ und $P(A|B^c)$

Gesucht: totale Wahrscheinlichkeit $P(A)$

\begin{align*}
        P(A) &= P(A \cap B) + P(A \cap B^c) \\
        &= P(A | B) \cdot P(B) + P(A | B^c) \cdot P(B^c) \\
        &= P(A | B) \cdot P(B) + P(A | B^c) \cdot (1-P(B))
\end{align*}

## Bayessche Formel

Bekannt:
* totale Wahrscheinlichkeit $P(B)$
* bedingte Wahrscheinlichkeiten $P(A|B)$ und $P(A|B^c)$
* totale Wahrscheinlichkeit $P(A)$ aus dem Satz von der totalen Wahrscheinlichkeit

Gesucht: bedingte Wahrscheinlichkeit $P(B|A)$
$$   P(B|A) = \frac{P(A|B) \cdot P(B)}{P(A)}  $$

## Beispiel Röntgenreihenuntersuchung

In den 1960-er Jahren wurden Röntgenreihenuntersuchungen durchgeführt.  Beispielhafte Daten:

* bei 94\% aller Erkrankten schlägt der Test an
* bei 1% der Gesunden schlägt der Test an 
* 99.8% aller Probanden sind gesund

Zufällig herausgegriffener Proband
* $A$: "Verdacht auf TB"
* $B$: "an TB erkrankt" 

### Röntgenreihenuntersuchungen, Fortsetzung

* $P(B) = 0.002$ (totale Wahrscheinlichkeit)
* $P(A|B) = 0.94$ (bedingte Wahrscheinlichkeit)
* $P(A|B^c) = 0.01$ (bedingte Wahrscheinlichkeit)

Satz von der totalen Wahrscheinlichkeit
        \begin{align*}
          P(A) &= P(A|B) \cdot P(B) + P(A|B^c) \cdot P(B^c) \\
          &= 0.94 \cdot 0.002 + 0.01 \cdot 0.998 \\
          &= 0.00188 + 0.00998 \\
          &= 0.01186
        \end{align*}

1.186% aller Probanden verlassen die Untersuchung mit einem Verdacht,

aber nur 0.2% aller Probanden sind krank

### Fragen zur Röntgenreihenuntersuchung

* Mit welcher Wahrscheinlichkeit wird ein Kranker nicht endeckt? 
* Mit welcher Wahrscheinlichkeit ist eine Verdachtsdiagnose falsch? 
* Mit welcher Wahrscheinlichkeit wird eine falsche Diagnose gestellt? 

### erste Frage

Mit welcher Wahrscheinlichkeit wird ein Kranker nicht endeckt?

"Falsch negativer Befund": Krankheit übersehen
$$     P(A^c|B) = 1 - P(A|B) = 1 - 0.94 = 0.06  $$
Die Wahrscheinlichkeit, dass ein Kranker für gesund gehalten wird, beträgt 6%

### zweite Frage

Mit welcher Wahrscheinlichkeit ist eine Verdachtsdiagnose falsch?

"Falsch positiver Befund": Krankheit zu Unrecht diagnostiziert
      \begin{align*}
        P(B^c | A) 
        &= 1 - P(B|A) \\
        &= 1 - \frac{P(A|B) \cdot P(B)}{P(A)} \\
        &= 1 - \frac{0.94 \cdot 0.002}{0.01186} \\
        &= 1 - 0.1585 \\
        &= 0.8415
      \end{align*}
      
Wer mit Verdachtsdiagnose aus der Röntgenreihenuntersuchung kam, war mit nahezu 85% Wahrscheinlichkeit **gesund**

## dritte Frage
      
Mit welcher Wahrscheinlichkeit kommt es zu einer Fehldiagnose?

Das ist eine totale Wahrscheinlichkeit, nämlich
        \begin{align*}
          P(A \cap B^c) + P(A^c \cap B)
          &= P(A|B^c) \cdot P(B^c) + P(A^c|B) \cdot P(B) \\
          &= 0.06 \cdot 0.002 + 0.01 \cdot 0.998 \\
          &= 0.0101
        \end{align*}
Die Wahrscheinlichkeit einer Fehldiagnose beträgt 1.01%

# Wahrscheinlichkeitsbäume

<img src="bilder/w-baum.svg" alt="Wahrscheinlichkeitsbaum" width="75%"/>

## Juwelenwespen

Juwelenwespen legen Eier in Puppen anderer Insekten.  Das Geschlechterverhältnis ist

* 95% weibliche und 5% männliche Eier, wenn die Puppe noch nicht von einer anderen Juwelenwespe infiziert wurde
* 10% weibliche und 90% männliche Eier andernfalls

Folgendes Experiment wird modelliert:
      
Eine Puppe wurde von zwei Juwelenwespen gestochen.  Beide Wespen haben dieselbe Anzahl Eier gelegt.

* $A$: Ei ist weiblich 
* $A^c$: Ei ist männlich 
* $B$ : Ei ist von erster Wespe 
* $B^c$ : Ei ist von zweiter Wespe 

### Wahrscheinlichkeitsbaum Juwelenwespe
     
Der Wahrscheinlichkeitsbaum für eine zweimal gestochene Puppe. Beide Wespen haben dieselbe Anzahl Eier gelegt.

<img src="bilder/wespe1.svg" alt="Wahrscheinlichkeitsbaum" width="75%"/>

### Wahrscheinlichkeitsbaum Juwelenwespe
     
Totale Wahrscheinlichkeiten für die zweimal gestochene Puppe

<img src="bilder/wespe2.svg" alt="Wahrscheinlichkeitsbaum" width="75%"/>

Eine Puppe wurde zweimal gestochen.  Beide Wespen haben dieselbe Anzahl Eier gelegt.  Mit welcher Wahrscheinlichkeit stammt ein zufällig ausgewähltes, männliches Ei von der zweiten Wespe?

* $A$: Ei ist weiblich 
* $A^c$: Ei ist männlich 
* $B$ : Ei ist von erster Wespe 
* $B^c$ : Ei ist von zweiter Wespe 
      
Gesucht $P(B^c|A^c)$

Bekannt:
$$    P(A^c) = 0.475, \qquad P(B^c) = 0.5, \qquad P(A^c|B^c) = 0.90  $$

$$    P(B^c|A^c) = \frac{P(A^c|B^c)P(B^c)}{P(A^c)}
        = \frac{0.90 \cdot 0.5}{0.475}
        = 0.947  $$

Die Wahrscheinlichkeit, dass ein zufällig ausgewähltes männliches Ei von der zweiten Wespe stammt, beträgt 94.7%

### Juwelenwespe: Genetische Vielfalt

* Ein männliches Ei stammt mit Wahrscheinlichkeit 0.053 von der ersten und mit Wahrscheinlichkeit 0.947 von der zweiten Wespe
* Ein weibliches Ei stammt mit Wahrscheinlichkeit 0.905 von der ersten und mit Wahrscheinlichkeit 0.095 von der zweiten Wespe
* Treffen ein männliches und ein weibliches Ei aufeinander, so beträgt die Wahrscheinlichkeit, dass sie von derselben Wespe abstammen
$$       0.053 \cdot 0.905 + 0.947 \cdot 0.095 = 0.138  $$

# Hardy-Weinberg Gleichgewicht

* Ein Gen komme in zwei Ausprägungen vor, genannt $A$ und $a$.  Dann hat jedes Individuum einen der folgenden
Genotypen:  $AA$, $Aa$ oder $aa$.  
* Wenn die Population in Hinblick auf dieses Gen im Gleichgewicht ist, dann haben diese drei Genotypen
bestimmte Wahrscheinlichkeiten $ u $, $ 2v $ und $w$ 
* Wenn $A$ das dominante Allel ist, dann kann man die Zahl $w$ beobachten, die Zahlen $ u $ und $v$ aber nicht.

### Modell


* $V_{AA}$: "Vater mit Genotpy $AA$" 
* $V_{Aa}$: "Vater mit Genotyp $Aa$"
* $V_{aa}$: "Vater mit Genotyp $aa$"
* $M_{AA}$: "Mutter mit Genotyp $AA$"
* $K_{AA}$: "Kind mit Genotyp $AA$"
* $M_{Aa}$, $M_{aa}$, $K_{Aa}$ und $K_{aa}$ sollten dann klar sein

* Gegeben $P(V_{AA}) = P(M_{AA}) = u$, $P(V_{Aa}) = P(M_{Aa}) = 2v$ und $P(V_{aa}) = P(M_{aa}) = w$.  
* Dieselben Größen für die Kindgeneration.  
* Bestimmen wir die bedingten Wahrscheinlichkeiten $P(K_{AA} \mid V_{XY} \cap M_{ZW})$ etc. nach den Mendelschen Regeln

* $P(K_{AA} \mid V_{XY} \cap M_{ZW})$
$$    \begin{array}{c|ccc}
      \text{Mutter} \Bigm\backslash \text{Vater} & AA & Aa & aa \\\hline
      AA & 1 & 1/2 & 0 \\
      Aa & 1/2 & 1/4 & 0 \\
      aa & 0 & 0 & 0 
    \end{array}  $$
   

Mit der Formel für die totale Wahrscheinlichkeit
\begin{align*}
 P(K_{AA}) &= P(K_{AA}|M_{AA} \cap V_{AA}) \cdot P(M_{AA} \cap V_{AA}) +  P(K_{AA}|M_{AA} \cap V_{Aa}) \cdot P(M_{AA} \cap V_{Aa}) \\
 &+ P(K_{AA}|M_{Aa} \cap V_{AA}) \cdot P(M_{Aa} \cap V_{AA}) + P(K_{AA}|M_{Aa} \cap V_{Aa}) \cdot P(M_{Aa} \cap V_{Aa})  \\
&= 1 \cdot u \cdot u + \frac12 \cdot u \cdot 2v + \frac12 \cdot 2v \cdot u + \frac14 \cdot 2v \cdot 2v \\
&= (u+v)^2
\end{align*}

Genauso:
\begin{align*}
  P(K_{Aa}) &= 2v + 2 u \cdot w - 2 v^2 \\
  P(K_{aa}) &= (v+w)^2
\end{align*}

Die Population ist im Gleichgewicht, wenn $P(K_{AA}) = P(V_{AA}) = P(M_{AA})$ usw., d. h. wenn die Hardy-Weinberg Gleichungen gelten:
\begin{align*}
  (u+v)^2 &= u\\
  2v + 2(u \cdot w - v^2) &= 2v\\
  (w+v)^2 &= w
\end{align*}

Dies ist genau dann der Fall ist, wenn
\begin{equation*}
  v^2 = u \cdot w
\end{equation*}

## Seltene Erberkrankungen 

Die Friedreich-Ataxie ist eine autosomal rezessiv vererbte Krankheit, von der ungefähr
1 Mensch unter 40000 betroffen ist.  Wir wollen $u$, $v$ und $w$ bestimmen.  

* Da die Krankheit rezessiv vererbt wird, ist $w = 1/40000$.  
* Man macht keinen großen Fehler, wenn man $u = 1$ setzt.  Dann folgt aus den Hardy-Weinberg Gleichungen
$$ v^2 = u \cdot w \cong w = \frac1{40000}  $$
also
$$ v = \frac1{200} $$

Also ist jeder hunderste ein Genträger dieser seltenen Erkrankung.  

\begin{align*}
u &= 1 \\
v &= \frac1{200} \\
w &= \frac1{40000}
\end{align*}

Die SCA (spinozerebelläre Ataxie) ist eine Ataxie, die autosomal dominant vererbt wird.  Sie ist ungefähr genauso häufig wie die Friedreich-Ataxie.  

* In diesem Fall sind die Leute mit Genkombination $ aa $ die einzig gesunden, also $ w = 1 - 1/40000 $.  
* Dann ergeben die Hardy-Weinberg Gleichungen näherungsweise die Identität
$$  v^2 = u $$
* $v$ ist winzig, dann ist $u$ also noch winziger.  Wir vernachlässigen daher $u$ in der Formel $u + 2v + w = 1$ und erhalten
$$   2v = 1 - u - w \cong 1 -  w = \frac1{40000} $$

\begin{align*}
u &= 1.56 \cdot 10^{-10} \\
v &= \frac1{80000} \\
w &= 1 - \frac1{40000}
\end{align*}