##### Positiver Prädiktiver Wert eines binären Tests

In der folgenden Übung wollen wir uns anschauen, wie man für einen binären Test (der nur zwei mögliche Ergebnisse, positiv oder negativ liefert) aus den Kennwerten Sensitivität und Spezifität, sowie aus der Vortestwahrscheinlichkeit, den positiven Prädiktiven Wert berechnen kann.

Zuerst wiederholen wir einige Python-Grundlagen

In [None]:
# Numpy ist *die* Bibliothek für numerische Operationen in Python
# und wird fast immer als "np" importiert
import numpy as np

# Die arange-Funktion erzeugt einen Vektor (i.e. eine eindimensionale Reihe von Zahlen)
# Die Argumente sind der minimale Wert, der noch in der Liste ist ("Startwert"), der minimale Wert, der gerade
# nicht mehr in der Liste ist ("obere Schranke"), und die Schrittweite zwischen aufeinanderfolgenden einträgen.
x = np.arange(0,10,0.1)

# Wir geben die Liste aus
print('Werte in x:')
print(x)

Sie sehen, dass die Werte in der Liste von 0 bis 9.9 reichen und immer um 0.1 erhöht werden. D.h. die 
Zahlenreihe startet bei 0 (erstes Argument von __np.arange__), wird immer um 0.1 erhöht (letztes Argument),
so lange bis die nächste Zahl größer oder gleich 10 wäre (zweites Argument).

Versuchen sie, in der nächsten Zeile einen Vektor zu erzeugen, dessen Einträge von 0 bis 0.99 reichen und immer um
0.01 erhöht werden.

In [None]:
# Zuerst erstellen wir uns einen Vektor für die x-Werte
#### Hier steht ihr Code


<details><summary>Klicken sie <b>hier</b> für eine mögliche Lösung</summary>
<p>

```python
x = np.arange(0,1,0.01)

print('Werte in x:')
print(x)
```

</p>
</details>

Super! Als nächstes schauen wir uns noch kurz an, wie man einfache Kurven in Python darstellen kann.
Erstmal brauchen wir ein paar "Daten", die wir darstellen können. Dazu kommt uns arange gerade recht.
Wir fangen mit den x-Werten an.

Jetzt kommen wir zu den y-Werten. In numpy ist es so: Für zwei Vektoren a und b, welche die gleiche Anzahl an Einträgen haben, kann man die einzelnen einträge dieser beiden Vektoren paarweise miteinander multiplizieren, so dass ein neuer Vektor entsteht dessen Einträge gerade die Produkte der entsprechenden Einträge von a und b sind.
Ein Beispiel sollte das klarer machen:

In [None]:
a = np.asarray([1, 2, 3]);
b = np.asarray([7, 8, 9]);

c = a * b;

print(c)

Hierbei wandelt np.asarray die Listen in entsprechende numpy-Objekte (in diesem Fall Vektoren) um.
__Sie sehen, dass der erste Eintrag von c gerade dem ersten Eintrag von a mal dem ersten Eintrag von b entspricht, und so weiter.__
Das ganze geht auch für Summe, Differenz und Quotient.

In [None]:
a = np.asarray([1, 2, 3])
b = np.asarray([2, 3, 4])

c = a / b;

print(c)

Man kann auch einen Vektor mit einer einzelnen Zahl (man sagt dazu ein "Skalar") multiplizieren, oder eine
einzelne Zahl addieren, subtrahieren, oder durch diese dividieren.

In [None]:
a = np.asarray([1, 2, 3])
d = 2

c = a * d;

print(c)

Zurück zu unserem Kurvenbeispiel. Bis jetzt haben wir den Vektor x.

Nehmen wir an, wir würden gerne als y-Werte das Quadrat der x-Werte berechnen.

Mit dem Wissen von oben können wir dafür z.B. folgendes tun:

In [None]:
y = x*x

print(y)

Zur Darstellung der x-y-Kurve benutzen wir [matplotlib](https://matplotlib.org/).

In [None]:
# Wir importieren matplotlib
import matplotlib.pyplot as plt
# Wir sagen matplotlib, dass es in einem Notebook ausgeführt wird
# und die Graphiken direkt in das Notebook zeichnen soll.
%matplotlib inline

# plot(x,y) Zeichnet eine Kurve. Hierbei müssen die Vektoren, die die 
# x und y-Werte enthalten gleich lang sein.
plt.plot(x,y)

# Mit title geben wir den Graphik eine Überschrift
plt.title('Eine quadratische Funktion')

# Man sollte **immer** die Achsen seiner Abbildungen beschriften
plt.xlabel('x')
plt.ylabel('y=x*x')

# Wir zeigen die entsprechende Graphik an
plt.show()

## Positiver Prädiktiver Wert

So, jetzt können wir zum eigentlichen Inhalt kommen. 

Im folgenden reden wir über einen einfachen Test, der positiv sein soll, wenn eine Erkrankung vorliegt, und negativ, wenn keine Erkrankung vorliegt.

### Basics

Wir erinnern uns kurz an die entsprechenden Definitionen. Die Sensitivität eines Testes ist die 
Wahrscheinlichkeit, dass der Test positiv ausfällt, wenn eine erkrankte Person getestet wird.
In der Sprache der bedingten Wahrscheinlichkeiten kann man das schreiben als:

$$ \mathrm{ Sensitivität = P( Test\ ist\ positiv | Person\ ist\ erkrankt ) } $$

Hierbei liest man $P( A | B )$ als die Wahrscheinlichkeit für das Ereignis A, wenn man beobachtet hat, dass
die Bedingung B erfüllt ist. Man sagt: "Die Wahrscheinlichkeit von A gegeben B".

Die Spezifität eines Testes bezeichnet die Wahrscheinlichkeit, dass der Test negativ ausfällt, wenn eine
gesunde Person getestet wird. Man kann dies wiederum schreiben als:

$$ \mathrm{ Spezifität = P( Test\ ist\ negativ | Person\ ist\ gesund ) } $$ 

Die Vortestwahrscheinlichkeit gibt an, wie wahrscheinlich es ist, dass eine Person, die wir testen möchten, erkrankt ist, bevor wir den Test veranlasst haben.

$$ \mathrm{ Vortestwahrscheinlichkeit = P( Person\ ist\ erkrankt) } $$

Eine erste, krude Annäherung ist die Prävalenz einer Erkrankung. Für eine konkrete Person, die man testen möchte, kann man die Prätestwahrscheinlichkeit eventuell weiter präzisieren, wenn z.B. Daten darüber vorhanden sind, wie die Wahrscheinlichkeit der Erkrankung von verschiedenen demographischen Faktoren und Risikofaktoren abhängt, die man für diese Person kennt. Dies erlaubt es dann z.B., diese Wahrscheinlichkeit mit klinischen Scores noch etwas besser zu Quantifizieren. In der Praxis ist die Einschätzung der Vortestwahrscheinlichkeit jedoch *sehr* komplex und es handelt sich oft eher um einen gut informierten "educated guess".

### Der Positive Prädiktive Wert und der Satz von Bayes

Wofür wir uns oft interessieren, wenn es z.B. darum geht weitere Diagnostik oder Therapie
als Antwort auf ein positives Testergebnis in die Wege zu leiten, ist der Positive Prädiktive Wert (PPV).
Das ist die Wahrscheinlichkeit, dass eine Person, die positiv getestet wird, tatsächlich auch wirklich erkrankt ist.

$$ \mathrm{ Positiver\ Prädiktiver\ Wert = P( Person\ ist\ erkrankt | Test\ ist\ positiv) } $$

Das Umrechnen von Sensitivität, Spezifität und Vortestwahrscheinlichkeit in den Positiven Prädiktiven Wert eines Testes is ein Spezialfall des Satzes von Bayes, den der presbyterianische Landpfarrer [Thomas Bayes](https://en.wikipedia.org/wiki/Thomas_Bayes) im 18. Jahrhundert entdeckt hat. Dieser beschreibt, wie man
bedingte Wahrscheinlichkeiten ineinander Umrechnet. Er lautet:

$$P(B|A) = \frac{P(A|B)P(B)}{P(A)}$$

Aus dieser Formel lässt sich mit etwas Mathematik die folgende Formel für unseren Spezialfall ableiten:

$$P(krank|positiv) = \frac{P(positiv|krank)P(krank)}{ P(positiv|krank)P(krank) + \underbrace{(1.0- P(negativ|gesund))}_{P(positiv|gesund)}\underbrace{(1.0 - P(krank))}_{P(gesund)}}$$

Oder anders geschrieben:

$$\mathrm{Positiver\ Prädiktiver\ Wert = \frac{Sensitivität\cdot Vortestwahrscheinlichkeit}{ Sensitivität\cdot Vortestwahrscheinlichkeit + (1.0- Spezifität)\cdot(1.0-Vortestwahrscheinlichkeit)}}$$

Mit dieser Formel bewaffnet, können sie jetzt ein kleines Programm schreiben, welches für ein gegebene
Sensitivität und Spezifität, sowie einen gegebenen Bereich von Vortestwahrscheinlichkeiten,
die entsprechenden Positiven Prädiktiven Werte berechnen und als Funktion der Vortestwahrscheinlichkeit
graphisch darstellt.

NB: (1.0- Spezifität) wird auch auch als Falsch-positiv-Rate (FPR) und Sensitivität als Richtig-negativ-Rate (TPR) bezeichnet. Weitere Details finden sie [hier](https://de.wikipedia.org/wiki/Beurteilung_eines_bin%C3%A4ren_Klassifikators#Falsch-positiv-Rate).

In [None]:
#### Eingaben: Sensitivität und Spezifität des Tests
sensitivity = 0.9
specificity = 0.9

#### Bereich der Vortestwahrscheinlichkeiten
pretest_probability = np.arange(0,0.10,0.001)

#### Hier steht ihr Code für die Berechnung des PPV
ppv = 

#### Graphische Darstellung
plt.plot(pretest_probability, ppv)
plt.title('PPV als Funktion der Prätest-Wahrscheinlichkeit')
plt.xlabel('Vortestwahrscheinlichkeit')
plt.ylabel('PPV')
plt.show()

<details><summary>Klicken sie hier für eine mögliche Lösung</summary>
<p>

```python

#### Eingaben: Sensitivität und Spezifität des Tests
sensitivity = 0.9
specificity = 0.9

#### Bereich der Vortestwahrscheinlichkeiten
pretest_probability = np.arange(0,0.10,0.001)

#### Hier steht ihr Code

## Wir verwenden direkt die obige Formel. Da es sich bei pretest_probability um einen
## Vektor und bei allen anderen größen um Skalare handelt, können wir direkt schreiben:
    
ppv = sensitivity*pretest_probability / ( sensitivity*pretest_probability + (1.0 - specificity)*(1.0 - pretest_probability)  )

#### Graphische Darstellung
plt.plot(pretest_probability, ppv)
plt.title('PPV als Funktion der Prätest-Wahrscheinlichkeit')
plt.xlabel('Vortestwahrscheinlichkeit')
plt.ylabel('PPV')
plt.show()

```

</p>
</details>

Sehr gut! Als letzte Übung, schauen sie sich an, wie sich die obige Kurve für einen Bereich der Vortestwahrscheinlichkeit zwischen 0 und 10% ändert, wenn die Sensitivität und Spezifität jeweils von 0.9 auf 0.999 erhöht werden. Diskutieren sie mit ihren Mitstudierenden darüber.

Falls sie die beiden Kurven direkt miteinander vergleichen wollen, können sie auch versuchen, beide Kurven zu berechnen und in ein Diagramm zu plotten. Den Code dafür finden sie im folgenden Hinweis, aber überlegen sie vorher auch gerne selbst, wie sie an das Problem herangehen würden.
<details><summary>Für Code, der beide Kurven übereinander Plottet, klicken sie hier</summary>
<p>

```python

#### Eingaben: Sensitivität und Spezifität des ersten Tests
sensitivity1 = 0.9
specificity1 = 0.9
    
#### Eingaben: Sensitivität und Spezifität des zweiten Tests
sensitivity2 = 0.999
specificity2 = 0.999

#### Bereich der Vortestwahrscheinlichkeiten
pretest_probability = np.arange(0,0.10,0.001)

#### PPV-Kurve des ersten Tests

ppv1 = sensitivity1*pretest_probability / ( sensitivity1*pretest_probability + (1.0 - specificity1)*(1.0 - pretest_probability)  )
    
#### PPV-Kurve des zweiten Tests

ppv2 = sensitivity2*pretest_probability / ( sensitivity2*pretest_probability + (1.0 - specificity2)*(1.0 - pretest_probability)  )

#### Plotting
plt.plot(pretest_probability, ppv1, label = 'Test 1')
plt.plot(pretest_probability, ppv2, label = 'Test 2')    
plt.title('PPV als Funktion der Prätest-Wahrscheinlichkeit')
plt.xlabel('Vortestwahrscheinlichkeit')
plt.ylabel('PPV')
plt.legend()
plt.show()

```

</p>
</details>

# Zusatzaufgaben

Eine weitere wichtige größe ist der Negative Prädiktive Wert, der die Wahrscheinlichkeit angibt, dass eine Person tatsächlich gesund ist, wenn der Test negativ ausgefallen ist.

$$ \mathrm{ Negativer\ Prädiktiver\ Wert = P( Person\ ist\ gesund | Test\ ist\ negativ) } $$

Für den Negativen Prädiktiven Wert kann man ebenfalls mit Hilfe des Satzes von Bayes eine Formel ableiten, die nur die Sensitivität, Spezifität und die Vortestwahrscheinlichkeit enthält.

$$ \mathrm{ P(gesund|negativ) = \frac{P(negativ|gesund)\overbrace{(1.0 - P(krank))}^{P(gesund)}}{ P(negativ|gesund)\underbrace{(1.0 - P(krank))}_{P(gesund)} + \underbrace{(1.0 - P(positiv|krank))}_{P(negativ|krank)}P(krank)} }$$

Oder anders geschrieben:

$$\mathrm{Negativer\ Prädiktiver\ Wert = \frac{Spezifität\cdot (1.0 - Vortestwahrscheinlichkeit)}{ Spezifität\cdot (1.0 - Vortestwahrscheinlichkeit) + (1.0 - Sensitivität)\cdot Vortestwahrscheinlichkeit}}$$

Falls sie möchten, können sie die Übung von oben nochmal für den Negativen Prädiktiven Wert wiederholen, und auch hier wieder graphisch darstellen, wie dieser für gegebene Sensitivität und Spezifität von der Vortestwahrscheinlichkeit abhängt. Außerdem können sie nochmals untersuchen, wie diese Abhängigkeit sich verändert, wenn man Sensitivität und Spezifität eines Tests erhöht.