# Exercise 9

## Bayessche Statistik

Ich möchte dir noch einen anderen Weg zeigen, wei man Statisik machen kann. Bis jetzt haben wir immer sogenannte Punktschätzungen gemacht. Wir haben uns also z.B. gefragt: wenn wir den Mittelwert einer Verteilung schätzen müssten, was wäre der beste Wert dafür?

Bayessche Statistik funktioniert anders, wir betrachten hier alle möglichen Schätzungen und beurteilen wie gut sie sind. Wenn wir also z.B. normalverteilte Zufallszahlen 4 und 6 haben, dann ist 5 die beste Schätzung. 4 ist noch eine mittelgute Schätzung und 20 eine sehr schlechte Schätzung. Was wir am Ende bekommen ist eine Wahrscheinlichkeitsverteilung, nämlich wie wahrscheinlich es ist, dass eine bestimmte Schätzung richtig ist. Je mehr Daten wir haben, desto besser können wir beurteilen welche Werte z.B. für den Mittelwert wahrscheinlich ist. Verstehst du die Idee?

In [None]:
import scipy
import numpy as np
import matplotlib.pyplot as plt

def normal_posterior(l):
    def unnormalized_density(x):
        v = 1
        for entry in l:
            v *= scipy.stats.norm.pdf(entry, loc=x, scale=5)
        return v
    
    x = np.linspace(-10, 10, num=200)
    plt.title(('A-posteriori' if len(l) > 0 else 'A-priori') + ' Verteilung des Mittelwertes')
    plt.plot(x, [unnormalized_density(v) for v in x])
    plt.show()
    

Ich mache ein Beispiel. Nehmen wir an wir haben noch keine Daten, dann wissen wir noch nichts über den Mittelwert und die Verteilung könnte so aussehen:

In [None]:
normal_posterior([])

Wie du siehst sind einfach alle Werte gleich wahrscheinlich, denn wir wissen ja noch nichts! Wenn wir aber bereits eine Ahnung hätten, könnten wir das in dieser Verteilung berücksichtigen, man nennt das A-priori Verteilung. Nun bekommen wir einen ersten Wert, sagen wir 5:

In [None]:
normal_posterior([5])

Wie du wahrscheinlich erwarten würdest, ist nun 5 der wahrscheinlichste Wert für den Mittelwert. Aber auch Werte über 10 sind denkbar. Nun kommt ein zweiter Zufallswert, -2:

In [None]:
normal_posterior([5, -2])

Wie du siehst in ein Wert in der Mitte zwischen -2 und 5 am wahrscheinlichsten. Die Verteilung ist auch "schmaler" geworden, da wir bereits mehr Daten haben und somit mehr über den Mittelwert wissen. Ich füge noch ein paar weitere Werte hinzu:

In [None]:
normal_posterior([5, -2, 1, -0.5, -3, 0])

Nun ist die Verteilung noch schmaler geworden und wir können schliessen, dass der Mittelwert mit hoher Wahrscheinlichkeit um 0 liegen muss.

### Aufgabe 1

Wir betrachten nun das Problem eins Münzwurf. Eine faire Münze zeigt mit 50% Wahrscheinlichkeit Kopf und mit 50% Zahl. Wir könnten uns aber auch eine Münze vorstellen die z.B. 60% Kopf und 40% Zahl zeigt. Schreibe zuerst eine Funktion, welche Münzwürfe simuliert:

In [None]:
# p gibt die Wahrscheinlichkeit von "Zahl" an, size die Anzahl Münzwürfe
# Das Resultat sollte z.B. so aussehen: ['kopf', 'kopf', 'zahl', ...]
def coin_flips(p=0.5, size=100):
    ...

### Aufgabe 2

Nun möchten wir eine Funktion schreiben, welche bestimmt wie wahrscheinlich ein bestimmtes `p` ist für eine Liste mit Münzwürfen. Das funktioniert so:
1. Setzte einen Wert gleich 1.
2. Mache nun eine Schleife über alle Münzwürfe.
3. Wenn der Münzwurf Kopf ist, multipliziere den Wert mit `p`. Zeigt die Münze Zahl, dann mit `(1 - p)`.
4. Gib den Wert zurück (mit `return`).
    

In [None]:
# l ist eine solche Liste: ['kopf', 'kopf', 'zahl', ...]
def likelihood(p, l):
    ...

Verstehst du etwa was hier passiert?

1. Warum multiplizieren wir?

Wenn man möchte das zwei Dinge der Fall sind muss man deren Wahrscheinlichkeiten multiplizieren. Wenn du wissen möchtest wie wahrscheinlich es ist bei einer "normalen" Münze zweimal Zahl am Stück zu werfen, würdest du `0.5 * 0.5 = 0.25` rechnen. Wir wollen hier also, dass `p` wahrscheinlich ist für den ersten Münzwurf **und** den zweiten Münzwurf **und** den dritten... Übrigens ist das nur der Fall, wenn die Dinge unabhängig sind voneinander:
- Wie wahrscheinlich ist es, dass es Nacht ist? ...
- Wie wahrscheinlich ist es, dass es Sterne am Himmel hat (keine Wolken :))? ...
- Wie wahrscheinlich ist es, dass es Nacht ist und Sterne am Himmel hat? ...

2. Was soll das mit `p` und `1-p`?

Wenn wir Kopf werfen, dann spricht das dafür, dass `p` eher hoch ist (denn dann gibt es häufiger Kopf):
- Angenommen wir vermuten `p=0` und wir bekommen Kopf, dann multiplizieren wir auch unseren Wert mit 0. Das bedeutet die Wahrscheinlichkeit das `p=0` ist, ist 0%, denn eine solche Münze kann gar nicht Kopf zeigen!
- Angenommen wir vermuten `p=0.1` und wir bekommen Kopf, dann multiplizieren wir auch unseren Wert mit 0.1. Der Wert wird dadurch viel kleiner und wir sagen damit: `p=0.1` ist eher unwahrscheinlich.
- Angenommen wir vermuten `p=1` und wir bekommen Kopf, dann multiplizieren wir auch unseren Wert mit 1. Der Wert bleibt dadurch gross und wir sagen damit, dass `p=1` ein wahrscheinlicher Wert ist solange, wir nur Kopf beobachten.

Genau das gleiche können wir uns auch für `1-p` und Zahl überlegen.

### Aufgabe 3

Teste nun deine `likelihood` Funktion. Ich habe dir eine Funktion gemacht, welche die Funktion verwendet um die Wahrscheinlichkeit verschiedener `p` zu visualisieren. Macht der Output Sinn für dich?

In [None]:
def coin_posterior(l):
    x = np.linspace(0, 1, num=100)
    plt.title('A-posteriori Verteilung von p')
    plt.plot(x, [likelihood(p, l) for p in x])
    plt.show()

In [None]:
coin_posterior(['zahl'])

### Aufgabe 4

Verwende nun `coin_flips` Funktion um Münzwürfe mit `p=0.7` zu machen. Wie viele Münzwürfe braucht es etwa, bis du dir sehr sicher bist, dass die Münze nicht fair ist? Du kannst einfach visuell Anhand des Plots von `coin_posterior` beurteilen, aber man könnte es natürlich auch ausrechnen.

In [None]:
...