# Exercise 8

## Schätzer

### Aufgabe 1

Schätzer braucht man um unbekannte Parameter einer Wahrscheinlichkeitsverteilung zu ermitteln. Vielleicht wollen wir der Mittelwert einer Wahrscheinlichkeitsverteilung bestimmen. Wir haben bereits gesehen, dass der Durchschnitt ein Schätzer für den Mittelwert einer Verteilung ist. Wir betrachten wieder die Normalverteilung:

In [None]:
import scipy
import numpy as np
import matplotlib.pyplot as plt

x = np.linspace(-4, 4, num=100)
plt.title('Die Normalverteilung')
plt.plot(x, [scipy.stats.norm.pdf(v, loc=0, scale=1) for v in x])
plt.show()

Wir sehen hier natürlich sofort, dass der Mittelwert 0 ist. Wir nehmen aber an, dass wir normalverteilte Daten haben und wir den Mittelwert nicht kennen. Wir erstellen nun verschiedene Schätzer, welche eine Liste mit zufälligen Zahlen der Verteilung nehmen und den Mittelwert schätzen. Mach zuerst einen Schätzer, der einfach den Durchschnitt berechnet:

In [None]:
# l ist die Liste mit Zufallszahlen der Verteilung, also z.B. [-0.1, 0.5, -2, 0.75]
# Du kannst gerne einfach np.mean verwenden
def mean_estimator(l):
    ...

Nun mache einen weiteren Schätzer, welcher den Median berechnet. Zur Erinnerung, der Median ist der Wert in der Mitte der Liste, wenn du die Werte sortierst. Dann ist gerade die Hälfte der Werte grösser und die andere Hälfte kleiner als der Median.

In [None]:
# Du kannst auch hier np.median verwenden
def median_estimator(l):
    ...

Nun machen wir einen etwas komischen Schätzer. Entferne den höchsten Wert aus der Liste `l` und berechne dann den Mittelwert:

In [None]:
def mean_ex_max_estimator(l):
    ...

Für den letzten Schätzer entfernen wir sogar 10% der höchsten Werte aus der Liste `l`:

In [None]:
def mean_ex_top_10_estimator(l):
    ...

Was denkst du welcher dieser Schätzer funktioniert am besten, um den Mittelwert der Normalverteilung zu bestimmen?

### Aufgabe 2

Nun machen wir eine Funktion um zu schauen wie gut unsere Schätzer sind. Das funktioniert so:
1. `evaluate_estimator` bekommt als Argument den `estimator`, also eine Funktion von oben. Zudem gibt es ein zweites Argument `n`, dazu kommen wir gleich.
2. Erstelle eine Liste von `n` Normalverteilten Zufallszahlen (verwende `scipy.stats.norm.rvs(loc=0, scale=1, size=n)`).
3. Erstelle mit dem Schätzer (`estimator`) eine Schätzung für den Mittelwert.
4. Wiederhole Schritte 2 und 3 z.B. 10000 Mal und sammle alle Schätzungen.
5. Erstelle nun ein Histogramm mit den Schätzungen. Das könnte etwa so funktionieren: `plt.hist(estimates, bins=np.linspace(-1, 1, 20), density=True)` und dann `plt.show()`

In [None]:
def evaluate_estimator(estimator, n=2):
    ...

### Aufgabe 3

Wir möchten nun herausfinden wie gut unsere Schätzer sind. Dafür kannst du nun die Funktion `evaluate_estimator` mit verschiedenen Argumenten verwenden. Schätzer können folgenden Eigenschaften haben:

- Ein Schätzer ist *verzerrt* wenn das Maximum im Histogramm nicht beim Mittelwert liegt (in unserem Fall 0) für ein beliebiges `n`.
- Ein Schätzer ist *konsistent* wenn das Maximum im Histogramm beim Mittelwert liegt wenn man `n` gross genug macht.

Findest du heraus welche Schätzer verzerrt und welche konsistent sind? Achtung, ein Schätzer kann auch beides sein :).

In [None]:
evaluate_estimator(mean_estimator, n=2)

### Aufgabe 4

Nun möchten wir untersuchen was passiert, wenn wir eine nicht symmetrische Verteilung betrachten. Vielleicht erinnerst du dich noch an die Gamma-Verteilung:

In [None]:
x = np.linspace(-2, 4, num=100)
plt.title('Die Gammaverteilung')
plt.plot(x, [scipy.stats.gamma.pdf(v, loc=-1, a=1) for v in x])
plt.show()

Erstelle eine neue Funktion `evaluate_estimator_gamma(estimator, n=1)`. Sie funktioniert genau gleich wie `evaluate_estimator`, einfach verwendest du `scipy.stats.gamma.rvs(loc=-1, a=1, size=n)` anstelle der normalverteilten Zufallszahlen. 

In [None]:
def evaluate_estimator_gamma(estimator, n=2):
    ...

Vergleiche damit nun `mean_estimator` und `mean_estimator`, was stellst du fest?

In [None]:
...

### Aufgabe 5

Nun habe ich noch eine Verteilung mit einem sogenannten Ausreisser, also einem Wert der nicht der Verteilung entspringt. Das könnte z.B. ein Messfehler sein. Diese Funktion erstellt Zufallszahlen mit einem Ausreisser:

In [None]:
def normal_with_outlier(size=1):
    return list(scipy.stats.norm.rvs(loc=0, scale=1, size=size - 1)) + [size /5]

Erstelle nochmals eine Kopie von `evaluate_estimator` und verwende die Zufallsvariablen von `normal_with_outlier`:

In [None]:
def evaluate_estimator_normal_with_outlier(estimator, n=2):
    ...

Vergleiche damit nun wieder `mean_estimator` und `mean_estimator`, was stellst du fest?

In [None]:
...

### Aufgabe 6

Statistiker haben nicht nur herausgefunden wie man den Mittelwert einer Verteilung schätzen kann, sondern haben auch untersucht wie gut diese Schätzungen sind. Insbesondere haben sie ein sogenanntes Konfidenzintervall konstruiert. Das Konfidenzintervall sagt dir, dass der Mittelwert in z.B. 90% aller Fälle zwischen zwei Zahlen liegt. Hier ist eine Funktion, welche dieses Intervall für eine Liste (`l`) mit normalverteilten Zufallszahlen berechnet:

In [None]:
def confidence_interval_90(l):
    m = np.mean(l)
    v = np.var(l)
    t = scipy.stats.norm.ppf((1 + 0.9) / 2, loc=0, scale=1) / np.sqrt(len(l))
    return (m - t, m + t)

Erstelle Zufallszahlen mit `scipy.stats.norm.rvs(loc=0, scale=1, size=...)`, was passiert mit dem Konfidenzinterval wenn du längere Listen erstellst?

In [None]:
...

Überprüfe nun, ob der Mittelwert (0) tatsächlich in 90% der Fälle im Konfidenzintervall liegt. Dafür musst du viele (z.B. 1000) Listen mit Zufallszahlen erstellen und schauen, wie of 0 im Intervall liegt.

In [None]:
...