# MEP Preparation

## Aufgabe 1 - Erwartungswert und Schätzmethoden

Betrachten Sie die Zufallsvariable X mit der folgenden Dichtefunktion:

$$f ( x;m ) = \left\{
\begin{matrix}
0 & falls x < 0 \\
c \cdot x^m & falls 0 ≤ x ≤ 1 \\
0 & falls x > 1\\
\end{matrix}
\right.
$$
wobei $m$ den Verteilungsparameter darstellt und $c$ ein Faktor ist, der von $m$ abhängt.

### (a) 
Bestimmen Sie den Faktor c, so dass $f(x;m)$ eine Wahrscheinlichkeitsdichtefunktion ist.

### (b)
Berechnen Sie den Erwartungswert $E[ X ]$ .

### (c)
Berechnen Sie die Varianz $Var[ X ]$ .

### (d)
Es wurden folgende Datenpunkte beobachtet: $x_1 = 0.3$, $x_2 = 0.5$ und $x_3 = 0.7$. Schätzen Sie den Parameter $m$ mit Hilfe der Momentenmethode.

### (e)
Schreiben Sie die Likelihood-Funktion für die Beobachtungen $x_1 = 0.3$, $x_2 = 0.5$ und $x_3 = 0.7$. Beschreiben Sie in 2-3 Sätzen, wie Sie mit der Maximum-Likelihood-Methode den Parameter m schätzen.

## Aufgabe 2: An die wahren Helden der WM18
Als ein Schiedsrichter im Jahre 1990 bei den U.S. Major League Baseball Games zusammenbrach und verstarb, wurde spekuliert, dass der mit diesem Beruf verbundene Stress ein ernsthaftes Gesundheitsrisiko darstellt. Forscher haben darauf historische und damals aktuelle Daten über Schiedsrichter gesammelt, um deren Lebenserwartung zu untersuchen (Cohen et al., _Life expectancy of Major League Baseball Umpires_, The Physician and Sportsmedicine, 28(5) (2000):83-89).
Die in dieser Studie erhobenen Daten beinhalten eine Liste von 227 Schiedsrichtern, die entweder gestorben oder aber pensioniert und immer noch am Leben waren. Sie finden in der Datei `Lebenserwartung_Schiedsrichter` auf dem USB-Stick im Verzeichnis Austausch die erhobenen Daten: In der ersten Spalte ist die beobachtete Lebenszeit (Alter) in Jahren aufgeführt, in der zweiten Spalte befindet sich die Angabe, ob der betreffende Schiedsrichter tot ( = 0) oder noch am Leben ( = 1) ist. In der dritten und letzten Spalte ist die aufgrund von einer Lebensversicherung geschätzte erwartete Lebenszeit aufgeführt. Berücksichtigen Sie in Teilaufgaben (a) bis (d) bloss die Schiedsrichter, die bereits gestorben sind. 

__Hinweis__: Falls Sie die toten Schiedsrichter nicht von den lebendigen unterscheiden können, dann berücksichtigen Sie alle, ob tot oder lebendig.

### (a)
Führen Sie einen t-Test auf dem 1%-Signifikanzniveau durch, um zu ermitteln, ob Schiedsrichter eine kleinere beobachtete Lebenszeit (Alter) haben als erwartet.
Formulieren Sie die Null- und Alternativhypothese, und geben Sie den Verwerfungsbereich an. Wie lautet das Testergebnis?

### (b)
Erklären Sie die Teststatistik im t-Test in 4-5 Sätzen. Verwenden Sie in Ihrer
Argumentation die folgenden Begriffe:

i) Teststatistik

ii) Zufallsvariable

iii) standardisierte Zufallsvariable

iv) Abhängigkeit der Teststatistik vom Stichprobenumfang n

v) Zentraler Grenzwertsatz

### (c)
Geben Sie ein 99%-Vertrauensintervall an, und erklären Sie, wie Sie das Testergebnis daraus bestimmen.


### (d)
Führen Sie einen Vorzeichen- oder Wilcoxon-Test durch. Erläutern Sie die Annahmen an die Teststatistik, und formulieren Sie die Null- und Alternativhypothese.

Kommen Sie zum selben Testergebnis wie beim t-Test?

### (e)
Geben Sie die mittlere beobachtete Lebenszeit (Alter) der noch lebenden Schiedsrichter mit relativem Fehler an.

## Aufgabe 3 - Varianzanalyse

Eine trendige Weinbar führt ein Experiment durch, in welchem die Qualität von 3 Weinen bewertet werden. Dazu werden fünf Weinkenner eingeladen und gebeten, jeden Wein zu probieren und mit einer Bewertung zwischen 0 und 10 zu versehen. Die Reihenfolge der Degustation war randomisiert, und die Testleiter wussten nicht, welchen Wein sie tranken.

Die folgende Tabelle zeigt die gesammelten Daten:

| Tester | Wein 1 | Wein 2 | Wein 3 |
| :--- | :--- | :--- | :--- |
| Person | 1 | 1 | 7 | 5 |
| Person | 2 | 0 | 4 | 0 |
| Person | 3 | 1 | 6 | 4 |
| Person | 4 | 1 | 5 | 2 |
| Person | 5 | 1 | 8 | 10 |

In Python kann die Tabelle folgendermassen eingelesen werden:
```python
from pandas import DataFrame
from statsmodels.formula.api import ols
from patsy.contrasts import Sum
from statsmodels.stats.anova import anova_lm
import numpy as np
import warnings
warnings.filterwarnings("ignore")
df = DataFrame({"Person": np.repeat(["P1", "P2", "P3","P4","P5"],3),
"Wein": np.tile(["W1", "W2", "W3"],5),
"Y": np.array([1,7,5,0,4,0,1,6,4,1,5,2,1,8,10])
})
fit = ols("Y ~ C(Person,Sum)+C(Wein,Sum)",data=df).fit()
```

### (a)
Schreiben Sie das der Python-Ausgabe zugrunde liegende (allgemeine) Gruppenmittel-Modell auf. Welche Nebenbedingungen wurden benützt? Um welches Versuchsdesign handelt es sich hier?

Welche Rolle haben die einzelnen Faktoren im Modell?

### (b) 
Hat die Weinsorte einen Effekt auf die Bewertung? Wie lautet die Nullhypothese in Bezug auf die entsprechenden Parameterwerte? 

Geben Sie die Teststatistik, deren Bedeutung und Verteilung und den p-Wert der Realisierung der Teststatistik unter
der Nullhypothese an.

### (c)
Wie gross ist die geschätzte Differenz der Bewertung zwischen Weinsorte 1 und Weinsorte 2?

### (d)
Muss der Effekt der Testperson im Gruppenmittel-Modell berücksichtigt werden? Begründen Sie Ihre Antwort.


### (e)
Ihre Kollegin möchte folgenden Python-Code anwenden: Die Python-Ausgabe sieht folgendermassen aus:

```python
from pandas import DataFrame
from statsmodels.formula.api import ols
from patsy.contrasts import Sum
from statsmodels.stats.anova import anova_lm
import numpy as np
import warnings

warnings.filterwarnings("ignore")

df = DataFrame({
	"Person": np.repeat(["P1", "P2", "P3","P4","P5"],3),
	"Wein": np.tile(["W1", "W2", "W3"],5),
	"Y": np.array([1,7,5,0,4,0,1,6,4,1,5,2,1,8,10])
})

fit2 = ols("Y ~ C(Person,Sum) * C(Wein,Sum)", data=df).fit()
```
Welches Modell passt sie an die Daten an? Kann sie statistische Tests durchführen?
Begründen Sie Ihre Antwort.

### (f)
Beurteilen Sie graphisch, ob es einen Interaktionseffekt gibt