## Einfaktorielle ANOVA
----------------------------------------

Die grundlegende Logik einer einfaktoriellen ANOVA besteht darin, aus jeder Gruppe unabhängige Zufallsstichproben zu ziehen, dann die Stichprobenmittelwerte für jede Gruppe zu berechnen und anschließend die Variation der Stichprobenmittelwerte zwischen den Gruppen mit der Variation innerhalb der Gruppen zu vergleichen. Schließlich wird auf der Grundlage einer Teststatistik entschieden, ob die Mittelwerte der Gruppen gleich sind oder nicht.

Auf der Grundlage dieser Logik benötigen wir quantitative **Maße für die Variabilität**. Daher teilen wir die Gesamtvariabilität in zwei Segmente auf: Eines, das die **Variabilität zwischen den Gruppen** berücksichtigt, und das andere, das die **Variabilität innerhalb der Gruppen** berücksichtigt.

### Maße der Variabilität

Wir führen drei quantitative Maße für die Variation ein:

- Summe der Gesamtquadrate (SST)
- Summe der Gruppenquadrate (SSG)
- Summe der Fehlerquadrate (SSE)

Die **Summe der Gesamtquadrate (SST)** ist ein Maß für die Gesamtvariabilität der Variablen. Sie ist gegeben durch

$$SST = \sum_{i=1}^n(x_i-\bar x)^2\text{,}$$

wobei $x_i$ den Beobachtungen in den Stichproben entspricht und $\bar x$ für den Gesamtmittelwert aller Stichproben steht.

Die **Summe der Gruppenquadrate (SSG)** ist ein Maß für die Variabilität zwischen Gruppen und entspricht der quadrierten Abweichung der Gruppenmittelwerte vom Gesamtmittelwert, gewichtet mit dem Stichprobenumfang.

$$SSG = \sum_{i=1}^n n_j(\bar x_i-\bar x)^2$$

Dabei steht $n_j$ für den Stichprobenumfang der Gruppe $j$, $\bar{x}_i$ für den Mittelwert der Gruppe $j$ und $\bar{x}$ für den Gesamtmittelwert der Stichprobe.

Die **Summe der Fehlerquadrate ($SSE$)** schließlich ist ein Maß für die Variabilität innerhalb der Gruppen. Sie steht im Zusammenhang mit der unerklärten Variabilität, d. h. der Variabilität, die nicht durch die Gruppenvariable erklärt werden kann. Die Summe der Fehlerquadrate ist gegeben durch

$$SSE = \sum_{i=1}^n (n_j-1)s_j^2\text{,}$$

wobei $n_j$ den Stichprobenumfang für Gruppe $j$ und $s^2_{j}$ die Varianz von Gruppe $j$ bezeichnet. Alternativ kann man $SSE$ sowie die Differenz von $SST$ und $SSG$ berechnen

$$SSE = SST-SSG\text{.}$$

### Maße der mittleren Variabilität

Bisher haben wir Maße für die Gesamtvariabilität ($SST$), die Variabilität zwischen Gruppen ($SSG$) und die Variabilität innerhalb von Gruppen ($SSE$) berechnet. Um eine durchschnittliche Variabilität zu erhalten, skalieren wir im nächsten Schritt diese Variabilitätsmaße mit dem Stichprobenumfang (genauer gesagt mit den Freiheitsgraden, $df$).

Die **Freiheitsgrade** werden für jede Unterteilung der Variabilität (Gesamtvariabilität, Variabilität zwischen Gruppen und Variabilität innerhalb von Gruppen) definiert.

-    Gesamtvariabilität

$$df_T = n-1\text{,}$$

wobei $n$ den Gesamtumfang der Stichprobe bezeichnet. den Gesamtumfang der Stichprobe bezeichnet.

- Variabilität zwischen den Gruppen

$$df_G=k-1\text{,}$$

wobei $k$ die Anzahl der Gruppen bezeichnet.
den Gesamtumfang der Stichprobe bezeichnet.

- Variabilität innerhalb der Gruppe

$$df_E = n-k\text{.}$$

Nun können wir die **mittleren Quadrate** für die Variabilität zwischen den Gruppen und die Variabilität innerhalb der Gruppen berechnen. Die durchschnittliche Variabilität zwischen und innerhalb der Gruppen wird als die Gesamtvariabilität, skaliert mit den zugehörigen Freiheitsgraden, berechnet.

- Mittlere Variabilität zwischen den Gruppen

$$MSG = \frac{SSG}{df_G}$$

- Mittlere Variabilität innerhalb der Gruppe

$$MSE = \frac{SSE}{df_E}$$

### Teststatistik und $p$-Wert

Schließlich vergleichen wir die mittlere Variation zwischen den Gruppen, $MSG$, mit der Variation innerhalb der Gruppe, $MSE$. Daher berechnen wir das Verhältnis zwischen der durchschnittlichen Variation zwischen den Gruppen ($MSG$) und der Variation innerhalb der Gruppen ($MSE$), das mit $F$ bezeichnet wird.

$$F= \frac{MSG}{MSE}$$

Die $F$-Statistik hat die $F$-Verteilung (benannt nach <a href="https://de.wikipedia.org/wiki/Ronald_Aylmer_Fisher">Sir Ronald A. Fisher</a>) mit

$$df = (k-1, n-k)\text{,}$$

wobei $k$ für die Anzahl der Gruppen und $n$ für den Stichprobenumfang steht. Große Werte der $F$-Werte zeigen an, dass die Variation zwischen den Stichprobenmittelwerten der Gruppen im Verhältnis zur Variation innerhalb der Gruppe groß ist. Darüber hinaus können wir den $p$-Wert für jeden gegebenen $F$-Wert berechnen. Wenn der $p$-Wert klein ist, liefern die Daten überzeugende Beweise dafür, dass sich mindestens ein Paar von Gruppenmittelwerten voneinander unterscheidet. Ist der $p$-Wert groß, liefern die Daten keinen überzeugenden Beweis dafür, dass sich zumindest ein Paar von Gruppenmittelwerten voneinander unterscheidet, und die beobachteten Unterschiede in den Stichprobenmittelwerten sind somit auf Stichprobenvariabilität (oder Zufall) zurückzuführen.

### Einfaktorielle ANOVA-Tabellen

Wie oben dargestellt, umfasst die einfache Varianzanalyse mehrere Analyseschritte. Dabei ist eine gängige Methode zur Darstellung einer einfachen ANOVA die so genannte **einfaktorielle ANOVA-Tabelle**. Der allgemeine Aufbau einer solchen Tabelle ist unten dargestellt.

\begin{array}{|l|c|}
\hline
\ \text{Quelle} & df & \text{Summe der Quadrate }(SS) & \text{Mittlere Quadrate }(MS) & F\text{-Statistik} & p\text{-Wert}\\
\hline
\ \text{Gruppe/Klasse} & k-1 & SSG & MSG=\frac{SSG}{k-1} & F = \frac{MSG}{MSE} & p\\
\ \text{Fehler/Residuen} & n-k & SSE & MSE=\frac{SSE}{n-k} & & \\
\hline 
\ \text{Insgesamt} & n-1 & SST & & & \\
\hline 
\end{array}