# T-verdeling

De t-verdeling kent een geschatte standaarddeviatie, terwijl de normale verdeling met een exacte bekende standaarddeviatie.

$$ \underline{t} = \dfrac{\overline{\underline x} - \mu}{\frac{\underline{s}}{\sqrt{n}}} $$

waarbij $\underline s$ een schatting is, en bepaald door:

$$ \underline{s} = \sqrt{  \dfrac{\sum\left(X_i - \underline{\overline X}\right)^2}{n-1}  } $$

# Betrouwbaarheidsinterval voor $\mu$ bij onbekende $\sigma$

$$ \bar{x} - t \cdot \dfrac{s}{\sqrt n} < \mu < \bar{x} + t \cdot \dfrac{s}{\sqrt n} $$

In [90]:
x = 16
s = 1.34
n = 10
alpha = 0.05
t = abs(qt(alpha/2, n-1))
interval = c(x - t * s / sqrt(n), x + t * s / sqrt(n))
interval

# Harmonisch gemiddelde

Het harmonisch gemiddelde is een speciaal gemiddelde, van toepassing bij het berekenen van gemiddelden van verhoudingsgetallen [[Wikipedia](https://nl.wikipedia.org/wiki/Harmonisch_gemiddelde)]. 

$$\bar{n}_h = \dfrac{c}{\frac{1}{n_1} + \frac{1}{n_2} + \ldots + \frac{1}{n_c}} = c \left( \sum\limits_{j=1}^c\dfrac{1}{n_j}\right)^{-1}$$

In [88]:
X = c(2,6,2,5,3,6,3)
mean(X)               # arithmetic mean
length(X) / sum(1/X)  # harmonic mean

# Pooled-variance principe

Het is mogelijk om varianties samen te voegen met het pooled-variance principe. De formule hiervoor is als volgt:

$$ s_2 = \dfrac{(n_1 - 1)s_1^2 + \ldots + (n_k - 1)s_k^2}{(n_1 - 1) + \ldots + (n_k - 1)} $$

waarbij $k$ het aantal varianties zijn.

# ANOVA (één-factor model)

Om de ANOVA analyse te doen berekenen we de volgende grootheden:

**Sum of Squares Total**:

$$SST = \sum\limits_{j=1}^c \sum\limits_{i=1}^{n_j}\left( X_{ij} - \bar{X}_{\cdot \cdot}\right)^2; MST = \dfrac{SST}{n-1}$$
 
**Sum of Squares Error**:

$$SSE = \sum\limits_{j=1}^c \sum\limits_{i=1}^{n_j}\left( X_{ij} - \bar{X}_{\cdot j}\right)^2; MSE = \dfrac{SSE}{n-c}$$
 
**Sum of Squares Groups**:

$$SSG = \sum\limits_{j=1}^c n_j \left( \bar{X}_{\cdot j} - \bar{X}_{\cdot \cdot}\right)^2; MSG = \dfrac{SSG}{c-1}$$

waarbij $n$ het totaal aantal waarnemingen is en $c$ het aantal groepen. Hiervoor geldt er dat $SST = SSG + SSE$.

**ANOVA tabel**

Met de berekende waarden kunnen we de volgende tabel opstellen:

|ANOVA|vrijheidsgraden ($df$)|Sum of Squares|Mean of Squares|F-ratio|
|--|--|--|--|--|
|Groepen (G)|$c-1$|$SSG$|$MSG$|$\frac{MSG}{MSE}$|
|Binnen (E)|$n-c$|$SSE$|$MSE$||
|Totaal (T)|$n-1$|$SST$||

# Ongelijke steekproefgroottes

Bij ongelijke steekproefgroottes is $E(\bar{X}_{\cdot \cdot})$ geen zuivere schatter voor $\mu$. De oplossing hiervoor is als volgt:

 1. Eerst bepalen we $\bar{G}_{\cdot \cdot} = \sum\limits_{j=1}^c\left( \bar{X}_j \right) / c$.
 2. Vervolgens wordt $SSG = \bar{n}_h \sum\limits_{j=1}^c\left( \bar{X}_{\cdot j} - \bar{G}_{\cdot \cdot}\right)^2 $.
 
waarbij $\bar{n}_h$ het harmonisch gemiddelde is. In het geval van ongelijke steekproefgroottes geldt dat $SST \not = SSG + SSE$.

# Levene's toets

Met Levene's toets kunnen we toetsen of populatievarianties mogelijk gelijk zijn aan elkaar. Dit is een vereiste voor de ANOVA analyse. Hierbij stellen we als $H_0$ dat de populatievarianties gelijk zijn aan elkaar en willen we dit niet verwerpen.

**Toetsingsgrootheid**

$$ F_L = \dfrac{\left( \sum\limits_{j=1}^c n_j \left( \bar{Z}_{\cdot j} - \bar{Z}_{\cdot \cdot}\right)^2\right) / (c-1)}{\left( \sum\limits_{j=1}^c \sum\limits_{i=1}^{n_j} \left( \bar{Z}_{ij} - \bar{Z}_{\cdot j} \right)^2\right) / (n-c)} = \dfrac{MSG}{MSE} \sim F_{(\nu_1, \nu_2)} $$

waarbij $Z_{ij} = \left|\ X_{ij} - \bar{X}_{\cdot j}\ \right|$.

**Beslissing**

Als $p > \alpha$ dan wordt $H_0$ niet verworpen. De populatievarianties kunnen aan elkaar gelijk zijn.

# Bonferoni methode

# Maat voor effectgrootte

Een maat voor effectgrootte $\eta^2$, eta kwadraat, geeft het percentage van de variantie v/d scores op de afhankelijke variabele dat door de onafhankelijke variabele wordt verklaard.

 $$ \eta^2 = \dfrac{SSG}{SST} : \textrm{effectgrootte} $$
 
Dit geldt voor een gelijke steekproefgrootte.

# Rangtekentoets (Wilcoxon Signed Rank test)

Het doel van de analyse is een verschil aantonen tussen twee _afhankelijke/gekoppelde_ groepen op een ordinale variabele.

**Stappenplan**

1. Maak een tabel met de experimentele groep $E$ en de controle groep $C$.
2. Bepaal het verschil $D_i = E_i - C_i$.
3. Bepaal hat absolute verschil $|\ D_i\ |$.
4. Bepaal de rangnummers $R_i$ van het absolute verschil.
5. Bepaal het teken voor $R_i$, dus $\textrm{sign}(D_i) \cdot R_i$.
6. Bepaal $W_+$ wat de som is van alle _positieve_ rangnummers.
7. Zodra $W_+$ en $n$ bepaald zijn kunnen we de $p$-waarde opzoeken in tabel 10.

Alle verschilscores waarvoor geldt dat $D_i = 0$ moeten worden verwijderd. Indien dit het geval is dat wordt ook de $n$ aangepast. In het geval van gelijke rangnummers, m.a.w. knopen, nemen we het gemiddelde van de rangnummers.

**Toetsingsgrootheid**

De toetsingsgrootheid is $W_+$. Dit is de som is van alle positieve rangnummers. Voor $W_+$ geldt dat:

 * $\textrm{E}(W_+) = \dfrac{n(n-1)}{4}$
 * $\textrm{Var}(W_+) = \dfrac{n(n+1)(2n+1)}{24}$

**Centrale limietstelling**

Het blijkt dat we $W_+$ normaal kunnen benaderen als $n \rightarrow \infty$. De vuistregel hiervoor is $n > 15$. In dit geval geldt dat:

$$ W_+ \sim N\left(\mu=\dfrac{n(n-1)}{4}; \sigma=\sqrt{\dfrac{n(n+1)(2n+1)}{24}}\right)$$

Bij benadering gebruiken we:

$$ P(W_+ \leq k) \approx P\left(X_{nor} \leq k + \frac{1}{2}\ |\ \mu, \sigma\right) $$

**Voorbeeld**

Voor patienten met depressieve klachten is er een experiment opgezet. Hiervoor is $X : $ score op de vragenlijst ($0\leq X \leq 100$). Hoe hoger de score, hoe erger de klachten. Er zijn 10 gematchte paren gemaakt (personen met dezelfde score op de vragenlijst).

De experimentele groep $E$ krijgt een behandeling met hardlopen en de controle groep $C$ krijgt een behandeling zonder hardlopen. Toets of het hardlopen effect heeft.

In [56]:
E = c(70, 60, 55, 80, 40, 68, 54, 71, 70, 40)
C = c(75, 62, 65, 77, 49, 60, 63, 78, 59, 55)
D = E-C
D.abs = abs(D)
R = c(4, 1, 8, 2, 7, 6, 3, 5, 9, 10)
R.sign = sign(D) * R
df = t(data.frame(E, C, D, D.abs, R, R.sign))
df

0,1,2,3,4,5,6,7,8,9,10
E,70,60,55,80,40,68,54,71,70,40
C,75,62,65,77,49,60,63,78,59,55
D,-5,-2,-10,3,-9,8,-9,-7,11,-15
D.abs,5,2,10,3,9,8,9,7,11,15
R,4,1,8,2,7,6,3,5,9,10
R.sign,-4,-1,-8,2,-7,6,-3,-5,9,-10


In [67]:
W_pos = sum(R.sign[R.sign > 0])
W_pos

_Toetsprocedure_

1. $H_0$ : $\eta_E = \eta_C$ en $H_A$ : $\eta_E < \eta_C$.
2. Toetsingsgrootheid: $W_+ = 17$ met $n=10$.
3. Overschrijdingskans: $p = P(W_+\leq 17) \stackrel{\textrm{Tabel 10}}{=} 0.161$.
4. Beslissing: $p \leq \alpha$ ($0.10$) dus $H_0$ niet verwerpen.
5. Conclusie: Er is geen significant verschil in toetsscores.

In [83]:
wilcox.test(E, C, paired=TRUE, alternative='less', correct=TRUE, exact=TRUE)

"cannot compute exact p-value with ties"


	Wilcoxon signed rank test with continuity correction

data:  E and C
V = 16, p-value = 0.1309
alternative hypothesis: true location shift is less than 0


# Wilcoxon som toets (Mann-Whitney toets)

Het doel van de analyse is een verschil aantonen tussen twee _onafhankelijke_ groepen op een ordinale variabele.

 * Groepsvariabele : middel (groep 1: geneesmiddel, groep 2: placebo)
 * Testvariabele : mate van aggresief gedrag (testscore 1-100)
 
**Stappenplan**

1. Sorteer beide testscores, zowel $X$ als $Y$.
2. Bepaal de rangnummers voor $X$ en $Y$.
3. Bepaal de som voor elke groep, dus $S_x$ en $S_y$ waarbij de $S$ staat voor som.
4. Zodra $m$, $n$ en $S_x$ bepaald zijn kunnen we de $p$-waarde opzoeken in tabel 11.

Let er op dat geldt dat $m \leq n$, indien dit niet het geval is kunnen $X$ en $Y$ worden omgewisselt.

**Toetsingsgrootheid**

De toetsingsgrootheid is $S_x$ waarbij $S$ staat voor de som. Dit is de som van alle rangnummers van $X$. Voor $S_x$ geldt er dat:

 * $\textrm E(S_x) = \frac{m(m+n+1)}{2}$
 * $\textrm{Var}(S_x) = \frac{nm(n+m+1)}{12}$
 
**Centrale limietstelling**

Het blijkt dat we $S_x$ normaal kunnen benaderen als $n, m \rightarrow \infty$. Hiervoor geldt dat:

$$S_x \sim N\left(\mu=\frac{m(m+n+1)}{2}; \sigma=\sqrt{\frac{nm(n+m+1)}{12}}\right)$$ 

De vuistregel om te mogen benaderen eist dat $m, n > 10$. Hiervoor gebruiken we:

$$ P(S_x \leq k) \approx P\left(X_{nor} \leq k + \frac{1}{2}\ |\ \mu, \sigma\right) $$
 
**Voorbeeld**

Voor twee groepen $A$ en $B$ wordt er een vitaminepil gegeven. Groep $A$ is vertelt dat het een prestatieverhogend middel is en voor groep $B$ een slaapmiddel. 

In [46]:
groep.a = c(36, 41, 44, 45, 52, 53, 54, 57, 58, 77)
groep.b = c(26, 46, 55, 59, 64, 65, 67, 79, 81, 83)
rank.a = c(2, 3, 4, 5, 7, 8, 9, 11, 12, 17)
rank.b = c(1, 6, 10, 13, 14, 15, 16, 18, 19, 20)
t(data.frame(groep.a, groep.b, rank.a, rank.b))

0,1,2,3,4,5,6,7,8,9,10
groep.a,36,41,44,45,52,53,54,57,58,77
groep.b,26,46,55,59,64,65,67,79,81,83
rank.a,2,3,4,5,7,8,9,11,12,17
rank.b,1,6,10,13,14,15,16,18,19,20


In [49]:
Sa = sum(rank.a)
Sa

_Toetsprocedure_

1. $H_0$ : $\eta_A = \eta_B$ en $H_A$ : $\eta_A < \eta_B$.
2. Toetsingsgrootheid: $S_A = 78$ met $m=n=10$.
3. Overschrijdingskans: $p = P(S_A \leq 78) \stackrel{\textrm{Tabel 11}}{=} 0.022$.
4. Beslissing: $p \leq \alpha$ dus $H_0$ verwerpen.
5. Conclusie: De suggestie doet zijn werk.