# Hypothese toetsen — Studentenversie

In deze opdracht onderzoek je of er een verschil is in **stappen per week** tussen mannelijke en vrouwelijke studenten.

Om een goede uitspraak te kunnen doen over data, willen we onderscheid maken tussen:

- een **écht effect** (bijvoorbeeld: vrouwen zetten gemiddeld meer stappen dan mannen), en  
- **toeval** (in een steekproef kan er altijd “ruis” zitten).

Het proces waarbij we met statistiek bepalen of een gevonden verschil waarschijnlijk echt is (en niet puur toeval), heet **hypothesetoetsing**.

In dit notebook begeleiden we jullie stap voor stap door het proces. Schrijf je antwoorden in de antwoordvakken.

## Casus

De TU Delft wil de fysieke activiteit van haar studenten stimuleren. Om een gerichte aanpak op te zetten, wil het bestuur weten of er een verschil is tussen de fysieke activiteit van mannelijke en vrouwelijke studenten.

Het vermoeden is dat vrouwen doorgaans fysiek actiever zijn dan mannen, en dat interventies dus vooral gericht moeten zijn op het activeren van mannen. Jullie enquête vormt onze **steekproef** van TU Delft-studenten.

We onderzoeken de hypothese:

> *"Vrouwelijke studenten aan de TU Delft zetten gemiddeld meer stappen per week dan mannelijke studenten aan de TU Delft."*

# 1. Data inladen

We laden de dataset direct in via GitHub.

In [None]:
# 1.1 Data inladen
df <- read.csv("https://raw.githubusercontent.com/DannyLemmers/Stappenteller-2025/main/data/StappentellerData.csv")

# Controleer of de data is ingeladen:
head(df)
names(df)

## 1.2 Data controle

In het echt is data zelden perfect, en ook in de data die jullie verzameld hebben kunnen fouten zitten. Opschonen van data hebben jullie eerder al geoefend.

We beginnen met **geslacht**.

Beantwoord:
- Hoeveel antwoordmogelijkheden zitten er in `Geslacht`?
- Wat is de verdeling (aantallen per categorie)?
- Hoeveel missende/lege waarden bevat `Geslacht`?

In [None]:
# Vul hieronder je code in


### Antwoorden (geslacht)

**Antwoordmogelijkheden:**  
- …

**Verdeling:**  
- …

**Missende/lege waarden:**  
- …

**Besluit:** wat doe je met lege/missende `Geslacht`-waarden en waarom is dat verdedigbaar?  
- …

In [None]:
# Opschonen (voorbeeld): verwijder lege geslacht-waarden.
# Pas dit aan als jij een ander verdedigbaar besluit neemt.
df <- df[df$Geslacht != "", ]

## 1.3 Stappentellerdata: stappen per week

Op dit moment zijn de stappentellerdata per dag opgeslagen in 7 kolommen. Voor onze analyse willen we één variabele:

- `stapWeek` = som van dag 1 t/m 7

Vergeet ook niet eventuele missing values (`NA`) op te schonen.

In [None]:
# Maak stapWeek (som van 7 dagen)
# Let op: kolomnamen hebben puntjes. 

# Verwijder rijen met NA in stapWeek

# Snelle check:
summary(df$stapWeek)

# 2. Beschrijvende statistiek

Voordat we een hypothese gaan toetsen, willen we eerst begrijpen:

- Wat is het gemiddelde aantal stappen per week?
- Hoe groot is de spreiding?
- Ziet de verdeling er normaal uit?

Statistiek begint altijd met **beschrijven**, pas daarna met **toetsen**.

## 2.1 Gemiddelden en standaarddeviaties

We berekenen eerst het gemiddelde en de standaarddeviatie van het aantal stappen per week.

- Gemiddelde (mean) → het centrale punt van de data  
- Standaarddeviatie (sd) → hoe sterk de waarden rond het gemiddelde verspreid zijn  

Hoe groter de standaarddeviatie, hoe meer spreiding in het aantal stappen per week.

In [None]:
gemiddelde_stappen <- 
sd_stappen <- 
aantal <- 

cat(sprintf("Gemiddelde stappen: %.0f (SD = %.0f, n = %d)\n",
            gemiddelde_stappen, sd_stappen, aantal))

### Antwoorden (totaal)

- Wat betekent het gemiddelde hier?  
  - …

- Wat betekent de standaarddeviatie hier?  
  - …

- Is de spreiding “groot” of “klein”? Waar baseer je dat op?  
  - …

## 2.2 Per geslacht

Omdat onze hypothese gaat over verschillen tussen mannen en vrouwen, willen we de statistieken per groep bekijken.

In [None]:
mannen  <- df$stapWeek[df$Geslacht == "Man"]
vrouwen <- df$stapWeek[df$Geslacht == "Vrouw"]

gemiddelde_mannen <- 
sd_mannen <- 
aantal_mannen <- 

gemiddelde_vrouwen <- 
sd_vrouwen <- 
aantal_vrouwen <- 

cat(sprintf("Gemiddelde stappen mannen: %.0f (SD = %.0f, n = %d)\n",
            gemiddelde_mannen, sd_mannen, aantal_mannen))

cat(sprintf("Gemiddelde stappen vrouwen: %.0f (SD = %.0f, n = %d)\n",
            gemiddelde_vrouwen, sd_vrouwen, aantal_vrouwen))

### Antwoorden (per geslacht)

- Welke groep heeft in deze steekproef gemiddeld meer stappen?  
  - …

- Hoe groot is het verschil ongeveer (ruw)?  
  - …

## 2.3 Verdeling: histogram

Een histogram laat zien hoe vaak waarden voorkomen. Hiermee krijg je een eerste indruk van:

- symmetrie (links/rechts)
- scheefheid (skew)
- mogelijke uitschieters

In [None]:
hist(df$stapWeek,
     main = "Verdeling van stappen per week",
     xlab = "Aantal stappen per week")

### Antwoorden (histogram)

- Is de verdeling ongeveer symmetrisch?  
  - …

- Is er duidelijke scheefheid (links/rechts)?  
  - …

- Zie je opvallende waarden (heel laag/heel hoog)?  
  - …

# 3. Uitschieters (outliers)

Een **outlier** is een observatie die duidelijk afwijkt van de rest van de data. Bijvoorbeeld:

- iemand die extreem veel stappen per week zet  
- of iemand die bijna geen stappen per week zet

Dat kán echt zijn, maar het kan ook een meetfout of invoerfout zijn.

Outliers zijn belangrijk omdat ze:
- het gemiddelde sterk kunnen beïnvloeden
- de standaarddeviatie vergroten
- aannames van statistische toetsen kunnen verstoren

Daarom willen we outliers eerst **zichtbaar maken** en daarna beslissen wat we ermee doen.

## 3.1 Hoe definieert een boxplot een outlier?

De standaarddefinitie in boxplots is gebaseerd op de interkwartielafstand (**IQR**):

- Q1 = 25e percentiel  
- Q3 = 75e percentiel  
- IQR = Q3 − Q1  

Een waarde wordt als outlier beschouwd als:

- waarde < Q1 − 1.5 × IQR  
- waarde > Q3 + 1.5 × IQR  

Een boxplot maakt het dus eenvoudig om te zien of er outliers in de data zitten.

## 3.2 Boxplot maken

Eerst maken we een boxplot voor de hele groep, daarna per geslacht.

In [None]:
boxplot(df$...,
        main = "",
        ylab = "")

In [None]:
boxplot(stapWeek ~ Geslacht,
        data = df,
        main = "",
        ylab = "",
        col = c("lightblue","pink"))

### Antwoorden (boxplot)

Eventuele punten buiten de 'snorren' van de boxplot zijn outliers.

- Zijn er outliers aanwezig?  
  - …

- Is dit een relatieve outlier (mogelijk echt) of waarschijnlijk een meet-/invoerfout?  
  - …

- Wat is jouw besluit: wel/niet verwijderen? Waarom?  
  - …

## 3.3 Outliers berekenen (IQR-methode)

We berekenen de onder- en bovengrens en kijken welke waarden daarbuiten vallen.

In [None]:
Q1  <- quantile()
Q3  <- quantile()

IQR_waarde <- 

ondergrens <- 
bovengrens <- 

ondergrens
bovengrens

# Waarden buiten de grenzen:
df$stapWeek[df$stapWeek < ondergrens | df$stapWeek > bovengrens]

### Outlier-besluit uitvoeren (optioneel)

Als je besluit outliers te verwijderen, voer dat hieronder uit. Als je besluit ze te behouden, laat dit blok staan en leg je keuze uit.

In [None]:
# Outliers verwijderen (OPTIONEEL) 

# Controleer opnieuw
boxplot(stapWeek ~ Geslacht,
        data = df,
        main = "Stappen per week per geslacht (na outlier-besluit)",
        ylab = "Aantal stappen per week")

# 4. Statistische toetsen

We zijn nu al ver in het beoordelen van de data. We hebben de data ingeladen, opgeschoond en outliers beoordeeld. Nu komen we bij het punt waarop we écht iets inhoudelijks gaan zeggen over het verschil in stappen per week tussen mannen en vrouwen.

We vergelijken twee **onafhankelijke groepen**. In dit vak behandelen we twee toetsen:

- de **Welch t-toets**
- de **Wilcoxon rank-sum toets**

Beide toetsen kunnen helpen om een uitspraak te doen over een verschil tussen groepen, maar ze gebruiken verschillende aannames over de data.

## 4.1 De Welch t-toets

De t-toets gebruik je wanneer je de **gemiddelden** van twee groepen wilt vergelijken.

Aannames:
1. Observaties zijn onafhankelijk (de meting van persoon A beïnvloedt persoon B niet).
2. De data binnen (elke) groep is ongeveer normaal verdeeld.

In R (voor onze richting 'vrouwen > mannen'):

```r
t.test(stapWeek ~ Geslacht, data = df, alternative = "less")
```

Waarom `less`? Bij `stapWeek ~ Geslacht` test R het verschil (Man − Vrouw).  
Als vrouwen gemiddeld meer stappen zetten, verwachten we (Man − Vrouw) < 0.

## 4.2 De Wilcoxon rank-sum toets

De Wilcoxon toets vergelijkt niet direct gemiddelden. In plaats daarvan:

- rangschikt de waarden
- en test of waarden uit de ene groep systematisch hoger zijn dan uit de andere

Voordeel: de toets maakt minder aannames over de verdelingsvorm (geen normaliteitsaanname).  
De toets vereist wel dat de observaties **onafhankelijk** zijn.

In R (zelfde richting):

```r
wilcox.test(stapWeek ~ Geslacht, data = df, alternative = "less")
```

## 4.3 Toetsselectie

Nu we weten uit welke twee toetsen we kunnen kiezen, bepalen we welke het meest passend is.  
Daarvoor beoordelen we de aannames.

### Onafhankelijkheid

Beoordeel of de data onafhankelijk is. Is het zo dat de meting van jezelf invloed heeft op de meting van je buurman/-vrouw?

Doorgaans geldt: tenzij je dezelfde persoon meerdere keren meet (bijv. voor/na), mag je metingen meestal als onafhankelijk beschouwen.

**Antwoord (onafhankelijkheid):**  
- …

### Normaal verdeeld

De volgende aanname is normaliteit.

Eerst visueel:
- Kijk naar het histogram.
- Let op symmetrie, scheefheid, en extreme waarden.

Daarna formeler met:
- Q-Q plot
- Shapiro–Wilk test

#### Q-Q plot

In een Q-Q plot:
- de rode lijn representeert perfect normale data
- echte data is vrijwel nooit perfect normaal
- we beoordelen of de punten **bij benadering** op de lijn liggen

Let op:
- duidelijke S-vorm?
- sterke kromming?
- wijken punten vooral in de uiteinden af of overal?

In [None]:
qqnorm(df$stapWeek)
qqline(df$stapWeek, col = "red")

**Antwoord (Q-Q plot):**  
- …

#### Shapiro–Wilk test

De Shapiro–Wilk test toetst of de data statistisch significant afwijkt van een normale verdeling.

Hypothesen:
- H0: data is normaal verdeeld
- H1: data wijkt af van een normale verdeling

De p-waarde is de kans om een afwijking te observeren die minstens zo groot is als in onze data, **gegeven dat** H0 waar is.

Als p > 0.05 hebben we onvoldoende bewijs om normaliteit te verwerpen (dat bewijst niet dat het perfect normaal is).

In [None]:
shapiro.test(df$stapWeek)

### Antwoorden (normaliteit)

- Wat betekent de p-waarde in jouw woorden?  
  - …

- Verwerp je normaliteit bij α = 0.05 (ja/nee)?  
  - …

- Tezamen met histogram + Q-Q plot: is de data “normaal genoeg”?  
  - …

### Conclusie toetskeuze

- Welke toets kies je (Welch / Wilcoxon) en waarom?  
  - …

# 5. Hypothesen en α

Voordat we de toets uitvoeren, formuleren we de hypothesen voor onze onderzoeksvraag en kiezen we een significantieniveau α.

## 5.1 Hypothesen (onderzoeksvraag)

Onderzoeksvraag: vrouwen zetten gemiddeld meer stappen per week dan mannen.

Formuleer:

**H0 (nulhypothese):**  
- …

**H1 (alternatieve hypothese):**  
- …

## 5.2 α (significantieniveau)

In statistiek kiezen we vooraf een **α-waarde** (significantieniveau). Vaak is α = 0.05.

Dat betekent: we accepteren een kans van 5% om H0 ten onrechte te verwerpen.

Beslisregel:
- p ≤ α → we verwerpen H0
- p > α → we verwerpen H0 niet

Belangrijk: α leg je vooraf vast, anders lijkt het alsof je α achteraf aanpast aan het resultaat.

**Mijn keuze voor α:**  
- …

**Waarom vooraf vastleggen?**  
- …

# 6. Uitvoeren van de test

Voer nu de toets uit die jij passend vindt en interpreteer de p-waarde.

In [None]:
# Kies één toets door de andere in commentaar te zetten.

# Welch t-toets
res <- t.test(stapWeek ~ Geslacht, data = df, alternative = "less")
res

# Wilcoxon rank-sum
res <- wilcox.test(stapWeek ~ Geslacht, data = df, alternative = "less")
res

# 7. Resultaten interpreteren

Beantwoord:

- Wat is de p-waarde?  
- Vergelijk p met jouw α: verwerp je H0 of niet?  
- Wat is je conclusie in gewone woorden over de onderzoeksvraag?

**Antwoorden:**  
- p = …  
- Beslissing: …  
- Conclusie: …

## 7.1 Rapportagezin

Schrijf één volledige zin zoals je die in een verslag zou zetten, inclusief:
- toetsnaam
- α
- p-waarde
- conclusie in context van de onderzoeksvraag

**Rapportagezin:**  
- …