-
Notifications
You must be signed in to change notification settings - Fork 0
/
050-Explikation.qmd
798 lines (498 loc) · 32.6 KB
/
050-Explikation.qmd
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
346
347
348
349
350
351
352
353
354
355
356
357
358
359
360
361
362
363
364
365
366
367
368
369
370
371
372
373
374
375
376
377
378
379
380
381
382
383
384
385
386
387
388
389
390
391
392
393
394
395
396
397
398
399
400
401
402
403
404
405
406
407
408
409
410
411
412
413
414
415
416
417
418
419
420
421
422
423
424
425
426
427
428
429
430
431
432
433
434
435
436
437
438
439
440
441
442
443
444
445
446
447
448
449
450
451
452
453
454
455
456
457
458
459
460
461
462
463
464
465
466
467
468
469
470
471
472
473
474
475
476
477
478
479
480
481
482
483
484
485
486
487
488
489
490
491
492
493
494
495
496
497
498
499
500
501
502
503
504
505
506
507
508
509
510
511
512
513
514
515
516
517
518
519
520
521
522
523
524
525
526
527
528
529
530
531
532
533
534
535
536
537
538
539
540
541
542
543
544
545
546
547
548
549
550
551
552
553
554
555
556
557
558
559
560
561
562
563
564
565
566
567
568
569
570
571
572
573
574
575
576
577
578
579
580
581
582
583
584
585
586
587
588
589
590
591
592
593
594
595
596
597
598
599
600
601
602
603
604
605
606
607
608
609
610
611
612
613
614
615
616
617
618
619
620
621
622
623
624
625
626
627
628
629
630
631
632
633
634
635
636
637
638
639
640
641
642
643
644
645
646
647
648
649
650
651
652
653
654
655
656
657
658
659
660
661
662
663
664
665
666
667
668
669
670
671
672
673
674
675
676
677
678
679
680
681
682
683
684
685
686
687
688
689
690
691
692
693
694
695
696
697
698
699
700
701
702
703
704
705
706
707
708
709
710
711
712
713
714
715
716
717
718
719
720
721
722
723
724
725
726
727
728
729
730
731
732
733
734
735
736
737
738
739
740
741
742
743
744
745
746
747
748
749
750
751
752
753
754
755
756
757
758
759
760
761
762
763
764
765
766
767
768
769
770
771
772
773
774
775
776
777
778
779
780
781
782
783
784
785
786
787
788
789
790
791
792
793
794
# Erklären
## Lernsteuerung
### Standort im Lernpfad
@fig-ueberblick zeigt den Standort dieses Kapitels im Lernpfad und gibt damit einen Überblick über das Thema dieses Kapitels im Kontext aller Kapitel.
Behalten Sie Ihren Fortschritt im Projektplan im Blick, s. @fig-projektplan.
```{r}
#| echo: false
library(tidyverse)
ggplot2::theme_set(theme_minimal())
```
### Lernziele
- Sie können erklären, warum interventionelle Studien und speziell Experimente zur Explikation als epistemologisches Ziel von Studien eingesetzt werden können.
- Sie können Validität definieren und in ihren Bestandteilen erläutern.
- Sie können verschiedene Varianten von Versuchsdesigns aufführen.
- Sie können Qualitätsmerkmale eines Experiments nennen und erläutern.
- Sie können folgende Begriffe erläutern: Max-Kon-Min-Prinzip, Randomisieren, Störvariable.
- Sie können ein Beispiel für ein Experiment aus der Psychologie nennen und die Studie beschreiben.
## Interventionelle Studien
### Explikation
Explikation ist (hier) synonym zu *Erklärung*.
:::{#def-explikation}
### Explikation
Unter Explikation versteht man das Erkenntnis des Erklärens eines wissenschaftlich untersuchten Sachverhalts.
In den meisten Fällen ist damit das Identifizieren einer (oder mehrerer) Ursachen eines Phänomens gemeint.
In diesem Sinne kann man sagern:
Hat man eine oder gar alle Ursachen eines Phänomens erkannt, so hat man das Phänomen "erklärt".$\square$
:::
:::{#exm-explikation}
### Explikation
Eine Hauptursache der "Seefahrerkrankheit" Skorbut ist Vitaminmangel [@pearl_book_2018].
Eine Ursache von Aggression ist Frustration [@jonas_sozialpsychologie_2014].
*Social Proof* (soziale Bewährtheit) ist eine Ursache, so @cialdini_psychologie_2017, der Entscheidungsbildung in eine gewisse Richtung.$\square$
:::
### Nicht schauen, sondern machen
In *Beobachtungsstudien* werden "nur" Daten erhoben, häufig in Form von Beobachtung.
Im Gegensatz dazu gibt es Studien, in denen nicht "nur" beobachtet,
sondern auch "gemacht" wird.
:::{#def-interventionsstudie}
### Interventionelle Studie
Eine Interventionelle Studie (Interventionsstudie, Treatmentstudie) ist eine Studie, im Zuge derer die Versuchsobjekte auf eine Form (oder mehrere Formen) behandelt werden.
Es werden also nicht nur Informationen vom Forschungsgegenstand erhoben,
sondern die Forschis wirken auch auf das System, d.h. die Versuchsobjekte ein.
Häufig verfolgt so eine Studie das Ziel, die Wirkung der Einwirkung auf die Versuchsobjekte zu untersuchen.$\square$
:::
Interventionelle Studien werden in der Regel mit dem Ziel der *Explikation*,^[auch als *Explanation* bezeichnet] zumeist im kausalen Sinne, eingesetzt.
:::{#def-beob}
### Beobachtungsstudie
Nicht-Interventionelle bezeichnet man auch als *Beobachtungsstudien*, da man "nichts macht", im Sinne von keine Ausprägungen von Variablen aktiv ändert, sondern nur beobachtet bzw. den Wert der (interessierenden) Variablen misst.$\square$
:::
:::{#def-treatment}
### Treatment
Ein Treatment (synonym: Intervention) nennt man die Behandlung, die eine Gruppe von Versuchsteilnehmis im Rahmen einer Studie erfährt [@reichardt_quasi-experimentation_2019].$\square$
:::
:::{#exm-ibu}
### Ibuprofen und Kopfschmerz
Eine Interventionsstudie wird verwendet, um den Effekt von Ibuprofen auf (die Reduktion von) akutem Kopfschmerz zu untersuchen. Dafür werden zwei Gruppen von Versuchspersonen unterschieden: Solche, die Ibuprofen als Treatment verabreicht bekommen, und solche, die nur ein "Scheinmedikament" (Placebo) in Form einer "Zuckerpille" verabreicht bekommen, vgl. @fig-ablauf-interv.$\square$
:::
```{mermaid}
%%| label: fig-ablauf-interv
%%| fig-cap: Einfaches Schema des Ablaufs einer Interventionsstudie
flowchart LR
A[Begrüßung der Versuchsteilneher:innen] --> B1[Bedingung A: Ibuprofen]
A --> B2[Bedingung 2: Placebo]
B1 --> C[Messung des Kopfschmerzes]
B2 --> C
```
:::{#def-exp-kontrollgruppe}
### Experimental- vs. Kontrollgruppe
Die Bedingung (Gruppe), in der das eigentliche Treatment verabreicht wird, nennt man auch Experimentalbedingung (Experimentalgruppe).
Eine Bedingung (Gruppe), in der nur ein Treatment als Referenzwert verarbreicht wird, nennt man auch Kontrollbegingung (Kontrollgruppe). Häufig ist der Referenzwert "kein Treatment" oder ein Placebo.$\square$
:::
## Effekt
### Definition
:::{#def-effekt}
### Effekt
Ein Effekt (eines Treatments $T$) ist hier definiert als der Unterschied im beobachteten (gemessenen) Ergebnis zwischen was passiert ist, nachdem das Treatment verabreicht wurde und was passiert wäre, wenn stattdessen eine andere Intervention verabreicht worden wäre, unter der Annahme, dass sonst alles andere gleich gewesen wäre^[ceteris paribus] [@reichardt_quasi-experimentation_2019].$\square$
:::
:::{#exm-kopfweh}
Den Effekt des Ibuprofens (Treatment) auf den Kopfschmerz bezeichnen wir als $Y(1)$.
Den Effekt der Gruppe ohne Treatment auf den Kopfschmerz bezeichnen wir als $Y(0)$.$\square$
:::
:::{.callout-note}
Leider ist es unmöglich, einen Effekt direkt zu bestimmen.$\square$
:::
Leider ist es per definitionem unmöglich, zu messen, was der Fall wäre, wenn die Welt anders wäre bzw. wir eine andere Intervention angewendet hätten.
Man spricht daher von einer kontrafaktischen Definition.
Auf dieser Basis definiert man den mittleren Treatmenteffekt (average treatment effect, AVE) wie folgt (bei einer
Stichprobe oder Population der Größe N und für die AV Y).
$$AVE = \sum_i^N[Y_i(1) - Y_i(0)]$$
Man kann bei einer bestimmten Person nur entweder $Y_i(1)$ oder $Y_i(0)$ beobachten, aber nicht beides gleichzeitig.
### Signal und Rauschen
:::{#exm-signal1}
@fig-signal-noise zeigt die Körpergrößen einiger Studentinnen (female) und Studenten (male) eines Studiengangs der Wirtschaftspsychologie.
Hintergrund ist eine (fiktive) Studie, die nach dem *Unterschied der mittleren Körpergrößen*, $d$ von Studentis fragt.
In dem Beispiel ist $d$ der Effekt, auch *Signal* genannt. Die einzelnen Datenpunkten,
also die Körpergrößen der einzelnen Personen (als Punkte dargestellt) sind *Rauschen*.
Genauer gesagt: Die Streuung innerhalb der Gruppen "übertönt" den Effekt $d$,
diese Streuung nennt man Rauschen oder Fehlerstreuung.$\square$
:::
```{r}
#| echo: false
#| label: fig-signal-noise
#| fig-cap: Signal (Mittelwertsdifferenz, Dreieck) und Rauschen (Streuung innerhalb der Geschlechter, Streuung der Punkte)
library(pradadata)
data("wo_men")
w2 <-
wo_men %>%
filter(sex %in% c("man", "woman"),
between(height, 150, 210))
w2_summ <-
w2 %>%
group_by(sex) %>%
summarise(height = mean(height))
effsize <- round(w2_summ$height[1] - w2_summ$height[2], 2)
w2 %>%
ggplot(aes(x = sex, y = height, color = sex)) +
geom_hline(aes(yintercept = height), data = w2_summ, linetype = "dashed",
color = "grey60") +
geom_jitter(width = 0.2) +
stat_summary(
geom = "point",
fun.y = "mean",
shape = 24,
size = 7,
color = "black"
) +
annotate("segment",
x = 1.5,
xend = 1.5,
y = w2_summ$height[1],
yend = w2_summ$height[2],
size = 2) +
theme_minimal() +
labs(title = paste0("Die Größe des Effekts beträgt ", effsize, " cm."),
caption = "Die Dreiecke zeigen die Mittelwerte pro Gruppe.")
```
### Die Stärke eines Effekts als Funktion von fünf Determinanten
Die Stärke eines Effekts (eines Treatments) kann als Funktion von fünf Größen verstanden werden, s. @fig-effekt.
```{mermaid}
%%| label: fig-effekt
%%| fig-cap: Die fünf Determinanten eines Effekts
flowchart LR
T[Treatment T] --> E[Effekt E]
VP[Versuchsperson P] --> E
Z[Zeit Z] --> E
R[Rahmen R] --> E
M[Messinstrument M] --> E
```
1. *Treatment* T (*Ursache* U) - *wie?*
- ︎ Art und Menge des Treatment spielt natürlich eine Rolle (50 mg Ibuprofen wirken anders als 500 mg).
2. *Versuchsperson* (bzw. *Versuchsobjekt*) P - *wer?*
- Auf den Versuchsobjekten wird das Treatment angewendet und die Effekte gemessen.
- Die Effekte können also zwischen den Versuchsobjekten variieren.
3. *Zeit* Z - *wann?*
- Der Effekt hängt vom Zeit des Treatments ab und von der Periode zwischen Applikation und Messung des Effekts.
4. *Rahmen* R - *wo?*
- Eine Kopfschmerztablette wirkt vielleicht besser, wenn sie während eines entspannenden Bades an einem ruhigen Abend zuhause eingenommen wird (als während eines stressigen Projektmeetings).
5. *Messinstrument* M - *was?*
- Je nach verwendeten Messinstrument oder Zielvariablen können die Effekte des Treatments deutlicher oder weniger deutlich zum Tragen kommen.
Prägnant zusammengefasst, kann man sagen, dass die Effektstärke (die Größe eines Effekts) eine Funktion von fünf Determinanten ist:
$$ES = f(ZURMO)$$
## Validität
:::{#def-validitaet}
### Validität
Unter der Validität einer Studie versteht man die *Gültigkeit* in dem Sinne, ob die fünf Determinanten korrekt erkannt/beurteilt sind. In dem Maße wie sie falsch beurteilt sind, ist die Validität einbeschränkt.$\square$
:::
:::{#callout-note}
Fehlzuordnungen in den fünf Determinanten begrenzen die Gültigkeit (Validität) eines Effekts.$\square$
:::
1. *Treatment* T (*Ursache* U) - *wie?*
- Eine neue Coachingmethode (T) hat keinen Effekt, aber die Freundlichkeit des Coaches wurde fälschlich als Effekt des Treatments T interpretiert.
- Der Effekt ist also nur ein "Scheineffekt", kein echter Effekt,
da er nicht auf die in der Studie angenommene Ursache, das Treatment, zurückzuführen ist (sondern auf die Freundlichkeit des Coaches).
2. *Versuchsperson* (bzw. *Versuchsobjekt*) P - *wer?*
- Die Autoris der Studie gaben an, die Teilnehmer:innen waren „Health care professionals“, dabei handelte es sich um ungelernte Hilfskräfte.
- Der Effekt ist also nicht in der angegebenen Population, sondern einer anderen (bei ungelernten Hilfskräften), beobachtet worden.
- Die Gültigkeit ist insofern eingeschränkt: Die Population ist falsch benannt.
- Die Teilnehmis waren nicht kooperativ und haben sich nicht an die Instruktionen gehalten.
- Das Treatment hätte einen Effekt, aber er konnte sich nicht zeigen, da die Teilnehmis sich nicht an die Instruktionen gehalten haben.
3. *Zeit* Z - *wann?*
- Die Forscherin nahm an, das Treatment habe keinen Effekt, aber sie hat nur zu früh gemessen.
4. *Rahmen* R - *wo?*
- Die Kopfschmerztablette wurde während eines stressigen Projektmeetings eingenommen. Wäre sie in einem entspannten Umfeld eingenommen worden, so hätte sie einen Effekt gehabt.
5. *Messinstrument* M - *was?*
- Der Statistiktest des Professors hat nicht das Statistikwissen gemessen, sondern die Spick-Kompetenz (aber die dafür sehr genau). Leider fiel das dem Prof nicht auf (leider für den Prof, die Studis fanden es super).
### Interne Validität
Die interne Validität kann als Spezialfall der Konstruktvalidität gesehen werden.
Die interne Validität fragt, inwieweit der Determinant der *Ursache* korrekt bekannt ist: Ist die angenommene Ursache tatsächlich auch die Ursache der beobachten Effekte?
:::{#def-int-val}
### Interne Validität
Die interne Validität betrifft die korrekte Spezifikation des Determinanten *Ursache*.$\square$
:::
Bedrohungen bzw. Einschränkungen der internen Validität beziehen sich nur bestimmte Fehlbeschreibungen beim Determinanten der Ursache (U): Störvariablen, die auch *ohne das Treatment zu einen Effekt* führen würden.
2. *Versuchsperson* (bzw. *Versuchsobjekt*) P - *wer?*
- In einer medizinischen Studie werden die gesünderen Patienten in die Gruppe mit dem neuen Medikament gebracht, aber die kränkeren in die Gruppe mit dem bisherigen Standard-Medikament.
- Allein schon durch diese Zuordnung zeigte sich ein Effekt; das Treatment war unwirksam.
3. *Zeit* Z - *wann?*
- Zur Messung von Stress wird Speichel-Kortisol entnommen. Die Proben der Experimentalgruppe bleiben aber zulange der Raumtemperatur und Sauerstoff ausgesetzt (im Gegensatz zu den Proben der Kontrollgruppe).
- Das Treatment hatte keinen Effekt, aber allein durch die unterschiedliche Exposition mit Sauerstoff fand sich ein Effekt.
4. *Rahmen* R - *wo?*
- Die Verabreichung des neuen Medikaments fand in einer Wellness-Klinik statt. Das alte Medikament im Keller des alten Krankenhauses.
- Das Treatment (neues Medikament) hatte keinen Effekt, aber allein der Rahmenbedingung fand sich ein Effekt zugunsten des neuen Medikaments.
5. *Messinstrument* M - *was?*
- In der Kontrollgruppe wurde ein erfahrener Beobachter zur Analyse des Assessment-Centers eingesetzt, in der Treatmentgruppe aber der Praktikant, der von Tuten und Blasen keine Ahnung hatte.
- Das Treatment hatte einen Effekt, konnte sich aber nicht zeigen, da der Beobachter des Messens nicht mächtig war.
### Externe Validität
:::{#def-ext-val}
### Externe Validität
Externe Validität fragt, wie gut ein Effekt verallgemeinert werden kann, z.B. auf andere Personen, Situationen, Populationen.$\square$
:::
1. *Treatment* T (*Ursache* U) - *wie?*
- Eine Forscherin hat nur einen Teil eines neuen Coachingskonzepts in einem Treatment umgesetzt. Sind die Ergebnisse jetzt auf das ganze Coachingkonzept verallgemeinerter?
2. *Versuchsperson* (bzw. *Versuchsobjekt*) P - *wer?*
- Ein Krebsmedikament wurde nur an älteren Frauen evaluiert (und dies hat das Forscherteam korrekt angegeben). Ob der Effekt wohl auch für andere Altersgruppen und Geschlechter gilt?
3. *Zeit* Z - *wann?*
- Ein Allergiemittel reduziert kurzfristig die relevanten Symptome. Aber ob es wohl auch langfristig Effekte hat?
4. *Rahmen* R - *wo?*
- Die Wirksamkeit einer Kopfschmerztablette wurde nur in für die Versuchsteilnehmis entspannten Settings erfasst. Ob sie wohl auch wirkt, wenn sich die Personen in stressigen Projektmeetings befinden?
5. *Messinstrument* M - *was?*
- Finden sich die Effekte des Vorschultrainings wohl nicht nur in einem bestimmten Intelligenztest, sondern auch in anderen? Haben sie vielleicht auch Effekte auf die emotionale (nicht nur kognitive) Entwicklung des Kindes?
### UV und AV
Die Unabhängige Variable (UV) entspricht dem Treatment und damit der angenommenen Ursache des Effekts.
Die UV hängt von keiner anderen Variablen ab, in dem Sinne, dass dis Forschi selber bestimmt, welche Versuchspersonen welche Ausprägung in der UV zugewiesen bekommen (oder selber entscheidet, den Zufall entscheiden zu lassen).
Häufig hat die UV zwei Stufen:
- Treatment
- Kein Treatment
Die Abhängige Variable (AV) bezeichnet die Variable, die den Effekt misst, die Wirkung des Treatments.
Die Forschungsfrage formuliert, dass die AV von der UV kausal und statsistisch abhängig ist.
```{mermaid}
flowchart LR
UV --> AV
```
Die Begriffe UV und AV machen nur Sinn, wenn es eine Intervention in der Studie gibt.
### Wann ist eine Ursache wirklich eine Ursache
Nach John Stuart Mill müssen drei Bedingungen erfüllt sein, damit eine vermeintliche Ursache wirklich die Ursache eines Effekts ist:
1. *Zusammenhang*. Es muss einen statistischen Zusammenhang (Kovariation) zwischen der UV und der AV geben (z.B. in Form einer Korrelation).
2. *UV zeitlich vor AV*. Veränderungen in der UV müssen zeitlich vor den Änderungen der AV auftreten.
3. *Ausschluss anderer Ursachen*. Alternativerklärungen für den Zusammenhang von UV und AV müssen ausgeschlossen sein, entweder auf theoretischer oder empirischer Basis.
## Varianten interventioneller Versuchsdesigns
Man kann Studien (bzw. deren Aufbau, das Design) dahingehend unterscheiden,
ob die Versuchspersonen alle Bedingungen nacheinander durchlaufen (Within-Subject-Design) oder ob jede Versuchsperson genau eine Bedingung durchläuft (Between-Subject-Design).
Jede Variante hat Stärken und Schwächen,
aber wenn möglich sollte man oft zu einem Within-Subject-Design tendieren.
### Between- vs. Within-Subject-Designs
#### Between-Subject-Designs
:::{#def-between}
Bei einem *Between-Subject-Design* werden die Versuchspersonen genauer einer von zwei (oder mehreren) Gruppen (Bedingung) zugeordnet. Jede Person durchläuft nur eine Bedingung.$\square$
:::
:::{#exm-between}
Ei Forschi untersucht den Effekt von Achtsamkeit auf die Konzentrationsfähigkeit.
Zur Umsetzung wählt i ein Between-Subject-Design.
Eine Hälfte der Versuchspersonen wird zufällig der Experimentalgruppe (Achtsamkeitsübung) zugeteilt, die zweite Hälfte der Kontrollgruppe (Daddeln am Handy).
Vor und nach der Intervention wird bei jeder Person die Konzentationsfähigkeit gemessen, s. @fig-between.$\square$.
:::
```{mermaid}
%%| label: fig-between
%%| fig-cap: Beispiel für ein Between-Subject-Design
flowchart LR
M1[1. Messung der Konzentration] --> R[Gruppenzuweisung]
R --> G1[Experimentalgruppe]
R --> G2[Kontrollgruppe]
G1 --> M2[2. Messung der Konzentration]
G2 --> M2[2. Messung der Konzentration]
```
In einigen Situationen ist eine Messung der AV *vor* dem Treatment nicht nötig;
grundsätzlich ist sie aber zu bevorzugen.
#### Within-Subject-Design
:::{#def-within}
Bei einem *einfachen Within-Subject-Design* durchäuft jede Versuchsperson alle Versuchsbedingungen in gleicher Reihenfolge, s. @fig-within.$\square$
:::
```{mermaid}
%%| label: fig-within
%%| fig-cap: Beispiel für ein Within-Subject-Design
flowchart LR
M1[1. Messung der Konzentration] --> I1[Treatment 1]
I1 --> M2[2. Messung der Konzentration]
M2 --> I2[Treatment 2]
I2 --> M3[3. Messung der Konzentration]
```
Das einfache Within-Subject-Design hat den Nachteil, dass Reihenfolge-Effekte möglich sind.
:::{#exm-within2}
Ei Forschi untersucht den Effekt von Achtsamkeit auf die Konzentrationsfähigkeit.
In dieser Studie führen alle Versuchspersonen eine Achtsamkeitsübung aus (Treatment 1);
danach folgt eine Zeit des Handy-Daddelns (Treatment 2). Vor und nach den Treatments findet jeweils eine Konzentrationsmessung statt.$\square$
:::
:::{#exm-within1}
Ei Forschi untersucht den Effekt des Markennamens von Süßwaren auf die Geschmacksbeurteilung.
Zuerst bekommen alle Versuchspersonen ein Markenprodukt dargeboten;
danach folgt für alle ein No-Name-Produkt. Vor der ersten, nach der ersten und nach der zweiten Verkostung wird jeweils der Geschmack des Produkts beurteilt.$\square$
:::
:::{#def-within}
Bei einem *Between-Within-Subject-Design* durchäuft jede Versuchsperson alle Versuchsbedingungen, aber die Reihenfolge unterscheidet sich zwischen den Versuchspersonen, s. @fig-within2.$\square$
:::
```{mermaid}
%%| label: fig-within2
%%| fig-cap: Beispiel für ein Between-Within-Subject-Design
flowchart LR
M1[1. Messung der Konzentration] --> R[Zuweisung zu den Reihenfolge-Gruppen]
R --> G1[Treatment 1]
R --> G2[Treatment 2]
G1 --> M2[2. Messung der Konzentration]
G2 --> M2
M2 --> G11[Treatment 2]
M2 --> G22[Treatment 1]
G11 --> M3[3. Messung der Konzentration]
G22 --> M3
```
#### Stärken und Schwächen
Within- und Between-Subject-Designs haben jeweils Stärken und Schwächen:
- Stärke des Within-Subject-Designs: Effekte werden leichter gefunden bzw. genauer geschätzt, da es weniger Rauschen gibt. Der Grund ist, dass die Unterschiede der Treatments in den gleichen Personen untersucht werden. So vermeidet man zusätzliches Rauschen, das aufgrund verschiedener Versuchspersonen entstehen würde. Anders gesagt reicht eine *kleinere* Stichprobe, um einen Effekt genau zu schätzen.
- Stärke des Between-Subject-Designs: Manche Forschungsfragen erlauben keine wiederholte Intervention an den gleichen Versuchspersonen. Dann sind nur Between-Subject-Designs möglich.
- Schwäche des Within-Subject-Designs: Reihenfolge-Effekte können auftreten, diese sollten kontrolliert werden anhand des Between-Within-Subject-Designs.
:::{#exm-no-within}
Ei Forschi untersucht den Effekt der UV "Witz erzählen mit und ohne Lacher abgespielt im Hintergrund" auf die wahrgenommenen Lustigkeit eines Witzes.
Einen Witz zum zweiten Mal zu hören, wird die Lustigkeit gegen Null gehen lassen.
Daher ist in diesem Fall ein Within-Subject-Design kaum möglich.$\square$
:::
:::{.callout-tip}
Wenn möglich sollte ein Within-Subject-Design - in der Variante mit Kontrolle der Reihenfolge (also Between-Within-Subject-Design) - bevorzugt werden.$\square$
:::
### Experiment als Königsweg {#sec-exp}
:::{#def-exp}
### Experiment
Ein Experiment (im engen Sinne des Wortes) ist ein Spezialfall einer interventionellen Studie. Es hat Explikation als epistemologisches Ziel, zumeist in Form einer Kausalaussage.
Methodisch zeichnet es sich durch folgende Merkmale aus:
- *Kausalmodell*: Trennung mindestens einer unabhängigen Variablen (UV) von einer abhängigen Variablen (AV), wobei die AV gemäß der zu prüfenden Hypothese von der UV (kausal) beeinflusst wird.
- *Intervention*: Systematische Variation bzw. Manipulation der Einflussgrößen (UV), um ihre Auswirkung auf die AV zu beobachten (Experimental- vs. Kontrollgruppe)
- *Kontrolle und Standardisierung*: Kontrolle anderer Einflussfaktoren („Störvariablen“) auf die AV
- *Randomisierung*: Zufällige Zuordnung von Versuchspersonen zu Versuchsbedingungen oder der Reihenfolge von Versuchsbedingungen
:::
:::{.callout-important}
Wann immer Experimente ethisch unbedenklich bzw. vertretbar und praktisch durchführbar sind, stellen sie das Mittel der Wahl dar, um Kausalzusammenhänge zu prüfen. Experimente gelten als der "Königsweg" der Forschung.$\square$
:::
:::{#exm-Experimente}
Zu den berühmtesten Experimente in der Psychologie zählen (u.a.) [Milgrams Experiment zum Autoritäteneinfluss](https://de.wikipedia.org/wiki/Stanley_Milgram), [Pavlovs Experimente zur klassischen Konditionierung](https://en.wikipedia.org/wiki/Ivan_Pavlov), [Aschs Konformitätsstudien](https://en.wikipedia.org/wiki/Asch_conformity_experiments) oder [Libets Experiment zum freien Willen](https://de.wikipedia.org/wiki/Benjamin_Libet).^[Bei [Wikipedia](https://en.wikipedia.org/wiki/Category:Psychology_experiments) findet sich eine Liste bekannter psychologischer Experimente.]
## Die Kunst des Experimentierens
### MAX-KON-MIN-Prinzip
Die Kunst des Experiments (bzw. des Experimentierens) kann man mit dem Max-Kon-Min-Prinzip zusammenfassen.
@fig-max-kon-min stellt das Max-Kon-Min-Prinzip dar.
```{mermaid}
%%| label: fig-max-kon-min
%%| fig-cap: Das Max-Kon-Min-Prinzip
flowchart LR
subgraph MKM[Max-Kon-Min-Prinzip]
MAX
KON
MIN
end
```
1. *MAXimiere* das Signal (Primär- oder Behandlungsvarianz)
2. *KONtrolliere* das Rauschen (Sekundärvarianz, systematischer Fehler)
3. *MINimiere* das Rauschen (Zufallsfehler): Vermeide unsystematische (zufällige) Merkmalsfluktuationen auf Seiten der Versuchssituation, der Datenerfassung und der Datenverarbeitung.
#### Maximiere das Signal
Wähle die Stufen der UV so, dass möglichst große Unterschiede in der AV zwischen den Gruppen entstehen:
- Wähle Extremgruppen
- Intensiviere das Stimulusmaterial
- Stelle sicher, dass die Intervention gut funktioniert
Ziel: die Effekte der UV durch die Versuchsplanung möglichst „maximal“ zum Vorschein bringen.
Achtung: Die Wahl von Extremgruppen birgt die Gefahr von Trivialergebnissen.
#### Kontrolliere das Rauschen
Sorge dafür, dass systematische Fehler (bekannte Störvariablen) in allen Gruppen gleich wirken und/oder bestimme deren Einfluss:
- Nutze einer Coverstory
- Verblinde die Versuchspersonen und -durchführende
- Halte Störfaktoren konstant
- Randomisiere die Versuchspersonen
- Wandle Störfaktoren in UV um
- Schalte Störfaktoren aus (z.B. mittels eines schalldichten Raums)
- Balanciere die Gruppen aus (in jeder Versuchsbedingung z. B. die Hälfte in den lauten und die Hälfte in leisen Raum)
- Rechne nachträglich das Rauschen heraus mittels statistischer Verfahren (Kovarianzanalyse)
Kontrolltechniken:
- vor der Datenerhebung
- Umwandlung von Sekundärvarianz bzw. Störvariable in UV
- Randomisierung
- Parallelisierung
- Messwiederholung
- während der Datenerhebung
- Konstanthalten der Versuchsbedingungen
- nach der Datenerhebung
- statistische Kontrolle
:::{#exm-versuchsbed}
### Der weiße Kittel
Ein Versuchsleiter untersucht den Effekt von extensiver Handynutzung auf die Konzentrationsfähigkeit.
Er ist stolz auf sein Labor mit leistungsfähigen Geräten, die er nutzt, um seine Versuchspersonen genau zu vermessen:
Herzfrequenz, Hautleitwiderstand, Blutdruck, EEG ...
Die Probanden werden bei ihm ordentlich verkabelt.
Leider scheint das einige Probanden zu stören, sie fühlen sich sichtlich unwohl,
so kabelbehangen.^[Das Abrasieren von Haarstellen für bessere Haftung der EEG-Elektroden musste er aufgeben.]
Es ist davon auszugehen, dass das "Verkabeln" einen Effekt auf die Versuchspersonen bzw. deren Verhalten hat.
Das Verhalten der Versuchspersonen, bzw. die Variabilität in ihrem Verhalten, steigt:
Je nach dem wie sehr sich jemand vom Verkabeln gestört fühlt, wird sie oder er anders reagieren.
Damit sind die eigentlichen Effekte (des Treatments, Handynutzung) weniger gut oder weniger einfach festzustellen, da sie durch zusätzliche Einflüsse stärker übertönt werden.
Der Versuchsleiter täte gut daran, behutsamer mit den Vesuchspersonen umzugehen.$\square$
:::
Ziel: Effekte von „Nicht-UVn“, die als Störvariablen einen systematischen Einfluss haben können, bestmöglich unter Kontrolle halten.
:::{#exm-kontrolle-stoervars}
### Motivation und Geschlecht als UV
Eine Bildungsforscherin untersucht den Einfluss von Flipped-Classroom (Experimentalgruppe) im Vergleich zu Frontalunterricht (Kontrollgruppe).
Da sie die Vermutung hat, dass Geschlecht und Motivation einen Einfluss auf die AV (Lernerfolg) haben, entschließt sie sich, Geschlecht und Motivation als weitere UV in ihren Versuchsplan aufzunehmen. Das bedeutet natürlich, dass sie mehr Untersuchungsbedingungen abzuarbeiten hat. Aber sie freut sich: Der Einfluss von Geschlecht und Motivation kann ihr nicht mehr den Effekt verwässern!$\square$
:::
#### Minimiere das Rauschen
Vermeide unsystematische (zufällige) Merkmalsfluktuationen auf Seiten der Versuchssituation, der Datenerfassung und der Datenverarbeitung.
Kontrolltechniken:
- Kontrollierte Untersuchungsbedingungen (Abschirmung, Eliminierung, Instruktion)
- Einsatz reliabler, valider und objektiver Erhebungsinstrumente (Beobachter, Messinstrumente)
- Doppelte Dateneingabe, um (Tipp-)Fehler zu vermeiden
- Messwiederholungsdesign
Ziel: Auswirkungen von unbekannten Störvariablen und (Daten-) Fehlern so klein wie möglich halten
Eine zentrale Rolle, um Rauschen zu minimieren, ist die Instruktion:
Die Information, die die Versuchspersonen vom Versuchsleiter erhalten,
damit die Versuchspersonen wissen, was sie tun sollen.
Die Instruktion im weiteren Sinne umfasst nicht nur den verbalen Anweisungsteil, sondern alle Versuchsumstände: die Umgebung, das Verhalten des Versuchsleiters, usw.
Die Instruktion sollte daher möglichst schriftlich ausformuliert und standardisiert sein.
### Randomisieren
:::{#def-randomisieren}
### Randomisieren
Randomisieren ist das zufällige Zuteilen von Versuchsobjekten (z.B. Versuchspersonen) zu Versuchsbedingungen einer interventionellen Studie.
Durch das Randomisieren sollen die alle personengebundenen Variablen in den Versuchsbedingungen gleiche Verteilungen erlangen, z.B. gleiche Mittelwerte.
Wenn dies gewährleistet ist, sind Unterschiede zwischen den Versuchsbedingungen in der AV nicht mehr auf personenbezogene Unterschiede zurückzuführen.
Auf diese Weise können wichtige Alternativerklärungen für den beobachteten Effekt ausgeschlossen werden.$\square$
:::
> 👨🏫 Hey Bot, erkläre "Randomisierung".
> 🤖 Randomisierung ist ein wichtiger Aspekt von Experimenten und bezieht sich auf den Prozess der zufälligen Zuweisung von Teilnehmern oder Einheiten zu den verschiedenen Behandlungsgruppen oder Bedingungen eines Experiments. Die Randomisierung soll sicherstellen, dass die Teilnehmer oder Einheiten jeder Gruppe ähnlich sind, bevor die experimentelle Behandlung durchgeführt wird. Durch die zufällige Zuweisung der Teilnehmer oder Einheiten zu den Gruppen wird sichergestellt, dass mögliche Störfaktoren oder Einflüsse, die die Ergebnisse beeinflussen könnten, gleichmäßig auf die verschiedenen Gruppen verteilt werden. Dadurch wird die interne Validität des Experiments gestärkt und die Wahrscheinlichkeit verringert, dass die Ergebnisse auf Zufälligkeiten oder systematischen Verzerrungen zurückzuführen sind. Die Randomisierung ist ein wichtiges Merkmal eines Experiments, da sie eine grundlegende Voraussetzung für die Interpretation der Ergebnisse und die Übertragbarkeit auf die Population darstellt. Ohne Randomisierung können Verzerrungen in der Stichprobe und eine Einschränkung der Generalisierbarkeit auftreten.^[ChatGTP, 2023-04-23, Prompt: "Erkläre Randomisieren als Merkmal eines Experiments".]
:::{#def-exp}
### Experiment
Ein Experiment ist eine Interventionsstudie und hat daher Explikationsanspruch, meist kausaler Art; es zeichnet sich durch Kontrolle von Rauschen (Störvariablen)
aus sowie durch Randomisieren.$\square$
:::
:::{.callout-tip}
Die Stichproben der Bedingungen Ihres Experiments sollten (möglichst) gleich groß sein,
das erhöht die Schätzgenauigkeit der Populationsparameter.$\square$
:::
Laut @Saint-Mont2015 kann man sich auf den Segen der Randomisieren erst bei hohen^[vierstelligen] Stichprobengrößen verlassen.
Eine Vorab-Prüfung der AV, um die Vergleichbarkeit der Gruppen zu prüfen, bietet sich daher an.
:::{#exr-alternativen-rand}
### Welche Alternativen gibt es zum Randomisieren in einem Experiment?
Stellen Sie ChatGPT diese Frage und beurteilen Sie die Güte der Information!$\square$
:::
## Störvariablen
Meist gibt es viele kausale Variablen, die eine AV beeinflussen (können).
In einer Studie oder einem Experiment interessiert häufig nur der Einfluss einer bestimmten Variablen, um eine spezifische Hypothese zu prüfen (die UV).
:::{#def-stoervar}
### Störvariable
Eine Variable, die die AV beeinflusst, aber nicht die UV ist und nicht gemessen ist, heißt *Störvariable*.$\square$
:::
Störvariablen mögen selbst theoretisch interessant sein, in einem Experiment versucht man jedoch, sie unter Kontrolle zu bringen,
um den Einfluss der interessierenden UV untersuchen zu können
Kontrolliert man Störvariablen nicht, kann eine Veränderung in AV nicht eindeutig auf UV zurückgeführt werden, ein Kausalschluss ist dann *nicht* möglich.
Beobachtungsstudien haben meist weniger Kontrolle über Störvariablen als Studien mit Intervention.
Studien in kontrolliertem Umfeld sind meist in geringerem Maße Störvariablen ausgesetzt als Studien in „freier Wildbahn“.
Studien mit Randomisierung umgehen das Problem der personengebundenen Störvariablen (wenn die Fallzahl groß genug ist).
Wird eine Störvariable kontrolliert, so spricht von von einer *Kontrollvariablen*.
:::{#exr-stoervar}
### Nenne Beispiele von Störvariablen
Fragen Sie ChatGTP nach Beispielen von Störvariablen und diskutieren Sie die Qualität der Antwort.$\square$
:::
## Typische Versuchspläne
### Zwei-Gruppen-Nachher-Messung
Teilt man die Versuchspersonen in zwei Gruppen ein (idealerweise durch Randomisierung),
wendet dann die Intervention an und misst abschließend die AV,
so spricht man von einem *Zwei-Gruppen-Nachher-Messung-Design*, s. @fig-design1.
```{mermaid}
%%| label: fig-design1
%%| fig-cap: Zwei-Gruppen-Nachher-Messung-Design
flowchart LR
A[Begrüßung und Aufklärung</br>der Probanden] --> C[Messung soziodemografischer</br>Variablen]
C --> D[Aufteilung in Gruppen]
D --> E1[Experimentalgruppe]
D --> E2[Kontrollgruppe]
E1 --> F[Messung der AV]
E2 --> F
F --> G[Verabschiedung]
```
### Zwei-Gruppen-Vorher-Nachher-Messung
Teilt man die Versuchspersonen in zwei Gruppen ein (idealerweise durch Randomisierung),
misst zunächst (zum ersten Mal) die AV,
wendet dann die Intervention an und misst abschließend die AV (zum zweiten MAl),
so spricht man von einem *Zwei-Gruppen-Vorher-Nachher-Messung-Design*, s. @fig-design2.
```{mermaid}
%%| label: fig-design2
%%| fig-cap: Zwei-Gruppen-Vorher-Nachher-Messung-Design
flowchart LR
A[Begrüßung und Aufklärung</br>der Probanden] --> C[Messung soziodemografischer</br>Variablen]
C --> C2[Messung der AV]
C2 --> D[Aufteilung in Gruppen]
D --> E1[Experimentalgruppe]
D --> E2[Kontrollgruppe]
E1 --> F[Messung der AV]
E2 --> F
F --> G[Verabschiedung]
```
### Kovarianzanalyse
Bei der Kovarianzanalyse, ein Auswertungsansatz, kein Forschungsdesign, misst man neben der UV noch andere Variablen, die man kontrollieren möchte.
Deren Einfluss wird nach der Datenerhebung statistisch kontrolliert, "herausgerechnet".
## Weiterführende Literatur
Bei @reichardt_quasi-experimentation_2019 findet sich eine umfassende Erläuterung des Handwerks der interventionellen Forschung.
Ein Klassiker ist @Bortz2006, in dem sich viel Essenzielles zur Versuchsplanung findet.
Einen zugänglichen Einstieg (allerdings auf englischer Sprache), der kostenlos und frei verfügbar ist, bieten @jhangiani_research_2019.
Recht nützlich ist auch der Überblick von @peters_planen_2019.