-
Notifications
You must be signed in to change notification settings - Fork 0
/
060-Messen.qmd
1097 lines (618 loc) · 48.6 KB
/
060-Messen.qmd
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
346
347
348
349
350
351
352
353
354
355
356
357
358
359
360
361
362
363
364
365
366
367
368
369
370
371
372
373
374
375
376
377
378
379
380
381
382
383
384
385
386
387
388
389
390
391
392
393
394
395
396
397
398
399
400
401
402
403
404
405
406
407
408
409
410
411
412
413
414
415
416
417
418
419
420
421
422
423
424
425
426
427
428
429
430
431
432
433
434
435
436
437
438
439
440
441
442
443
444
445
446
447
448
449
450
451
452
453
454
455
456
457
458
459
460
461
462
463
464
465
466
467
468
469
470
471
472
473
474
475
476
477
478
479
480
481
482
483
484
485
486
487
488
489
490
491
492
493
494
495
496
497
498
499
500
501
502
503
504
505
506
507
508
509
510
511
512
513
514
515
516
517
518
519
520
521
522
523
524
525
526
527
528
529
530
531
532
533
534
535
536
537
538
539
540
541
542
543
544
545
546
547
548
549
550
551
552
553
554
555
556
557
558
559
560
561
562
563
564
565
566
567
568
569
570
571
572
573
574
575
576
577
578
579
580
581
582
583
584
585
586
587
588
589
590
591
592
593
594
595
596
597
598
599
600
601
602
603
604
605
606
607
608
609
610
611
612
613
614
615
616
617
618
619
620
621
622
623
624
625
626
627
628
629
630
631
632
633
634
635
636
637
638
639
640
641
642
643
644
645
646
647
648
649
650
651
652
653
654
655
656
657
658
659
660
661
662
663
664
665
666
667
668
669
670
671
672
673
674
675
676
677
678
679
680
681
682
683
684
685
686
687
688
689
690
691
692
693
694
695
696
697
698
699
700
701
702
703
704
705
706
707
708
709
710
711
712
713
714
715
716
717
718
719
720
721
722
723
724
725
726
727
728
729
730
731
732
733
734
735
736
737
738
739
740
741
742
743
744
745
746
747
748
749
750
751
752
753
754
755
756
757
758
759
760
761
762
763
764
765
766
767
768
769
770
771
772
773
774
775
776
777
778
779
780
781
782
783
784
785
786
787
788
789
790
791
792
793
794
795
796
797
798
799
800
801
802
803
804
805
806
807
808
809
810
811
812
813
814
815
816
817
818
819
820
821
822
823
824
825
826
827
828
829
830
831
832
833
834
835
836
837
838
839
840
841
842
843
844
845
846
847
848
849
850
851
852
853
854
855
856
857
858
859
860
861
862
863
864
865
866
867
868
869
870
871
872
873
874
875
876
877
878
879
880
881
882
883
884
885
886
887
888
889
890
891
892
893
894
895
896
897
898
899
900
901
902
903
904
905
906
907
908
909
910
911
912
913
914
915
916
917
918
919
920
921
922
923
924
925
926
927
928
929
930
931
932
933
934
935
936
937
938
939
940
941
942
943
944
945
946
947
948
949
950
951
952
953
954
955
956
957
958
959
960
961
962
963
964
965
966
967
968
969
970
971
972
973
974
975
976
977
978
979
980
981
982
983
984
985
986
987
988
989
990
991
992
993
994
995
996
997
998
999
1000
# Messen
```{r}
#| include: false
library(tidyverse)
```
```{r}
#| echo: false
library(ggplot2)
theme_set(theme_minimal())
```
## Lernsteuerung
### Lernziele
- Sie können den Begriff "Messen" definieren.
- Sie können den Begriff "Fragebogen" definieren und anhand von Beispielen erläutern.
- Sie können die Messgüte eines bestimmten Fragebogens einschätzen.
- Sie können Beispiele nennen für implizites Messen in der Psychologie.
### Position im Lernpfad
Sie befinden sich im Abschnitt "Messinstrumente" in @fig-ueberblick.
Behalten Sie Ihren Fortschritt im Projektplan im Blick, s. @fig-projektplan.
### Benötigte R-Pakete und Daten
```{r}
#| messagen: false
library(tidyverse)
library(gganimate) # Animation, optional
library(plotly) # Animation, optional
library(dygraphs) # Animation, optional
library(robservable) # Animation, optional
library(palmerpenguins) # Animation, optional
```
```{r}
data("airquality") # Animination, optional
data("gapminder", package = "gapminder") # Animation, optional
data("penguins", package = "palmerpenguins") # Animation, optional
```
Vergessen Sie nicht, dass Sie ggf. die Pakete zuerst (einmalig) installieren müssen.
## Was ist Messen?
### Operationalisierung
:::{#def-operat}
### Operationalisierung
Operationalisierung ist der Vorgang des genauen Beschreibens, anhand welcher Operationen ein Konstrukt beobachtbar (im weiteren Sinne) und damit messbar gemacht wird.
Da in der Pschologie die Variablen zumeist (per Definition) nicht direkt der Beobachtung
zugänglich sind, kommt der Operationalisierung eine wichtige Rolle im Forschungsprozess zu.$\square$
:::
Psychologische Variablen, auch als *Konstrukte* bezeichnet, sind nicht (direkt) messbar,
mann muss sie *operationalisieren*, dann kann sie erst messen, s. @fig-operat.
```{mermaid}
%%| label: fig-operat
%%| fig-cap: Vom Kontrukt zum Messmodell
flowchart LR
subgraph Konstrukt
direction LR
theoretisch
latent
nicht-beobachtbar
end
subgraph Messmodell
direction LR
empirisch
manifest
beobachtbar
end
Konstrukt --> Messmodell
```
:::{#exm-messmodell}
### Extraversion bei den "Big Five"
@satow_b5t_2020 operationalisiert in seinem Instrument *B5T* die Persönlichkeitsvariable *Extraversion* anhand von 10 Items, s. @fig-extra.
Persönlichkeitsvariable sind Eigenschaften, die zeitlich stabil sind und sich situationsunabhängig auf eine bestimmte Weise im menschlichen Erleben und Verhalten manifestieren.
Extraversion beschreibt das Ausmaß, in dem eine Person hohe Aktivität in sozialen Interaktionen und anstrebt.
Hoch extravertierte Menschen sind dominant, gesellig, enthusiastisch und abenteuerlustig.$\square$
:::
![Extraversion im B5T](img/extra.png){#fig-extra}
:::{#def-skala}
### Psychometrische Skala
Eine (psychometrische) Skala ist eine Operationalisierung eines Konstrukts anhand eines psychometrisch geprüften Messmodells.
Sie besteht aus mehreren zusammengehörigen Items, vgl. @fig-extra.
Den Antworten der Versuchspersonen auf die Items werden Zahlen zugeordnet und über die Items aufsummiert.
Häufig werden die Werte einer Skala als intervallskaliert angenommen ([Quelle](https://lehrbuch-psychologie.springer.com/glossar/psychometrische-skala)].
Im häufigen Fall eines sog. *reflektiven* Messmodells geht man davon aus,
dass die latente Variable die (einzige) Ursache der Werte (Streuung) in den Items ist.$\square$
:::
:::{#exm-messmodell}
### Deutschsprachige Drive for Muscularity Scale (DMS)
Die DMS [@waldorf_deutschsprachige_2016] sich als Maß für Muskulösitätsstreben etabliert.
Das Instrument besteht aus zwei (korrelierten) Skalen:
Muskulatur-bezogene Kognition und Muskulatur-bezogenes Verhalten; der Volltext und weitere Informationen findet sich [hier](https://zis.gesis.org/skala/Waldorf-Cordes-Vocks-McCreary-Deutschsprachige-Drive-for-Muscularity-Scale-(DMS)).
Jedem der beiden Sckalen sind mehrere Items zugeordnet, s. @fig-dms.
Die Zuordnung der Items zur jeweiligen Skala und ihre psychometrischen (statistischen) Eigenschaften definieren das jeweilige Messmodell.$\square$
:::
![Messmodell der Drive for Muscularity Scale (DMS)](img/dms.png){#fig-dms width="50%"}
### Messen
:::{#def-messen}
Messen ist das Zuordnen eines empirischen Zusammenhangs in einen Zusammenhang, der in Zahlen ausgedrückt wird und zwar nach "vernünftigen Regeln", d.h. so, dass sich die empirischen Beziehungen in den numerischen Beziehungen widerspiegeln.$\square$
:::
> 👨🏫 Messen ist das Fundament einer empirischen Wissenschaft.
> 🧑🎓 Wer viel misst, misst auch viel Mist!
Eine ausführlichere Darstellung des Messens findet sich z.B. bei @Eid2013.
Ein Beispiel für diese "vernünftigen Regeln" ist:
- Misst man zwei Stöcke A und C, wobei C länger ist als A ($C \succ A$), so muss die Zahl, die C zugeordnet wird ($Z(C)$) größer sein, als die Zahl, die Stock C zugeordnet wird ($Z(C)$): $C \succ A \Leftrightarrow Z(C) > Z(A)$, s. @fig-stoecke.
![Drei Stöcke: A, B und C, wobei A und B gleich lang sind und C länger ist](img/stoekce.png){#fig-stoecke width="50%"}
Wenn Stöcke A und B gleich lang sind und zusammen so lang wie Stock C sind, s. @fig-stoecke, dann muss für die den Stöcken zugeordneten Zahlen $Z(A), Z(B), Z(C)$ gelten:
- Bedingung der Nominalskala: Gleichheit - $Z(A) = Z(B)$
- Bedingung der Nominalskala: Ungleichheit - $Z(A) \ne Z(C)$
- Bedingung der Ordinalskala: Rangfolge - $Z(A) < Z(C), Z(B) < Z(C)$
- Bedingung der metrischen Skala: Additivität - $Z(A) + Z(B) = Z(C)\square$
Das Skalenniveau einer Variable kann nicht vorausgesetzt werden, sondern muss überprüft werden.
:::{#exm-messen1}
### Messen auf der Nominalskala
Messen auf der Nominalskala kann bedeuten, dass man Frauen die Zahl `1` zuordnet und Männern die Zahl `0`, vgl. @fig-messen1.$\square$
:::
```{mermaid}
%%| label: fig-messen1
%%| fig-cap: "Messen: Die Zuordnung von Beziehungen in einem empirischen System (Kontext) zu Beziehungen in einem Zahlensystem."
flowchart TD
subgraph ES[Empirisches System]
M1[Mann 1]
M2[Mann 2]
F1[Frau 1]
F2[Frau 2]
F3[Frau 3]
end
subgraph NS[Numerisches System]
Z1[1]
Z0[0]
end
M1 --> Z0
M2 --> Z0
F1 --> Z1
F2 --> Z1
F3 --> Z1
```
### Quiz
[Quiz zum Skalenniveau](https://api.socrative.com/rc/KWVTiT)
![QR-Code zum Quiz](img/msmpu7g-qr-code.png){width=25%}
Wie "gut" eine Operationalisierung ist, kann man empirisch prüfen.
Dafür gibt es einige Kennzahlen, s. @sec-messguete.
### Metrisches Niveau psychologischer Variablen
Ob psychologische Variablen überhaupt metrisches Nivea aufweisen, insbesondere die Additivität der Ausprägungen, war (und ist) Gegenstand (angeregter) Debatte [@Michell1997, @Michell2003, Michell2005d].
Ein Lichtblick ist vielleicht @Labovitz1970, der zeigte, dass eine ordinale Skala mit einer metrischen sehr hoch, $r>.95$ korreliert ist unter einem breiten Feld von Ausgangsbedingungen.
Es scheint also, dass man optimistisch sein darf, dass psychologische Variablen sich (oft) so verhalten *als ob* sie metrisch wären.
## Fragebogen
### Beispiele
[Big-Five-Test "B5T" ausprobieren](https://www.psychomeda.de/online-tests/persoenlichkeitstest.html)
### Definition
Einen inhatlich psychologisch und methodisch psychologisch ("psychometrisch") fundierten Fragebogen bezeichnet man auch als *(psychologischen) Test*^[Das ist etwas verwirrend, weil der Begriff Test für alle möglichen Dinge verwendet wird. Zumeist lässt sich aus dem Kontext erschließen, was mit "Test" gemeint ist.]
:::{#def-psytest}
### Psychologischer Test
Ein Test ist ein wissenschaftliches Routineverfahren zur Untersuchung eines oder mehrerer empirisch abgrenzbarer Persönlichkeitsmerkmale mit dem Ziel einer möglichst quantitativen Aussage über den relativen Grad der individuellen Merkmalsausprägung [@lienert_testaufbau_1998].$\square$
:::
### Elemente
Ein (psychologischer) Test besteht aus folgenden Elementen:
- *Item*: Eine Frage, auf die der Proband antworten soll bzw. die er lösen sollen. Ein Item operationalisiert einen Teilaspekt eines Konstrukts.
- *Subtest*: Untertest aus mehreren Items eines Tests, die jeweils zu einem gemeinsamen Punktwert zusammengezogen werden.
- *Itemantwort*: Antwortmöglichkeiten eines Items.
- *Skala*: Andere Bezeichnung für einen Subtest oder Bezeichnung für einen Gesamttest, wenn dieser nur aus einem einzelnen Punktwert besteht.
- *Score*: Punktwert eines Probanden aus einem Subtest oder einem Test.
:::{#exm-item}
Item 1 aus der Extraversionskala des B5T [@satow_b5t_2020]
"Ich bin gerne mit anderen Menschen zusammen."$\square$
:::
:::{#exm-antwort1}
Beispielitem: „Ich bin ein ängstlicher Typ“ [@satow_b5t_2020].
Dieses Item hat folgende Itemantwort:
1) trifft gar nicht zu (1 Punkt)
2) trifft eher nicht zu (2 Punkte)
3) trifft eher zu (3 Punkte)
4) trifft genau zu (4 Punkte)
:::
### Antwortformate
Eine Skala hat (fast) immer ein homogenes Itemantformat, d.h. alle Items einer Skala haben i.d.R. das gleiche Antwortformat.
Es gibt viele verschiedene Antwortformate [vgl. @Buhner2011]; eine gängige Variante sind *Ratingskalen*.
:::{#def-ratingskala}
### Ratingskala und Likertskala
Eine Rating- oder Beurteilungsskala präsentiert der Versuchsperson Items mit einem Antwortformat,
bei dem derjenige Punkte bzw. diejenige Antwortoption gewählt werden soll, die der Beurteilung der Versuchsperson am besten entspricht, vgl. @fig-likert.
Eine gängige Variante von Ratingskalen sind Likert-Skalen.
Items von Likert-Skalen sind Aussagen bei denen die Versuchspersonen den Grad Ihrer Zustimmung bzw. Ablehnung ausdrücken, in einem bipolarem Format also^[in diskreten Stufen; bei stufenlos wählbaren Stufen spricht man von einer *visuellen Analogskala*. Visuelle Analogskalen sind entweder gleichwertig zu Likert-Skalen oder denen überlegen, wie einige Forschung konstatiert [@grant_comparison_1999]]. Generell gilt, dass höhere Zustimmung zu einem Item der Likert-Skala auf einen höheren Wert im zugrundliegenden Konstrukt geschlossen werden kann.$\square$
:::
![Beispiel für eine Likert-Skala](img/likertscale.png){#fig-likert}
[Quelle: Nicholas Smith, CC BY-SA 3.0](https://en.wikipedia.org/wiki/Likert_scale#/media/File:Example_Likert_Scale.svg)
Gängige Antwortformate in Ratingskalen sind:
1. Häufigkeit: z.B. nie -- selten -- gelegentlich -- oft -- immer
2. Intensität: z.B. gar nicht -- wenig -- mittelmäßig -- überwiegend -- völlig
3. Bewertung z.B. trifft gar nicht zu -- trifft eher nicht zu -- trifft eher zu -- trifft völlig zu
Man kann Antwortformate dahingehend unterscheiden, ob sie *uni- oder bipolar* aufgebaut sind:
1. unipolar: z.B. nie -- selten -- gelegentlich -- oft -- immer
2. bipolar: z.B. trifft überhaupt nicht zu (-2) -- (-1) -- (0) -- (+1) -- (+2) trifft voll und ganz zu
## Bezugsquellen von Messinstrumenten
> 🧑🎓 Wo finde ich Tests? Welche darf ich wie benutzen?
> 👨🏫 Vielleicht ist die beste Strategie, die Papers zur eigenen Forschungsfrage zu lesen. Dann orientiert man sich (eng) an dem Vorgehen dieser Autoren. Die nächstbeste Lösung ist, nach Instrumenten zu suchen; hier sind einige Bezugsorte.
### Reichhaltige Fundorte
- [Gesis-ZIS](https://zis.gesis.org/): Hier finden sich eine Anzahl an wissenschaftlich untersuchten Fragebögen, z. B. der BFI-10, ein Kurz-Fragebogen zu den Big Five mit nur 10 Items
- Der [Psyndex](https://www.psyndex.de/) ist ein Verzeichnis der auf Deutsch publizierten Tests (ca. 7000), davon sind einige zum freien [Download](https://www.testarchiv.eu/) bei Psyndex enthalten. Andere müssen - genaue wie alle übrige Fachliteratur - über einschlägige Quellen bezogen werden.
- Die [Hogrefe-Testzentrale](https://www.testzentrale.de/) ist der bekannteste kommerzielle Anbieter für psychologische Tests in Deutschland.
- Viele (deutschsprachige) Tests sind in (deutschsprachigen) Fachzeitschriften (z. B. [Diagnostica](https://www.hogrefe.com/de/zeitschrift/diagnostica/#2+1)) publiziert.
- [Psytoolkit](https://www.psytoolkit.org/survey-library/#scales) stellt eine Auswahl an über 100 frei nutzbaren psychologischen Skalen bereit (in englischer Sprache).
- [PsychologyTools](https://www.psychologytools.com/download-scales-and-measures/) stellt eine Auswahl an Skalen, in englischer Sprache, bereit.
- @fisher_developing_2016-1 untersuchen Single-Item-Skalen (also einzelne Items) und präsentieren eine Auswahl an geeigneten Items in Tabelle 9. Die Skalen sind zumeist orientiert an Fragen der Gesundheitspsychologie.
- [Arabpsychology](https://scales.arabpsychology.com/) stellt eine breite Auswahl psychologischer Skalen bereit.
- Im [Open Test Archive: Repositorium für Open-Access-Tests](https://www.testarchiv.eu/) findet sich eine Aufstellung von 230 Open-Access-Testverfahern in deutscher Sprache.
- [Creativity and Arts Tasks and Scales: Free for Public Use](https://osf.io/4s9p6/) ist ein Repo bei [OSF](https://osf.io/), das freie psychologische Skalen aus dem Bereich Kreativität bereitstellt.
- [Social-Personality Psychology Questionnaire Instrument Compendium (QIC)](http://www.webpages.ttu.edu/areifman/qic.htm) ist eine Sammlung freier Skalen eines US-Professors.
- Im [Handbook of Management Scales](https://en.wikibooks.org/wiki/Handbook_of_Management_Scales) findet sich eine umfangreiche Sammlung an Skalen aus dem Bereich Management-Forschung.
- Das [Handbook of Marketing Scales: Multi-Item Measures for Marketing and Consumer Behavior Research](https://books.google.de/books/about/Handbook_of_Marketing_Scales.html?id=AFB2AwAAQBAJ&redir_esc=y) [@netemeyer_handbook_2011] stellt eine große Auswahl an Skalen für Marketing-Forschung bereit; ein Teil ist (via Google Books) einsehbar.
- Bei [Researchgate](https://www.researchgate.net/) (Facebook für Wissenschaftler), [OSF](https://osf.io/) und auf anderen Preprint-Servern sind viele (Preprint-) Paper hochgeladen und kostenlos abrufbar (ggf. Email-Adresse von Hochschule nötig).
- [Testkuratorium der Deutschen Gesellschaft für Psychologie](https://www.bdp-verband.de/publikationen/testrezensionen)
- Die [University of Texas at Arlington UTA](https://libraries.uta.edu/tmdb/) stellt eine große Auswahl an Testverfahren bereit.
- Die Webseite [Psychology Tools](https://psychology-tools.com/) stellt eine Auswahl an englischsprachigen Instrumenten zusammen, darunter eine Empathie-Skala und eine Internetsucht-Skala.
- Mitunter hilft es, die Autoren anzuschreiben.
- @sec-bsp-skalen stellt eine Zotero-Gruppe mit einer Auswahl an Skalen (v.a. aus dem Bereich Usability) bereit.
Wer in den für die Forschungsfrage einschlägigen Papers stöbert, findet über kurz (oder lang) Ansatzpunkte bzw. Messinstrumente, die sich in anderen Studien bewährt haben.
So ist ein Beispiel für Messinstrumente um emotionale Reaktionen von Versuchspersonen auf Werbung in @escalas_sympathy_2003 zu finden.
### Fallbeispiel Psyndex
> PSYNDEX - die Datenbank des ZPID für Publikationsnachweise (...) inklusive redaktionell beschriebener Testinstrumente und Interventionsprogramme.^[<https://psyndex.de/> , 2023-05-14]
So lieferte ein Suche bei Psyndex mit dem Suchterm *Usability* zu 683 Treffern.[Datum: 2023-05-14]
Die ersten fünf Treffer waren folgende Fachbeiträgen:
1. [The influence of design aesthetics in usability testing: Effects on user performance and perceived usability](https://www.sciencedirect.com/science/article/abs/pii/S0003687009001148?via%3Dihub)^[Der Einfluss von ästhetischem Design beim Usability-Testing: Auswirkungen auf Benutzerverhalten und wahrgenommene Usability]
2. [Perceived software usability and usability-related stress in German craft enterprises](https://doi.org/10.3233/WOR-211257)^[Wahrgenommene Software-Usability und Usability-bezogener Stress in deutschen Handwerksbetrieben]
3. [Qualitätssicherung im Usability-Testing - zur Reliabilität eines Klassifikationssystems für Nutzungsprobleme](https://dl.gi.de/handle/20.500.12116/6847)
4. Usability von Online-Trainings
5. [Usability in online shops: scale construction, validation and the influence on the buyers' intention and decision](https://www.tandfonline.com/doi/abs/10.1080/0144929031000107072)^[Usability beim Internet-Shopping: Skalenkonstruktion, Validierung und der Einfluss von Kaufabsicht und Entscheidung]
Insgesamt lieferte diese kurze Recherche bereits einen vielversprechenden Einstieg in deutschsprachige Instrumente zur Messung von Usability.
### Rechte und Pflichten
> 🧑🎓 Welche Tests darf ich wie benutzen?
:::{.callout-important}
Kommerzielle Tests müssen von Ihnen käuflich erworben werden oder eine schriftliche Nutzungsgenehmigung durch den Verlag vorliegen, sonst ist die Nutzung nicht erlaubt. Andere, nicht-kommerzielle Tests (z. B. von Gesis) dürfen Sie ohne Rückfrage und ohne Gebühr verwenden. Die Zitationspflicht bleibt davon unberührt.$\square
:::
### Make or buy?
> 🧑🎓 Wieso der ganze Stress? Ich denk mir ein paar Fragen aus, und fertig ist der Lack!
> 👩🏫 Bei nicht-psychologischen Variablen, die einfach zu beboachten sind, so wie z.B. Schuhgröße, ist das vollkommen ok. Bei psychologischen Variablen sollte man besser auf geprüfte Qualität zurückgreifen.
:::{.callout-note}
Selbst gestrickte (psychologische) Fragebögen sind meist problematisch, man sollte besser auf Instrumente mit geprüfter Qualität zurückgreifen.$\square$
:::
Verwenden Sie möglichst keine selbst gestrickten Fragebögen/Items für psychologische Persönlichkeitskonstrukte: Gütekriterien eines Tests aus selbst gestrickten Items sind unbekannt oder fragwürdig.
Verwendet man eigene Messinstrumente (z. B. Fragebögen) so ist man für den Nachweise der Güte selber verantwortlich. Bei publizierten Verfahren kann man sich einfacher auf die Ergebnisse des publizierten Berichts berufen.
Es ist z. B. fraglich, ob es sinnvoll/„erlaubt“ ist, einen Mittelwert von selbst gestrickten Items zu bilden: Item 1: „Meine Füße fühlen sich groß an“; Item 2: „Die letzten 10 Filme waren echt cool und die nächsten 10 Songs werden halb-cool sein oder spitze“. Was sagt der Mittelwert dieser beiden Items aus? Schwer zu sagen (nichts?!).
Das Item „Ich glaube, ich habe zwei Arme“ wird sehr „leicht“ sein (d.h. hoher Mittelwert); daher wird die Streuung des Items gering sein. Daher wird die Korrelation mit einer anderen Skala gering sein. Das Item hat also kaum Informationswert und ist damit von geringem Wert.
Insgesamt ist die Erstellung eines Fragebogens für ein psychologisches Konstrukt ein aufwändiges Unterfangen. In der Regel ist man besser beraten, ein existierendes Verfahren zu suchen/zu verwenden.
Nicht-psychologische Variablen bzw. beobachtbare Dinge sind viel einfacher zu verwenden; hier sind selbst gestrickte Verfahren id.R. kein Problem (z. B. „Welche Automarke fahren Sie?“, „Wie viele Facebook-Freunde haben Sie?“, „Wie viele Kinder haben Sie?“)
### Neue Messinstrumente selber entwickeln
Hier sind Beispiele für Variablen, die *einfach zu messen* sind, und daher für die Messung keiner besonderen Entwicklung oder Überprüfung bedürfen: Manifeste Variablen wie Körpergröße, Gewicht, Alter, Geschlecht, Herkunftsland.
Wissenstests sind ebenfalls häufig gut selber entwickelbar.
Die Qualität eines neuen, selbstentwickelten Messinstrument ist zu prüfen.
Beispielhaft für einen Wissenstest seien folgende naheliegende Fragen genannt,
die die Qualität eines Messverfahrens betreffen:
- “Waren die Fragen auch nicht zu schwer? Vielleicht konnte ja niemand, in keiner Gruppe, die Fragen beantworten?"
- “Waren die Fragen auch nicht zu leicht? Vielleicht haben ja alle Versuchspersonen alle Fragen korrekt beantwortet?”
- “Wenn alle Fragen auf ein und dasselbe Wissensgebiet abzielen, so sollten die Fragenantworten korrelieren. Tun sie das? Alle? Wie sehr?”
Letztlich sind an Wissenstest die gleichen Qualitätsanforderungen zu stellen wie an andere Messinstrumentwe auch, s. @sec-messguete.
### Bestehende Messung übernehmen
*Latente* Variablen, die also nicht direkt beobachtbar sind, sind schwer zu messen.
Psychologische Variablen gehören in der Regel dazu.
Daher sollten Sie solche Variablen nicht mit eigenen, selbst entwickelten Instrumenten erheben.
Das Problem ist, dass es unklar ist, ob Ihr "Messgerät" funktioniert.
Viel besser ist in diesem Fall, auf bestehende Messgeräte zurückzugreifen.
Persönlichkeitsvariablen sind typische Beispiele für Variablen, die Sie lieber mit existierenden Messinstrumenten messen.
*Wissenstests* hingegen kann man so verstehen, dass sie keine latenten Konstrukte messen, sondern "nur" den Inhalt der abgefragten Wissens-Items.
Zumindest ist das eine Möglichkeit, sich dem Thema zu nähern.
In diesem Fall ist es möglich (d.h. vertretbar), selber einen Wissenstest zu gestalten,
und diesen ohne weitere Validierung in der eigenen Studie zu verwenden.
### ... or translate?
Ein Mittelweg zwischen "Make" (Selber ein neues Instrument entwickeln) und "Buy" (ein existierendes Instrument verwenden) ist "Translate",
also ein Instrument in eine andere Sprache zu übersetzen bzw. für diese neue Sprache anzupassen.
Bei @gudmundsson_guidelines_2009-1 finden sich Hinweise,
zum Übersetzen mit hohen Qualitätsstandards eines Instruments in eine andere Sprache übersetzt.
:::{#callout-note}
Für die Zwecke einer Seminararbeit ist es ausreichend, Items (z.B. aus dem Englischen) zu übersetzen (z.B. ins Deutsche) und anhang einer Rückübersetzung die Qualität der Übersetzung zu überprüfen.$\square$
:::
### Einzelne Items einer Skala entnehmen
Entnimmt man beispielsweise aus einem Extraversionstest ein einzelnen Item, etwa "Ich bin ein Team-Player", lässt man dabei wesentliche Facetten des Konstrukts außen vor.
Denn die weiteren Facetten von Extraversion würden etwa mit den 10 Items wie "Ich kann schnell gute Stimmung verbreiten" oder " Wenn nichts los ist, langweile ich mich schnell" [@satow_b5t_2011].^[Quelle: <https://www.testarchiv.eu/de/test/9006357>]
Daher ist es problematisch, aus einer Skala nur einen Teil der Items zu entnehmen, um das Konstrukt, auf das die komplette Skala abzielt, zu messen.
Entnimmt man nur einen Teil der Items,
so ist die Messgüte dieser Adhoc- oder Teilskala unbekannt.
Ein (Behelfs-)Ausweg kann darin bestehen,
Studien zu zitieren, die diese Adhoc-Skala verwendet haben, und damit einen Effekt finden konnten.
### Tipps wie man ein Messinstrument findet
Anstelle eines Fazits folgt hier eine kurze Zusammenfassung in Form von Tipps,
wie man ein geeignetes Messinstrument finden kann:
1. Nicht immer sind Messinstrumente für Ihren Zweck eigenständig publiziert. Stattdessen sind sie Teil einer Studie. Lesen Sie daher *einschlägige Fachartikel* und übernehmen Sie die Messmethode der Autoren
2. Recherchieren Sie bei einschlägigen wissenschaftlichen *Suchmaschinen* wie Google Scholar, Psyndex oder Elicit nach Instrumenten und Fachartikeln.
3. Überlegen Sie, ob Sie einen Fragebogen durch *Verhaltensbeobachtung* ersetzen: Reaktionszeit bei der Wahl einer Alternative, akzeptabler subjektive Kaufpreis, Wissenstest, implizite Verfahren ... Solche Maße können Sie (für die Zwecke der Seminararbeit) ohne Prüfung der Validität einsetzen.
## Messgüte {#sec-messguete}
Die Güte einer Messung wird in der Psychologie zumeist anhand dreier Kennzahlen festgemacht:
- Reliabilität (Messgenauigkeit)
- Objektivität (Unabhängigkeit vom Kontext)
- Validität (Gültigkeit)
### Reliabilität
Die Reliabilität von psychologischen (quantitativen) Skalen wird häufig über die sog. *interne Konsistenz* ermittelt.
Es gibt mehrere Formeln zur Schätzung von Konsistenzkoeffizienten Hier sollen nur die am häufigsten verwendete dargestellt werden: Cronbachs Alpha Höhe des Koeffizienten hängt vom Verhältnis der Summe der einzelnen Itemvarianzen ($\sigma_i^2$) zur Gesamtvarianz ($\sigma^2$) des Tests ab.
Zwei denkbare Extrem-Szenarien sind︎
- Itemvarianzen hoch und Itemkovarianzen gering: Cronbach-alpha-Koeffizient *niedrig* ︎
- Itemvarianzen niedrig und die Itemkovarianzen hoch: Cronbach-alpha-Koeffizient *hoch*.
:::{#def-cronbachsalpha}
### Cronbachs Alpha
Cronbachs Alpha ist ein gebräuchliches Maß der Reliabilität einer Skala,
genauer der internen Konsistenz [@Buhner2011].
Der Kennwert hat einen Wertebereich von 0 bis 1, wobei höhere Werte eine hörere Reliabilität anzeigen.
Einfach ausgedrückt kann man den Kennwert als ein Maß der mittleren Korrelation der Items untereinander verstehen.
Werte ab .7 werden mitunter als akzeptabel und ab .8 als gut eingeschätzt [@tavakol_making_2011].$\square$
:::
In der Regel macht es *wenig* Sinn, Cronbachs Alpha in der eigenen Stichprobe zu berechnen.
Der Grund liegt in der kleineren Stichprobe Ihrer Studie im Vergleich zur Validierungsstichprobe des Messintruments.
Würde man diesen (oder jeden beliebigen anderen) Kennwert in einer kleineren anstelle einer größeren Stichprobe berechnen, so erhielte man einen ungenaueren ("verrauschten") Kennwert.
Eine Ausnahme von dieser Regel ist, wenn Ihre Stichprobe groß ist oder wenn Sie ein bisher ungeprüftes Instrument verwenden.
Eine statistisch aussagekräftigere Variante zu Cronbachs alpha ($\alpha$) ist McDonalds Omega ($\omega$) [@hayes_use_2020].
In R bietet etwa das Paket [`psych`](https://rdrr.io/cran/psych/f/inst/doc/intro.pdf) Möglichkeiten,
entsprechende Koeffizienten zu berechnen (mit dem Befehl `alpha`); s. [hier](https://sebastiansauer.github.io/umfragen-auswerten/itemanalyse.html).
### Objektivität
Für die Objektivität wird meist keine Kennzahl angegeben.
Man geht davon aus, dass die Objektivität hinreichend gegeben ist.
Die Beschreibung des Vorgehens während der Datenerhebung kann dazu weiter Aufschluss geben.
### Validität
Für die Gültigkeit einer Skala wird oft die Korrelation zu anderen Konstrukten berichtet,
die laut Theorie hoch oder gering oder gar nicht mit dem zu untersuchenden Konstrukt korreliert sein soll.
Entspricht die beobachtete Korrelation der laut Theorie erwarteten,
so ist dies als Beleg für die Validität des Verfahrens zu sehen.
## Weitere Messverfahren
Neben psychometrisch fundierten Messverfahren, die in der Psychologie häufig verwendet werden, gibt es noch eine Fülle weiterer Arten von Messverfahren.
### Wissenstest
Bei einem Wissenstest wird - wie in einer Klausur in der Schule - die Richtigkeit einer Antwort geprüft.
### Implizites Messen
Zur Messung von sozialpsychologischen oder persönlichkeitspsychologischen Konstrukten wird häufig auf eines von zwei Operationalisierungsarten zurückgegriffen:
1. Selbsteinschätzung via (psychometrisch fundiertem) Fragebogen (explizite Messung)
2. Leistungstests oft in Form von reaktionszeitbasierten Tests (implizite Messung)
:::{#def-implizit}
### Implizite Messung
Eine Messung eines psychologischen Konstrukts, die erhalten wird, während die zu bewertende Person nicht weiß, dass die Messung stattfindet, die häufig zur Bewertung von Einstellungen, Stereotypen und Emotionen in der sozialen Kognitionsforschung verwendet wird. Typischerweise wird ein implizites Maß als Antwortergebnis eines experimentellen Verfahrens bewertet, bei dem der Teilnehmer mit einer kognitiven Aufgabe beschäftigt ist. Beispielsweise könnte eine Wortstamm-Vervollständigungsaufgabe verwendet werden, um Emotionen implizit zu bewerten, so dass "jo_" vervollständigt werden könnte, um ein positives emotionales Wort (z. B. Joy) oder ein neutrales Wort (z. B. Joggen) zu bilden.^[Quelle: <https://dictionary.apa.org/implicit-measure>, 2023-05-04]$\square$
:::
#### Der Implizite Assoziationstest
Der *Implizite Assoziationstest* (IAT) [@Greenwald1995] ist ein Verfahren zur Messung unbewusster Assoziation zwischen mentalen Repräsentationen von Objekten.
Typische Anwendung ist die Messung von Vorurteilen.
[IAT ausprobieren](https://implicit.harvard.edu/implicit/takeatest.html)
#### Fundort für implizite Verfahren
[Psytoolkit](https://www.psytoolkit.org/) erlaubt es, psychologische Experimente inkl. Reaktionszeit-Messungen zu entwickeln, kostenlos. Die Studien können direkt über die Plattform online gestellt werden.
Die Reaktionszeitsmessungen müssen mit einer Skriptsprache geschrieben werden, aber es gibt von viele Beispiele (inkl. deren Skripte), die man einfach kopieren kann. Die Experimente können im Browser durchgeführt werden.
[Hier gibt’s ein Tutorial](https://www.psytoolkit.org/lessons/project.html).
:::{#exr-implizit}
1. Wählen Sie ein Instrument zur Messung Reaktionszeit aus der [Liste von PsyToolkit](https://www.psytoolkit.org/experimentlibrary/#exps).
2. Probieren Sie das Instrument aus.
3. Erstellen Sie eine Kurzbeschreibung des Instruments:
a. Name
b. Beschreibung/Ablauf
c. Zu messendes Konstrukt
d. Korrelate
e. Forschungstand (z.B. Anzahl und Qualität der Befunde zu(un)gunsten des Instruments)
f. Beispielhafte Hypothese für dieses Instrument
g. Hinweis auf einen passenden Originalartikel
:::
## Stimuli
:::{#def-stimulus}
### Stimulus
Ein Stimulus (Plural: Stimuli) ist ein Objekt oder ein Ereignis für das die Reaktion (einer Versuchsperson) gemessen wird.$\square$
:::
Stimuli werden nicht gemessen, sind aber (u.U.) auch *Operationalisierungen* eines Konstrukts (das ist die Verbindung zu Messungen).
:::{#exm-stimulus}
Im Rahmen einer Studis soll positive Stimmung (in den Versuchspersonen) induziert werden. Dazu werden die Versuchspersonen instruiert, 6 Erlebnisse aufzuschreiben, in denen ihnen etwas gut gelungen ist.$\square$
:::
In @exm-stimulus dient die Instruktion als Operationalisierung für das Konstrukt "positive Stimmung".
Beispiele für Stimuli sind Bilder, Töne oder Instruktionen.
### Bilder und Töne
Eine in der experimentellen Psychologie häufig eingesetzte Sammlung an Bildern ist der *International affective picture system (IAPS)* [@Lang1997] oder, neuer, die *Open Affective Standardized Image Set (OASIS)* [@kurdi_introducing_2017].
[Hier](https://psychology.stackexchange.com/questions/7736/is-there-any-good-alternative-to-the-international-affective-picture-system-iap) werden Alternativen zum IAPS vorgestellt.
Für Töne gibt es ähnliche Sammlungen [@redondo_affective_2008, @yang_affective_2018];
eine breite Sammlung an Audio-Daten nützlich für psychologische Studien, u.a. mit emotionalem Gehalt, findet sich z.B. [hier](https://towardsdatascience.com/40-open-source-audio-datasets-for-ml-59dc39d48f06).
### Videos
Videos können eine komfortable Möglichkeit darstellen,
um Versuchspersonen zu einem Stimulus zu exponieren.
:::{#exr-furhat}
### Empathischer Furhat
Der soziale Roboter [Furhat](https://furhatrobotics.com/) ist gut geeignet, um die Reaktionen von Menschen gegenüber sozialen Robotern zu untersuchen.
In einer studentischen Studie haben die Autorinnen, Jana Kahr und Tanja Beck, dies untersucht:
> Diese Studie befasst sich mit der Frage, ob ein virtueller sozialer Roboter durch verbal empathisches Verhalten das Erinnerungsvermögen und somit das Lernergebnis der Probanden positiv beeinflussen kann und ob diesen den sozialen Roboter auch als empathisch wahrnehmen.
Leider fand sich kein klarer Effekt:
> Die Studie umfasst n=56 Probanden. Diesen wurde in zwei Gruppen ein Video, eines empathischen oder neutralen sozialen Roboters, welcher Informationen über künstliche Intelligenz vortrug, gezeigt. Die Abhängigen Variablen wurden durch einen Wissenstest und Items zur empfundenen Empathie gemessen. Entgegen der Erwartungen konnten die Ergebnisse jedoch keinen aussagekräftigen Effekt, weder auf das Erinnerungsvermögen noch auf die empfundene Empathie, aufweisen.
:::
:::: {.columns}
::: {.column width="40%"}
[*Neutraler Furhat*](img/Furhat_neutral.mp4)
{{< video img/Furhat_neutral.mp4 >}}
Quelle: Jana Kahr und Tanja Beck
:::
::: {.column width="10%"}
:::
::: {.column width="40%"}
[*Empathischer Furhat*](img/Furhat_empatisch.mp4)
{{< video img/Furhat_empatisch.mp4 >}}
Quelle: Jana Kahr und Tanja Beck
:::
::::
### Animationen
Für einige Forschungszwecke eignen sich Anminationen, etwa von Datenvisualisierung.
Online finden sich viele Beispiele für animierte Diagramme, sowohl in Form von GIF-Bildern oder Web-Diagrammen^[zumeist auf Basis von JavaScript], die im Browser dynamisch bzw. animiert laufen.^[Das ist praktisch, weil es keine zusätzliche Software erfordert.]
Zeitverläufe eignen sich vergleichsweise gut für Animationen.
Man kann sich aber selber Animationen erstellen.
#### gganimate
Visualisieren wir den Verlauf der Temperatur in New York (Datensatz `airquality`).
Das R-Paket `gganimate` erstellt eine große Zahl von `ggplot`-Diagrammen, von denen jeweils eines als Bild im "Film" einer Animation gezeigt wird. Man kann die Bildern dann als GIF-Bild speichern.
Zuerst die statische Variante des Diagramms, das wir mit `ggplot` erstellen:
```{r}
diagram1 <- airquality %>%
ggplot(aes(x = Day,
y = Temp,
frame = Day,
color = factor(Month))) +
geom_line()
diagram1
```
Und hier die animierte Variante, s. @fig-anim1.
```{r}
#| eval: false
diagram1 + transition_reveal(Day)
```
![Animation mit gganimate](img/airquality.gif){#fig-anim1}
Hilfe für `gganimate` findet sich z.B. auf der [Homepage des Pakets](https://gganimate.com/).
[`transition_reveal()`](https://gganimate.com/reference/transition_reveal.html) lässt die Werte (die Daten) nach und nach erscheinen.
Speichern als GIF:
```{r}
#| eval: false
anim_save("airquality.gif")
```
Gibt man kein Objekt an, wird die letzte Animation gespeichert;
Mehr Optionen kann man auf der [Hilfe-Seite der Funktion](https://gganimate.com/reference/anim_save.html) nachlesen.
#### Plotly
Das R-Paket [Plotly](https://plotly.com/r/) ist eine Browser-basierte Methode, die das Bild dynamisch im Browser erzeugt (und nur dort).
Damit ist die Methode vor allem für Web-basierte Formate geeignet.
Nehmen wir hier als Beispiel die Daten von `gapminder`.^[Das hat auch den Hintergrund, dass Liniendiagramme umständlich(er) mit Plotly zu erstellen sind.]
Zunächst erstellen wir wieder ein statisches Diagramm,
das die Veränderung im Zeitverlauf der Lebenserwartung in Abhängigkeit des Bruttosozialprodukts für viele Länder zeigt, s. @fig-plotly1.
```{r}
#| label: fig-plotly1
#| fig-cap: ggplot-Diagramm als Grundlage für Plotly
diagram2 <-
gapminder %>%
ggplot(aes(x = gdpPercap,
y = lifeExp,
frame = year, # Bild
color = continent,
size = continent)) +
geom_point(alpha = .5) # Punkte etwas durchsichtig
diagram2
```
Für jeden Wert von `frame` wird ein eigenes Bild - ähnlich zu einem Video - erstellt.
Das ggplot-Objekt können wir jetzt einfach in ein Plotly-Objekt übersetzen lassen, s. @ fig-plotly2.
```{r}
#| label: fig-plotly2
#| fig-cap: Animation mit Plotly, auf Basis eines ggplot-Diagramms
ggplotly(diagram2)
```
Oder wir schreiben Plotly-Code,
was auch nicht so schwierig ist, s. @fig-plotly3.
```{r}
#| label: fig-plotly3
#| fig-cap: Plotly-Diagramm mit Ploty-Syntax, ohne Ggplot
gapminder %>%
plot_ly(
x = ~gdpPercap,
y = ~lifeExp,
size = ~pop,
color = ~continent,
frame = ~year,
text = ~country,
hoverinfo = "text",
type = 'scatter',
mode = 'markers'
)
```
[Online](https://statisticsglobe.com/animate-interactive-plotly-graph-r) finden sich viele Beispiele für den Einsatz von Plotly.
### Weitere Animationen
Einfache Beispiele für Animationen mit `gganimate` und `plotly` finden sich [unter dem Tag animation im 'Datenwerk'](https://datenwerk.netlify.app/#category=animation) und an ganz vielen weiteren Stellen.
Alternative animierte Visualisierungen von Daten bieten z.B. die Diagramme des [R-Pakets 'htmlwidgets'](https://www.htmlwidgets.org/showcase_leaflet.html).
So bietet das R-Paket `dygraphs` interaktive - aber nicht animierte - Diagramme, s. @fig-dygraph.
```{r}
#| label: fig-dygraph
#| fig-cap: Animation mit dygraph
airquality %>%
select(Day, Temp, Month) %>%
pivot_wider(values_from = Temp, names_from = Month) %>%
dygraph() %>%
dyRangeSelector()
```
Neu dabei ist [Observable](https://observablehq.com/@slopp/observable-for-r-users), womit auch browserbasierte Diagramme erstellt werden können. Eigentlich ist es ein JavaScript-Tool, aber es gibt eine R-Anbindung, [RObservalbe](https://cran.r-project.org/web/packages/robservable/vignettes/introduction.html), s. @fig-robs.
```{r}
#| label: fig-robs
#| fig-cap: Animation mit robservable
data(penguins)
df <- data.frame(table(penguins$species))
# change column names to match the names used in the observable notebook
names(df) <- c("Species", "Freq")
series <- lapply(unique(gapminder$country), function(country) {
values <- gapminder[gapminder$country == country, "lifeExp", drop = TRUE]
list(name = country, values = values)
})
dates <- sort(unique(gapminder$year))
dates <- as.Date(as.character(dates), format = "%Y")
df <- list(
y = "Life expectancy",
series = series,
dates = to_js_date(dates)
)
robservable(
"@juba/multi-line-chart",
include = "chart",
input = list(data = df)
)
```
## Beispiele für Messinstrumente {#sec-bsp-skalen}
Wer in den für die Forschungsfrage einschlägigen Papers stöbert, findet über kurz (oder lang) Ansatzpunkte bzw. Messinstrumente, die sich in anderen Studien bewährt haben.
Eine Auswahl an psychometrisch fundierten Skalen findet sich in dieser [Online-Zotero-Gruppe](https://www.zotero.org/groups/5127475/psychometric-scales).
Eine statische Version dieser Quellen kann hier heruntergeladen werden.
{{< downloadthis Material/Skalen.bib >}}
:::{#exr-skalensammlung}
### Kollaborative Skalensammlung
Sehen Sie sich die [Online-Zotero-Gruppe für psychometrisch fundierte Skalen an](https://www.zotero.org/groups/5127475/psychometric-scales).
Prüfen Sie, ob Skalen für Sie nützlich sind (und nutzen Sie sie).
Diese Liste an Skalen ist ein *kollaboratives Projekt*:
Sie können Sie kostenlos nutzen, aber es funktioniert nur, wenn auch Skalen beigetragen (hochgeladen) werden.
Tragen Sie also Ihrerseits weitere psychmetrische Skalen in diese Zotero-Grupp ein.
:::
### Konsumentenforschung
So ist ein Beispiel für Messinstrumente um emotionale Reaktionen von Versuchspersonen auf Werbung in @escalas_sympathy_2003 zu finden.
Skalen für Kundenzufriedenheit und Kaufabsicht finden sich etwa bei @maxham_longitudinal_2002 oder bei @grewal_effects_1998.
@graf_measuring_2018 messen *cognitive fluency*, das sie als ein "subjective feeling of easy or difficulty associated with any type of mental processing" definieren (S. 394).
So könnte etwa die "kognitive Leichtigkeit" mit der ein (Werbe-)Diagramm mental verarbeitet wird,
mit der Subskala *Perceptual Fluency* messen, die als semantisches Differenzial mit 5 Items aufebaut ist (vgl. S. 400).
### Usability
Die Evaluation technischer Geräte beleuchtet in der psychologischen Forschung häufig Aspekte der Nutzerfreundlichkeit (*Usability*) oder *User Experience*.
Ein verbreitetes Verfahren, um die Usability von technischen Geräten oder Systemen zu quantifizieren,
ist die *System Usability Scale* (SUS) [@bangor_empirical_2008; lewis_system_2018].
Die SUS ist technologieunabhängig und daher breit einsetzbar.
Eine Version der SUS-Items lauten:
1. Ich kann mir sehr gut vorstellen, das System regelmäßig zu nutzen.
1. Ich empfinde das System als unnötig komplex.*
1. Ich empfinde das System als einfach zu nutzen.
1. Ich denke, dass ich technischen Support brauchen würde, um das System zu nutzen.*
1. Ich finde, dass die verschiedenen Funktionen des Systems gut integriert sind.
1. Ich finde, dass es im System zu viele Inkonsistenzen gibt.*
1. Ich kann mir vorstellen, dass die meisten Leute das System schnell zu beherrschen lernen.
1. Ich empfinde die Bedienung als sehr umständlich.*
1. Ich habe mich bei der Nutzung des Systems sehr sicher gefühlt.
1. Ich musste eine Menge Dinge lernen, bevor ich mit dem System arbeiten konnte.*
*: Negativ gepoltes Item.
Ein verwendetes Antwortformat ist eine fünfstufige Likertskala mit den Polen "stimme überhaupt nicht zu" und "stimme voll und ganz zu" [@lewis_factor_2009].
Weitere Hinweise zur psychometrischen Qualität, Normierung und Faktorstruktur findet man bei @lewis_factor_2009.
Um die Items für ein bestimmtes System anzupassen, sind (geringfügige) Änderungen sinnvoll - und im Rahmen einer Seminararbeit auch ohne weitere Validierungsstudien erlaubt.
@ferreira-barbosa_mediating_2023 präsentieren mehrere Skalen zur Messung der Usability und Nutzungsbereitschaft einer App, neben anderen Skalen wie Kundenzufriedenheit und Skalen des "e-Lifestyle".
### Wissenstest bei Instruktionssystemen
Präsentiert man den Versuchspersonen ein System, das Ihnen helfen soll, etwas zu lernen,
so sind Wissenstest eine einfache und sinnvolle Art, die AV zu operationalisieren.
### Interaktion mit Robotern
Um Messinstrumente für eine eigene Studie zu finden, ist es häufig nützlich,
ähnliche, bereits veröffentlichte Studien zu begutachten, und die Messverfahren,
die sich in diesen Studien bewährt haben, zu verwenden.
So berichten @song_uncanny_2022 in [Abschnitt 4.5, Messinstrumente](https://www.tandfonline.com/doi/full/10.1080/10447318.2022.2121038?src=)
über folgende Instrumente zur Messung der AV:
Um die "*Unheimlichkeit*" (eeriness) des Umgangs mit dem Roboter zu messen,
wurden das entsprechende Semantische Differenzial aus der Studie von @ho_revisiting_2010 übernommen.
In letzter Studie finden sich weitere Messinstrumente [vgl. Volltext hier](http://macdorman.com/kfm/writings/pubs/Ho2010UncannyValleyIndices.pdf):
*perceived humanness*, *warmth*, *eeriness* und *attractiveness.*
Zweitens wurde das *Vertrauen* in den Robotern mittels vier Items (Likert-Skala mit 7 Stufen) gemessen.
Ein Beispiel-Item lautet: "I find the chatbot to be benevolent" mit den Polen 1 = completely disagree und 7 = completely agree.
Die Skala stammt wiederum aus der Studie von @al-natour_adoption_2011 [Volltext hier](https://www.researchgate.net/profile/Sameh-Al-Natour/publication/220580434_The_Adoption_of_Online_Shopping_Assistants_Perceived_Similarity_as_an_Antecedent_to_Evaluative_Beliefs/links/0deec521a214ec8489000000/The-Adoption-of-Online-Shopping-Assistants-Perceived-Similarity-as-an-Antecedent-to-Evaluative-Beliefs.pdf?_sg%5B0%5D=started_experiment_milestone&origin=journalDetail&_rtd=e30%3D).
Auch in dem Paper finden sich noch einige nützliche weiterführende Hinweise.
Drittens wurde die *Bereitschaft, den Roboter weiter zu verwenden* mit einem Single-Item-Ansatz gemessen:
"I would be willing to use the virtual assistant again" (7 Stufen von "stimme überhaupt nicht zu" bis "stimme voll und ganz zu", auf Englisch).