(classes-test-notebook)=
# Tipologie dei test psicometrici 

Prima di iniziare lo sviluppo di un test psicometrico, il ricercatore
deve decidere quale tipologia di strumento sia più utile per affrontare
il problema che ha di fronte. Possiamo infatti distinguere tra test
orientati al criterio e test riferiti alla norma.

### Test orientati al criterio

I test orientati al criterio hanno quale scopo il confronto fra gruppi
precostituiti di individui. Gli item del test vengono selezionati in
base alla loro capacità empirica di discriminare fra gruppi criterio, ad
esempio, malati/sani, bocciati/promossi, schizofrenici/depressi. I test
orientati al criterio sono costruiti utilizzando metodi empirici e non
teorici. Al vantaggio di una chiara utilità pratica si accompagna il
grande svantaggio di identificare fattori aventi una scarsa validità di
costrutto, i quali risultano inutili per la comprensione dei processi
psicologici.

Il processo di sviluppo della scala è semplice, in quanto si devono
selezionare gli item che mostrano punteggi differenti in gruppi-criterio
noti. Se i gruppi criterio possono essere individuati con chiarezza è
sempre teoricamente possibile sviluppare test in grado di discriminarli.

Tuttavia, non sempre i gruppi possono essere definiti in modo
attendibile; oppure, la definizione dei gruppi criterio potrebbe avere
senso solo all'interno di una teoria, ma non sia generalizzabile ad
altre tradizioni teoriche. In questo caso, il test rischia di essere
eccessivamente specifico, dimostrandosi utile solo nelle condizioni per
cui è stato sviluppato, ma con scarsa capacità di potere essere
utilizzato in condizioni diverse.

Lo svantaggio principale dei test orientati al criterio è che il
significato psicologico dei punteggi è ignoto. Non avendo una teoria
sulle variabili psicologiche che distinguono due gruppi, un buon test
discriminante non ci aiuta a capire perché tali gruppi siano diversi.
Non è possibile sapere quanti costrutti siano coinvolti nella
determinazione di un punteggio. Inoltre, due punteggi uguali non
implicano la presenza dei medesime meccanismi psicologici. Date queste
ambiguità, utilizzando questi test non è possibile neppure aumentare le
nostre conoscenze in maniera incrementale.

Il problema maggiore per lo sviluppo di questi strumenti è la
definizione del criterio: qual è la variabile numerica che discrimina
nella maniera maggiore tra i gruppi in esame (malati/sani)?

La batteria di item iniziale deve essere sufficientemente grande e non è
necessario che gli item abbiano validità di contenuto o validità di
facciata. In generale, la batteria di item deve essere più grande di
quelle usate per il metodo fattoriale o di analisi degli item: mancando
criteri teorici per la scelta degli item, la scelta iniziale degli item
è molto arbitraria ed è dunque necessario partire da un numero molto
elevato di item. Ciò è meno vero quando gli item hanno una certa
validità di facciata o di contenuto. In seguito, semplicemente si
selezionano gli item che discriminano efficacemente fra i gruppi, o gli
item fortemente associati con il punteggio criterio. È necessario poi
replicare su un diverso campione la capacità discriminativa degli item
selezionati.

### Test basati sulla norma

Le misure riferite ad una norma indicano la posizione del rispondente in
riferimento alla distribuzione di punteggi ottenuti nello stesso test da
un campione di grandi dimensioni e rappresentativo della popolazione di
riferimento. La maggioranza dei test di personalità, attitudinali e
cognitivi sono test basati sulla norma.

La metrica utilizzata per tale confronto può avere caratteristiche
diverse. I punteggi standardizzati (con media $0$ e varianza unitaria)
calcolati rispetto al gruppo di riferimento sono spesso convertiti in
una scala diversa, per esempio aventi media pari a $500$ e deviazione
standard di $100$ (punteggi SAT), o aventi media pari a $100$ e
deviazione standard di $15$ (es. punteggi WAIS-VI). È facile operare
tale trasformazione. Il punteggio $Y$ di un rispondente può essere
trasformato nel modo seguente in un punteggio standard $X_i$, avente una
media target pari a $\mu_s$ e una deviazione standard $\sigma_s$

$$
X_i = \mu_s + z_i \sigma_s
$$ 

dove $z$ è il punteggio
standardizzato $z=\frac{Y-\bar{Y}}{s_Y}$.

## Variabili latenti e sviluppo di uno strumento psicometrico

Quando uno psicologo sviluppa una scala di misura è meno interessato
agli item della scala che ai costrutti che si intendono misurare: "Scale
items are usually a means to the end of construct assessment ...they are
necessary because many constructs cannot be assessed directly" (p. 2).
Dato che non sono osservabili direttamente, i costrutti sono detti
*variabili latenti*. I costrutti sono interpretati come le cause (non
visibili) che fanno in modo che gli item assumano un determinato valore
per un determinato rispondente in un certo momento del tempo. Mentre
alcune variabili, quali l'altezza, il peso, il battito cardiaco, la
temperatura, possono essere misurate direttamente, i costrutti
psicologici, quali l'ansia, la personalità, la qualità della vita,
possono solo essere misurati indirettamente esaminando gli effetti che
hanno sugli indicatori osservabili del costrutto. Gli item che vengono
misurati tramite uno strumento sono gli indicatori osservati o empirici
degli attributi del costrutto. Il dolore, ad esempio, è un costrutto
psicologico non direttamente osservabile. Tuttavia, al dolore sono
associati molteplici indicatori che sono direttamente osservabili, quali
il pallore, la sudorazione profusa, ecc.

Allo scopo di misurare le variabili latenti del costrutto di interesse,
lo psicologo deve identificare gli indicatori empirici del costrutto che
possono essere direttamente osservabili. L'identificazione di tali
indicatori empirici avviene attraverso (1) la chiarificazione del
costrutto di interesse, (2) l'operazionalizzazione del costrutto, (3) la
rassegna della letteratura rilevante, (4) l'analisi concettuale del
costrutto.

### Chiarificazione del costrutto di interesse

Vi sono diverse domande a cui lo psicologo deve rispondere prima di
iniziare la selezione degli item, altrimenti rischia di produrre uno
strumento con una scarsa validità di costrutto.

1.  Qual è lo scopo dello strumento? Che cosa lo strumento dovrà
    misurare?
2.  Quali altri costrutti sono associati al costrutto di interesse? In
    che misura essi si distinguono dal costrutto di interesse? A tali
    domande non è semplice dare una risposta se il costrutto di
    interesse è complesso e astratto.
3.  Lo strumento da costruire intende misurare le caratteristiche
    generali del costrutto di interesse, o intende focalizzarsi su
    alcuni specifici aspetti del costrutto?

**Esempio.** Watson et al. (2007) si sono posti il problema di costruire uno
strumento atto misurare la depressione superando i limiti degli
strumenti già esistenti, quali il Beck Depression Inventory---II
(BDI--II; Beck, Steer, & Brown, 1996) e il Center for Epidemiological
Studies Depression Scale (CES--D; Radloff, 1977). La scala costruita
dagli autori prende il nome di Inventory of Depression and Anxiety
Symptoms (IDAS).

Per rispondere alla prima domanda, Watson et al. (2007) fanno notare che
gli strumenti esistenti comprendono contenuti non specifici, ovvero non
direttamente associati alla depressione. Infatti, sia il BDI-2 sia il
CES--D contengono item che fanno riferimento a vari tipi di ansia. Di
conseguenza, la validità discriminante di questi strumenti risulta
compromessa. Inoltre, gli strumenti esistenti non contengono item che
coprono tutto il dominio del costrutto della depressione maggiore, così
come specificato dal Diagnostic and Statistical Manual of Mental
Disorders (4th ed.). Infine, un'altra limitazione degli strumenti
esistenti è il fatto che essi sono stati creati per produrre un singolo
item della severità dei sintomi e quindi ignorano l'eterogeneità e la
multidimensionalità del fenomeno depressivo. Questo si riflette sul
fatto che gli strumenti esistenti manifestano una struttura fattoriale
poco chiara, nel senso che autori diverse hanno trovato soluzioni
fattoriali diverse. Lo strumento che Watson et al. (2007) intendono
sviluppare vuole superare queste difficoltà costruendo una scale che
direttamente rifletta, in ciascuna delle sue sottoscale, gli aspetti
distintivi della depressione, a differenza di quanto accade per gli
strumenti BDI--II e CES--D.

Per rispondere alla seconda domanda, Watson et al. (2007) fanno notare
come la depressione sia inserita in una rete nomologica di costrutti che
include, in primo luogo, l'ansia. Diversamente dagli strumenti già
esistenti, BDI--II e CES--D, Watson et al. (2007) si propongono
espliciatamente di creare scale che riflettano gli aspetti specifici
della depressione, distinti dall'ansia. Per fare questo, Watson et al.
(2007) iniziano con il considerare un ampio insieme di item che
rappresentano sintomi associati all'ansia. In questo modo viene
perseguito l'obiettivo, all'interno dello strumento, di esaminare la
relazione tra i sintomi d'ansia e quelli della depressione in modo da
creare scale distinte per tali dimensioni così da aumentare a validità
discriminante dello strumento.

Per rispondere alla terza domanda, Watson et al. (2007) affermano di
volere sviluppare uno strumento che, nel suo punteggio generale,
rifletta le caratteristiche generali della depressione mentre, quando
vengono considerate le varie sottoscale che lo costituiscono, consente
di misurare con precisione ciascuna delle dimensioni del costrutto
esaminato.


### Operazionalizzazione del costrutto di interesse

La definizione concettuale fornisce il significato teorico generale del
costrutto. L'operazionalizzazione è invece una definizione del costrutto
che ne consenta la misurazione (Vogt, 1993). Gli indicatori osservabili
o empirici sono il prodotto finale di tale processo di
operazionalizzazione (Keck, 1998) e diventano gli item dello strumento.
Se il costrutto di interesse è stato sviluppato all'interno di un
approccio teorico ben articolato, allora diventa più semplice stabilire
quali siano le dimensioni che caratterizzano il costrutto, in che modo
esse si possano manifestare, e in che modo possano essere misurate.
Tuttavia, molti costrutti psicologici vengono spesso caratterizzati in
maniera diversa da approcci teorici differenti.

**Esempio.** Per chiarire il costrutto di depressione, Watson et al. (2007) fanno
riferimento al DSM--IV il quale elenca nove criteri sintomatici per un
episodio depressivo maggiore: (1) umore depresso per la maggior parte
del giorno, quasi ogni giorno, come riportato dal soggetto o come
osservato dagli altri, (2) marcata diminuzione di interesse o piacere
per tutte, o quasi tutte, le attività per la maggior parte del giorno,
quasi ogni giorno (come riportato dal soggetto o come osservato dagli
altri), (3) significativa perdita di peso, senza essere a dieta, o
aumento di peso, oppure diminuzione o aumento dell'appetito quasi ogni
giorno, (4) insonnia o ipersonnia quasi ogni giorno, (5) agitazione o
rallentamento psicomotorio quasi ogni giorno (osservabile dagli altri,
non semplicemente sentimenti soggettivi di essere irrequieto o
rallentato), (6) faticabilità o mancanza di energia quasi ogni giorno,
(7) sentimenti di autosvalutazione o di colpa eccessivi o inappropriati
(che possono essere deliranti), quasi ogni giorno, (8) ridotta capacità
di pensare o di concentrarsi, o indecisione, quasi ogni giorno (come
impressione soggettiva o osservata dagli altri), (9) pensieri ricorrenti
di morte, ricorrente ideazione suicidaria senza un piano specifico, o un
tentativo di suicidio, o l'ideazione di un piano specifico per
commettere suicidio.

Per massimizzare l'utilità dell'IDAS, Watson et al. (2007) includono
item molteplici per ciascuno dei nove criteri sintomatici per un
episodio depressivo maggiore. Allo scopo di assicurare che un numero
sufficiente di indicatori venga incluso nello strumento per ciascuna di
queste dimensioni potenziali, nell'insieme di item preso in
considerazione inizialmente, Watson et al. (2007) organizzano gli item
potenziali in gruppi chiamati *homogeneous item composites* (HIC). Essi
fanno comunque notare come la costruzione di questi HIC non forza
l'emergenza di un corrispondente fattore, ma soltanto consente di
campionare tutto il dominio potenziale del costrutto.

### Rassegna della letteratura rilevante

È importante per lo psicologo conoscere la maggior parte possibile della
letteratura rilevante prima di iniziare il processo di costruzione di un
nuovo strumento. Una sistematica rassegna della letteratura consente
allo psicologo di valutare e organizzare i risultati empirici
provenienti da fonti diverse che sono utili per individuare i potenziali
indicatori empirici del costrutto. La rassegna della letteratura
consente di sintetizzare le scoperte in un campo di ricerca, mette in
evidenza gli aspetti metodologici associati al costrutto di interesse,
chiarisce quali siano gli approcci teorici all'interno dei quali il
costrutto è stato discusso e consente di mettere in evidenza, quando è
opportuno, la "dimensione dell'effetto" attraverso le meta-analisi.

**Esempio.** Nel caso dell'articolo di Watson et al. (2007), gran parte
dell'introduzione è dedicata alla rassegna della letteratura che viene
discussa allo scopo di mettere in evidenza i limiti degli strumenti
esistenti, considerare quali sono le caratteristiche degli item
utilizzati, mettere in relazione gli indicatori utilizzati dagli
strumenti esistenti con gli approcci teorici disponibili in relazione
alla depressione e all'ansia, discutere le soluzioni fattoriali che sono
state ottenute dai dati raccolti tramite gli strumenti esistenti,
considerare quali aree di contenuto del costrutto non sono state
adeguatamente indagate dagli strumenti esistenti.

### Analisi concettuale del costrutto

L'analisi concettuale del costrutto è un altro metodo che può essere
usato per determinare gli indicatori empirici del costrutto di
interesse.

È necessario stabilire quali siano gli attributi del costrutto di
interesse, includendo la specificazione degli antecedenti e delle
conseguenze che derivano da esso. Si devono identificare tutti gli usi
che, nella letteratura specialistica, sono stati fatti del costrutto in
esame. Infine, è necessario elencare tutti gli indicatori empirici che
siano mai stati utilizzati per il costrutto esaminato.

**Esempio.** Allo scopo di campionare efficacemente l'intero dominio del costrutto,
Watson et al. (2007) hanno definito 20 HIC: Depressed Mood, Loss of
Interest or Pleasure, Appetite Disturbance, Sleep Disturbance,
Psychomotor Problems, Fatigue/Anergia, Worthlessness/Guilt, Cognitive
Problems, Suicidal Ideation, Hopelessness, Melancholic Depression,
Angry/Irritable Mood, High Energy/High Positive Affect, Anxious Mood,
Worry, Panic, Agoraphobia, Social Anxiety, Traumatic Intrusions,
Obsessive-Compulsive Symptoms.

Tredici HIC (per un totale di 117 item) raggruppavano gli indicatori
rilevanti per la depressione. Tra questi, nove HICs (per un totale di 79
items) facevano riferimento ai sintomi di base della depressione
maggiore così come descritta nel DSM--IV (depressed mood, loss of
interest or pleasure, appetite disturbance, sleep disturbance,
psychomotor problems, fatigue/anergia, worthlessness and guilt,
cognitive problems, suicidal ideation). I quattro rimanenti HIC facevano
riferimento alla presenza di sintomi della Hopelessness (Abramson,
Metalsky, & Alloy, 1989), ai sintomi specifici della depressione
malinconica (Joiner et al., 2005), allo stato d'animo di
rabbia/irritabilità (il quale rappresenta una forma alternativa di
depressione tra gli adolescenti; DSM--IV, American Psychiatric
Association, 1994, p. 327), e infine ad indicatori di energia e affetto
positivo (i quali sono stati specificamente associati alla depressione;
Mineka et al., 1998).

Gli altri sette HIC (per un totale di 63 item) sono stati introdotti per
valutare sintomi associati all'ansia. Essi sono stati raggruppati nei
termini dello stato d'animo ansioso, della worry, del panico,
dell'agorafobia, dell'ansia sociale e delle intrusioni traumatiche
associate al PTSD.

### Metodi di ricerca qualitativi

Metodi di ricerca qualitativi posso anche essere usati allo scopo di
identificare i potenziali indicatori empirici del costrutto. In
particolare, possono essere usati i metodi della ricerca fenomenologica,
dell'indagine naturalistica, i focus group e lo studio del caso singolo.

L'indagine fenomenologica is pone l'obiettivo di descrivere il costrutto
dal punto di vista di chi fa di esperienza di esso (Carpenter, 1999).
Utili a questo proposito sono ovviamente le descrizioni che i soggetti
forniscono della propria esperienza.

Nell'indagine naturalistica, lo psicologo osserva le conseguenze del
costrutto così come si manifestano nel mondo naturale. Uno strumento
possibile di raccolta dati è l'intervista con il paziente.

Il focus group, originariamente sviluppato in ambito economico per
ottenere opinioni su un determinato prodotto (Morse & Field, 1995), ha
le caratteristiche di 'a semi-structured group session, moderated by a
group leader, held in an informal setting with the purpose of collecting
information on a designated topic'' (Carry, 1994, p. 226).

Un'altra possibile fonte di informazioni è costituita dagli studi sul
caso singolo.

## Lo sviluppo dello strumento

Una volta selezionati gli indicatori empirici del costrutto, deve essere
scelta una modalità di presentazione che consenta la raccolta efficiente
dei dati. Ciascuno strumento può essere descritto in base a sei
caratteristiche: (1) formato, (2) composizione tipografica, (3)
istruzioni ai soggetti, (4) la costruzione degli item, (5) formato di
risposta, e (6) numero di item.

### Formato

I formati di scala più usati sono lo scaling Thurstoniano, lo scaling di
Guttman, le scale a differenziale semantico, le scale di valutazione
grafica, semantic differential scales, graphic rating scales, le scale
visive di tipo analogico (visual analog scales) e le scale Likert. Ci
concentriamo qui sulle scale Likert per la loro importanza nei test
psicometrici basati sull'analisi fattoriale.

#### Scala Likert

Sviluppata nel 1932 da Rensis Likert per misurare gli atteggiamenti, una
scala Likert è una scala ordinale usata dai rispondenti per valutare il
grado di accordo o disaccordo con l'affermazione che viene loro
proposta. Di solito le alternative di risposta sono cinque o sette, da
"molto d'accordo" a "fortemente contrario."

Essendo una scala ordinale, le risposte possono essere ordinate, ma le
distanze tra i livelli della scala non sono quantificabili. Quindi le
distanze tra i livelli "sempre," "spesso" e "talvolta" non sono
necessariamente uguali. In altri termini, non possiamo assumere che le
differenze tra i livelli di risposta siano equidistanti anche se le
differenze tra i valori numerici assegnati ai livelli della scala lo
sono.

C'è una lunga controversia sulla possibilità di trattare i valori
numerici di una scala ordinale come se essi provenissero da una scala ad
intervalli. In altri termini, ci si è chiesti se sia appropriato usare
statistiche descrittive quali la media e la deviazione standard per i
dati a questo livello di scala, e ci si è chiesti se sia appropriato
usare i test parametrici per dati a livello di scala Likert. È risaputo
che i test non parametrici, i quali non fanno assunzioni sulla forma
della distribuzione della popolazione da cui abbiamo campionato i dati,
hanno una potenza statistica nettamente inferiore ai test parametrici.
Inoltre, concetti quali quelli di media e varianza non hanno senso se i
livelli di una scala Likert non vengono considerati a livello di scala
ad intervalli. Per queste ragioni alcuni autori ritengono problematico
non potere trattare i dati provenienti da scale di tipo Likert come se
fossero a livello di scala ad intervalli.

È stato risposto a tali difficoltà che sufficienti evidenze mostrano
come risulti giustificato trattare i dati a livello di scala Likert come
se fossero a livello di scala ad intervalli quando la numerosità
campionaria è sufficientemente grande e quando i dati si distribuiscono
in maniera approssimativamente normale. Altri autori (es. Jöreskog &
Sörbom, 1996) ritengono invece che le scale tipo Likert vadano
considerate in ogni caso come ordinali, e debbano essere analizzate di
conseguenza. Nel caso dell'analisi fattoriale e dei modelli di equazioni
strutturali questo significa semplicemente che l'analisi si deve basare
sul calcolo delle correlazioni policoriche.

In conclusione, la procedura che sta alla base delle scale Likert
consiste nella somma dei punti attribuiti ad ogni singola domanda. I
vantaggi della scala Likert consistono nella sua semplicità e
applicabilità, mentre i suoi svantaggi sono il fatto che i suoi elementi
vengono trattati come scale cardinali pur essendo ordinali e il fatto
che il punteggio finale non rappresenta una variabile cardinale.

### Composizione tipografica

Criteri da considerare nella formattazione tipografica del test di un
test psicometrico sono la facilità di lettura, la chiarezza e
l'organizzazione. La formattazione dovrebbe tenere in considerazione
l'età dei rispondenti e la potenziale difficoltà di lettura.

### Istruzioni ai soggetti

Le istruzioni devono essere chiare e concise. Oltre ad illustrare la
consegna, esse forniscono una cornice di riferimento che deve essere
comune a tutti i rispondenti. Le istruzioni seguono un formato simile al
seguente:

Lo studio ha come obiettivo generale ... In particolare, con la
ricerca che qui presentiamo, si intendono ottenere dati relativi a
... Nel caso tu decida di partecipare allo studio, questa ricerca
prevede l'attuazione dei seguenti trattamenti ... La ricerca
durerà ... e vi parteciperanno ... individui. Dalla
partecipazione a questa ricerca sono prevedibili i seguenti benefici
... La partecipazione allo studio non comporta alcun rischio. Sei
del tutto libero/a di non partecipare allo studio. La tua adesione a
questo programma di ricerca è completamente volontaria e potrà essere
ritirata in qualsiasi momento.

Ai sensi del Decreto Legislativo 30 giugno 2003 n. 196 in materia di
protezione dei dati personali, tratteranno i tuoi dati esclusivamente
in funzione della realizzazione dello studio. Lo psicologo che ti
seguirà nello studio ti identificherà con un codice: i dati che ti
riguardano raccolti nel corso dello studio, ad eccezione del
nominativo, saranno registrati, elaborati e conservati unitamente a
tale codice, alla data di nascita, al genere. Soltanto il supervisore
del progetto di ricerca potrà collegare questo codice al tuo
nominativo. I dati, trattati mediante strumenti anche elettronici,
saranno diffusi solo in forma rigorosamente anonima, ad esempio
attraverso pubblicazioni scientifiche, statistiche e convegni
scientifici. La tua partecipazione allo studio implica che il gruppo
di ricerca che organizza lo studio e il Comitato etico potranno
conoscere i dati che ti riguardano solo attraverso modalità tali da
garantire la riservatezza della tua identità.

Potrai esercitare i diritti di cui all'art. 7 del Codice in materia di
protezione dei Dati Personali (es. accedere ai tuoi dati personali,
integrarli, aggiornarli, rettificarli, opporsi al loro trattamento per
motivi legittimi, ecc.) rivolgendoti direttamente al responsabile
della ricerca. Potrai interrompere in ogni momento e senza fornire
alcuna giustificazione la tua partecipazione allo studio: in tal caso,
i dati raccolti verranno distrutti.

Se lo richiederai, alla fine dello studio potranno esserti comunicati
i risultati ottenuti in generale e, in particolare, quelli che ti
riguardano. Per ulteriori informazioni e comunicazioni durante la
ricerca puoi rivolgerti a ...

Potrai segnalare qualsiasi fatto che riterrai opportuno evidenziare,
relativamente alla ricerca che ti riguarda, al Comitato Etico
dell'Università degli Studi di Firenze. La segnalazione dovrà essere
inoltrata all'attenzione di ...

È inoltre necessario che i partecipanti completino una dichiarazione di
assenso (consenso informato). Ad esempio:

Io sottoscritto ... dichiaro di aver ricevuto dal Dottor ...
esaurienti spiegazioni in merito alla richiesta di partecipazione alla
ricerca in oggetto, secondo quanto riportato nella scheda informativa
qui allegata, copia della quale mi è stata prima d'ora consegnata
(indicare data e ora della consegna).

Dichiaro altresì di aver potuto discutere tali spiegazioni, porre
tutte le domande che ho ritenuto necessarie e di aver ricevuto
risposte soddisfacenti, come pure di aver avuto la possibilità di
informarmi in merito ai particolari dello studio con persona di mia
fiducia.

Accetto dunque liberamente di partecipare alla ricerca, avendo
compreso completamente il significato della richiesta e i rischi e
benefici che possono derivare da questa partecipazione.
Acconsento al trattamento dei miei dati personali per gli scopi della
ricerca nei limiti e con le modalità indicate nell'informativa
fornitami con il presente documento.

Sono stato informato/a, inoltre, del mio diritto ad avere libero
accesso alla documentazione relativa alla ricerca ed alla valutazione
espressa dal Comitato Etico dell'Università degli Studi di Firenze.

### La costruzione degli item

La scelta di item tecnicamente adeguati sul piano strutturale e
linguistico non è un problema statistico. La formulazione verbale degli
item è molto importante in quanto essa contribuisce all'errore di
misura. Per ridurre gli errori di misura, gli item devono essere
formulati nella forma più chiara e meno ambigua possibile. È ovviamente
necessario impiegare contenuti coerenti con la definizione del
costrutto, ma non ci sono regole semplici per generare item che fanno
emergere il costrutto che si cerca di misurare. Vanno certamente evitati
contenuti che inducano atteggiamenti difensive e/o ostili nei
rispondenti. La formulazione verbale deve inoltre essere appropriata al
livello di scolarità dei rispondenti. Pett, Lackey e Sullivan (2003)
forniscono le raccomandazioni seguenti.

-   Evitare affermazioni che si riferiscono al passato a meno che il
    costrutto faccia direttamente riferimento al passato.
-   Evitare affermazioni fattuali. Evitare affermazioni su cui quasi
    tutti (o quasi nessuno) sono d'accordo.
-   Evitare l'uso di pronomi personali con un significato ambiguo.
-   Selezionare item che potenzialmente possano coprire l'intera gamma
    delle possibili risposte concernenti il costrutto di interesse.
-   Se viene fatto riferimento ad argomenti sensibili, la formulazione
    verbale deve essere la più neutra possibile.
-   Utilizzare un linguaggio chiaro, semplice, diretto. Utilizzare frasi
    corte, altrimenti non ne è chiaro il senso.
-   Evitare affermazioni ambigue o interpretabili in più modi.
-   Evitare formulazioni sintattiche complesse.
-   Evitare l'uso di parole a bassa frequenza o l'uso di una
    terminologia che potrebbe non essere capita dai rispondenti.
-   Disporre gli item aventi un contenuto sensibile verso la fine dello
    strumento.
-   Fare riferimento a comportamenti specifici e non generali.
-   Evitare la duplicazione delle domande.

#### Desiderabilità sociale

Quando si sviluppa lo strumento è necessario tenere in considerazione il
fatto che i rispondenti tendono a fornire risposte socialmente
desiderabili piuttosto che risposte veritiere (Rosenthal & Rosnow, 1991;
Waltz et al., 1991). La Desiderabilità sociale non soltanto introduce
dei bias nello strumento ma può anche comprometterne la validità.

La Desiderabilità Sociale si riferisce al bisogno provato da alcuni
individui di approvazione sociale e accettazione, e alla credenza di
poterle ottenere attraverso comportamenti appropriati e culturalmente
accettati (Marlowe & Crowne, 1961). La Desiderabilità Sociale consiste
nella tendenza a fornire risposte molto positive quando vengono poste
domande su di sé, con l'obiettivo di risultare positivamente agli occhi
dell'altro. Marlowe e Crowne (1960) hanno proposto la scala di
valutazione MC-SCS (Marlowe-Crowne Social Desirability Scale),
largamente utilizzata per indagare questo costrutto. Un'altra scala di
valutazione molto utilizzata è la BIDR (Balanced Inventory of Desirable
Responding, 1991) proposta da Paulhus: tale scala contiene 40 item,
volti a rilevare la gestione delle impressioni e l'autoinganno.

#### Item marker

Quando si anticipa la presenza di più costrutti latenti, è utile
utilizzare nell'insieme degli item alcuni item marker, ovvero item che
correlano molto con un solo fattore e pochissimo con altri. Questo
facilità l'interpretazione dei fattori. I marker consentono infatti di
attribuire ai fattori un nome (etichetta) coerente con l'area semantica
cui i maker fanno riferimento.

#### Campionamento del dominio

Il campionamento del dominio può essere inteso sia come campionamento
del contenuto o come campionamento del comportamento. L'adeguatezza del
campionamento del contenuto riguarda il fatto che l'insieme degli item
sia o meno in grado di rappresentare il dominio di contenuto di
interesse. Questa caratteristica è un indice dell'adeguatezza del test
nel misurare ciò che intende misurare e dovrebbe garantire che le
risposte agli item possano rappresentare una stima della quantità di
costrutto posseduta dal rispondente.

Il campionamento del comportamento riguarda invece il grado in cui le
risposte a un test costituiscono un campione adeguato dei comportamenti
che il test intende misurare. In questo caso ci si chiede se il test
riflette i comportamenti che intende valutare e possiede dunque un
valore descrittivo del comportamento del rispondente.

Un item mal formulato determina una distorsione delle risposte e non può
essere considerato rappresentativo di nessun dominio di contenuto né di
nessun universo di comportamenti.

Per la generazione iniziale degli item è molto importante considerare il
parere della popolazione target e degli esperti. Interviste
accuratamente strutturate e a risposta aperta con esperti o potenziali
soggetti permettono non solo di verificare che gli item siano
rappresentativi o rilevanti per il costrutto, ma anche che siano
formulati correttamente. Questo processo può anche suggerire
sfaccettature ulteriori rispetto a quelle progettate inizialmente e la
necessità di raffinare il costrutto. Nello sviluppo di un test è molto
utile ascoltare il parere di persone inserite nel contesto applicativo
del test anche per sapere qual è la terminologia specifica da utilizzare
nella formulazione degli item, o se gli item sono chiari, o se la scala
di risposta è di facile compilazione.

È anche utile rivolgersi a giudici esterni aventi una conoscenza
approfondita del dominio di contenuto per ottenere una prospettiva
esterna e autorevole che aiuti nell'individuazione degli item da
eliminare e di quelli che richiedono un raffinamento.

Gli item di un test dovrebbero essere distribuiti in modo che riflettano
la relativa importanza delle varie sfaccettature del costrutto target
(Nunnally & Bernstein, 1994). Se gli item per una certa sfaccettatura
sono troppi o troppo pochi, i punteggi e le inferenze ottenute da questi
punteggi saranno distorte.

## Numero delle opzioni di risposta

Un item è costituito da due parti: l'item stem, cioè il testo che
contiene la domanda o l'affermazione da valutare e le alternative di
risposta.

In una scala di tipo Likert, le categorie di risposta si dicono a
parziale autonomia semantica, ovvero sono tali per cui le modalità di
risposta devono essere confrontate con le altre affinché il rispondente
sia in grado di stabilire il loro valore. A ciascuna modalità di
risposta viene attribuito un punteggio (4, 3, 2, 1 oppure 3, 2, 1, 0), e
la somma (o media) dei punteggi alle risposte di ciascun individuo
sull'intera batteria rappresenta la posizione dell'individuo sul
concetto indagato.

Per esempio,

$$
\text{Fortemente d'accordo} \quad 7\quad 6 \quad 5 \quad 4 \quad 3 \quad 2 \quad 1 \quad \text{Fortemente in disaccordo}
$$

oppure,

$$
\text{Molto} \quad \text{Abbastanza}\quad \text{Poco} \quad \text{Per niente}
$$

Il numero ottimale delle opzioni di risposta è stato dibattuto a lungo.
Per esempio, Schutz e Rucker (1975) hanno trovato che "the number of
available response categories does not materially affect the cognitive
structure derived from the results" (p. 323), il che suggerisce che il
numero di opzioni di risposta ha poco effetto sui risultati ottenuti.
Tale conclusione, tuttavia, è stata contraddetta da altri ricercatori.
Per esempio, Garner (1960) ha suggerito risultati massimamente
informativi si ottengono utilizzando più di 20 opzioni di risposta.
D'altra parte, Green e Rao (1970), hanno trovato che i risultati
migliori si ottengono con sei o sette alternative di risposta, con un
guadagno molto piccolo all'aumentare delle categorie di risposta al di
là di sette. In un articolo molto citato, Preston e Colman (2000) hanno
esaminato le risposte fornite da un campione di rispondenti variando il
numero di opzioni di risposta pari a 2, 3, ..., 11, e 101. Dopo avere
calcolato l'attendibilità test-retest e la validità dello strumento,
oltre al potere discriminante degli item, hanno concluso che le scale a
2, 3 e 4 passi hanno prestazioni piuttosto basse, avendo gli indici
calcolati valori molto maggiori per le scale di risposta con un numero
maggiore di opzioni di risposta. In particolare, i risultati dello
studio suggeriscono che scale di valutazione con 7, 9 o 10 opzioni di
risposta sono da preferire rispetto ad altri numeri di alternative di
risposta.

Oltre alle scale Likert è possibile usare le risposte auto-ancoranti,
ovvero quelle in cui gli item prevedono solo due aggettivi di risposta,
estremi (per esempio, "per niente" e "molto"), legati da un segmento
continuo in cui il rispondente deve scegliere la propria posizione. Un
esempio è la Visual Analogue Scale usata nella misura dell'umore. Tali
scale sono molto più rare delle scale Likert.

### Item a codifica inversa

Alcuni item correlano fortemente in maniera negativa con gli altri item
e con il punteggio totale del test. Tali item richiedono una codifica
inversa. Ad esempio, due item del questionario S.T.A.I per la
valutazione dell'ansia sono codificati nel modo seguente.

"Sono preoccupata."

$$
\text{Per nulla} \quad \text{Un po'}\quad \text{Abbastanza} \quad \text{Moltissimo}
$$

con valori 1, 2, 3 e 4, rispettivamente.

"Mi sento bene."

$$
\text{Per nulla} \quad \text{Un po'}\quad \text{Abbastanza} \quad \text{Moltissimo}
$$

con valori 4, 3, 2, e 1, rispettivamente.

In ambito psicometrico si è soliti ritenere che due proprietà contrarie
giacciano sullo stesso continuum latente. Nella costruzione di un test
psicologico viene dunque consigliato di utilizzare sia item con
contenuto orientato nella direzione del costrutto (per cui punteggi alti
nell'item sono il riflesso di un alto livello del costrutto) sia nella
direzione opposta (per cui punteggi alti nell'item sono il riflesso di
un basso livello del costrutto). Nel primo caso si parla di *straight
item*, nel secondo di *reverse item*. Lo scopo centrale degli item
reverse è quello di contrastare l'acquiescenza, ovvero di rallentare il
soggetto nella compilazione del test, evitando di rispondere in maniera
automatica, così da prestare maggiore attenzione al contenuto degli
item.

## Numero di item

Un test psicometrico, oltre ad essere valido, deve minimizzare l'errore
di misura. L'attendibilità di uno strumento sia dall'attendibilità di
ciascun item, sia dal numero di item che lo compongono. Tratteremo di
questo argomento in un capitolo successivo. 

Kline (1986) suggerisce di costruire un numero di item almeno doppio del
numero di item che andranno a costituire il test finale. La lunghezza
del test dipende dal suo scopo. Un Test di valutazione delle abilità per
la scuola primaria non deve richiedere più di trenta minuti per essere
completato, altrimenti la fatica e la noia finiscono per distorcere i
risultati dello strumento. Lo stesso si può dire per un test di
personalità per soggetti adulti. Idealmente, un test dovrebbe essere il
più breve possibile, a patto di raggiungere un livello adeguato di
validità. Come regola euristica, Kline (1986) suggerisce la soglia di
almeno 50 item nella forma finale del test.

## Numero di soggetti

Vi è poco accordo su quale sia la grandezza del campione necessaria per
lo svolgimento dell'analisi fattoriale. Nunnally (1978) ha suggerito che
il campione deve essere costituito da almeno 10 soggetti per ciascun
item. Comrey e Lee (1992) hanno fornito le seguenti indicazioni:

> 50---very poor, 100---poor, 200---fair, 300---good, 500---very good, 1,000 or more---excellent. 

Secondo altri autori 

> as a general rule of thumb, it is comforting to have at least 300 cases for factor analysis (Tabachnick e Fidell, 2001).