(sviluppo-notebook)=
# Sviluppo dello strumento

## Fasi di sviluppo

1. Scopo della scala: Affermare l'obiettivo della scala.
   Iniziamo dichiarando chiaramente il motivo per cui la scala è stata creata e quali sono gli scopi specifici per cui verrà utilizzata. Questo serve a fornire un contesto chiaro e una direzione per tutto il processo di sviluppo e validazione della scala.

2. Identificare e definire il dominio del costrutto da misurare.
   Prima di procedere con la creazione della scala, è fondamentale identificare e definire con precisione il costrutto o la caratteristica psicologica che si intende misurare. Questo passaggio richiede un'analisi approfondita della letteratura scientifica e delle teorie esistenti riguardanti il costrutto, al fine di avere una base solida su cui costruire la scala.

3. Verificare l'esistenza di misure già sviluppate.
   Prima di impegnarsi nello sforzo di creare una nuova scala, è essenziale esaminare se esistano già misure valide e affidabili per il costrutto di interesse. Una revisione sistematica della letteratura scientifica e dei test psicometrici disponibili può rivelare strumenti adeguati già esistenti, evitando il reinventare la ruota e fornendo inoltre un punto di riferimento per la comparazione e la validazione della scala in sviluppo.

4. Determinare il formato degli item.
   In questa fase, vengono prese decisioni importanti riguardo alla struttura e al formato degli item che comporranno la scala. A seconda del costrutto e degli obiettivi della misurazione, potrebbero essere adottati formati come domande a scelta multipla, scala Likert o intervalli di valori. La scelta del formato può influenzare l'accuratezza e l'affidabilità della scala, quindi è fondamentale considerarla con attenzione.

5. Sviluppare una struttura del test o obiettivi del test.
   Prima di procedere con la creazione dei singoli item della scala, è necessario stabilire una struttura organizzativa del test o definire gli obiettivi specifici che si intendono raggiungere attraverso la somministrazione della scala. Questo include il delineamento dei sottodomini o delle dimensioni che si vogliono misurare e l'indicazione di come questi contribuiranno alla valutazione complessiva del costrutto.

6. Creare il pool iniziale di item.
   A questo punto, si procede a sviluppare una vasta gamma di item che coprano i diversi aspetti del costrutto di interesse. Questo pool iniziale di item dovrebbe essere variegato e ben bilanciato, rappresentando in modo adeguato la complessità del costrutto e i diversi livelli di abilità o atteggiamenti che si vogliono misurare.

7. Condurre la revisione iniziale degli item (e apportare modifiche).
   Gli item raccolti nel pool iniziale vengono sottoposti a un esame attento da parte di esperti nel campo. Si valuta la pertinenza, la chiarezza, la coerenza e la validità dei singoli item. Sulla base dei feedback ricevuti dagli esperti, possono essere apportate modifiche o eliminati item problematici.

8. Condurre un test di campo su larga scala degli item.
   Prima di stabilire la versione finale della scala, è necessario somministrare gli item ad un campione rappresentativo della popolazione di riferimento. Questa somministrazione aiuta a valutare l'efficacia degli item nel discriminare tra i partecipanti e identificare eventuali problemi o debolezze della scala.

9. Analizzare gli item.
   I dati raccolti dal test di campo vengono analizzati utilizzando metodi statistici adeguati. Questo processo mira a identificare item che non funzionano correttamente, che mostrano una bassa discriminazione o che potrebbero causare distorsioni nelle risposte. Gli item che superano questa fase sono considerati per la versione finale della scala.

10. Rivedere gli item.
   Sulla base dei risultati dell'analisi, gli item della scala possono essere rivisti o sostituiti, al fine di migliorarne l'accuratezza, la coerenza e l'affidabilità.

11. Calcolare l'affidabilità.
   La consistenza interna della scala viene valutata tramite il calcolo dell'affidabilità, ad esempio utilizzando il coefficiente alpha di Cronbach. Questo passaggio assicura che gli item scelti per la scala si correlino tra loro in modo coerente, riflettendo così la coerenza delle misure.

12. Condurre un secondo test di campo degli item.
   Una volta apportate le revisioni agli item, viene eseguita una seconda somministrazione per confermare l'efficacia delle modifiche e per valutare l'affidabilità della versione rivista della scala su un nuovo campione.

13. Ripetere i passaggi 8-11, se necessario.
   Se durante la seconda somministrazione emergono ancora problemi o se l'affidabilità della scala non raggiunge i livelli desiderati, è necessario ripetere i passaggi 8-11 fino a raggiungere una versione della scala che soddisfi gli standard di qualità e affidabilità.

14. Condurre studi di validazione.
   Al fine di dimostrare la validità della scala, è necessario condurre studi di validazione che mostrino come la scala sia in grado di misurare in modo accurato il costrutto di interesse. Ciò può includere l'analisi della relazione tra i punteggi della scala e altre misure correlate o il confronto tra gruppi noti per differire sul costrutto.

15. Preparare linee guida per la somministrazione.
    Prima di rendere la scala disponibile per l'uso, è fondamentale fornire linee guida dettagliate per la corretta somministrazione e la valutazione dei punte

## Variabili latenti e sviluppo di uno strumento psicometrico

Quando uno psicologo sviluppa una scala di misura, il suo principale interesse è rappresentato dai costrutti psicologici che si intendono misurare, piuttosto che dagli item della scala stessa. Infatti, gli item sono soltanto un mezzo per raggiungere l'obiettivo finale dell'assessment del costrutto, poiché molti costrutti non possono essere valutati direttamente. Questi costrutti sono definiti come variabili latenti, ovvero non osservabili direttamente. Essi vengono interpretati come le cause che influenzano i valori degli item per un determinato rispondente in un dato momento. Mentre alcune variabili, come ad esempio altezza, peso, battito cardiaco, temperatura, possono essere misurate direttamente, i costrutti psicologici, come ansia, personalità e qualità della vita, possono essere misurati solo in modo indiretto, attraverso l'esame degli effetti che hanno sui comportamenti osservabili del costrutto.

Gli item che costituiscono uno strumento di misurazione rappresentano gli indicatori empirici o osservabili degli attributi del costrutto. Ad esempio, il dolore è un costrutto psicologico non direttamente osservabile, ma associato a diversi indicatori osservabili come pallore e sudorazione profusa.

Per misurare le variabili latenti dei costrutti di interesse, lo psicologo deve individuare gli indicatori empirici del costrutto che possono essere valutati direttamente. Questo processo di individuazione avviene attraverso diverse fasi, tra cui la definizione del costrutto, l'operazionalizzazione del costrutto, la revisione della letteratura scientifica e l'analisi concettuale del costrutto.

### Chiarificazione del costrutto di interesse

Prima di iniziare a selezionare gli item per uno strumento di misurazione, lo psicologo deve rispondere a diverse domande per evitare di produrre uno strumento con scarsa validità di costrutto.

1. Qual è lo scopo dello strumento? Cosa si intende misurare con esso?
2. Quali altri costrutti sono associati al costrutto di interesse e in che misura si distinguono da esso? Questa è una domanda complessa quando il costrutto di interesse è astratto e articolato.
3. Lo strumento mira a misurare le caratteristiche generali del costrutto di interesse o a focalizzarsi su alcuni aspetti specifici?

**Esempio.** Watson et al. (2007) si sono posti il problema di costruire uno
strumento atto misurare la depressione superando i limiti degli
strumenti già esistenti, quali il Beck Depression Inventory---II
(BDI--II; Beck, Steer, & Brown, 1996) e il Center for Epidemiological
Studies Depression Scale (CES--D; Radloff, 1977). La scala costruita
dagli autori prende il nome di Inventory of Depression and Anxiety
Symptoms (IDAS).

Per rispondere alla prima domanda, Watson et al. (2007) fanno notare che
gli strumenti esistenti comprendono contenuti non specifici, ovvero non
direttamente associati alla depressione. Infatti, sia il BDI-2 sia il
CES--D contengono item che fanno riferimento a vari tipi di ansia. Di
conseguenza, la validità discriminante di questi strumenti risulta
compromessa. Inoltre, gli strumenti esistenti non contengono item che
coprono tutto il dominio del costrutto della depressione maggiore, così
come specificato dal Diagnostic and Statistical Manual of Mental
Disorders (4th ed.). Infine, un'altra limitazione degli strumenti
esistenti è il fatto che essi sono stati creati per produrre un singolo
item della severità dei sintomi e quindi ignorano l'eterogeneità e la
multidimensionalità del fenomeno depressivo. Questo si riflette sul
fatto che gli strumenti esistenti manifestano una struttura fattoriale
poco chiara, nel senso che autori diverse hanno trovato soluzioni
fattoriali diverse. Lo strumento che Watson et al. (2007) intendono
sviluppare vuole superare queste difficoltà costruendo una scale che
direttamente rifletta, in ciascuna delle sue sottoscale, gli aspetti
distintivi della depressione, a differenza di quanto accade per gli
strumenti BDI--II e CES--D.

Per rispondere alla seconda domanda, Watson et al. (2007) fanno notare
come la depressione sia inserita in una rete nomologica di costrutti che
include, in primo luogo, l'ansia. Diversamente dagli strumenti già
esistenti, BDI--II e CES--D, Watson et al. (2007) si propongono
espliciatamente di creare scale che riflettano gli aspetti specifici
della depressione, distinti dall'ansia. Per fare questo, Watson et al.
(2007) iniziano con il considerare un ampio insieme di item che
rappresentano sintomi associati all'ansia. In questo modo viene
perseguito l'obiettivo, all'interno dello strumento, di esaminare la
relazione tra i sintomi d'ansia e quelli della depressione in modo da
creare scale distinte per tali dimensioni così da aumentare a validità
discriminante dello strumento.

Per rispondere alla terza domanda, Watson et al. (2007) affermano di
volere sviluppare uno strumento che, nel suo punteggio generale,
rifletta le caratteristiche generali della depressione mentre, quando
vengono considerate le varie sottoscale che lo costituiscono, consente
di misurare con precisione ciascuna delle dimensioni del costrutto
esaminato.


### Operazionalizzazione del costrutto di interesse

La definizione concettuale fornisce il significato teorico generale del costrutto, mentre l'operazionalizzazione è la definizione che ne consente la misurazione (Vogt, 1993). Gli indicatori osservabili o empirici sono il prodotto finale di tale processo di operazionalizzazione (Keck, 1998) e diventano gli item dello strumento. Se il costrutto di interesse è stato sviluppato all'interno di un approccio teorico ben articolato, diventa più facile stabilire le dimensioni che lo caratterizzano, in che modo esse si possano manifestare e come possano essere misurate. Tuttavia, molti costrutti psicologici vengono descritti in maniera diversa da approcci teorici differenti, il che rende più difficile stabilire una definizione comune e un'operazionalizzazione coerente.

**Esempio.** Per chiarire il costrutto di depressione, Watson et al. (2007) fanno
riferimento al DSM--IV il quale elenca nove criteri sintomatici per un
episodio depressivo maggiore: (1) umore depresso per la maggior parte
del giorno, quasi ogni giorno, come riportato dal soggetto o come
osservato dagli altri, (2) marcata diminuzione di interesse o piacere
per tutte, o quasi tutte, le attività per la maggior parte del giorno,
quasi ogni giorno (come riportato dal soggetto o come osservato dagli
altri), (3) significativa perdita di peso, senza essere a dieta, o
aumento di peso, oppure diminuzione o aumento dell'appetito quasi ogni
giorno, (4) insonnia o ipersonnia quasi ogni giorno, (5) agitazione o
rallentamento psicomotorio quasi ogni giorno (osservabile dagli altri,
non semplicemente sentimenti soggettivi di essere irrequieto o
rallentato), (6) faticabilità o mancanza di energia quasi ogni giorno,
(7) sentimenti di autosvalutazione o di colpa eccessivi o inappropriati
(che possono essere deliranti), quasi ogni giorno, (8) ridotta capacità
di pensare o di concentrarsi, o indecisione, quasi ogni giorno (come
impressione soggettiva o osservata dagli altri), (9) pensieri ricorrenti
di morte, ricorrente ideazione suicidaria senza un piano specifico, o un
tentativo di suicidio, o l'ideazione di un piano specifico per
commettere suicidio.

Per massimizzare l'utilità dell'IDAS, Watson et al. (2007) includono
item molteplici per ciascuno dei nove criteri sintomatici per un
episodio depressivo maggiore. Allo scopo di assicurare che un numero
sufficiente di indicatori venga incluso nello strumento per ciascuna di
queste dimensioni potenziali, nell'insieme di item preso in
considerazione inizialmente, Watson et al. (2007) organizzano gli item
potenziali in gruppi chiamati *homogeneous item composites* (HIC). Essi
fanno comunque notare come la costruzione di questi HIC non forza
l'emergenza di un corrispondente fattore, ma soltanto consente di
campionare tutto il dominio potenziale del costrutto.

### Rassegna della letteratura rilevante

Prima di iniziare a costruire un nuovo strumento, è importante che lo psicologo si informi il più possibile sulla letteratura rilevante. Questo può essere fatto attraverso una rassegna sistematica della letteratura, che permette di valutare e organizzare i risultati di diverse fonti in modo da individuare i potenziali indicatori del costrutto. In questo modo, la rassegna della letteratura aiuta a sintetizzare le scoperte in un determinato campo di ricerca, evidenziando gli aspetti metodologici associati al costrutto di interesse e chiarificando gli approcci teorici utilizzati. Inoltre, le meta-analisi possono aiutare a comprendere l'entità dell'effetto del costrutto.

**Esempio.** Nel caso dell'articolo di Watson et al. (2007), gran parte
dell'introduzione è dedicata alla rassegna della letteratura che viene
discussa allo scopo di mettere in evidenza i limiti degli strumenti
esistenti, considerare quali sono le caratteristiche degli item
utilizzati, mettere in relazione gli indicatori utilizzati dagli
strumenti esistenti con gli approcci teorici disponibili in relazione
alla depressione e all'ansia, discutere le soluzioni fattoriali che sono
state ottenute dai dati raccolti tramite gli strumenti esistenti,
considerare quali aree di contenuto del costrutto non sono state
adeguatamente indagate dagli strumenti esistenti.

### Analisi concettuale del costrutto

Un altro metodo per determinare gli indicatori empirici del costrutto di interesse è l'analisi concettuale. Questo metodo richiede di identificare gli attributi del costrutto, incluso ciò che lo causa e le conseguenze che ne derivano. Inoltre, bisogna esaminare tutte le diverse definizioni del costrutto presenti nella letteratura specializzata e elencare tutti gli indicatori empirici che sono stati utilizzati per il costrutto in questione. In sintesi, l'analisi concettuale fornisce un'ulteriore fonte di informazioni che può aiutare lo psicologo a sviluppare un elenco completo di indicatori empirici per il costrutto di interesse.

**Esempio.** Allo scopo di campionare efficacemente l'intero dominio del costrutto,
Watson et al. (2007) hanno definito 20 HIC: Depressed Mood, Loss of
Interest or Pleasure, Appetite Disturbance, Sleep Disturbance,
Psychomotor Problems, Fatigue/Anergia, Worthlessness/Guilt, Cognitive
Problems, Suicidal Ideation, Hopelessness, Melancholic Depression,
Angry/Irritable Mood, High Energy/High Positive Affect, Anxious Mood,
Worry, Panic, Agoraphobia, Social Anxiety, Traumatic Intrusions,
Obsessive-Compulsive Symptoms.

Tredici HIC (per un totale di 117 item) raggruppavano gli indicatori
rilevanti per la depressione. Tra questi, nove HICs (per un totale di 79
items) facevano riferimento ai sintomi di base della depressione
maggiore così come descritta nel DSM--IV (depressed mood, loss of
interest or pleasure, appetite disturbance, sleep disturbance,
psychomotor problems, fatigue/anergia, worthlessness and guilt,
cognitive problems, suicidal ideation). I quattro rimanenti HIC facevano
riferimento alla presenza di sintomi della Hopelessness (Abramson,
Metalsky, & Alloy, 1989), ai sintomi specifici della depressione
malinconica (Joiner et al., 2005), allo stato d'animo di
rabbia/irritabilità (il quale rappresenta una forma alternativa di
depressione tra gli adolescenti; DSM--IV, American Psychiatric
Association, 1994, p. 327), e infine ad indicatori di energia e affetto
positivo (i quali sono stati specificamente associati alla depressione;
Mineka et al., 1998).

Gli altri sette HIC (per un totale di 63 item) sono stati introdotti per
valutare sintomi associati all'ansia. Essi sono stati raggruppati nei
termini dello stato d'animo ansioso, della worry, del panico,
dell'agorafobia, dell'ansia sociale e delle intrusioni traumatiche
associate al PTSD.

### Metodi di ricerca qualitativi

I metodi di ricerca qualitativi possono essere utilizzati per identificare gli indicatori empirici del costrutto di interesse. Tra questi metodi, troviamo la ricerca fenomenologica, l'indagine naturalistica, i focus group e lo studio del caso singolo.

La ricerca fenomenologica si concentra sulla descrizione del costrutto dal punto di vista di chi ne fa esperienza. In questo caso, le descrizioni fornite dai soggetti sono utili per comprendere l'esperienza del costrutto. Nell'indagine naturalistica, lo psicologo osserva le conseguenze del costrutto come si manifestano nel mondo reale, e utilizza come strumento di raccolta dati l'intervista con il paziente. Il focus group è una sessione di gruppo semi-strutturata, moderata da un leader di gruppo, tenuta in un ambiente informale con lo scopo di raccogliere informazioni su un determinato argomento. Inoltre, gli studi sul caso singolo possono rappresentare un'ulteriore fonte di informazioni sulla manifestazione del costrutto e sui suoi indicatori empirici.

## Lo sviluppo dello strumento

Dopo aver selezionato gli indicatori empirici del costrutto, è necessario scegliere un modo efficiente per raccogliere i dati. Ogni strumento può essere descritto in base a sei caratteristiche: (1) il formato, ovvero la struttura dell'intero strumento; (2) la composizione tipografica, ovvero la scelta di font, spaziatura, e disposizione degli elementi; (3) le istruzioni fornite ai soggetti, che devono essere chiare e coerenti con l'obiettivo dello strumento; (4) la costruzione degli item, ovvero il modo in cui sono formulati gli elementi dell'intero strumento; (5) il formato di risposta, ovvero le modalità attraverso le quali i soggetti possono rispondere alle domande o alle affermazioni dell'intero strumento; e (6) il numero di item, ovvero il totale delle domande o degli elementi presenti nell'intero strumento.

### Formato

Esistono diversi formati di scala utilizzati per misurare i costrutti in psicometria, tra cui lo scaling Thurstoniano, lo scaling di Guttman, le scale a differenziale semantico, le scale di valutazione grafica, le scale di differenziazione semantica, le scale di valutazione grafica, le scale visive di tipo analogico (Visual Analog Scales) e le scale Likert. Tuttavia, qui ci concentreremo sulle scale Likert, poiché sono ampiamente utilizzate nei test psicometrici basati sull'analisi fattoriale.

#### Scala Likert

Una scala Likert è un tipo di scala ordinale che viene utilizzata per misurare gli atteggiamenti di una persona. Viene chiesto al rispondente di valutare il grado di accordo o disaccordo con un'affermazione utilizzando un'alternativa di risposta che di solito varia da cinque a sette punti. Tuttavia, poiché è una scala ordinale, le distanze tra i livelli della scala non sono quantificabili e non possiamo assumere che le differenze tra i livelli di risposta siano equidistanti. Pertanto, c'è una lunga controversia sulla possibilità di trattare i valori numerici di una scala ordinale come se provenissero da una scala ad intervalli. Alcuni autori ritengono problematico non potere trattare i dati provenienti da scale di tipo Likert come se fossero a livello di scala ad intervalli, mentre altri autori lo considerano giustificato in presenza di un'ampia numerosità campionaria e di una distribuzione approssimativamente normale dei dati. In ogni caso, la procedura che sta alla base delle scale Likert consiste nella somma dei punti attribuiti ad ogni singola domanda. I vantaggi della scala Likert sono la sua semplicità e applicabilità, mentre i suoi svantaggi sono il fatto che i suoi elementi vengono trattati come scale cardinali pur essendo ordinali e il fatto che il punteggio finale non rappresenta una variabile cardinale.

### Composizione tipografica

Criteri da considerare nella formattazione tipografica del test di un
test psicometrico sono la facilità di lettura, la chiarezza e
l'organizzazione. La formattazione dovrebbe tenere in considerazione
l'età dei rispondenti e la potenziale difficoltà di lettura.

### Istruzioni ai soggetti

Le istruzioni per partecipare allo studio devono essere chiare e concise, fornendo un'idea generale degli obiettivi della ricerca e dei trattamenti previsti. I partecipanti devono essere informati dei benefici prevedibili e dei rischi, e della libertà di scegliere di non partecipare. Inoltre, la privacy dei partecipanti è protetta dalla legge sulla protezione dei dati personali e i loro dati verranno raccolti e conservati in forma anonima, tranne che per il nominativo. I partecipanti possono esercitare i propri diritti di protezione dei dati personali e interrompere la partecipazione in qualsiasi momento. Alla fine dello studio, i partecipanti possono ricevere i risultati della ricerca e possono rivolgersi al Comitato Etico dell'Università degli Studi di Firenze per segnalare qualsiasi problema. Prima di partecipare, i partecipanti devono firmare una dichiarazione di consenso informato per accettare di partecipare alla ricerca e di autorizzare il trattamento dei loro dati personali.

### La costruzione degli item

Per misurare un costrutto, la scelta degli item adeguati non è solo un problema statistico, ma anche di formulazione verbale. La formulazione verbale degli item contribuisce all'errore di misura e deve essere chiara e poco ambigua per ridurre gli errori di misura. È importante utilizzare contenuti coerenti con la definizione del costrutto, evitando contenuti che possano indurre atteggiamenti difensivi o ostili nei rispondenti. Inoltre, la formulazione verbale deve essere appropriata al livello di scolarità dei rispondenti. 

Le raccomandazioni per la scelta degli item includono evitare affermazioni che si riferiscono al passato a meno che il costrutto non faccia direttamente riferimento al passato, evitare affermazioni su cui quasi tutti o quasi nessuno è d'accordo, evitare l'uso di pronomi personali con significato ambiguo, selezionare item che coprano l'intera gamma delle possibili risposte, utilizzare un linguaggio chiaro, semplice e diretto, evitare affermazioni ambigue o interpretabili in più modi, evitare formulazioni sintattiche complesse e parole a bassa frequenza, disporre gli item sensibili verso la fine dello strumento, fare riferimento a comportamenti specifici e non generali e evitare la duplicazione delle domande.

#### Desiderabilità sociale

Quando si crea uno strumento per misurare un costrutto psicologico, è importante considerare che le persone tendono a fornire risposte socialmente accettabili piuttosto che risposte sincere e veritiere. Questo fenomeno è chiamato "Desiderabilità Sociale" e può causare distorsioni e bias nella misurazione del costrutto, compromettendone la validità. La Desiderabilità Sociale si riferisce alla tendenza di alcune persone di fornire risposte positive e socialmente accettabili quando vengono poste domande su di sé, al fine di apparire positivi agli occhi degli altri. Esistono diverse scale per valutare questo costrutto, come la MC-SCS di Marlowe e Crowne e la BIDR di Paulhus, utilizzate per rilevare la gestione delle impressioni e l'autoinganno.

#### Item marker

Quando ci aspettiamo di trovare più costrutti latenti, è utile includere nell'insieme degli item alcuni "item marker". Questi item sono caratterizzati da una forte correlazione con un solo fattore e da una bassa correlazione con gli altri fattori. Ciò aiuta a interpretare i fattori ottenuti. I marker permettono di assegnare ai fattori un nome (etichetta) che sia coerente con l'area semantica cui fanno riferimento.

#### Campionamento del dominio

Il campionamento del dominio si riferisce al processo di selezione degli item che costituiscono il test. Esistono due tipi di campionamento: il campionamento del contenuto e il campionamento del comportamento. Il primo si concentra sull'adeguatezza degli item nel rappresentare il dominio di contenuto di interesse e nel misurare il costrutto correttamente, garantendo che le risposte rappresentino una stima affidabile del costrutto. Il secondo si concentra sul grado in cui le risposte rappresentano adeguatamente i comportamenti che il test intende misurare, garantendo che il test abbia un valore descrittivo del comportamento del rispondente.

Per evitare distorsioni delle risposte, è importante che gli item siano ben formulati e rappresentativi del dominio di contenuto e dei comportamenti di interesse. È quindi fondamentale coinvolgere esperti e la popolazione target nella generazione degli item, in modo da ottenere una comprensione accurata del costrutto e dei comportamenti associati. Inoltre, è importante distribuire gli item in modo equilibrato per riflettere l'importanza relativa delle diverse sfaccettature del costrutto.

## Numero delle opzioni di risposta

In sintesi, un item è composto da una domanda o affermazione (item stem) e dalle possibili risposte (alternative di risposta) che possono essere espresse attraverso una scala di tipo Likert o attraverso risposte auto-ancoranti. Nella scala di tipo Likert, le categorie di risposta sono parzialmente autonome dal punto di vista semantico e ad ogni modalità di risposta viene attribuito un punteggio che, sommato o mediato su tutti gli item, rappresenta la posizione dell'individuo sul concetto indagato. Il numero ottimale di opzioni di risposta è stato oggetto di discussione nella letteratura, ma in generale le scale di valutazione con 7, 9 o 10 opzioni di risposta sembrano essere le più efficaci. Le risposte auto-ancoranti sono invece molto più rare delle scale Likert.

### Item a codifica inversa

In parole più semplici, ci sono alcune domande in un test che sono strettamente correlate in modo negativo con le altre domande e con il punteggio totale del test. Queste domande richiedono una risposta diversa rispetto alle altre domande. Ad esempio, in un questionario sull'ansia, una domanda potrebbe chiedere "Sono preoccupata" e la scala di risposta potrebbe essere "Per nulla", "Un po'", "Abbastanza" e "Moltissimo" con valori 1, 2, 3 e 4 rispettivamente. Tuttavia, un'altra domanda potrebbe chiedere "Mi sento bene" e la scala di risposta potrebbe essere la stessa, ma con valori 4, 3, 2 e 1 rispettivamente. Questo perché le proprietà contrarie si trovano sullo stesso continuum latente. Questo è importante nella costruzione di un test psicologico, dove è consigliato utilizzare sia domande orientate nella direzione del costrutto (chiamate "straight item") sia nella direzione opposta (chiamate "reverse item") per contrastare l'acquiescenza e ottenere risposte più accurate.

## Numero di item

Un test psicometrico deve essere preciso e minimizzare gli errori di misura. Questo dipende dall'affidabilità di ogni domanda del test e dal numero di domande complessive nel test. Kline (1986) raccomanda di creare almeno il doppio delle domande necessarie per il test finale. La lunghezza del test dovrebbe essere adatta al suo scopo. Ad esempio, un test per valutare le abilità degli studenti delle scuole primarie non dovrebbe richiedere più di 30 minuti per essere completato, perché l'affaticamento e la noia possono influire sui risultati. Lo stesso vale per un test di personalità per adulti. In generale, un test dovrebbe essere il più breve possibile, ma deve raggiungere un livello accettabile di validità. Come regola generale, Kline (1986) suggerisce di avere almeno 50 domande nella versione finale del test.

## Numero di soggetti

In ambito psicometrico non c'è un accordo univoco sulla dimensione del campione necessaria per condurre un'analisi fattoriale. Tuttavia, gli autori hanno fornito alcune indicazioni che possono essere utili come riferimento. Nunnally (1978) ha suggerito che il campione debba essere composto da almeno 10 soggetti per ogni item. Comrey e Lee (1992) hanno fornito una scala che valuta la qualità del campione in base alla dimensione: "molto scarsa" per 50, "scarso" per 100, "sufficiente" per 200, "buona" per 300, "molto buona" per 500 e "eccellente" per 1.000 o più. Altri autori hanno suggerito come regola generale di avere almeno 300 casi per l'analisi fattoriale (Tabachnick e Fidell, 2001). In ogni caso, è importante tenere presente che la scelta della dimensione del campione dipende anche dalla complessità del costrutto che si intende analizzare e dalla qualità degli item utilizzati nel test.