# Sviluppo dello strumento {#sec-development}

## Introduzione

Lo sviluppo di un buon test psicologico non è semplice come potrebbe sembrare a prima vista. Si tratta di un processo articolato in più fasi, che richiede generalmente un notevole investimento di tempo, ricerca e, aspetto fondamentale, la disponibilità di partecipanti disposti a sottoporsi al test. Questo capitolo offre una panoramica del processo di sviluppo del test distinguendo quattro fasi principali: la concettualizzazione del test, la definizione della sua struttura e formato, la pianificazione delle standardizzazioni e degli studi psicometrici, e l'implementazione del piano [@reynolds2021mastering].

## Fasi di sviluppo

### Identificazione del costrutto

Lo sviluppo di un test psicologico o educativo è un processo che inizia con la chiara identificazione di una necessità specifica all'interno del campo. È imperativo che lo sviluppatore del test determini il costrutto che desidera misurare e dimostri la necessità di un nuovo metodo di misurazione. Con l'ampia varietà di test psicologici disponibili, diventa cruciale identificare una lacuna specifica o un bisogno non ancora soddisfatto.

Prima di procedere con la creazione di un nuovo strumento di valutazione, è vitale condurre un'indagine approfondita per stabilire se esistano già misure valide e affidabili per il costrutto di interesse. Questo implica un'analisi meticolosa della letteratura scientifica e una revisione dei test psicometrici esistenti. Un tale approccio permette di scoprire se strumenti adeguati siano già disponibili, evitando così di duplicare inutilmente il lavoro già fatto. Inoltre, l'esistenza di misure preesistenti può servire da prezioso punto di riferimento per confrontare e validare il nuovo test in fase di sviluppo, assicurando che il nuovo strumento apporti un contributo significativo e unico al campo della psicologia e dell'educazione.

Con il progredire della psicologia, nuovi costrutti vengono definiti e quelli esistenti vengono modificati. Ad esempio, la concezione dell'intelligenza è cambiata nel tempo, passando dalla misurazione del tempo di reazione e dell'acume sensoriale, all'enfasi sulla conoscenza, fino all'attuale enfasi sul problem solving in termini di intelligenza cristallizzata e fluida.

In alcuni casi, un clinico o ricercatore potrebbe avere la necessità di misurare una variabile ben definita, ma i test esistenti potrebbero essere di qualità dubbia o con qualità psicometriche obsolete. In tali situazioni, potrebbe essere necessario sviluppare un metodo di misurazione migliore o più esatto. Per esempio, le misurazioni del tempo di reazione, un tempo effettuate con l'osservazione umana e il cronometraggio, sono state sostituite da metodi elettronici molto più precisi.

Tuttavia, alcuni test possono valutare costrutti clinicamente utili ma essere impraticabili per l'applicazione clinica reale. Per esempio, la ricerca di sensazioni è stata misurata in modo lungo e complicato fino agli anni '90, quando sono state sviluppate misurazioni rapide e affidabili che hanno reso il costrutto pratico per l'applicazione clinica.

Inoltre, i campioni standardizzati usati nei test possono diventare obsoleti e inapplicabili ai soggetti attuali, creando opportunità per lo sviluppo di nuovi test se persiste la necessità di misurare i costrutti in questione.

Nuovi costrutti vengono talvolta definiti anche nei campi della psicologia e dell'educazione. Questi costrutti, di solito derivati da osservazioni teoriche, devono essere studiati e manipolati per essere compresi, e ciò richiede regole per assegnare valori numerici alle osservazioni, ovvero la definizione stessa di un test. Di conseguenza, c'è sempre bisogno di nuovi strumenti di test, sia per modernizzare quelli esistenti sia per misurare nuovi costrutti. Gli sviluppatori e i ricercatori di test possono condurre ricerche letterarie dettagliate per determinare quali strumenti sono disponibili per valutare un costrutto e valutarne la qualità e l'applicabilità prima di stabilire un reale bisogno.

In conclusione, la decisione di sviluppare un nuovo test dovrebbe basarsi sulla domanda se questo migliorerebbe la pratica o la ricerca in un determinato campo, o se potrebbe migliorare la condizione umana o la nostra comprensione di essa.

**Esempio di Studio:** Nello studio di Watson et al. (2007), una notevole parte dell'introduzione è dedicata all'analisi critica della letteratura esistente. Questa analisi mira a evidenziare i limiti degli strumenti di misurazione disponibili, esaminando le caratteristiche degli item utilizzati, la correlazione tra gli indicatori impiegati dagli strumenti esistenti e gli approcci teorici relativi alla depressione e all'ansia, nonché le soluzioni fattoriali risultanti dai dati raccolti attraverso tali strumenti. Viene inoltre considerata l'insufficiente esplorazione di alcune aree del costrutto da parte degli strumenti esistenti.

Watson et al. (2007) si sono proposti di sviluppare uno strumento per la misurazione della depressione che superi i limiti di strumenti preesistenti come il Beck Depression Inventory-II (BDI-II; Beck, Steer, & Brown, 1996) e il Center for Epidemiological Studies Depression Scale (CES-D; Radloff, 1977). La scala sviluppata prende il nome di Inventory of Depression and Anxiety Symptoms (IDAS).

Per rispondere alla prima questione, gli autori sottolineano che gli strumenti esistenti includono contenuti non specifici o non direttamente legati alla depressione. Sia il BDI-II sia il CES-D, per esempio, contengono item relativi a vari tipi di ansia, compromettendo così la loro validità discriminante. Gli strumenti esistenti non coprono inoltre l'intero dominio del costrutto della depressione maggiore come definito dal Diagnostic and Statistical Manual of Mental Disorders (4ª edizione). Presentano inoltre il limite di produrre un unico punteggio di severità dei sintomi, ignorando così l'eterogeneità e la multidimensionalità del fenomeno depressivo. Ciò si riflette nella struttura fattoriale poco chiara di tali strumenti, con diverse soluzioni fattoriali trovate da vari autori. L'IDAS, sviluppato da Watson et al. (2007), mira a superare queste difficoltà, creando sottoscale che riflettano direttamente gli aspetti distintivi della depressione.

Per rispondere alla seconda questione, gli autori evidenziano come la depressione sia collocata all'interno di una rete nomologica di costrutti che include primariamente l'ansia. A differenza di strumenti preesistenti come BDI-II e CES-D, l'IDAS è stato progettato esplicitamente per creare scale che riflettano aspetti specifici della depressione, distinti dall'ansia. Questo è stato realizzato considerando un'ampia gamma di item che rappresentano sintomi associati all'ansia, al fine di esplorare la relazione tra i sintomi di ansia e quelli della depressione e creare scale distinte per queste dimensioni, aumentando così la validità discriminante dello strumento.

Infine, per rispondere alla terza questione, Watson et al. (2007) dichiarano l'intento di sviluppare uno strumento che, nel suo punteggio complessivo, rifletta le caratteristiche generali della depressione e che, nelle sue sottoscale, misuri con precisione le varie dimensioni del costrutto esaminato.

### Obiettivo

Dopo aver identificato la necessità di un nuovo test per misurare un costrutto, è importante descrivere l'obiettivo primario nello sviluppo di una scala psicologica, gli usi previsti e le possibili interpretazioni dei risultati. Ci si dovrebbe chiedere: in quali contesti e per quali scopi verrà impiegato questo strumento? Quali interpretazioni dei risultati sono previste una volta che il test è stato somministrato e i risultati sono stati raccolti?

La risposta a queste domande dovrebbe scaturire logicamente dal passo precedente. Se risulta difficile rispondere, ciò potrebbe indicare che la concezione del test e dei costrutti da misurare è ancora troppo vaga. In tal caso, sarebbe opportuno ritornare al primo passo e sviluppare ulteriormente le idee e il concetto del test.

Comprendere come e in quale contesto un test può essere utilizzato è fondamentale per molti aspetti del suo sviluppo. Ad esempio, esistono numerosi test di personalità, ma ciascuno tende a enfatizzare aspetti diversi della personalità, delle emozioni e dell'affettività. Alcuni si concentrano sulla personalità normale, altri sugli stati psicopatologici. Il contesto (ad esempio, un ospedale psichiatrico rispetto alla selezione del personale) e l'uso previsto dei risultati determineranno contenuti e schemi interpretativi differenti.

Conoscere lo scopo del test e il contesto in cui verrà utilizzato influenza quindi la risposta a tutti gli altri fattori nel processo di sviluppo, dalla definizione dell'utente del test, al campione normativo appropriato, fino ai tipi di studi di validità necessari per convalidare le interpretazioni proposte dei punteggi.

### Utenti

Nello sviluppo di un test, è cruciale determinare chi lo utilizzerà e per quale motivo. I test dovrebbero essere progettati tenendo conto degli utenti specifici, ovvero individui che svolgono funzioni particolari facilitati dall'uso di test psicologici ed educativi. È importante considerare il tipo di formazione accademica formale e le esperienze supervisionate che potrebbero essere richieste agli utenti per applicare correttamente i risultati dei test. Ad esempio, per la maggior parte dei test psicometrici, esistono requisiti di formazione imposti dalle leggi che limitano l'uso dei test agli psicologi. Tuttavia, è anche possibile pensare di sviluppare un test che non sarà somministrato da psicologi.

È anche utile, in questa fase, determinare quali individui in quali contesti troveranno il test proposto utile nel loro ruolo. Questo dovrebbe derivare direttamente dallo scopo del test e dalle interpretazioni proposte dei risultati. Ad esempio, se lo scopo del test è diagnosticare una condizione clinica come il disturbo bipolare pediatrico, l'utente target sarà probabilmente uno psicologo clinico, o forse un psichiatra. Tuttavia, un test progettato per esaminare un gran numero di bambini per verificare se presentano livelli di rischio elevati per disturbi emotivi e comportamentali potrebbe essere concepito in modo da poter essere somministrato e valutato da insegnanti o infermieri.

La conoscenza dell'utente previsto influenzerà le caratteristiche del test, in particolare riguardo alla complessità della sua somministrazione, valutazione e interpretazione, poiché diverse categorie di utenti possiedono diversi livelli di competenza.

### 4. Definizione concettuale e operativa

La creazione di un test psicologico efficace inizia con l'identificazione e la definizione precisa del costrutto o della caratteristica psicologica che si intende misurare. Questo processo non è banale: spesso crediamo di comprendere pienamente costrutti come depressione, ansia, intelligenza cristallizzata, intelligenza fluida, aggressività, amabilità, fino a quando non tentiamo di esprimerli a parole. È in questo momento che possiamo renderci conto che la nostra comprensione del costrutto potrebbe non essere così chiara come inizialmente pensavamo.

Si raccomanda di scrivere due tipi di definizioni: una concettuale e una operativa. Una definizione concettuale spiega il costrutto a livello teorico. Per esempio, una possibile definizione concettuale della depressione potrebbe essere: "La depressione è uno stato di malinconia, tristezza e bassi livelli di energia che porta all'anedonia, sentimenti di inutilità e stanchezza cronica." Una definizione operativa, invece, dice esattamente come il nostro test definirà o misurerà il costrutto. Ad esempio: "Nella Scala di Valutazione della Depressione degli Studenti, la depressione sarà valutata sommando le valutazioni in direzione punteggiata su osservazioni di comportamento come espressioni di sentimenti di tristezza, sentimenti di solitudine, di sentirsi incompresi e non apprezzati, mancanza di coinvolgimento in attività piacevoli, troppo o troppo poco sonno, pianto in momenti inappropriati e lamentele di stanchezza." Quindi, mentre la definizione concettuale ci dice ciò che vogliamo misurare in astratto, la definizione operativa ci informa in modo più diretto e specifico su come sarà derivato il punteggio del costrutto. Anche se questi sforzi possono sembrare tediosi per scale che hanno molti costrutti, più costrutti sono presenti in un test, più tali definizioni si rivelano utili.

**Esempio:** Nel loro studio sulla depressione, Watson et al. (2007) si riferiscono al DSM-IV, che elenca nove criteri sintomatici per diagnosticare un episodio depressivo maggiore. Questi includono: (1) umore depresso per la maggior parte del giorno; (2) notevole riduzione di interesse o piacere per quasi tutte le attività; (3) variazione significativa del peso o dell'appetito; (4) insonnia o ipersonnia; (5) agitazione o rallentamento psicomotorio; (6) affaticamento o perdita di energia; (7) sentimenti di inutilità o eccessiva colpa; (8) difficoltà di concentrazione o indecisione; (9) pensieri di morte o ideazione suicidaria.

Per ottimizzare l'utilità dell'Inventory of Depression and Anxiety Symptoms (IDAS), Watson et al. (2007) hanno incluso diversi item per ciascuno di questi nove criteri. Con l'intento di garantire una rappresentazione adeguata di ciascuna potenziale dimensione del costrutto, gli autori hanno inizialmente organizzato gli item in gruppi denominati *homogeneous item composites* (HIC). Tuttavia, hanno precisato che la formazione di questi HIC non implica necessariamente l'emergere di un fattore corrispondente, ma serve piuttosto a coprire l'intero dominio potenziale del costrutto di depressione.

### Dissimulazione

Determinare la necessità di misure per rilevare la dissimulazione. La dissimulazione è il comportamento di presentare se stessi in modo diverso dalla realtà. Per esempio, una persona che si sente triste ma non vuole ammetterlo potrebbe rispondere falsamente a una domanda di un test di personalità riguardo la tristezza per nascondere i propri sentimenti. La dissimulazione può verificarsi anche quando si valutano altre persone, ad esempio compilando una scala di valutazione per un bambino, coniuge o genitore anziano.

Le persone possono impegnarsi nella dissimulazione per vari motivi, come negare sintomi in una valutazione di personalità o psicopatologia per non apparire con tratti indesiderati o comportamenti inaccettabili. Questo fenomeno si verifica anche tra coloro che cercano trattamento. Nell'ambito lavorativo, non è insolito che i candidati rispondano alle domande in modo da aumentare le possibilità di ottenere il lavoro.

In altri casi, le persone possono esagerare i sintomi per apparire più compromessi di quanto siano in realtà, un comportamento noto come simulazione, spesso motivato dal guadagno personale. Ad esempio, possono fingere problemi di personalità, comportamentali o cognitivi per ottenere benefici di invalidità, aumentare i risarcimenti in cause legali o evitare punizioni.

Nelle valutazioni cognitive, la dissimulazione può essere rilevata attraverso test di sforzo, ossia test che chiunque può completare correttamente se ci prova. Questi test sono raccomandati in quasi tutte le situazioni forensi e quando un paziente ha qualcosa da guadagnare fingendo deficit cognitivi.

La dissimulazione può manifestarsi in molti modi e talvolta si vedono definizioni più specifiche. Ad esempio, la validità dei sintomi si riferisce all'accuratezza o veridicità della presentazione comportamentale del soggetto, mentre il bias di risposta è un tentativo di ingannare l'esaminatore con risposte inesatte o incomplete. L'effort riguarda l'impegno nell'eseguire al meglio delle proprie capacità.

Capire lo scopo del test, chi lo utilizzerà e in quali circostanze aiuta a determinare se includere scale per rilevare la dissimulazione. La psicologia ha sviluppato nel tempo metodi sofisticati per rilevare la dissimulazione, e le tecniche comuni verranno ora esaminate.

Le scale più comuni per rilevare la dissimulazione (spesso note come scale di validità) nelle misure di personalità e comportamento includono le scale F, le scale L e gli indici di inconsistenza. Queste sono brevemente descritte qui sotto:

- **Scale F (Infrequency Scales):** Queste scale sono progettate per rilevare la presentazione esagerata dei sintomi. Gli item delle scale F riflettono sintomi raramente segnalati anche da persone con livelli significativi di psicopatologia, o rappresentano approvazioni estreme di sintomi comuni che sono anch'essi rari. Poiché questi item rappresentano risposte infrequenti e scarsamente correlate tra loro, i soggetti che indicano di sperimentare un gran numero di questi sintomi forniscono probabilmente una presentazione esagerata della psicopatologia.
- **Scale L (Social Desirability Scales):** Sono progettate per rilevare la negazione inaccurata di sintomi realmente presenti, rilevando il bias opposto della scala F. Le scale L includono item speciali che riflettono piccoli difetti comuni che quasi tutti sperimentano in qualche momento. Ad esempio, una risposta negativa a un item come "Talvolta mi sento triste" può indicare dissimulazione.
- **Scale di Inconsistenza:** Sono progettate per rilevare incongruenze nelle risposte a item simili su scale di personalità e comportamento. Quando un rispondente non è coerente nel rispondere a item simili, i risultati non sono considerati affidabili. Per esempio, un rispondente che afferma sia "Sono pieno di energia" sia "Mi sento affaticato" potrebbe essere incoerente.

Per alcuni tipi di test, possono essere utili altre scale di dissimulazione per scopi speciali. Ad esempio, nello sviluppo di misure per la selezione di personale, potrebbe essere utile includere indicatori più avanzati e sottili di bias di risposta.

Nonostante non siano misure di dissimulazione, gli autori dei test a volte includono anche scale che esaminano la comprensione degli item e il livello di cooperazione del soggetto nei test auto-somministrati e nelle scale di valutazione. Queste scale, a volte chiamate **V-scale** o scale di validità, contengono tipicamente item privi di senso dove la risposta è la stessa per tutti coloro che prendono il test seriamente e cooperano con il processo di esame.

Nelle valutazioni attitudinali e nei test di profitto, alcune persone potrebbero non impegnarsi adeguatamente nei test per ragioni di guadagno, un comportamento comunemente visto come simulazione. Tuttavia, ci sono altre ragioni plausibili, come la sindrome amotivazionale a seguito di infortuni cerebrali o la avolizione in disturbi psichiatrici come la schizofrenia.

Pochi test cognitivi hanno misure incorporate di dissimulazione o mancanza di sforzo. Tuttavia, alcuni costruiscono scale o item per rilevare la mancanza di sforzo. Spesso, la simulazione su misure cognitive è valutata attraverso modelli di prestazione indicativi di risposte non valide, incongruenze tra risultati del test e comportamenti osservati, e discrepanze tra i risultati dei test e le informazioni di background documentate.

In conclusione, le scale di dissimulazione sono strumenti essenziali nel processo di sviluppo dei test, aiutando a garantire che i risultati riflettano accuratamente le caratteristiche e le abilità del soggetto.

### Formato degli Item

La determinazione del formato degli item è un passo cruciale nello sviluppo di un test psicologico o educativo. Questa fase comporta la scelta della struttura e del formato degli item, i quali devono essere in linea con il costrutto da misurare e gli obiettivi specifici del test. I formati possono variare, includendo domande a scelta multipla, scale Likert o altri tipi di risposta. È importante sottolineare che la scelta del formato influisce sull'accuratezza e sull'affidabilità del test, richiedendo quindi un'attenta valutazione.

In questa fase, si devono considerare anche aspetti pratici come la modalità di somministrazione del test, che può essere individuale o di gruppo, e il formato del test, che può essere cartaceo o computerizzato. Un'ulteriore considerazione riguarda chi completerà effettivamente il test o il foglio delle risposte, che potrebbe essere l'esaminatore, l'esaminando o un informatore terzo, come nel caso delle scale di valutazione comportamentale.

Differenti tipi di item sono utili in diverse circostanze e possono misurare caratteristiche in modi diversi. Per esempio, la valutazione di sentimenti, pensieri e altri comportamenti non osservabili è solitamente meglio realizzata tramite autovalutazione. Una volta selezionato il formato di autovalutazione, è importante decidere il tipo di item da utilizzare, poiché esistono diverse opzioni di item per l'autovalutazione. Ad esempio, l'item "Mi sento triste" può variare significativamente a seconda del formato di risposta scelto, influenzando l'intento e l'interpretazione delle risposte.

Dopo aver scelto i formati degli item appropriati, è fondamentale scrivere esempi di item per ciascun formato che si prevede di utilizzare nel test. Questo include anche la redazione delle istruzioni per la somministrazione e la valutazione del test, che dovrebbero essere chiare e comprensibili anche per chi non è familiare con il test.

Infine, è utile stimare il numero di item necessari per valutare in modo affidabile i costrutti. Come regola generale, si dovrebbe inizialmente scrivere almeno il doppio del numero di item che si prevede di utilizzare nel test finale. Questo perché molti item potrebbero essere scartati a causa di statistiche insufficienti, pregiudizi o ambiguità. La lunghezza del test dovrebbe essere adeguata alla popolazione bersaglio, tenendo conto della sensibilità di alcuni gruppi, come i giovani o gli anziani, al tempo richiesto per completare il test.

Un altro aspetto fondamentale da considerare è chi completerà effettivamente il test o il foglio delle risposte. Questo può variare a seconda delle circostanze: potrebbe essere l'esaminatore, l'esaminato, o un terzo informatore, come nel caso delle scale di valutazione comportamentale, dove i rispondenti possono essere genitori, insegnanti o altre figure rilevanti. La scelta di chi completerà il test può influenzare non solo la logistica della somministrazione del test, ma anche la natura delle informazioni raccolte, e quindi la validità e l'utilità dei risultati.

**Scala Likert.** Una scala Likert è un tipo di scala ordinale che viene utilizzata per misurare gli atteggiamenti di una persona. Viene chiesto al rispondente di valutare il grado di accordo o disaccordo con un'affermazione utilizzando un'alternativa di risposta che di solito varia da cinque a sette punti. Tuttavia, poiché è una scala ordinale, le distanze tra i livelli della scala non sono quantificabili e non possiamo assumere che le differenze tra i livelli di risposta siano equidistanti. Pertanto, c'è una lunga controversia sulla possibilità di trattare i valori numerici di una scala ordinale come se provenissero da una scala ad intervalli. Alcuni autori ritengono problematico non potere trattare i dati provenienti da scale di tipo Likert come se fossero a livello di scala ad intervalli, mentre altri autori lo considerano giustificato in presenza di un'ampia numerosità campionaria e di una distribuzione approssimativamente normale dei dati. In ogni caso, la procedura che sta alla base delle scale Likert consiste nella somma dei punti attribuiti ad ogni singola domanda. I vantaggi della scala Likert sono la sua semplicità e applicabilità, mentre i suoi svantaggi sono il fatto che i suoi elementi vengono trattati come scale cardinali pur essendo ordinali e il fatto che il punteggio finale non rappresenta una variabile cardinale.

**Item a codifica inversa.** In parole più semplici, ci sono alcune domande in un test che sono strettamente correlate in modo negativo con le altre domande e con il punteggio totale del test. Queste domande richiedono una risposta diversa rispetto alle altre domande. Ad esempio, in un questionario sull'ansia, una domanda potrebbe chiedere "Sono preoccupata" e la scala di risposta potrebbe essere "Per nulla", "Un po'", "Abbastanza" e "Moltissimo" con valori 1, 2, 3 e 4 rispettivamente. Tuttavia, un'altra domanda potrebbe chiedere "Mi sento bene" e la scala di risposta potrebbe essere la stessa, ma con valori 4, 3, 2 e 1 rispettivamente. Questo perché le proprietà contrarie si trovano sullo stesso continuum latente. Questo è importante nella costruzione di un test psicologico, dove è consigliato utilizzare sia domande orientate nella direzione del costrutto (chiamate "straight item") sia nella direzione opposta (chiamate "reverse item") per contrastare l'acquiescenza e ottenere risposte più accurate.

### Sviluppare una struttura del test

Lo sviluppo di una struttura per un test psicologico o educativo richiede passaggi ben definiti prima di procedere alla creazione dei singoli item della scala. Prima di tutto, è essenziale stabilire un'organizzazione strutturale del test, delineando gli obiettivi specifici che si intendono raggiungere attraverso la sua somministrazione. Questo passaggio comporta la definizione dei sottodomini o delle dimensioni che si vogliono misurare e di come questi contribuiranno alla valutazione complessiva del costrutto.

Una questione fondamentale da risolvere è se il test produrrà un unico punteggio, come somma di tutte le risposte agli item, o se sarà necessario suddividerlo in sottoscale. La struttura del test è spesso determinata dai costrutti che si intendono misurare, quindi le definizioni precedentemente scritte sono di grande importanza in questa fase decisionale. Se il test include sottoscale o sotto-test, è importante considerare anche se ci saranno punteggi compositi che forniscono indici riassuntivi dei raggruppamenti dei sotto-test.

Nella fase di sviluppo del test, è cruciale spiegare come gli item e le sottoscale (se presenti) saranno organizzati. Se la logica alla base del test e la discussione sui costrutti sottostanti non rendono evidente la specifica organizzazione degli item e dei sotto-test, è importante affrontare il motivo per cui questa particolare organizzazione è la più appropriata. Naturalmente, è da tenere in considerazione che la ricerca condotta durante il processo di sviluppo del test potrebbe portare a modifiche della struttura intesa, in base ai dati effettivamente raccolti.

**Esempio:** Nello studio di Watson et al. (2007), per garantire un campionamento esaustivo dell'intero ambito del costrutto, sono stati definiti 20 *homogeneous item composites* (HIC), che includono: Umore Depresso, Perdita di Interesse o Piacere, Disturbi dell'Appetito, Disturbi del Sonno, Problemi Psicomotori, Fatica/Anergia, Sentimenti di Inutilità o Colpa, Problemi Cognitivi, Ideazione Suicidaria, Senso di Speranza, Depressione Melanconica, Umore Arrabbiato/Irritabile, Alta Energia/Affetto Positivo, Umore Ansioso, Preoccupazione, Panico, Agorafobia, Ansia Sociale, Intrusioni Traumatiche, Sintomi Ossessivo-Compulsivi.

Di questi, 13 HIC (comprendenti in totale 117 item) sono stati dedicati agli indicatori specifici della depressione. Nove di questi HIC (79 item in totale) coprono i sintomi fondamentali della depressione maggiore secondo il DSM-IV, tra cui umore depresso, perdita di interesse o piacere, disturbi dell'appetito, del sonno, problemi psicomotori, fatica/anergia, senso di inutilità e colpa, problemi cognitivi e ideazione suicidaria. I restanti quattro HIC trattano temi quali la disperazione (Hopelessness, secondo Abramson, Metalsky, & Alloy, 1989), sintomi specifici della depressione melanconica (Joiner et al., 2005), umore arrabbiato/irritabile (una forma alternativa di depressione negli adolescenti secondo il DSM-IV, American Psychiatric Association, 1994, p. 327), e indicatori di energia e affetto positivo (associati alla depressione secondo Mineka et al., 1998).

I rimanenti sette HIC (63 item totali) sono stati introdotti per valutare sintomi associati all'ansia. Questi HIC includono categorie come umore ansioso, preoccupazione, panico, agorafobia, ansia sociale e intrusioni traumatiche associate al PTSD. Questa approfondita categorizzazione mira a una valutazione comprensiva e differenziata dei sintomi legati sia alla depressione sia all'ansia, fornendo così una visione più completa del panorama psicopatologico.

### Tabella delle Specifiche

La creazione di un test psicologico o educativo implica lo sviluppo di una Tabella delle Specifiche (TOS), che funge da "schema" per assicurare l'allineamento tra le definizioni dei costrutti, le definizioni operative e il contenuto del test stesso. La TOS è particolarmente utile nelle misure di rendimento, dove serve a garantire che il test sia in congruenza con un determinato curriculum o campo di studio. Questo strumento definisce in modo chiaro le aree di contenuto principali che il test intende esplorare, selezionate attraverso un'analisi accurata degli obiettivi educativi. Questo processo è fondamentale per assicurare che il contenuto del test sia direttamente collegato agli obiettivi di apprendimento e di valutazione, rendendo il test pertinente e focalizzato sui temi chiave.

È importante che gli autori di test evitino di affidarsi eccessivamente a processi cognitivi di livello inferiore, come la memorizzazione meccanica, e che includano anche processi di livello superiore per garantire una valutazione equilibrata e completa delle capacità cognitive. Inoltre, la distribuzione degli item tra le varie aree di contenuto dovrebbe essere bilanciata per riflettere adeguatamente l'importanza di ciascuna area nel quadro complessivo del curriculum o dell'area di studio.

Le TOS non sono utili solo per test di rendimento e attitudine, ma anche per quelli di personalità e comportamento. Ad esempio, nello sviluppo di un test sulla depressione, la TOS può aiutare a garantire che il test esamini accuratamente il vasto dominio dei sintomi depressivi, coprendo le diverse sfaccettature della depressione in proporzioni adeguate. La TOS può elencare le diverse aree o aspetti dei sintomi depressivi da valutare, includendo sia comportamenti osservabili sia pensieri e sentimenti interni, rilevanti per la diagnosi. In questo modo, la TOS funge da guida nella redazione degli item, assicurando che tutte le dimensioni rilevanti della depressione siano adeguatamente rappresentate nel test.

### Pool Iniziale degli Item

Creare il pool iniziale di item. A questo punto, si procede a sviluppare una vasta gamma di item che coprano i diversi aspetti del costrutto di interesse. Questo pool iniziale di item dovrebbe essere variegato e ben bilanciato, rappresentando in modo adeguato la complessità del costrutto e i diversi livelli di abilità o atteggiamenti che si vogliono misurare. È importante anche scrivere le risposte corrette secondo ciò che si intende misurare e la direzione del punteggio del test.

### Revisione

Condurre la revisione iniziale degli item (e apportare modifiche). Gli item raccolti nel pool iniziale vengono sottoposti a un esame attento da parte di esperti nel campo. Si valuta la pertinenza, la chiarezza, la coerenza e la validità dei singoli item. Sulla base dei feedback ricevuti dagli esperti, possono essere apportate modifiche o eliminati item problematici.

### Validazione

Nella fase di validazione di un test, l'implementazione di un ampio trial empirico degli item è un passaggio metodologico fondamentale. Tale processo prevede la somministrazione degli item a un campione rappresentativo della popolazione di riferimento. L'obiettivo è di valutare la discriminazione item-partecipante e di identificare eventuali anomalie o limitazioni strutturali della scala. 

La definizione del campione target, ovvero la popolazione di riferimento per la quale il test è stato progettato, costituisce il primo passo nella pianificazione del campionamento. La selezione del campione di standardizzazione è cruciale in quanto determina il gruppo di riferimento per il confronto dei punteggi nei test normativi, oltre a stabilire le norme o i punteggi normativi del test. Questo è rilevante sia nei test normativi sia nei test basati su criteri, dove la performance delle popolazioni target è fondamentale nella definizione dei punteggi di taglio e nelle decisioni correlate alle prestazioni.

Una volta identificata la popolazione target, si procede alla formulazione di un piano di campionamento. Idealmente, si ricercano campioni casuali veri della popolazione target, tuttavia, tale approccio è spesso impraticabile data l'impossibilità di conoscere e coinvolgere tutti i membri della popolazione. È quindi essenziale garantire la rappresentatività del campione attraverso un piano di campionamento stratificato proporzionale. Questo implica la definizione delle caratteristiche salienti (strati) della popolazione e la determinazione delle percentuali necessarie di soggetti con tali caratteristiche per assicurare la rappresentatività del campione.

In conclusione, il processo di campionamento deve essere accuratamente progettato per assicurare che il campione sia rappresentativo della popolazione target, superando le limitazioni pratiche e metodologiche incontrate nella selezione del campione stesso.

**Numero di soggetti.** In ambito psicometrico non c'è un accordo univoco sulla dimensione del campione necessaria per condurre un'analisi fattoriale. Tuttavia, gli autori hanno fornito alcune indicazioni che possono essere utili come riferimento. Nunnally (1978) ha suggerito che il campione debba essere composto da almeno 10 soggetti per ogni item. Comrey e Lee (1992) hanno fornito una scala che valuta la qualità del campione in base alla dimensione: "molto scarsa" per 50, "scarso" per 100, "sufficiente" per 200, "buona" per 300, "molto buona" per 500 e "eccellente" per 1.000 o più. Altri autori hanno suggerito come regola generale di avere almeno 300 casi per l'analisi fattoriale (Tabachnick e Fidell, 2001). In ogni caso, è importante tenere presente che la scelta della dimensione del campione dipende anche dalla complessità del costrutto che si intende analizzare e dalla qualità degli item utilizzati nel test.

### Analisi degli item

I dati raccolti dal test di campo vengono analizzati utilizzando metodi statistici adeguati. Questo processo mira a identificare item che non funzionano correttamente, che mostrano una bassa discriminazione o che potrebbero causare distorsioni nelle risposte. Gli item che superano questa fase sono considerati per la versione finale della scala.

### Revisione degli item

Sulla base dei risultati dell'analisi, gli item della scala possono essere rivisti o sostituiti, al fine di migliorarne l'accuratezza, la coerenza e l'affidabilità. 

**Numero di item.** La lunghezza del test dovrebbe essere adatta al suo scopo. Ad esempio, un test per valutare le abilità degli studenti delle scuole primarie non dovrebbe richiedere più di 30 minuti per essere completato, perché l'affaticamento e la noia possono influire sui risultati. Lo stesso vale per un test di personalità per adulti. In generale, un test dovrebbe essere il più breve possibile, ma deve raggiungere un livello accettabile di validità. Come regola generale, Kline (1986) suggerisce di avere almeno 50 domande nella versione finale del test.

### Calcolo dell'Affidabilità

La consistenza interna della scala viene valutata tramite il calcolo dell'affidabilità, ad esempio utilizzando il coefficiente alpha di Cronbach. Questo passaggio assicura che gli item scelti per la scala si correlino tra loro in modo coerente, riflettendo così la coerenza delle misure.

### Seconda Somministrazione

Una volta apportate le revisioni agli item, viene eseguita una seconda somministrazione per confermare l'efficacia delle modifiche e per valutare l'affidabilità della versione rivista della scala su un nuovo campione.

### Ripetere i Passaggi Precedenti

Se durante la seconda somministrazione emergono ancora problemi o se l'affidabilità della scala non raggiunge i livelli desiderati, è necessario ripetere i passaggi precedenti fino a raggiungere una versione della scala che soddisfi gli standard di qualità e affidabilità.

### Studi di validazione

Per garantire la validità di una scala, è fondamentale condurre studi di validazione che dimostrino la capacità della scala di misurare con precisione il costrutto di interesse. Questi studi possono includere l'analisi delle relazioni tra i punteggi della scala e altre misure correlate, nonché il confronto tra gruppi con differenze note nel costrutto. 

Come per gli studi di affidabilità, è cruciale pianificare in anticipo gli studi di validità, assicurandosi che siano concettualizzati e progettati in modo da consentire la valutazione dell'adeguatezza delle interpretazioni proposte dei punteggi del test una volta completato. In linea con quanto discusso nel Capitolo 5, ciascuna delle cinque categorie fondamentali di evidenza di validità deve essere affrontata, pur variando l'enfasi e il livello di dettaglio a seconda dei costrutti valutati, delle interpretazioni proposte dei punteggi e degli scopi per i quali i punteggi saranno applicati.

Ad esempio, nei test di intelligenza progettati per predire il successo accademico, dovrebbero essere sottolineati e resi prioritari gli studi predittivi basati su criteri specifici che rappresentino il successo accademico, quali il tasso di laurea o i punteggi ACT. In maniera simile, i test destinati alla selezione del personale richiedono studi accurati sulla capacità predittiva dei punteggi in relazione al successo lavorativo, il quale dovrebbe essere definito in anticipo dall'ente o dall'individuo che utilizza il test. È importante riconoscere che la definizione di successo lavorativo può variare ampiamente; pertanto, è necessario chiarire e specificare le definizioni dei criteri utilizzati.

Per una misura della psicopatologia dello sviluppo, ad esempio quella finalizzata a perfezionare l'accuratezza diagnostica nei Disturbi dello Spettro Autistico (ASD), l'accento dovrebbe essere posto sulla capacità dei punteggi del test di discriminare tra gruppi di soggetti diagnosticati (indipendentemente dal test) con ciascuno dei disturbi rilevanti. Gli studi di validità frequentemente si concentrano soltanto sulla distinzione tra gruppi diagnosticati e soggetti non diagnosticati o normodotati; tuttavia, questo approccio di ricerca risulta spesso di limitata utilità, in quanto la maggior parte dei test è in grado di differenziare tra normalità e patologia grazie ad un'alta affidabilità dei punteggi e a campioni di ampia dimensione. La sfida effettiva consiste nel distinguere tra le diverse diagnosi all'interno di un campione specifico, come ad esempio differenziare bambini con ASD da quelli con ADHD o depressione.

In definitiva, è fondamentale che gli studi di validità si concentrino sulle interpretazioni proposte dei punteggi e sulle loro applicazioni intenzionali. Non esistono limiti a ciò che può essere progettato come studi di validità; sono limitati solo dalla creatività del ricercatore e dalla loro conoscenza del costrutto e delle teorie pertinenti che incarnano il costrutto misurato.

### Linee Guida

Nel processo di sviluppo di un test, la fase finale si concentra sull'elaborazione di linee guida dettagliate, fondamentali per garantire una somministrazione appropriata e un'accurata valutazione dei punteggi. Questo passaggio si rivela cruciale per assicurare che il test sia utilizzato nel modo previsto e che i risultati siano interpretati correttamente. 

Le istruzioni per partecipare allo studio devono essere chiare e concise, fornendo un'idea generale degli obiettivi della ricerca e dei trattamenti previsti. I partecipanti devono essere informati dei benefici prevedibili e dei rischi, e della libertà di scegliere di non partecipare. Inoltre, la privacy dei partecipanti è protetta dalla legge sulla protezione dei dati personali e i loro dati verranno raccolti e conservati in forma anonima, tranne che per il nominativo. I partecipanti possono esercitare i propri diritti di protezione dei dati personali e interrompere la partecipazione in qualsiasi momento. Alla fine dello studio, i partecipanti possono ricevere i risultati della ricerca e possono rivolgersi al Comitato Etico dell'Università degli Studi di Firenze per segnalare qualsiasi problema. Prima di partecipare, i partecipanti devono firmare una dichiarazione di consenso informato per accettare di partecipare alla ricerca e di autorizzare il trattamento dei loro dati personali.

## Considerazioni Finali

Questo capitolo ha offerto un quadro pratico, così come discuso da @reynolds2021mastering, riguardante le tappe cruciali e gli elementi fondamentali implicati nel processo di creazione di un test. Una particolare attenzione è stata rivolta alle fasi iniziali di concettualizzazione, vitali per la riuscita del progetto. Tali fasi includono l'identificazione della necessità di sviluppare un nuovo test e la formulazione di definizioni sia concettuali che operative dei costrutti da valutare.

Abbiamo anche messo in evidenza l'importanza di delineare anticipatamente gli scopi specifici per cui il test è stato progettato, le modalità di interpretazione dei risultati e il pubblico target che ne farà uso. Questo approccio preliminare aiuta a definire chiaramente il contesto e le aspettative relative all'uso del test.

Un altro aspetto trattato riguarda la stesura di una descrizione esauriente del test, che comprende la creazione di una tabella delle specifiche o di uno schema del test. Questo strumento si rivela essenziale per guidare sistematicamente lo sviluppatore attraverso le varie fasi di creazione del test, assicurando che tutti gli aspetti cruciali siano presi in considerazione.