(validity-notebook)=
# La validità del test

In [1]:
source("_common.R")

Oltre all'affidabilità, la seconda caratteristica fondamentale che uno strumento psicometrico deve possedere è la validità.

La definizione degli *The standards for educational and psychological testing* {cite:p}`AERA-APA-NCME2014` è la seguente:

> Validity refers to the degree to which evidence and theory support the interpretations of test scores for proposed uses of tests.

In altre parole, la validità riguarda sia il significato dei punteggi del test che il modo in cui li utilizziamo. Pertanto, la validità è giustamente "la considerazione più fondamentale nello sviluppo e nella valutazione dei test", come indicato negli Standard (p. 11).

Tradizionalmente, sono stati definiti tre tipi di validità: di contenuto, di criterio e di costrutto. Tuttavia, il concetto di validità è notevolmente evoluto nel corso degli ultimi decenni e la moderna teoria della validità non è più congruente con la visione tripartita.

Gli Standards affermano:

> Validity is a unitary concept. It is the degree to which all the accumulated evidence supports the intended interpretation of test scores for the proposed use. Like the 1999 Standards, this edition refers to types of validity evidence, rather than distinct types of validity. To emphasize this distinction, the treatment that follows does not follow historical nomenclature (i.e., the use of the terms content validity or predictive validity). (2014, p. 14)

Di conseguenza, la maggior parte delle concezioni moderne di validità enfatizzano un'integrazione di tutte le forme di evidenza utili a chiarire il significato(i) che possono essere attribuiti ai punteggi del test. Spetta all'utente del test valutare le prove disponibili per giudicare in che misura la sua interpretazione o utilizzo previsto sia appropriato.

## Ottenere evidenze per la validità

La validità è definita come "il grado in cui le evidenze e la teoria sostengono le interpretazioni dei punteggi del test per gli utilizzi proposti dei test" {cite:p}`AERA-APA-NCME2014`. Questa definizione implica che non è possibile ottenere prove a sostegno di tutte le possibili interpretazioni o utilizzi di un test. I test sono interpretati e utilizzati in molti modi, alcuni dei quali sono giustificabili e altri no. Il primo passo nella validazione del test, quindi, è specificare le interpretazioni e gli utilizzi intesi dei punteggi del test.

È possibile descrivere i cinque tipi di prove di validità delineati negli Standard (2014): (1) prove basate sul contenuto del test, (2) prove basate sui processi di risposta, (3) prove basate sulla struttura interna, (4) prove basate sulle relazioni con altre variabili e (5) prove basate sulle conseguenze del test.

### Evidenza basata sul contenuto del test

L'evidenza basata sul contenuto, secondo quanto definito negli {cite:t}`AERA-APA-NCME2014`, riguarda la misura in cui il contenuto incluso in un test offre una rappresentazione adeguata del dominio da misurare. È importante tenere presente che, nella maggior parte delle situazioni di testing, se non in tutte, non è possibile includere ogni singolo elemento del dominio del costrutto.

Ciò significa che il test potrebbe non coprire in modo completo tutti gli aspetti del costrutto da misurare. Questa limitazione potrebbe minacciare la validità del test poiché alcune aree del dominio potrebbero non essere adeguatamente rappresentate nel test, causando una sottorappresentazione del costrutto.

Inoltre, è possibile che il test includa varianza non rilevante al costrutto, ovvero aspetti o elementi che non sono strettamente correlati al costrutto di interesse. Questa varianza non rilevante può introdurre rumore nei risultati del test e compromettere la validità delle misure.

Per affrontare queste minacce alla validità basata sul contenuto, è fondamentale pianificare attentamente il test e selezionare con precisione i contenuti inclusi, garantendo una rappresentazione equilibrata e appropriata del dominio del costrutto da misurare. Inoltre, è necessario condurre analisi approfondite per valutare la relazione tra il contenuto del test e il costrutto in esame, al fine di fornire prove solide per la validità del test e delle interpretazioni dei suoi punteggi.

### Evidenza basata sui processi di risposta

L'evidenza basata sui processi di risposta si riferisce alla valutazione del grado in cui le interpretazioni delle risposte degli individui presuppongono l'utilizzo di specifici processi cognitivi per produrre le risposte. Ad esempio, le teorie cognitive delle risposte a domande non cognitive assumono che i partecipanti abbiano letto e compreso la domanda, cercato nella memoria le informazioni rilevanti, integrato tali informazioni in una risposta e correttamente associato questa risposta alle opzioni di risposta fornite. Tuttavia, cosa succede se il partecipante ha semplicemente scelto l'opzione di risposta centrale senza nemmeno leggere la domanda, o ha dato una risposta in modo superficiale? In tali casi, è necessario nutrire dubbi sulla misura in cui la domanda ha effettivamente valutato il costrutto desiderato.

In sostanza, questo tipo di evidenza di validità si concentra sull'analisi dei processi cognitivi che gli individui utilizzano per rispondere alle domande del test. Ciò implica che, per ottenere una valutazione accurata della validità di un test, è essenziale considerare come i partecipanti interagiscono con le domande e quali processi cognitivi utilizzano per produrre le risposte. Se i partecipanti non utilizzano i processi previsti per rispondere alle domande, ciò potrebbe sollevare dubbi sulla validità delle misure ottenute e sulla capacità del test di misurare il costrutto di interesse in modo attendibile. Pertanto, l'analisi dei processi di risposta è fondamentale per comprendere meglio le interpretazioni delle risposte degli individui e per garantire la validità delle misure ottenute attraverso il test.

### Evidenza basata sulla struttura interna

L'evidenza basata sulla struttura interna si riferisce alla valutazione del grado di coerenza degli elementi di un test con le aspettative dimensionalità previste. Alcuni test sono progettati per misurare una singola dimensione o un aspetto specifico, come ad esempio l'estroversione o l'apertura mentale. Altri test, invece, mirano a misurare costrutti più ampi e multidimensionali, come la personalità generale. Determinare il grado in cui gli elementi del test si allineano alle nostre aspettative di dimensionalità è quindi un'importante evidenza di validità. Tale valutazione è fondamentale per stabilire quanto siamo giustificati nell'interpretare i punteggi del test come rappresentativi delle dimensioni ipotizzate.

In altre parole, l'evidenza basata sulla struttura interna ci permette di valutare se gli elementi del test si comportano in modo congruente con la struttura multidimensionale prevista. Ad esempio, in un test di personalità generale, ci aspetteremmo che gli elementi relativi a diverse dimensioni della personalità siano correlati tra loro, poiché tutte contribuiscono alla misura complessiva della personalità. Se gli elementi del test non mostrano questa coerenza con la struttura multidimensionale, ciò potrebbe sollevare dubbi sulla validità delle interpretazioni dei punteggi ottenuti.

Pertanto, l'evidenza basata sulla struttura interna è essenziale per valutare la validità del test e garantire che i punteggi riflettano in modo affidabile le dimensioni o i costrutti ipotizzati. Questa valutazione ci permette di stabilire fino a che punto il test possa essere utilizzato come misura delle dimensioni o dei costrutti desiderati, fornendo una base solida per l'interpretazione dei risultati del test.

### Evidenza basata sulle conseguenze del test

L'evidenza basata sulle conseguenze del testing è un aspetto fondamentale nella valutazione della validità di un test psicometrico, secondo la prospettiva degli Standards {cite:p}`AERA-APA-NCME2014`. Questo tipo di evidenza si focalizza sugli effetti che il test ha sulle persone sottoposte al test, oltre agli esiti diretti delle misurazioni.

Esistono due tipi principali di conseguenze del testing: le Conseguenze Intenzionali del Testing e le Conseguenze Non Intenzionali del Testing. Le Conseguenze Intenzionali del Testing si riferiscono agli effetti voluti o previsti che il test dovrebbe generare. Queste conseguenze sono strettamente legate agli scopi e agli utilizzi del test. Ad esempio, se un test è utilizzato per la selezione di candidati per un programma o una posizione specifica, l'obiettivo intenzionale è identificare le persone più idonee per quel ruolo. D'altra parte, le Conseguenze Non Intenzionali del Testing si riferiscono agli effetti imprevisti o non voluti che il test può avere sulle persone o sugli ambienti in cui viene impiegato. Queste conseguenze possono manifestarsi quando il test produce effetti indesiderati o negativi, come ad esempio discriminazioni ingiuste o influenze distorte sui partecipanti. È essenziale esaminare attentamente queste possibili conseguenze per garantire che il test non causi effetti dannosi o non desiderati sulle persone coinvolte.

Per valutare la validità del test attraverso l'evidenza basata sulle conseguenze del testing, è necessario condurre ricerche e analisi approfondite sugli effetti del test sull'individuo e sul contesto in cui viene utilizzato. Questa valutazione aiuta a garantire che il test sia appropriato e non causi conseguenze negative, ma sia invece utile e giustificato per gli scopi previsti.

In sintesi, l'evidenza basata sulle conseguenze del testing è un aspetto importante da considerare nella valutazione della validità di un test psicometrico. Essa ci permette di esaminare gli effetti voluti e non voluti del test e di garantire che esso sia utilizzato in modo etico e appropriato, fornendo misurazioni accurate e significative per gli scopi previsti.

### Evidenza basata sulle relazioni con altre variabili

Le prove di validità basate sulle relazioni con altre variabili si riferiscono alla teoria che spiega la correlazione tra i punteggi del test e altre variabili. Queste prove includono le correlazioni dei punteggi del test con le variabili ipotizzate, la previsione dei risultati, le differenze tra gruppi considerati diversi per il costrutto misurato, e studi progettati per rivelare l'entità di eventuali contaminazioni derivanti dagli effetti del metodo. Questo aspetto verrà approfondito nel capitolo successivo.

## Considerazioni conclusive

Gli Standards {cite:p}`AERA-APA-NCME2014` propongono cinque tipi di prove di validità: basate sul contenuto del test, sui processi di risposta, sulla struttura interna, sulle relazioni con altre variabili e sulle conseguenze del testing.

Le prove basate sul contenuto del test verificano se gli elementi del test sono appropriati per misurare il costrutto sia in termini di contenuto che di livello cognitivo. Le prove basate sui processi di risposta analizzano se i partecipanti utilizzano i processi cognitivi previsti per rispondere agli elementi. Le prove basate sulla struttura interna esaminano la coerenza tra gli elementi e/o le sottoscale del test e le aspettative teoriche. Le prove basate sulle relazioni con altre variabili valutano come e perché i punteggi del test dovrebbero correlare con altre variabili. Infine, le prove delle conseguenze del testing si concentrano sugli effetti positivi e negativi del test, consentendo di prendere decisioni informate sugli utilizzi appropriati del test.

È importante considerare sia le possibili conseguenze positive che negative del testing, in modo da valutare attentamente le implicazioni delle decisioni prese. Le prove di conseguenze possono anche rilevare se i benefici previsti del testing si realizzano effettivamente. Se si riscontrano conseguenze non intenzionali, è fondamentale capire se queste derivano da fonti di invalidità del test, in modo da apportare eventuali modifiche per migliorarne la validità. Altrimenti, queste conseguenze potrebbero influenzare le interpretazioni possibili o le modalità di utilizzo del test.



<!-- [^2]: Vedremo in seguito -->
<!--     (§ [\[ch:err_stnd_stima\]](#ch:err_stnd_stima){reference-type="ref" -->
<!--     reference="ch:err_stnd_stima"}) come il livello di abilità latente -->
<!--     (il punteggio vero) possa essere stimato con la formula di Kelley -->
<!--     (1923), ovvero $$\begin{aligned} -->
<!--     \hat{T}_i &= \rho_{XT} x_i + (1 - \rho_{XT})\mu_x\notag\\ -->
<!--     &= \mu_x + \rho_{XT} (x_i - \mu_x),\notag\end{aligned}$$ dove -->
<!--     $\mu_x$ è la media dei punteggio osservato e $\hat{T}_i$ è la stima -->
<!--     del punteggio vero per l'$i$-esimo rispondente. -->

<!-- [^3]:  -->