# La validità del test {#sec-validity}

Oltre all'affidabilità, la validità rappresenta la seconda caratteristica essenziale che uno strumento psicometrico deve avere. La validità è una proprietà psicometrica fondamentale dei test psicologici. La definizione degli *The standards for educational and psychological testing* {cite:p}`AERA-APA-NCME2014` è la seguente:

> Validity refers to the degree to which evidence and theory support the interpretations of test scores for proposed uses of tests.

In altre parole, la validità riguarda sia il significato dei punteggi del test che il modo in cui li utilizziamo. Pertanto, la validità è giustamente "la considerazione più fondamentale nello sviluppo e nella valutazione dei test", come indicato negli Standard (p. 11).

Tradizionalmente, sono stati definiti tre tipi di validità: di contenuto, di criterio e di costrutto. Tuttavia, il concetto di validità è notevolmente evoluto nel corso degli ultimi decenni e la moderna teoria della validità non è più congruente con la visione tripartita.

Gli Standards affermano:

> Validity is a unitary concept. It is the degree to which all the accumulated evidence supports the intended interpretation of test scores for the proposed use. Like the 1999 Standards, this edition refers to types of validity evidence, rather than distinct types of validity. To emphasize this distinction, the treatment that follows does not follow historical nomenclature (i.e., the use of the terms content validity or predictive validity). (2014, p. 14)

Di conseguenza, la maggior parte delle concezioni moderne di validità enfatizzano un'integrazione di tutte le forme di evidenza utili a chiarire il significato(i) che possono essere attribuiti ai punteggi del test. Spetta all'utente del test valutare le prove disponibili per giudicare in che misura la sua interpretazione o utilizzo previsto sia appropriato.

Nel campo della psicometria, c'è un consenso sul fatto che i concetti più datati di validità, intesi come riferiti a un test, siano stati abbandonati a favore di un approccio che enfatizza che la validità si riferisce all'adeguatezza o accuratezza delle interpretazioni dei punteggi del test. In altre parole, non è tecnicamente corretto riferirsi alla validità di un test. La validità è una caratteristica delle interpretazioni date ai punteggi di un test. Di conseguenza, non è tecnicamente corretto chiedere "Il Wechsler Intelligence Scale for Children—Quinta Edizione (WISC-V) è un test valido?". È preferibile chiedere "L'interpretazione delle prestazioni sul WISC-V come riflesso dell'intelligenza è valida?". La validità deve sempre avere un contesto, e quel contesto è l'interpretazione. Cosa significa la prestazione su questo test? La risposta a questa domanda è l'interpretazione data alla prestazione, ed è questa interpretazione a possedere il costrutto di validità, non il test stesso.

## Minacce alla Validità

 La validità di un test può essere compromessa quando non misura integralmente o accuratamente il costrutto di interesse, o quando valuta elementi estranei a tale costrutto. Anche test con alta affidabilità possono cadere in queste insidie, portando a interpretazioni errate dei risultati. Ci concentreremo sui tipi di validità e le relative evidenze, esaminando come integrare diverse fonti di prova per costruire un solido argomento di validità per il test.

**Sotto-Rappresentazione del Costrutto:**
Questa si verifica quando un test non misura aspetti importanti del costrutto specificato. Ad esempio, un test di matematica di terza elementare che valuta solo la divisione non rappresenta adeguatamente l'intero spettro di competenze matematiche richieste a quel livello. Per risolvere questo problema, il contenuto del test dovrebbe essere ampliato per riflettere tutte le abilità insegnate nel curriculum di matematica di terza elementare.

**Varianza Estranea al Costrutto:**
Si presenta quando il test misura caratteristiche, contenuti o competenze non collegati al costrutto del test. Un esempio potrebbe essere un test di matematica che richiede elevate competenze di comprensione del testo, misurando così anche la capacità di lettura invece che solo la matematica. Per affrontare questo problema, il design del test dovrebbe minimizzare le istruzioni scritte e assicurarsi che il livello di lettura sia adeguato.

**Altri Fattori Che Influenzano la Validità:**
Oltre alle caratteristiche del test stesso, fattori esterni possono influenzare la validità delle interpretazioni dei risultati. Questi includono:

1. **Caratteristiche dell'Esaminando:**
   - Fattori personali, come l'ansia o la bassa motivazione, possono compromettere la validità.

2. **Procedura di Amministrazione e Valutazione:**
   - Deviazioni dalle procedure standard possono ridurre la validità. Anche le variazioni per accomodare esigenze speciali devono essere gestite con attenzione per mantenere la validità.

3. **Istruzione e Coaching:**
   - Istruzioni o coaching pre-test possono influenzare la validità, specialmente se gli esaminandi vengono addestrati specificamente a rispondere alle domande del test.

Inoltre, la validità delle interpretazioni norm-referenced è influenzata dall'adeguatezza del gruppo di riferimento. 

Le diverse minacce alla validità richiedono un'attenta valutazione e una gestione strategica per assicurare che le interpretazioni dei risultati del test siano affidabili e appropriate. 

## "Tipologie di Validità" rispetto a "Tipologie di Prove di Validità" nel Contesto dei Test Educativi e Psicologici

### Contestualizzazione Storica e Evoluzione Terminologica

I documenti guida nella creazione e nell'uso dei test educativi e psicologici, come gli Standard dell'AERA e altri (2014), hanno subito significative evoluzioni nel corso degli anni. Originariamente, la validità nei test era distinta in tre categorie principali: validità di contenuto, criteriale e di costrutto, come delineato da Messick (1989).

1. **Validità di Contenuto**: Questa misura la pertinenza e la rappresentatività del contenuto del test rispetto al dominio del costrutto. Essa si basa su giudizi professionali riguardo l'adeguatezza dei contenuti del test.

2. **Validità Criteriale**: Implica l'esame delle relazioni tra i punteggi del test e variabili esterne direttamente legate al costrutto, utilizzando metodi come l'analisi di correlazione o di regressione.

3. **Validità di Costrutto**: Si concentra sull'integrazione di diverse evidenze relative al significato e all'interpretazione dei punteggi del test.

Questi tipi di validità, inizialmente ampiamente accettati, hanno successivamente ceduto il passo a un approccio unitario alla validità. Questa visione olistica considera la validità non come categorie distinte, ma come modi differenti di raccogliere prove a sostegno delle interpretazioni dei punteggi del test. Gli Standard del 1985 (APA et al., 1985) hanno introdotto il termine "tipi di prove di validità", sostituendo la precedente nomenclatura.

### Standard del 2014 e Categorie di Prove di Validità

Gli Standard più recenti {cite:p}`AERA-APA-NCME2014` hanno ulteriormente sviluppato questo concetto, definendo la validità come un grado in cui tutte le evidenze supportano l'interpretazione intesa dei punteggi del test per l'uso specificato. Le cinque categorie di prove di validità sono:

1. **Prove Basate sul Contenuto del Test**: Comprendono analisi del contenuto del test, tipologie di domande o compiti, e linee guida per somministrazione e correzione.

2. **Prove Basate sui Processi di Risposta**: Includono analisi dei processi cognitivi e comportamentali coinvolti nelle risposte agli item del test.

3. **Prove Basate sulla Struttura Interna**: Riguardano le relazioni tra elementi e componenti del test.

4. **Prove Basate sulle Relazioni con Altre Variabili**: Si concentrano sull'esame delle correlazioni tra le prestazioni nel test e variabili esterne.

5. **Prove Basate sulle Conseguenze del Test**: Considerano le implicazioni attese e non attese derivanti dall'uso del test.

La selezione e la valutazione delle prove pertinenti dipendono da fattori come il costrutto misurato, l'intento d'uso dei punteggi del test e la popolazione valutata.

### Rilevanza nella Pratica e nella Ricerca

Questa evoluzione terminologica non è solo un cambiamento superficiale, ma riflette un mutamento profondo nella comprensione della validità. È cruciale per i professionisti, gli sviluppatori e gli utenti di test aderire a queste linee guida, sia per ragioni legali che etiche. La letteratura più recente tende a utilizzare la nuova nomenclatura, ma è importante riconoscere e comprendere anche la terminologia storica, specialmente quando si esaminano manuali di test più datati e si valutano le proprietà psicometriche di un test. 

## Ottenere evidenze per la validità

La validità è definita da {cite:p}`AERA-APA-NCME2014` come "il grado in cui le evidenze e la teoria sostengono le interpretazioni dei punteggi del test per gli utilizzi proposti dei test". Questa definizione implica che non è possibile ottenere prove a sostegno di tutte le possibili interpretazioni o utilizzi di un test. I test sono interpretati e utilizzati in molti modi, alcuni dei quali sono giustificabili e altri no. Il primo passo nella validazione del test, quindi, è specificare le interpretazioni e gli utilizzi intesi dei punteggi del test.

Consideriamo dunque nel dettaglio i cinque tipi di prove di validità delineati negli Standard (2014): (1) prove basate sul contenuto del test, (2) prove basate sui processi di risposta, (3) prove basate sulla struttura interna, (4) prove basate sulle relazioni con altre variabili e (5) prove basate sulle conseguenze del test.

### Evidenza di Validità Basata sul Contenuto del Test

Secondo quanto definito negli {cite:t}`AERA-APA-NCME2014`, l'evidenza di validità basata sul contenuto si riferisce alla misura in cui il contenuto di un test rappresenta adeguatamente il dominio che intende misurare. È importante riconoscere che spesso, nei contesti di test, non è possibile includere ogni elemento del dominio del costrutto. Questo può portare a una sotto-rappresentazione del costrutto o a una varianza non pertinente al costrutto, che minacciano la validità del test. Per mitigare queste minacce, i test devono essere attentamente pianificati per garantire che il loro contenuto rifletta equilibratamente e appropriatamente il dominio del costrutto.

Gli standard {cite:p}`AERA-APA-NCME2014` enfatizzano l'importanza di esaminare la relazione tra il contenuto del test e il costrutto o dominio che il test è progettato per misurare. La validità basata sul contenuto si concentra su quanto bene gli elementi del test campionano i comportamenti o la materia di studio che il test è destinato a misurare. Questo tipo di evidenza di validità era in passato comunemente raggruppato sotto l'etichetta di "validità del contenuto".

Nelle fasi iniziali dello sviluppo di un test, è essenziale definire chiaramente il costrutto o il dominio del contenuto da misurare. Successivamente, si sviluppa una tabella delle specifiche che funge da guida per lo sviluppo del test, delineando gli argomenti e gli obiettivi da coprire e la loro importanza relativa.

Durante la fase di revisione del test, esperti del settore valutano sistematicamente il test per giudicare la corrispondenza tra il contenuto del test e il suo costrutto o dominio. Questi esperti affrontano due questioni principali: la rilevanza degli elementi e la copertura del contenuto. La rilevanza degli elementi si riferisce alla valutazione di ciascun elemento del test per determinare se rifletta contenuti essenziali nel dominio specificato. La copertura del contenuto valuta se gli elementi del test nel loro insieme coprono adeguatamente il dominio specificato.

L'evidenza di validità basata sul contenuto è tipicamente qualitativa, ma può essere riportata in modo più quantitativo, come il numero e le qualifiche degli esperti coinvolti, il numero di revisioni effettuate e il loro grado di accordo su questioni relative al contenuto.

Questo tipo di evidenza di validità è particolarmente importante per i test di rendimento accademico e per i test utilizzati nella selezione e classificazione dei dipendenti, in quanto sono progettati per fornire un campione rappresentativo della conoscenza, del comportamento o delle abilità misurate.

#### Validità di Faccia

Va inoltre distinta la validità di faccia dalla validità basata sul contenuto. La validità di faccia si riferisce all'apparenza di un test e alla sua capacità di sembrare valido per persone non esperte, ma non riguarda ciò che il test misura effettivamente. Un test può sembrare valido, ma non essere tale alla luce di un'analisi tecnica approfondita del suo contenuto. Tuttavia, un buon grado di validità di faccia può aumentare la cooperazione degli esaminandi e la percezione pubblica dei risultati come significativi. In alcuni contesti, come quelli forensi, la validità di faccia può essere indesiderabile, ad esempio per evitare che gli esaminandi simulino risposte patologiche.

### Evidenza basata sui processi di risposta

L'evidenza di validità basata sui processi di risposta riguarda l'analisi di come le risposte fornite dagli esaminandi corrispondano al costrutto che il test intende valutare. Questo tipo di evidenza di validità esamina se gli esaminandi utilizzino effettivamente i processi cognitivi previsti per rispondere alle domande del test. Ad esempio, in un test che misura la capacità di ragionamento matematico, è importante verificare che gli esaminandi stiano effettivamente applicando analisi e ragionamento piuttosto che ricorrendo a algoritmi matematici meccanici. 

Questo tipo di evidenza è raccolta attraverso varie metodologie, come intervistare gli esaminandi sui loro processi di risposta e strategie, registrare indicatori comportamentali come tempi di risposta e movimenti oculari o analizzare i tipi di errori commessi. Se gli esaminandi non impiegano i processi cognitivi attesi, possono emergere dubbi sulla validità delle misurazioni ottenute e sulla capacità del test di valutare in modo attendibile il costrutto di interesse.

Inoltre, le indagini sui processi di risposta non si limitano solo agli individui che prendono il test, ma possono anche includere i professionisti dell'assessment che amministrano o valutano i test. È fondamentale che le loro azioni o processi siano in linea con il costrutto misurato. Molti test forniscono criteri specifici o rubriche intesi a guidare il processo di valutazione. Per esempio, il Wechsler Individual Achievement Test—Terza Edizione (WIAT-III) include un compito che richiede all'esaminando di scrivere un breve saggio. Per facilitare la valutazione, gli autori includono una rubrica di valutazione analitica che copre diverse categorie valutative, come l'uso di più paragrafi, un'introduzione (compresa una tesi e un riassunto), transizioni che mostrano le relazioni tra le idee, ragioni che supportano la tesi, elaborazioni che supportano ogni ragione e una conclusione che include una tesi e un riassunto delle ragioni presentate. Queste rubriche aiutano a garantire la coerenza della valutazione da parte di coloro che valutano i saggi e aiutano a evitare di attribuire credito a fattori irrilevanti che non indicano la capacità dell'esaminando di scrivere buoni saggi.

In sintesi, l'evidenza di validità basata sui processi di risposta è un aspetto cruciale per garantire che il test misuri effettivamente il costrutto previsto e che le risposte degli esaminandi riflettano i processi cognitivi appropriati. Questo approccio, sebbene non abbia ricevuto tanta attenzione quanto altre forme di evidenza di validità, ha un notevole potenziale e viene classificato tradizionalmente sotto la validità di costrutto.


### Evidenza basata sulla struttura interna

L'evidenza basata sulla struttura interna di un test si focalizza sulla coerenza degli elementi del test con le dimensioni teoriche previste. Questo tipo di valutazione è cruciale per determinare se i punteggi di un test rappresentino accuratamente le dimensioni o i costrutti che si prevede di misurare. 

Alcuni test sono progettati per valutare una singola dimensione o un aspetto specifico, come l'estroversione o l'apertura mentale, mentre altri mirano a misurare costrutti più ampi e multidimensionali, come la personalità generale. L'analisi della struttura interna di un test permette di verificare se le relazioni tra gli elementi del test (o, nel caso di batterie di test, tra i test componenti) sono coerenti con il costrutto che il test è progettato per misurare.

Ad esempio, in un test di personalità generale, ci si aspetta che gli elementi relativi a diverse dimensioni della personalità siano correlati tra loro, contribuendo alla misurazione complessiva della personalità. Se gli elementi di un test non mostrano questa coerenza con la struttura multidimensionale ipotizzata, ciò può sollevare dubbi sulla validità delle interpretazioni dei punteggi ottenuti.

Uno strumento statistico spesso utilizzato per esaminare la struttura interna di un test è l'analisi fattoriale. Questa procedura sofisticata aiuta a determinare il numero di fattori o dimensioni concettualmente distinti che sottendono un test o una batteria di test. L'analisi fattoriale può quindi confermare se la struttura effettiva del test è coerente con la struttura ipotizzata del costrutto che misura.

In sintesi, l'evidenza basata sulla struttura interna è essenziale per valutare la validità di un test e assicurare che i suoi punteggi riflettano fedelmente le dimensioni o i costrutti teorizzati. Questa valutazione fornisce una base solida per l'interpretazione dei risultati del test, permettendo di stabilire in che misura il test possa essere utilizzato come misura affidabile delle dimensioni o dei costrutti desiderati.


### Evidenza di Validità Basata sulle Conseguenze del Testing

L'evidenza di validità basata sulle conseguenze del testing è un aspetto cruciale nella valutazione della validità di un test psicometrico, secondo la prospettiva degli Standards {cite:p}`AERA-APA-NCME2014`. Questo tipo di evidenza si concentra sugli effetti che l'uso del test ha sulle persone testate e sugli esiti diretti delle misurazioni. È importante considerare non solo le conseguenze intenzionali, ovvero gli effetti voluti o previsti che il test dovrebbe generare, ma anche le conseguenze non intenzionali, come effetti imprevisti o negativi che potrebbero manifestarsi.

#### Conseguenze Intenzionali e Non Intenzionali

Le conseguenze intenzionali del testing sono legate agli scopi e agli utilizzi del test. Ad esempio, se un test viene utilizzato per la selezione di candidati per un ruolo specifico, l'obiettivo è identificare le persone più idonee. Invece, le conseguenze non intenzionali si riferiscono a effetti imprevisti, come discriminazioni ingiuste o influenze distorte sui partecipanti, che possono emergere dall'uso del test. 

L'analisi approfondita di queste conseguenze aiuta a garantire che il test non causi effetti dannosi e sia utilizzato in modo etico e appropriato. Questa valutazione è fondamentale per assicurare che il test fornisca misurazioni accurate e significative per gli scopi previsti.

#### Consequentialità della Validità

La validità consequenziale si riferisce ai benefici specifici attesi dall'uso dei test. Ad esempio, l'uso di un test per l'assunzione di personale dovrebbe portare a migliori decisioni di assunzione, come minori costi di formazione e turnover. Questo tipo di validità pone la domanda: "Questi benefici vengono effettivamente raggiunti?" È particolarmente applicabile a test progettati per la selezione e la promozione.

#### Valutazione delle Conseguenze Sociali e Politiche

Alcuni autori hanno proposto un concetto di validità più ampio che incorpora questioni sociali e valori. Tuttavia, questa posizione è stata oggetto di critiche, poiché l'inclusione di questioni sociali e di valore potrebbe complicare il concetto di validità. Gli Standard AERA et al. (2014) sembrano evitare questa concezione più ampia della validità, distinguendo tra evidenze consequenziali direttamente legate al concetto di validità ed evidenze relative alla politica sociale.

#### Considerazione delle Alternative all'Uso dei Test

È anche importante considerare le conseguenze di non utilizzare i test. Anche se l'uso dei test può produrre alcuni effetti avversi, questi devono essere confrontati con gli effetti positivi e negativi delle alternative all'uso dei test psicologici. L'adozione di approcci più soggettivi al processo decisionale può aumentare la probabilità di pregiudizi culturali, etnici e di genere. 

In conclusione, l'evidenza di validità basata sulle conseguenze del testing è un aspetto essenziale da considerare nella valutazione complessiva della validità di un test psicometrico. È necessario esaminare gli effetti sia voluti che non voluti dei test e garantire che il loro utilizzo sia eticamente appropriato e non causi danni, contribuendo così all'utilizzo responsabile e informato dei test nella pratica professionale.

### Evidenza di Validità Basata sulle Relazioni con Altre Variabili

L'evidenza di validità basata sulle relazioni con altre variabili riguarda la correlazione tra i punteggi del test e altre variabili rilevanti. Questa forma di validità può includere le correlazioni dei punteggi del test con variabili teoricamente correlate, la capacità del test di predire risultati specifici, le differenze tra gruppi differenziati dal costrutto misurato e studi volti a identificare possibili contaminazioni dovute agli effetti del metodo.

#### Relazioni Test-Criterio

Molti test sono progettati per predire le prestazioni su una variabile definita come criterio. Il criterio può essere il rendimento accademico, la performance lavorativa o altri risultati importanti per l'utente del test. Questa tipologia di validità include studi predittivi, in cui si amministra il test, si attende un intervallo di tempo e poi si misura il criterio, e studi concorrenti, in cui il test e il criterio vengono misurati contemporaneamente.

Ad esempio, per validare il SAT come predittore del successo universitario, si potrebbe correlare il punteggio SAT degli studenti delle superiori con il loro GPA universitario dopo il primo anno. Questo tipo di studio può utilizzare il coefficiente di correlazione, noto come coefficiente di validità. La scelta tra studi predittivi e concorrenti dipende dall'obiettivo della valutazione e dal contesto di utilizzo del test.

#### Confronto di Gruppi

La teoria può servire come base per raccogliere evidenze di validità esaminando come gruppi diversi (identificati da un criterio esterno) dovrebbero differire nel costrutto misurato dal test. Ad esempio, nella validazione di un nuovo test di intelligenza, si potrebbero confrontare i punteggi di gruppi con disabilità intellettuali e quelli con abilità intellettuali tipiche.

#### Sensibilità e Specificità

Questi concetti sono importanti quando si utilizza un punteggio di test per classificare individui o caratteristiche in gruppi. La sensibilità di una misura si riferisce alla sua capacità di rilevare la presenza di una condizione, mentre la specificità si riferisce alla sua capacità di determinare l'assenza di una condizione.

#### Validità convergente e Divergente

L'evidenza di validità convergente si ottiene correlando un test con altri test che misurano costrutti simili o identici. Invece, l'evidenza di validità discriminante si ottiene correlando un test con misure di costrutti dissimili.

#### Generalizzazione della Validità

Si riferisce al grado in cui le relazioni test-criterio possono essere generalizzate a nuove situazioni senza ulteriori studi. La meta-analisi ha mostrato che la variabilità osservata nei coefficienti di validità è spesso dovuta a artefatti statistici, suggerendo che i coefficienti di validità possono essere generalizzati più di quanto si pensasse in passato.

In conclusione, l'evidenza di validità basata sulle relazioni con altre variabili è cruciale per stabilire la validità di un test. Essa comprende l'esame delle relazioni test-criterio, lo studio di gruppi contrastanti, la considerazione di modelli di teoria delle decisioni, e l'analisi di sensibilità e specificità, oltre alla ricerca di evidenze convergenti e divergenti. Queste approfondite indagini aiutano a garantire che i punteggi di un test riflettano accuratamente il costrutto che intendono misurare e siano utili nel contesto specifico in cui vengono applicati.

## Integrazione delle Prove di Validità

Gli Standards {cite:p}`AERA-APA-NCME2014` definiscono la validazione come un processo di costruzione e valutazione di argomentazioni a favore e contro l'interpretazione intesa dei punteggi dei test e la loro rilevanza per l'uso proposto. Lo sviluppo di un argomento di validità comporta tipicamente l'integrazione di numerose linee di evidenza in un commento coerente. Diversi tipi di prove di validità sono più applicabili a diversi tipi di test. Ecco una breve rassegna delle applicazioni prominenti di diversi tipi di prove di validità:

- **Prove Basate sul Contenuto del Test:** Sono spesso riportate con test di rendimento accademico e test utilizzati nella selezione dei dipendenti.
- **Prove Basate sulle Relazioni con Altre Variabili:** Possono includere (1) relazioni test-criterio, applicabili quando i test sono usati per predire le prestazioni su un criterio esterno; (2) evidenze convergenti e discriminanti, utili con una varietà di test, inclusi test di intelligenza, di rendimento, test di personalità, ecc.; (3) evidenze di generalizzazione della validità, utili quando gli stessi o simili test sono usati ripetutamente in applicazioni simili.
- **Prove Basate sulla Struttura Interna:** Utili con una varietà di test, ma tradizionalmente applicate con test che misurano costrutti teorici come la personalità o l'intelligenza.
- **Prove Basate sui Processi di Risposta:** Utili con praticamente qualsiasi test che richiede agli esaminandi di impegnarsi in attività cognitive o comportamentali.
- **Prove Basate sulle Conseguenze del Testing:** Applicabili soprattutto ai test progettati per la selezione e la promozione, ma utili con un'ampia gamma di test.

La maggior parte dei tipi di prove di validità ha applicazioni per una vasta gamma di test, il che è appropriato. L'integrazione di molteplici linee di ricerca o tipi di evidenza fornisce un argomento di validità più convincente. È importante ricordare che ogni interpretazione o uso inteso di un test deve essere validato. Se un test viene utilizzato per applicazioni diverse, ogni uso o applicazione deve essere validato, richiedendo diversi tipi di prove di validità.

La validità di un'interpretazione dei punteggi di un test dipende da tutte le prove disponibili relative alla qualità tecnica di un sistema di test. Componenti importanti di questa evidenza includono la costruzione attenta del test, l'affidabilità adeguata dei punteggi, l'amministrazione e la valutazione appropriate del test, la scalatura accurata dei punteggi e l'attenzione alla giustizia per gli esaminandi, come appropriato per l'interpretazione del test in questione. 

In sintesi, la validità di un test è un strumento ben sviluppato e tecnicamente solido. Nel prossimo capitolo, forniremo ulteriori indicazioni pratiche per garantire la validità delle interpretazioni dei punteggi dei test. Questo processo inizia quando si inizia a pensare allo sviluppo di un test.

Infine, lo sviluppo di un argomento di validità è un processo continuo che tiene conto delle ricerche esistenti e incorpora nuove scoperte scientifiche. Mentre gli sviluppatori di test sono tenuti a fornire prove iniziali della validità delle interpretazioni dei punteggi che propongono, la ricerca di ricercatori indipendenti successiva al rilascio del test è essenziale. Riviste professionali eccellenti pubblicano regolarmente articoli di ricerca empirica che coprono le proprietà psicometriche di diversi test. Inoltre, coloro che utilizzano i test sono tenuti a valutare le prove di validità e a formulare i propri giudizi sulla loro appropriateness nel proprio contesto e ambiente. Ciò pone i professionisti clinici che utilizzano i test psicologici nel ruolo finale e più responsabile nel processo di validazione.

## Conclusione

Nella psicometria, la validità emerge come un concetto dinamico e sfaccettato, che richiede un'analisi approfondita e l'integrazione di varie forme di evidenza. Nel corso di questo capitolo, abbiamo esaminato le diverse dimensioni della validità, sottolineando l'importanza di un'analisi olistica nell'interpretazione dei punteggi dei test. È essenziale andare oltre la mera coerenza del contenuto del test con il costrutto target, includendo anche un esame dettagliato della sua struttura interna, dei processi cognitivi e comportamentali evocati nei rispondenti, e delle conseguenze, sia attese che inattese, derivanti dal suo impiego.

Conformemente agli Standards {cite:p}`AERA-APA-NCME2014`, la validità trascende la semplice analisi statistica per abbracciare il significato e la pertinenza delle interpretazioni dei punteggi dei test all'interno dei contesti specifici di utilizzo. Ciò implica un processo di indagine e aggiornamento continuo, che assimila nuove ricerche e avanzamenti nel settore. L'uso dei test psicometrici, pertanto, deve essere condotto con una consapevolezza critica delle loro limitazioni e potenzialità, assicurando che le decisioni basate sui loro risultati siano non solo accurate, ma anche etiche e ben fondate.

In conclusione, la validazione di un test psicometrico si configura come un processo dinamico, che sollecita una costante attenzione critica e un approccio responsabile da parte degli psicologi. La validità, dunque, non deve essere percepita come un attributo statico e inalterabile del test, ma piuttosto come un'analisi continua e progressiva della sua efficacia nel fornire interpretazioni dei risultati che siano pertinenti e rilevanti all'interno di diversi contesti di applicazione.





<!-- [^2]: Vedremo in seguito -->
<!--     (§ [\[ch:err_stnd_stima\]](#ch:err_stnd_stima){reference-type="ref" -->
<!--     reference="ch:err_stnd_stima"}) come il livello di abilità latente -->
<!--     (il punteggio vero) possa essere stimato con la formula di Kelley -->
<!--     (1923), ovvero $$\begin{aligned} -->
<!--     \hat{T}_i &= \rho_{XT} x_i + (1 - \rho_{XT})\mu_x\notag\\ -->
<!--     &= \mu_x + \rho_{XT} (x_i - \mu_x),\notag\end{aligned}$$ dove -->
<!--     $\mu_x$ è la media dei punteggio osservato e $\hat{T}_i$ è la stima -->
<!--     del punteggio vero per l'$i$-esimo rispondente. -->

<!-- [^3]:  -->