# La validità del test {#sec-validity}

**Prerequisiti**

- Leggere il capitolo 4, *Validity*, del testo *Principles of psychological assessment* di @petersen2024principles. 
- Leggere *A Short Tutorial on Validation in Educational and Psychological Assessment* [@arias2024short].
- Leggere *Disrupting white supremacy in assessment: Toward a justice-oriented, antiracist validity framework* [@randall2023disrupting].
- Leggere *“Color-neutral” is not a thing: Redefining construct definition and representation through a justice-oriented critical antiracist lens* [@randall2021color].

**Concetti e Competenze Chiave**

- Minacce alla validità
- Tipologie di validità
- Conseguenze intenzionali e non intenzionali
- Integrazione delle prove di validità

**Preparazione del Notebook**

## Introduzione

Oltre all'affidabilità, la validità rappresenta la seconda caratteristica essenziale che uno strumento psicometrico deve avere. La validità è una proprietà psicometrica fondamentale dei test psicologici. La definizione degli *Standards for educational and psychological testing* [@AERA-APA-NCME2014] è la seguente:

> Validity refers to the degree to which evidence and theory support the interpretations of test scores for proposed uses of tests.

In altre parole, la validità riguarda sia il significato dei punteggi del test che il modo in cui li utilizziamo. Pertanto, la validità è giustamente "la considerazione più fondamentale nello sviluppo e nella valutazione dei test", come indicato negli Standards (p. 11).

Il concetto di validità, un tempo circoscritto alla triade contenuto-criterio-costrutto, si è evoluto in un quadro concettuale più ampio e dinamico. Gli Standards affermano:

> Validity is a unitary concept. It is the degree to which all the accumulated evidence supports the intended interpretation of test scores for the proposed use. Like the 1999 Standards, this edition refers to types of validity evidence, rather than distinct types of validity. To emphasize this distinction, the treatment that follows does not follow historical nomenclature (i.e., the use of the terms content validity or predictive validity). (2014, p. 14)

Di conseguenza, la maggior parte delle concezioni moderne di validità enfatizzano un'integrazione di tutte le forme di evidenza utili a chiarire il significato(i) che possono essere attribuiti ai punteggi del test. Spetta all'utente del test valutare le prove disponibili per giudicare *in che misura la sua interpretazione o utilizzo previsto sia appropriato*.

Nel campo della psicometria, esiste un consenso sul fatto che i concetti tradizionali di validità, legati direttamente a un test, siano stati superati. Oggi si riconosce che la validità non riguarda il test in sé, ma l'adeguatezza e l'accuratezza delle interpretazioni dei punteggi ottenuti. In altre parole, non è corretto parlare di "validità di un test". La validità si riferisce alle interpretazioni che vengono fatte dei punteggi del test.

Pertanto, non è corretto chiedere: "Il Wechsler Intelligence Scale for Children—Quinta Edizione (WISC-V) è un test valido?". La domanda più appropriata sarebbe: "È valida l'interpretazione delle prestazioni sul WISC-V come misura dell'intelligenza?". La validità dipende sempre dal contesto dell'interpretazione: cosa significa ottenere un certo punteggio su questo test? La validità si applica all'interpretazione di questo risultato, non al test stesso.

## Minacce alla Validità

La validità di un test può essere compromessa quando non riesce a misurare in modo completo o accurato il costrutto di interesse, oppure quando il test valuta aspetti non rilevanti per quel costrutto. Anche test con alta affidabilità possono essere vulnerabili a queste problematiche, portando a interpretazioni distorte dei risultati. In questa sezione, esamineremo i principali tipi di validità e le relative evidenze, discutendo come integrare diverse fonti di prova per costruire un argomento solido a supporto della validità di un test.

### Sotto-Rappresentazione del Costrutto
La sotto-rappresentazione del costrutto si verifica quando il test non riesce a misurare aspetti cruciali del costrutto target. Ad esempio, un test di matematica per la terza elementare che valuta solo la divisione non rappresenta adeguatamente tutte le competenze matematiche previste per quel livello scolastico. Per affrontare questa lacuna, è necessario ampliare il contenuto del test per includere tutte le abilità matematiche rilevanti nel curriculum della terza elementare.

### Varianza Estranea al Costrutto
La varianza estranea al costrutto si verifica quando il test misura, involontariamente, caratteristiche o competenze non pertinenti al costrutto che dovrebbe valutare. Un esempio è un test di matematica che richiede un elevato livello di comprensione del testo, finendo per misurare anche la capacità di lettura, oltre alle competenze matematiche. Per ridurre questa varianza estranea, è essenziale che il test sia progettato con istruzioni semplici e che il livello di lettura richiesto sia adeguato alla popolazione di riferimento.

### Altri Fattori Che Influenzano la Validità
Oltre alle caratteristiche intrinseche del test, ci sono fattori esterni che possono influenzare la validità delle interpretazioni dei risultati. Questi includono:

1. **Caratteristiche dell'Esaminando:**
   - Fattori personali, come ansia, bassa motivazione o distrazioni, possono influenzare le prestazioni e ridurre la validità delle interpretazioni dei punteggi.

2. **Procedure di Amministrazione e Valutazione:**
   - Qualsiasi deviazione dalle procedure standard di somministrazione può compromettere la validità. Anche gli adattamenti per esigenze speciali devono essere gestiti con cura per garantire che le interpretazioni dei risultati rimangano valide.

3. **Istruzione e Coaching:**
   - Istruzioni o coaching specifici prima del test possono alterare la validità, soprattutto se gli esaminandi vengono addestrati a rispondere a particolari tipologie di domande, distorcendo così l'interpretazione delle loro competenze reali.

Infine, la validità delle interpretazioni basate su punteggi norm-referenced (cioè confronti rispetto a un gruppo di riferimento) dipende dall'adeguatezza e rappresentatività del campione di riferimento utilizzato per il confronto.

In sintesi, le minacce alla validità richiedono un'attenta valutazione. Solo affrontando questi fattori sarà possibile garantire che le interpretazioni dei risultati del test siano appropriate. Il processo di validazione deve quindi considerare sia il contenuto e la struttura del test sia le influenze esterne che possono distorcere le conclusioni tratte dai punteggi.

## Tipologie di Validità

### Contestualizzazione Storica ed Evoluzione Terminologica

Gli standard per la creazione e l'uso dei test educativi e psicologici, come quelli presentati negli Standards del 2014 [@AERA-APA-NCME2014], hanno subito un'evoluzione significativa nel corso degli anni. Inizialmente, la validità era suddivisa in tre categorie principali, come proposto da Messick (1989): validità di contenuto, validità criteriale e validità di costrutto.

1. **Validità di Contenuto**: Misura la pertinenza e la rappresentatività del contenuto del test rispetto al dominio del costrutto. Si basa su giudizi esperti che valutano quanto bene il contenuto del test rifletta il costrutto che si intende misurare.

2. **Validità Criteriale**: Si concentra sulla relazione tra i punteggi del test e variabili esterne legate al costrutto misurato, utilizzando analisi di correlazione o di regressione.

3. **Validità di Costrutto**: Integra varie prove che dimostrano il significato e l'interpretazione dei punteggi del test, per assicurarsi che misuri effettivamente il costrutto in questione.

Con il tempo, queste categorie distinte sono state sostituite da un approccio unitario alla validità, che considera le diverse tipologie come modalità complementari per raccogliere prove a supporto delle interpretazioni dei punteggi di un test. Gli Standards del 1985 (APA et al., 1985) hanno introdotto la terminologia di "tipi di prove di validità", sostituendo la precedente classificazione.

Gli Standards del 2014 [@AERA-APA-NCME2014] hanno ulteriormente sviluppato questa visione olistica, chiarendo che la validità è definita come il grado in cui tutte le evidenze disponibili supportano l'interpretazione prevista dei punteggi del test per uno specifico scopo. Le prove di validità sono ora suddivise in cinque categorie principali:

1. **Prove Basate sul Contenuto del Test**: Esaminano la corrispondenza tra il contenuto del test e il costrutto che si intende misurare.
2. **Prove Basate sui Processi di Risposta**: Analizzano i processi cognitivi e comportamentali utilizzati dagli esaminandi per rispondere agli item del test.
3. **Prove Basate sulla Struttura Interna**: Valutano la coerenza tra gli elementi del test e le dimensioni teoriche che rappresentano il costrutto.
4. **Prove Basate sulle Relazioni con Altre Variabili**: Esaminano la correlazione tra i punteggi del test e variabili esterne rilevanti.
5. **Prove Basate sulle Conseguenze del Test**: Valutano le implicazioni, previste e non, derivanti dall'uso del test.

### Ottenere Evidenze per la Validità

La definizione di validità come "il grado in cui le evidenze e la teoria supportano le interpretazioni dei punteggi del test per gli utilizzi proposti" implica che non è possibile ottenere prove per tutte le possibili interpretazioni o utilizzi di un test. Pertanto, il primo passo nel processo di validazione è la specificazione delle interpretazioni e degli utilizzi previsti dei punteggi. Di seguito vengono esplorati in dettaglio i cinque tipi di prove di validità delineati negli Standards del 2014 [@AERA-APA-NCME2014].

**1. Prove Basate sul Contenuto del Test**

L'evidenza basata sul contenuto riguarda la misura in cui il contenuto di un test rappresenta adeguatamente il dominio che intende misurare. Tuttavia, nei test pratici, non è sempre possibile coprire interamente il dominio del costrutto. Ciò può portare a due problemi: sotto-rappresentazione del costrutto o varianza estranea, entrambi minacce alla validità. Per mitigare queste minacce, i test devono essere attentamente progettati per garantire che il loro contenuto rifletta il dominio in modo equilibrato.

Questa forma di validità è spesso valutata da esperti che giudicano la corrispondenza tra il contenuto del test e il costrutto. Durante la revisione, si esaminano due aspetti principali: la **rilevanza degli item** (ogni item rappresenta adeguatamente il costrutto) e la **copertura del contenuto** (se l'insieme degli item copre in modo completo il costrutto).

La validità di faccia, che riguarda l'apparente plausibilità di un test agli occhi degli esaminandi o dei non esperti, non è considerata una misura tecnica della validità ma può influenzare la cooperazione degli esaminandi.

**2. Prove Basate sui Processi di Risposta**

Questo tipo di evidenza valuta se i processi cognitivi che gli esaminandi utilizzano per rispondere al test riflettono il costrutto che il test intende misurare. Per esempio, in un test di ragionamento matematico, è essenziale che i partecipanti applichino strategie di risoluzione dei problemi piuttosto che semplici procedure meccaniche. 

I processi di risposta possono essere valutati tramite interviste, analisi dei tempi di risposta, o monitoraggio dei movimenti oculari. Anche i criteri utilizzati dai valutatori nel punteggio possono essere inclusi in questo tipo di evidenza. L'obiettivo è garantire che il processo di risoluzione degli item sia coerente con il costrutto che si desidera misurare.

**3. Prove Basate sulla Struttura Interna**

L'evidenza basata sulla struttura interna si concentra sulle relazioni tra gli elementi del test e la loro coerenza con le dimensioni teoriche del costrutto. L'analisi fattoriale è uno strumento chiave per esaminare se la struttura interna del test riflette le dimensioni ipotizzate. Questo tipo di evidenza è particolarmente importante per i test multidimensionali, come quelli di personalità, in cui ci si aspetta che diverse dimensioni siano rappresentate coerentemente dagli item.

**4. Prove Basate sulle Relazioni con Altre Variabili**

Le **prove basate sulle relazioni con altre variabili** rappresentano una parte cruciale nella raccolta di evidenze di validità. Questa forma di validità si concentra sulla relazione tra i punteggi di un test e altre misure esterne rilevanti, contribuendo a dimostrare che il test misura effettivamente il costrutto previsto. Le relazioni con altre variabili possono includere correlazioni con test simili, con criteri di riferimento specifici, o con variabili teoricamente collegate. Questo tipo di validità si suddivide principalmente in due categorie: **validità convergente** e **validità discriminante**.

**Validità convergente** si riferisce al grado in cui i punteggi del test in questione correlano con i punteggi di altri test che misurano lo stesso costrutto o costrutti strettamente correlati. Se il test è valido, ci si aspetta che le sue misurazioni siano coerenti con quelle ottenute attraverso altri strumenti simili. Ad esempio, se stiamo validando un nuovo test di intelligenza, i suoi punteggi dovrebbero avere una forte correlazione con quelli di altri test noti per misurare l'intelligenza. Questo tipo di prova fornisce evidenza di validità poiché dimostra che il test misura effettivamente il costrutto che dichiara di misurare.

Invece, la **validità discriminante** (o divergenza) riguarda la capacità di un test di non correlarsi con misure di costrutti che dovrebbero essere distinti. Per esempio, in un test di intelligenza, ci si aspetta che i punteggi non correlino con misure di abilità fisiche, poiché queste ultime non sono teoricamente collegate al costrutto dell'intelligenza. La mancanza di correlazione con costrutti irrilevanti è una prova che il test è focalizzato e non influenzato da fattori estranei.

Una delle relazioni più rilevanti da considerare è quella tra il test e una variabile criterio, un concetto che si collega alla **validità criteriale**. Un test criteriale viene valutato confrontando i suoi punteggi con una misura esterna o criterio di riferimento, come il rendimento accademico, la performance lavorativa o altri esiti comportamentali che si desidera predire. Esistono due tipi principali di validità criteriale:

1. **Validità predittiva**: Si riferisce alla capacità del test di predire un criterio futuro. Ad esempio, un test utilizzato per le assunzioni dovrebbe essere in grado di predire le future performance lavorative. In questo tipo di studio, si amministra il test, si attendono i risultati del criterio (come il successo lavorativo) e si analizza la correlazione tra i due.

2. **Validità concorrente**: Si verifica quando il test e il criterio vengono misurati contemporaneamente, per valutare se i punteggi del test siano coerenti con una misura esistente di un costrutto simile. Ad esempio, un test di abilità verbali somministrato contemporaneamente a un altro noto per misurare la stessa abilità dovrebbe mostrare una correlazione significativa.

In entrambi i casi, la correlazione tra il test e la variabile criterio, nota come **coefficiente di validità**, fornisce una misura quantitativa dell'efficacia del test nel predire o correlarsi con il criterio. Valori elevati indicano una forte relazione, suggerendo che il test è valido per l'uso a cui è destinato.

Un'altra fonte di evidenza di validità basata sulle relazioni con altre variabili riguarda il **confronto tra gruppi**. La teoria psicometrica può prevedere che diversi gruppi di persone, definiti da criteri esterni, mostrino differenze nei punteggi del test. Ad esempio, ci si aspetta che un test di intelligenza mostri differenze significative nei punteggi tra gruppi di persone con abilità intellettive tipiche e persone con disabilità intellettive. Se il test è valido, i risultati dovrebbero riflettere queste differenze teoriche, fornendo ulteriore evidenza di validità.

Quando un test viene utilizzato per classificare o diagnosticare gli individui, sono fondamentali i concetti di **sensibilità** e **specificità**. La **sensibilità** di un test misura la sua capacità di identificare correttamente i casi positivi (ovvero, le persone che possiedono il costrutto o la condizione che il test mira a misurare). La **specificità**, d'altra parte, si riferisce alla capacità del test di escludere correttamente i casi negativi (ovvero, le persone che non possiedono il costrutto o la condizione). Un test valido dovrebbe bilanciare sensibilità e specificità per garantire accuratezza nel rilevare le condizioni target e minimizzare i falsi positivi e negativi.

La **generalizzazione della validità** si riferisce alla misura in cui le relazioni osservate tra test e criteri possono essere estese a nuove popolazioni, contesti o condizioni senza ulteriori studi. Studi di meta-analisi hanno dimostrato che molte delle differenze apparenti nei coefficienti di validità tra studi possono essere dovute a artefatti statistici o metodologici. Questo suggerisce che la validità di un test, una volta stabilita in un contesto, può spesso essere generalizzata in altri contesti simili. Tuttavia, è essenziale condurre ulteriori studi per confermare la validità quando si applica un test in un nuovo contesto o con una popolazione diversa.

In conclusione, le prove basate sulle relazioni con altre variabili rappresentano una componente cruciale nella valutazione della validità di un test psicometrico. Forniscono una visione chiara di come il test si comporta rispetto a misure esterne rilevanti, predice risultati importanti e differenzia tra gruppi distinti. Attraverso l'analisi di validità convergente, discriminante, criteriale e predittiva, così come tramite il confronto di gruppi e l'uso di sensibilità e specificità, queste evidenze contribuiscono a dimostrare che il test è effettivamente in grado di misurare il costrutto target in modo accurato e utile per le decisioni pratiche.

**5. Prove Basate sulle Conseguenze del Test**

Le conseguenze di un test, sia previste che impreviste, rappresentano una dimensione critica della validità. Gli effetti di un test sull'individuo o sulla società, come l'impatto di un test di ammissione scolastica o un test psicologico utilizzato in contesti forensi, devono essere attentamente considerati. Anche le conseguenze indesiderate, come l'uso improprio del test o la creazione di disuguaglianze, devono essere prese in esame.

In conclusione, l'evoluzione del concetto di validità riflette una comprensione sempre più approfondita della complessità delle misurazioni psicometriche. Oggi, la validità è considerata un concetto olistico, che si basa su prove raccolte da diverse fonti per supportare le interpretazioni e gli utilizzi dei punteggi del test. I professionisti devono integrare queste diverse forme di evidenza per costruire un argomento convincente a favore della validità delle interpretazioni dei punteggi, garantendo al contempo che i test siano utilizzati in modo appropriato, equo e responsabile.
Hai ragione, il contenuto sulla "Evidenza di Validità Basata sulle Relazioni con Altre Variabili" appartiene a una sezione separata e non dovrebbe essere discusso in una trattazione sulle conseguenze del testing. Di seguito ti propongo una versione migliorata, più allineata con i contenuti degli Standards nella loro versione più recente, e senza includere sezioni inappropriate.

## Conseguenze Intenzionali e Non Intenzionali

Gli Standards sottolineano l'importanza di considerare le conseguenze derivanti dall'uso dei test, distinguendo tra **conseguenze intenzionali** e **conseguenze non intenzionali**. Queste conseguenze rappresentano un elemento critico nella valutazione della validità, in quanto l'uso di un test può avere effetti previsti e positivi, ma anche effetti imprevisti o negativi che possono compromettere l'integrità e l'etica del processo di misurazione.

### Conseguenze Intenzionali

Le conseguenze intenzionali del testing riguardano gli obiettivi dichiarati per cui un test viene utilizzato. Ad esempio, un test di selezione per un ruolo lavorativo ha lo scopo di identificare i candidati più qualificati per quella posizione. Analogamente, un test di rendimento scolastico mira a valutare le competenze degli studenti rispetto a uno standard educativo.

La validità consequenziale si riferisce alla misura in cui un test produce i risultati desiderati e contribuisce agli scopi per i quali è stato progettato. Per esempio, un test impiegato per l'assunzione dovrebbe portare a decisioni di reclutamento migliori, con conseguenti benefici come una riduzione del turnover e dei costi di formazione. Gli Standards evidenziano la necessità di monitorare tali benefici per assicurarsi che gli scopi del test siano effettivamente raggiunti e giustificati.

### Conseguenze Non Intenzionali

Le conseguenze non intenzionali si riferiscono a quegli effetti che emergono dall'uso di un test ma non erano previsti o desiderati. Questi possono includere discriminazioni non giustificate, disparità nell'accesso alle risorse o l'induzione di ansia nei partecipanti. Le conseguenze non intenzionali possono minacciare la validità del test, in particolare quando generano effetti distorti o ingiusti che violano i principi di equità.

Un esempio potrebbe essere un test che, pur essendo valido per la selezione di lavoratori, penalizza sistematicamente candidati di gruppi etnici o socioeconomici svantaggiati. Questo potrebbe essere un segnale di una distorsione non intenzionale nel test o nei suoi criteri di valutazione.

### Valutazione delle Conseguenze

Secondo gli Standards, è essenziale esaminare le conseguenze sia previste che non previste, nonché le implicazioni etiche dell'uso del test. La valutazione delle conseguenze dovrebbe essere parte integrante del processo di validazione, assicurando che il test non causi danni e che sia utilizzato in modo responsabile. Questa valutazione è cruciale per garantire che le misurazioni fornite dal test siano significative, eticamente corrette e utili per gli scopi previsti.

#### Conseguenze Sociali e Politiche

Gli Standards fanno una distinzione tra le conseguenze legate alla validità e quelle associate a questioni sociali o politiche. Anche se è importante considerare l'impatto sociale dell'uso dei test, includere questioni di valore all'interno della validità stessa può complicare il quadro. Gli Standards invitano a considerare le conseguenze sociali e politiche come parte delle responsabilità etiche legate all'uso dei test, ma distinguono queste questioni dall'evidenza strettamente legata alla validità.

#### Considerazione delle Alternative all'Uso del Test

È importante valutare anche gli effetti di non utilizzare un test o di adottare un approccio alternativo. L'abbandono dei test standardizzati potrebbe portare a decisioni basate su criteri meno oggettivi, come valutazioni soggettive o pregiudizi personali. Gli Standards riconoscono che, pur con i loro limiti, i test strutturati possono offrire un grado di equità superiore rispetto a metodi di valutazione meno formali, che potrebbero essere maggiormente soggetti a distorsioni culturali, etniche o di genere.

### Validità Consequenziale e Responsabilità Etica

Gli Standards sottolineano l'importanza della **validità consequenziale**, ovvero l'analisi delle conseguenze che derivano dall'uso di un test. Questa responsabilità non si esaurisce nel garantire che il test misuri accuratamente il costrutto di interesse, ma include anche la considerazione di come i risultati vengono utilizzati e delle conseguenze che ne derivano.

Gli sviluppatori e gli utilizzatori di test hanno quindi la responsabilità di monitorare costantemente gli effetti dell'uso del test, garantendo che le conseguenze indesiderate vengano ridotte al minimo. Questo richiede un continuo processo di revisione e aggiornamento, nonché un'attenzione particolare all'equità e alla giustizia nell'uso dei test.

In sintesi, l'analisi delle conseguenze intenzionali e non intenzionali è un elemento fondamentale nella valutazione della validità di un test psicometrico. Le conseguenze del test, sia positive che negative, devono essere costantemente monitorate e analizzate per garantire che l'uso del test sia eticamente corretto e coerente con i suoi scopi dichiarati. Questo tipo di validità consequenziale è essenziale per l'uso responsabile dei test e contribuisce a mantenere un equilibrio tra l'efficacia del test e il rispetto dei diritti degli esaminandi.

## Integrazione delle Prove di Validità

Gli Standards descrivono la validità come un processo continuo di costruzione di un argomento coerente e supportato da evidenze a favore dell'interpretazione e dell'uso dei punteggi di un test. L'integrazione delle diverse prove di validità è cruciale per garantire che le interpretazioni dei risultati siano appropriate e sostenute da evidenze robuste.

### Come si realizza l'integrazione delle prove di validità?

L'integrazione delle prove di validità comporta la combinazione di diverse fonti di evidenza per costruire un argomento completo e coerente che giustifichi l'uso del test per uno scopo specifico. Questo processo si realizza raccogliendo diverse linee di prova, che possono includere prove basate sul contenuto, sulla struttura interna, sui processi di risposta, sulle relazioni con altre variabili e sulle conseguenze del test.

L'integrazione non avviene in modo meccanico, ma richiede una riflessione critica su come ogni prova contribuisca all'argomento complessivo. Ogni tipo di prova fornisce un'informazione parziale, e il loro insieme contribuisce a creare un quadro completo della validità del test. Ad esempio, se un test mostra coerenza interna ma non è in grado di predire accuratamente i criteri per cui è stato progettato, la validità potrebbe essere compromessa. Viceversa, l'integrazione di evidenze positive da più fonti rafforza la giustificazione per l'uso del test.

### A cosa serve l'integrazione delle prove di validità?

L'integrazione delle prove di validità serve a supportare l'argomento secondo cui i punteggi del test sono appropriati per l'interpretazione e l'uso previsto. Questo approccio consente di ottenere una visione olistica della validità del test e di garantire che le diverse dimensioni della validità siano state considerate in modo approfondito. L'obiettivo finale è dimostrare che il test è non solo tecnicamente affidabile, ma anche giustificato eticamente e utilizzabile per prendere decisioni informate.

La validazione non è mai un processo singolare o statico. Un argomento di validità ben costruito considera come le diverse evidenze interagiscono per confermare o smentire l'uso del test in contesti specifici. Gli Standards sottolineano che la validità non è una proprietà del test in sé, ma riguarda le interpretazioni e gli utilizzi dei punteggi. Pertanto, ogni volta che il test viene applicato in un nuovo contesto o con un obiettivo diverso, è necessario rivalutare la validità delle interpretazioni, raccogliendo nuove prove se necessario.

### Il Ruolo della Continuità e della Ricerca

L'integrazione delle prove di validità non si conclude con lo sviluppo iniziale del test. Al contrario, è un processo continuo che si evolve con il tempo, man mano che vengono condotte nuove ricerche o che cambiano i contesti d'uso del test. Gli Standards evidenziano che, oltre alle prove fornite dai creatori del test, la ricerca indipendente svolge un ruolo fondamentale nel mantenere e aggiornare l'argomento di validità. Studi successivi all'adozione del test, condotti da ricercatori indipendenti, possono rafforzare, modificare o persino contraddire le evidenze iniziali, contribuendo così a una comprensione più completa della validità.

In sintesi, l'integrazione delle prove di validità è un processo critico per costruire un argomento solido a sostegno dell'uso e dell'interpretazione dei punteggi di un test. Essa comporta la raccolta e la sintesi di diverse linee di evidenza, ciascuna delle quali contribuisce a illuminare un aspetto particolare della validità. L'obiettivo finale è garantire che i test siano non solo tecnicamente adeguati, ma anche utili e giustificabili per gli scopi previsti, e che continuino a esserlo nel tempo grazie alla continua ricerca e revisione.

## Considerazioni conclusive

Nel campo della psicometria, la validità rappresenta un concetto dinamico, sfaccettato e complesso, che richiede un'integrazione critica di molteplici forme di evidenza. Questo capitolo ha esplorato le diverse dimensioni della validità, mettendo in luce l'importanza di un approccio olistico per garantire che l'interpretazione dei punteggi dei test sia appropriata e significativa. L'analisi della validità va ben oltre la semplice coerenza tra il contenuto del test e il costrutto target; essa include un esame rigoroso della struttura interna del test, dei processi cognitivi e comportamentali attivati nei rispondenti e delle conseguenze – sia attese che inattese – del suo utilizzo.

Gli Standards sottolineano come la validità non sia un attributo fisso del test stesso, ma una proprietà delle interpretazioni e degli utilizzi dei punteggi del test. Questo implica che il processo di validazione deve essere continuo, assimilando nuove ricerche e aggiornamenti man mano che emergono nuove evidenze. La validità si costruisce attraverso l'integrazione di diverse linee di prova – dalle relazioni con altre variabili, alla struttura interna, ai processi di risposta, fino alle conseguenze del test – ognuna delle quali contribuisce a consolidare l'argomento di validità. 

L'integrazione delle prove non si esaurisce con lo sviluppo iniziale del test, ma continua nel tempo, con una costante attenzione critica che deve accompagnare ogni nuovo contesto d'uso. Gli psicologi, pertanto, hanno la responsabilità di valutare e rivalutare l'uso dei test nel loro specifico contesto professionale, garantendo che le decisioni prese siano informate, etiche e giustificate da prove solide.

In conclusione, la validazione di un test psicometrico deve essere intesa come un processo evolutivo e dinamico. Non si tratta di un'analisi statica, ma di una valutazione continua della capacità del test di produrre interpretazioni affidabili e pertinenti nei diversi contesti applicativi. Questo richiede un costante impegno da parte dei professionisti nel garantire che i test siano non solo strumenti tecnicamente validi, ma anche adeguati e responsabili dal punto di vista etico e pratico. La validità, dunque, è il risultato di un'interazione tra prove empiriche, teoria e pratica, che richiede una continua revisione e miglioramento per mantenere l'efficacia e l'integrità del test nel tempo.

## Esercizi

Presentazione in classe dei lavori di @randall2023disrupting e @randall2021color.

<!-- [^2]: Vedremo in seguito -->
<!--     (§ [\[ch:err_stnd_stima\]](#ch:err_stnd_stima){reference-type="ref" -->
<!--     reference="ch:err_stnd_stima"}) come il livello di abilità latente -->
<!--     (il punteggio vero) possa essere stimato con la formula di Kelley -->
<!--     (1923), ovvero $$\begin{aligned} -->
<!--     \hat{T}_i &= \rho_{XT} x_i + (1 - \rho_{XT})\mu_x\notag\\ -->
<!--     &= \mu_x + \rho_{XT} (x_i - \mu_x),\notag\end{aligned}$$ dove -->
<!--     $\mu_x$ è la media dei punteggio osservato e $\hat{T}_i$ è la stima -->
<!--     del punteggio vero per l'$i$-esimo rispondente. -->

<!-- [^3]:  -->