(measurement-notebook)=
# La misurazione psicologica

L'obiettivo di questo capitolo è presentare una panoramica degli argomenti che verranno trattati nel corso della dispensa.

## Definizione di misurazione

Una delle prime definizioni di cosa sia la misurazione proviene da Stevens (1951), uno dei fondatori della teoria della misurazione. Egli ha suggerito che la misurazione consiste nell'assegnare numeri a oggetti o eventi secondo delle regole stabilite. Tuttavia, l'opinione generale è ormai concorde sul fatto che la misurazione richieda un approccio più articolato. È condivisibile l'idea che la misurazione debba essere considerata come il processo di creazione di modelli che rappresentano i fenomeni di interesse, prevalentemente in forma quantitativa. Di conseguenza, la misurazione consiste in regole che attribuiscono scale o valori alle entità che rappresentano i costrutti di interesse. Come tutti i modelli, quelli di misurazione (come test, scale o variabili) devono essere semplificazioni per risultare utili. Perciò, è essenziale specificare in modo chiaro i modelli di misurazione per poterli valutare, confutare e migliorare. Inoltre, non è opportuno domandarsi se un modello sia vero o corretto; al contrario, è più utile sviluppare diversi modelli alternativi plausibili e chiedersi: quale modello è meno inaccurato? Questo metodo di confronto dei modelli rappresenta la strategia migliore per valutare e perfezionare le procedure di misurazione.

```{admonition} Esempio
Per illustrare l'approccio alla misurazione così presentato, consideriamo un esempio concreto: la misurazione dell'intelligenza attraverso il test del quoziente intellettivo (QI).


Si inizia a definire il costrutto di interesse. In questo caso, l'intelligenza può essere definita come la capacità di apprendere, comprendere, e applicare conoscenze, risolvere problemi, e adattarsi a nuove situazioni. Tuttavia, essendo un concetto astratto, è necessario definirlo in modo che possa essere misurato. 

Per misurare l'intelligenza, si sviluppa un test di QI che include una serie di compiti e domande progettati per valutare varie dimensioni della capacità cognitiva, come la memoria, il ragionamento logico, e la comprensione verbale.

Ogni compito nel test di QI ha un punteggio associato. I risultati individuali vengono poi calcolati e confrontati con una norma statistica per assegnare un punteggio di QI.

Il test di QI viene sottoposto a varie analisi per verificare la sua validità (se misura effettivamente l'intelligenza) e affidabilità (se fornisce risultati consistenti nel tempo).

Ma ci sono diverse teorie dell'intelligenza, come ad esempio quella delle intelligenze multiple di Gardner, le quali suggeriscono modelli alternativi di misurazione. Confrontando il modello del QI con questi approcci alternativi, gli psicologi possono valutare quale modello è meno inaccurato o più utile per scopi specifici.

In risposta alle critiche, alle nuove ricerche, e ai cambiamenti culturali e sociali, il modello di QI viene periodicamente aggiornato e adattato per garantire che rimanga un utile strumento di misurazione.

Questo esempio mostra come la misurazione in psicologia non sia solo una questione di assegnare numeri a un costrutto, ma un processo complesso che coinvolge la creazione, la valutazione, e il perfezionamento continuo di modelli teorici.
```

## Approcci alla misurazione psicologica

Possiamo individuare due approcci alla misurazione psicologica: l'approccio rappresentazionale e l'approccio non rappresentazionale.

L'essenza dell'approccio rappresentazionale nella misurazione è l'attribuzione di numeri alle entità in modo che le relazioni tra questi numeri riflettano le relazioni empiriche reali. Un esemplare classico è la Scala di Mohs per la durezza, menzionata da Dawes & Smith (1985). Qui, la durezza dei materiali viene valutata attraverso una scala ordinale, dove un materiale è considerato più duro di un altro se riesce a graffiarlo. Un punto di forza di questo approccio è la sua capacità di formulare previsioni verificabili, come la transitività nella durezza dei materiali, che se non rispettata può confutare il modello.

Nell'approccio non rappresentazionale, tipicamente adottato in ambito psicometrico, non si riscontrano gli stessi livelli di coerenza interna che caratterizzano l'approccio rappresentazionale. In questo contesto, i valori numerici assegnati alle risposte su scale di valutazione (ad esempio, 1 per "fortemente in disaccordo" e 5 per "fortemente d'accordo") non possiedono un significato rappresentazionale marcato, il quale faciliterebbe l'attuazione di verifiche di coerenza. Piuttosto, l'approccio psicometrico si concentra sull'analisi di schemi aggregati di dati per valutare e validare modelli di misurazione proposti. Ciò deriva dalla premessa che ogni risposta individuale è intrinsecamente suscettibile a errori, rendendo quindi i controlli di coerenza a livello di singole misurazioni poco significativi e informativi. A differenza delle proprietà fisiche misurabili, come la durezza delle rocce, i comportamenti umani sono notevolmente più variabili e meno prevedibili. Pertanto, l'approccio psicometrico tende a trascurare i controlli di coerenza a livello individuale, affidandosi piuttosto a schemi di varianza e covarianza che esprimono relazioni probabilistiche a un livello aggregato. Un esempio di questo approccio può essere osservato in un campione specifico dove, ad esempio, le persone che attribuiscono punteggi elevati alla caratteristica "generosità" tendono a non assegnare valutazioni altrettanto elevate alla caratteristica "avarizia".

Nonostante le promesse iniziali, l'approccio rappresentazionale non ha trovato un'applicazione estesa in psicologia, come sottolineato da Cliff (1992), che lo descrive come "la rivoluzione che non è mai avvenuta". Al contrario, il campo della psicologia è dominato da questionari e scale di valutazione, seguendo l'approccio non rappresentazionale. In questo insegnamento, dunque, ci concentrereo sull'approccio non rappresentazionale alla misurazione psicologica.

L'approccio psicometrico si può esplorare attraverso vari temi principali. 

1. **Affidabilità**: Inizialmente considerato il pilastro principale, l'affidabilità si riferisce alla consistenza dei risultati di un test nel tempo e attraverso diverse situazioni.
2. **Validazione del Costrutto e Test dei Modelli**: Progressivamente, l'attenzione si è spostata verso una comprensione più profonda della validazione del costrutto e dell'importanza dei test dei modelli. Questo include l'uso di modelli di misurazione nell'ambito dei modelli ad equazioni strutturali (SEM).
3. **Dimensionalità e Validità Strutturale**: Si indaga la dimensionalità come aspetto cruciale della validità strutturale, ossia come i vari aspetti di un costrutto sono rappresentati e correlati all'interno del modello.
4. **Costruzione dei Questionari**: Infine, la costruzione dei questionari diventa un tema centrale, poiché la scelta degli item e la loro formulazione influenzano la validità e l'affidabilità dei risultati.

## Affidabilità e Generalizzabilità nelle Misure Psicologiche

La misurazione in psicologia, come in altre discipline, è influenzata da variabili che possono introdurre errori. L'affidabilità di una misura psicologica si riferisce alla sua consistenza, ovvero alla capacità di produrre risultati riproducibili nel tempo. Gli indici di affidabilità quantificano quanto i risultati forniti da un procedimento di misurazione siano riproducibili e liberi da errori casuali.

### Teoria Classica dei Test

L'affidabilità viene trattata sistematicamente nel contesto della teoria classica dei test, sviluppata da Lord e Novick nel 1968. Secondo questa teoria, ogni misurazione $ X $ è composta da due componenti: un punteggio "vero" $ T $ e un errore di misurazione $ e $. La misurazione accurata o "vera" sarebbe quindi $ X - e $, e l'idea fondamentale è che ogni misurazione possa essere decomposta in questi due elementi.

La teoria classica dei test enfatizza l'importanza delle misurazioni ripetute per valutare l'affidabilità. Un concetto chiave è quello dei test paralleli, che sono due test con medie, varianze, e caratteristiche distributive identiche e che si correlano in modo simile con variabili esterne. In quest'ottica, punteggio vero e errore di misurazione sono considerati indipendenti. Di conseguenza, la varianza dei punteggi osservati (Varianza $ X $) è la somma della varianza dei punteggi veri (Varianza $ T $) e della varianza dell'errore di misurazione (Varianza $ e $).

L'affidabilità è quindi definita come il rapporto tra la varianza del punteggio vero e la varianza del punteggio osservato:

$$ 
\text{Affidabilità} = \frac{\text{Varianza}(T)}{\text{Varianza}(X)}.
$$

In termini pratici, se non ci fosse alcun errore, l'affidabilità sarebbe pari a 1. Al contrario, se i punteggi derivassero esclusivamente dall'errore, l'affidabilità sarebbe 0. La correlazione tra il punteggio osservato e il punteggio vero è poi la radice quadrata dell'affidabilità, offrendo una stima della precisione della misurazione.

Questa struttura fornisce un quadro per comprendere e quantificare l'affidabilità nelle misure psicologiche, sottolineando l'importanza di considerare sia i punteggi veri sia gli errori di misurazione per ottenere misurazioni precise e affidabili.

### Evidenze Multiple di Affidabilità

La teoria classica dei test, pur definendo i test paralleli in termini matematici, non offriva indicazioni concrete sulle specifiche procedure di misurazione da considerarsi parallele. Dagli anni '50 in poi, si è assistito all'emergere di vari metodi per valutare l'affidabilità, ognuno dei quali fornisce una prospettiva diversa sulla consistenza della misurazione:

1. **Test-Retest**: Questo approccio implica la somministrazione dello stesso test ai partecipanti in due momenti distinti. L'obiettivo è valutare la stabilità dei punteggi nel tempo. Un'alta correlazione tra i punteggi nei due momenti indica una buona affidabilità di test-retest.

2. **Equivalenza di Forme**: Questo metodo coinvolge l'uso di due forme differenti del test, che coprono lo stesso contenuto, somministrate in un unico momento ai partecipanti. Una forte correlazione tra i punteggi ottenuti dalle due forme diverse suggerisce che entrambe misurano lo stesso costrutto in modo affidabile.

3. **Split-Half e Coerenza Interna**: 
   - **Split-Half**: I partecipanti completano una sola forma del test, ma il test viene diviso in due parti equivalenti, e si calcola la correlazione tra i punteggi delle due metà. Questo metodo valuta la consistenza interna del test.
   - **Coerenza Interna (ad es. Alpha di Cronbach)**: Valuta la correlazione tra tutti gli elementi del test. Un alto valore di coerenza interna indica che tutti gli elementi del test misurano aspetti simili del costrutto.

4. **Valutazione da Giudici Multipli**: Qui, i partecipanti sono valutati da più giudici in un'unica occasione. L'alto grado di accordo tra i giudici fornisce un'indicazione dell'affidabilità delle valutazioni.

Ognuno di questi metodi fornisce un'indicazione sull'affidabilità di un test, ma è importante considerare che differenti metodi possono essere più o meno appropriati a seconda della natura del test e del costrutto misurato. L'affidabilità è un concetto multidimensionale che non può essere completamente compreso o verificato tramite un singolo metodo, rendendo così cruciale l'uso di approcci multipli per una valutazione completa dell'affidabilità di una misura psicologica.

### Il Ruolo del Coefficiente Alpha nella Misurazione Psicologica

Il coefficiente alpha, introdotto da Cronbach nel 1951, ha assunto un ruolo significativo come indicatore di coerenza interna nella letteratura psicologica. La popolarità di alpha deriva principalmente dalla sua facilità di calcolo. A differenza dell'affidabilità test-retest, che richiede dati raccolti in due momenti differenti, o dell'affidabilità delle forme parallele, che necessita la costruzione di due forme alternative di un test, alpha può essere calcolato con un singolo set di dati. Questo rende alpha un indice di affidabilità praticamente conveniente.

Tuttavia, è un errore comune credere che alpha misuri l'omogeneità delle intercorrelazioni tra gli elementi o che confermi la unidimensionalità di una scala. In realtà, il coefficiente alpha non fornisce informazioni dirette sull'omogeneità o sulla struttura dimensionale della scala.

Per affrontare la questione della unidimensionalità, è necessario ricorrere a metodi più sofisticati come l'analisi fattoriale confermativa e i modelli di equazioni strutturali (SEM). Questi approcci permettono di testare quanto bene la matrice di correlazione degli elementi aderisca a un modello con un unico fattore anziché a modelli multifattoriali, ovvero di valutare se le correlazioni tra gli elementi si spiegano meglio con un singolo costrutto sottostante.

Nell'ambito delle analisi SEM, le saturazioni degli item indicano quanto della varianza di un item sia condivisa con gli altri (e quindi generalizzabile), mentre la varianza residua dell'item cattura l'errore unico a quell'item. La multidimensionalità si manifesta invece nella capacità di un modello multifattoriale di fornire un migliore adattamento dei dati rispetto a un modello a singolo fattore.

Di fronte alla constatazione che un test è multidimensionale, è appropriato continuare a utilizzare alpha come indice di affidabilità? La risposta è negativa. Se un test non è unidimensionale, alpha tende a sottostimare l'affidabilità. Quindi, in presenza di multidimensionalità, è consigliabile adottare altri metodi per valutare l'affidabilità, piuttosto che affidarsi esclusivamente al coefficiente alpha.

### Il Fenomeno dell'Attenuazione in Relazione all'Affidabilità

All'interno del quadro della teoria classica dei test, come delineato da Lord e Novick nel 1968, l'affidabilità assume un ruolo cruciale in quanto condiziona la forza della correlazione che una misura può avere con altre variabili, come un criterio esterno. Secondo questa teoria, se l'errore nelle misurazioni è veramente casuale, il limite massimo della correlazione tra una misura e un'altra variabile non è 1,0, ma piuttosto la radice quadrata dell'affidabilità di quella misura.

Ciò implica che, in presenza di un'affidabilità non ottimale, la correlazione effettiva tra una misura e qualsiasi altra variabile viene sistematicamente sottostimata, un fenomeno noto come attenuazione. Questa attenuazione è direttamente proporzionale all'inadeguatezza dell'affidabilità: più bassa è l'affidabilità di una misura, maggiore sarà la sottostima della sua correlazione con altre variabili. Pertanto, per ottenere stime accurate delle correlazioni e comprendere veramente le relazioni tra diverse variabili, è fondamentale assicurarsi che le misure utilizzate siano il più affidabili possibile. Questa considerazione sottolinea l'importanza dell'accuratezza e della precisione nelle procedure di misurazione psicologica.

### Espansione della Teoria Classica dei Test: L'Approccio della Teoria della Generalizzabilità

La categorizzazione tradizionale delle "tipologie di affidabilità" nella letteratura psicologica, come precedentemente esposta, ha mascherato un'importante limitazione della teoria classica dei test. Se assumiamo che le misurazioni siano veramente parallele e gli errori casuali, tutte le diverse misure di affidabilità dovrebbero convergere verso conclusioni simili. Tuttavia, la realtà è più complessa: l'affidabilità dipende dalla specifica dimensione di generalizzazione presa in considerazione. Inoltre, concetti come "il Coefficiente di Stabilità" o "il Coefficiente Alfa" sono diventati cristallizzati, trascurando la natura più sfaccettata e ampia dell'affidabilità concepita inizialmente.

Rispondendo a questa limitazione, l'*American Psychological Association* (APA) ha proposto, a partire dal 1985 negli "Standard per il Testing Educativo e Psicologico", di superare queste distinzioni e terminologie in favore della teoria della generalizzabilità, introdotta da Cronbach e collaboratori nel 1963. Nonostante ciò, la prassi nei campi di ricerca non si è adeguatamente evoluta e la teoria della generalizzabilità non ha ancora completamente sostituito le nozioni più semplicistiche che sono diventati popolari in psicologia. Per mettere in luce l'incompletezza dell'approccio classico, possiamo esaminare diverse dimensioni della generalizzabilità che vengono considerate e approfondite all'interno di questa teoria.

- **Dimensione Temporale**: La teoria della generalizzabilità riconosce che le misurazioni possono variare a seconda del momento in cui vengono effettuate. Ad esempio, le risposte a un questionario potrebbero differire in momenti diversi a causa di fattori come lo stato d'animo o l'esperienza.
  
- **Dimensione delle Forme**: La teoria della generalizzabilità considera anche la variabilità tra diverse versioni di uno strumento di misurazione, come diverse versioni di un questionario, e come questa variabilità influenzi l'affidabilità.

- **Dimensione degli Item**: La teoria della generalizzabilità si focalizza sulla variabilità tra gli item di un test, riconoscendo che differenti item possono generare risposte diverse, influenzando così l'affidabilità complessiva.

- **Dimensione dei Giudici o Osservatori**: In contesti dove le valutazioni sono soggettive, la variabilità tra i giudici diventa un aspetto critico. La teoria della generalizzabilità esamina come queste differenze influenzino l'affidabilità.

La teoria della generalizzabilità enfatizza che l'interesse per l'affidabilità deriva dalla necessità di estendere le osservazioni a un'ampia varietà di situazioni. La precisione nel trasferire valutazioni da un gruppo di giudici all'altro, o la validità di una scala di atteggiamento sviluppata attraverso diverse procedure, sono questioni centrali. A differenza della teoria classica dei test, che si concentra sull'errore, la teoria della generalizzabilità mira a identificare e quantificare l'impatto di specifiche fonti di varianza nei punteggi dei test in contesti particolari.

Di conseguenza, al posto dei convenzionali coefficienti di affidabilità precedentemente menzionati, la teoria della generalizzabilità suggerisce che si dovrebbe prediligere l'uso di misure più ampie di affidabilità, come il coefficiente di correlazione intraclasse, per esaminare specifici aspetti dell'affidabilità. La teoria della generalizzabilità è particolarmente utile in ricerche con dati strutturati in maniera nidificata e dove diverse dimensioni possono influenzare l'affidabilità, come ad esempio nei metodi di valutazione ecologica momentanea.

### La Teoria della Risposta agli Item

La Teoria della Risposta agli Item (IRT) affronta queste limitazioni stabilendo una relazione tra le risposte degli individui a un item specifico e il costrutto latente, utilizzando una funzione chiamata *curva caratteristica dell'item*. Questa curva illustra la probabilità che individui con diversi livelli del costrutto condividano il contenuto dell'item; fornisce quindi informazioni su quanto efficacemente l'item distingue tra individui con livelli elevati rispetto a quelli con livelli bassi del tratto latente, oltre a misurare la difficoltà dell'item stesso. Queste informazioni sono particolarmente utili per i ricercatori che intendono individuare eventuali bias negli item. Secondo la IRT, un item è privo di bias nel misurare un costrutto, come ad esempio il conservatorismo, se gli individui che condividono lo stesso livello di conservatorismo ottengono punteggi attesi simili sull'item, indipendentemente da dimensioni concettualmente non rilevanti come genere, etnia o background culturale.

Nel contesto della creazione e valutazione di scale psicometriche, la IRT offre vantaggi significativi:
1. **Selezione degli Item**: Permette di scegliere gli item basandosi sia sulla difficoltà che sulla capacità di discriminare, superando la limitazione della teoria classica che si basa solo sulle correlazioni item-punteggio totale.
2. **Testing Adattivo Computerizzato**: La IRT facilita la valutazione della posizione di un individuo su un costrutto latente senza necessità di somministrare l'intero test, grazie a tecniche come il testing adattivo computerizzato.

In sintesi, la IRT fornisce strumenti quantitativi per esplorare in dettaglio la relazione tra un item specifico e il costrutto latente, attraverso parametri di difficoltà e discriminazione. Queste informazioni sono preziose per l'analisi degli item e lo sviluppo delle scale, consentendo ai ricercatori di selezionare gli item più adatti a misurare determinati livelli del costrutto di interesse e di identificare eventuali bias negli item tra diversi gruppi di individui.

## Evoluzione e Comprensione della Validità nelle Misure Psicologiche

La concezione della validità, come inizialmente delineata da Cronbach e Meehl nel 1955 e dal comitato APA sui test psicologici, ha subito una notevole evoluzione nel corso del tempo. Inizialmente, furono identificati diversi tipi di validità:

- **Validità di Contenuto**: Misura il grado in cui gli item di un test rappresentano equamente il dominio del costrutto che si intende misurare.
- **Validità di Facciata**: Valuta se gli item del test appaiono, a una valutazione superficiale, idonei a misurare il costrutto desiderato.
- **Validità Orientata al Criterio**:
    - **Predittiva**: Si focalizza sulla capacità dei punteggi del test di prevedere comportamenti o risultati futuri.
    - **Concorrente**: Riguarda quanto i punteggi del test corrispondano ai punteggi attuali su un criterio esterno.
- **Validità di Costrutto**: Esamina se il test misura effettivamente il costrutto che pretende di misurare.

Tuttavia, queste distinzioni iniziali, che separavano rigidamente i diversi tipi di validità, sono state gradualmente viste come frammentarie e limitate. Si è compreso che un costrutto rappresenta un concetto teorico che necessita di un approccio metodologico più ampio e integrato per la sua valutazione. 

Nel corso del tempo, è emerso un consenso sull'importanza fondamentale della validità di costrutto per la misurazione psicologica. Questo sposta l'accento dalla visione classica dei test, che vedeva le misure come indicatori imperfetti a causa dell'errore di misurazione, verso un'interpretazione più olistica e basata sulla teoria. Samuel Messick, nel 1989 e nel 1995, ha proposto un approccio comprensivo alla validità di costrutto, enfatizzando che la validità non è solo un'attributo del test in sé, ma piuttosto un giudizio complessivo sul grado in cui le evidenze e le giustificazioni teoriche supportano l'uso e l'interpretazione dei punteggi del test.

Messick sosteneva che la validità è una caratteristica dell'interpretazione e dell'uso di una misura, non della misura stessa. Ciò significa che la validità non è statica ma si sviluppa nel tempo attraverso una "rete nomologica" in continua evoluzione di relazioni teoriche e empiriche che supportano l'interpretazione specifica dei punteggi del test. Questo approccio riconosce che la validazione di un costrutto è un processo continuo e dinamico, simile allo sviluppo e alla conferma di qualsiasi altra teoria o modello scientifico. In sintesi, l'approccio moderno alla validità sottolinea la necessità di un'analisi comprensiva e teoricamente fondata per interpretare e utilizzare i punteggi dei test psicologici.

## Approfondimento su Tecniche di Validazione di Costrutto e Costruzione di Scale

### Analisi Fattoriale Confermativa (CFA)
La CFA è un approccio strutturato che si basa sull'ipotesi che un insieme ampio di osservazioni sia riconducibile a un numero limitato di costrutti latenti. A differenza dell'Analisi Fattoriale Esplorativa, che è spesso criticata per la sua natura arbitraria, la CFA richiede che i ricercatori specificino a priori un modello teorico. Questo modello definisce come le variabili osservabili siano correlate ai fattori latenti. La CFA utilizza tecniche statistiche avanzate per testare quanto bene il modello proposto si adatti ai dati raccolti, permettendo anche di confrontare il modello con altre alternative per valutare quale si adatti meglio.

La rappresentazione grafica dei modelli CFA, nota come analisi dei percorsi, aiuta a comunicare le assunzioni e le relazioni ipotizzate nel modello, rendendolo più accessibile e comprensibile.

### Utilizzo della CFA nella Coerenza Interna di una Scala
Tradizionalmente, l'analisi della coerenza interna di una scala si avvaleva dei metodi della teoria classica dei test. Tuttavia, l'adozione della CFA offre un approccio più avanzato e strutturato, consentendo un'analisi più precisa e informativa delle relazioni tra gli item e i fattori latenti.

### Modelli di Equazioni Strutturali (SEM)
I SEM estendono ulteriormente le capacità della CFA, introducendo la possibilità di esaminare le relazioni di regressione sia tra variabili manifeste e latenti sia interne alle variabili latenti. Ciò permette un'analisi più complessa e dettagliata delle interazioni tra i diversi costrutti.

### Esame della Dimensionalità di un Costrutto
Sia la CFA che i SEM sono strumenti preziosi per testare rigorosamente le ipotesi sulla struttura dimensionale di un costrutto. Questi modelli consentono di valutare la validità delle assunzioni teoriche su come gli item si raggruppino in fattori latenti e come questi fattori interagiscano tra loro.

### Aspetti di Validità Esterna e Matrice Multitrait-Multi Method (MTMM)
I modelli avanzati includono anche l'esame della validità esterna. Utilizzando il disegno MTMM, è possibile ottenere informazioni sia sulla validità convergente (es., confrontando misure autoriportate con quelle ottenute da altre fonti) sia sulla validità discriminante (es., analizzando come misure di costrutti diversi si distinguano tra loro). Questo approccio è fondamentale per verificare che le misure non solo riflettano accuratamente il costrutto in esame, ma siano anche capaci di distinguere tra costrutti differenti.

In conclusione, l'impiego di CFA e SEM nella validazione di costrutti e nello sviluppo di scale psicometriche segna un significativo progresso rispetto ai metodi tradizionali. Questi approcci permettono una comprensione più approfondita e accurata delle relazioni tra variabili osservabili e latenti, contribuendo sostanzialmente al miglioramento della qualità e dell'affidabilità delle misurazioni in ambito psicologico.

## Sviluppo e Validazione delle Scale Psicologiche

La creazione di questionari e scale psicologiche è un processo complesso che riveste un ruolo centrale sia nello sviluppo di nuove misure psicologiche sia nella loro validazione. È fondamentale comprendere che il processo di validazione di costrutto non si limita a misure già esistenti, ma è intrinsecamente legato a tutte le fasi di sviluppo e realizzazione delle scale, rendendolo un elemento cruciale del processo di misurazione psicologica.

### Evoluzione degli Approcci nella Costruzione di Questionari
Negli anni '50, si distinsero tre principali approcci alla creazione di questionari, ognuno dei quali mirava a ottimizzare un aspetto specifico della validità:

1. **Approccio Esterno**: Questo metodo si concentrava sulla massimizzazione della validità di criterio. Coinvolgeva la somministrazione di ampi insiemi di item a gruppi distinti e la selezione empirica degli item che differenziavano significativamente i gruppi. Un esempio famoso di questo approccio è il Minnesota Multiphasic Personality Inventory (MMPI).

2. **Approccio Razionale**: Basato su teorie solide, questo approccio puntava sulla validità di contenuto e di facciata. Gli item venivano creati sulla base di teorie specifiche, risultando in scale con un'evidente validità di contenuto, come il Myers-Briggs Type Indicator (MBTI), parzialmente basato sulle teorie di Carl Jung.

3. **Approccio Induttivo**: Caratterizzato dall'uso dell'analisi fattoriale esplorativa, mirava a esplorare la struttura fattoriale di vasti insiemi di item senza un focus specifico sulla rappresentazione dei contenuti.

### L'Approccio Moderno alla Costruzione di Questionari
Oggi, la costruzione di questionari e scale non si limita a uno solo di questi approcci, ma integra più metodologie in un processo iterativo e dinamico. Questo processo include la generazione di ipotesi, la costruzione di modelli teorici, la formulazione di item basati su definizioni di costrutto e sulla validità di contenuto, la raccolta e l'analisi dei dati, la verifica e l'eventuale modifica dei modelli iniziali, e la raffinazione delle ipotesi per cicli successivi di sviluppo e valutazione. 

Questo processo iterativo si ripete fino al raggiungimento di un modello operativo con un grado di validità considerato adeguato. In questo senso, la costruzione di questionari è un'interazione continua tra sviluppo teorico e convalida empirica, necessitando di un approccio accurato e in evoluzione che si inserisce all'interno del contesto più ampio della validazione di costrutto.

In sintesi, la realizzazione di scale psicologiche oggi rappresenta una sinergia tra teoria e pratica empirica, richiedendo un processo accurato e continuamente evolutivo che tenga conto di diverse fonti di validità, modelli teorici, e metodologie di analisi.

## Riflessioni Finali e Direzioni Future

Nel corso di questo capitolo, abbiamo esplorato vari aspetti chiave della misurazione psicologica, mettendo in luce l'importanza di andare oltre i tradizionali coefficienti di affidabilità, come l'alpha di Cronbach. Abbiamo enfatizzato la necessità di considerare la generalizzabilità delle misure, sottolineando come fattori quali il tempo, gli elementi specifici del test e le differenze tra gli osservatori possano influenzare l'affidabilità.

Inoltre, abbiamo delineato un approccio unificato alla validità di costrutto, che incorpora e supera i limiti delle concezioni tradizionali di validità, focalizzandosi sull'importanza di considerare il costrutto in maniera olistica e integrata. Questo approccio mette in evidenza come la validazione di un costrutto sia un processo dinamico che coinvolge l'analisi continua delle evidenze e delle teorizzazioni a sostegno dell'uso dei punteggi dei test.

Abbiamo anche introdotto le potenzialità offerte dai Modelli di Equazioni Strutturali (SEM), che rappresentano un avanzamento significativo nella modellazione statistica e nell'analisi della struttura delle scale psicologiche. Questi modelli permettono di valutare in modo più accurato e sofisticato le relazioni tra variabili osservate e latenti.

Infine, abbiamo offerto una panoramica sulla costruzione di scale psicologiche, evidenziando come questo processo sia diventato più integrato e riflessivo, combinando approcci teorici e empirici per sviluppare strumenti di misurazione validi e affidabili. Chi volesse approfondire ulteriormente questi argomenti, può fare riferimento al testo di {cite:t}`john2014measurement`.

## Esercizi

Bandalos, capitolo 1, E1, E3, E4.