(err-std_mis-notebook)=
# L'errore standard della misurazione 

In [3]:
source("_common.R")
suppressWarnings(suppressMessages(library("psychometric")))

Secondo {cite:t}`lord1968statistical`, l'errore $E = X - T$ rappresenta la variabile aleatoria di primario interesse per la CTT. Infatti, poiché lo scopo della CTT è di stimare il punteggio vero di ciascun rispondente e confrontare le stime ottenute per rispondenti diversi, la grandezza dell'errore $E$ è un'informazione essenziale. La discrepanza tra il punteggio osservato e il punteggio vero può essere misurata utilizzando la deviazione standard di $E$, chiamata "errore standard della misurazione" o SEM. Pertanto, l'errore standard della misurazione è lo strumento utilizzato dalla CTT per stimare in che misura un punteggio osservato si discosta da un punteggio vero.

In questo capitolo vedremo come si può stimare $\sigma_E$ nel caso di un campione di osservazioni.

## L'incertezza della misura 

In base alla CTT, è possibile stimare l'errore standard della misurazione utilizzando una formula che dipende dalla deviazione standard della distribuzione dei punteggi del test e dall'attendibilità del test. Mediante questa formula, è possibile ottenere una stima dell'errore standard associato a un singolo punteggio, il quale indica quanto il punteggio osservato può variare rispetto al vero punteggio di un individuo:

$$
\sigma_E = \sigma_X \sqrt{1 -\rho_{XX^\prime}},
$$ (eq-err-stnd-mis)

dove $\sigma_X$ rappresenta la deviazione standard dei punteggi ottenuti da un campione di soggetti e $\rho_{XX^\prime}$ è il coefficiente di attendibilità. Attraverso questo calcolo, si ottiene l'errore standard della misurazione sottraendo l'attendibilità del test da 1, quindi calcolando la radice quadrata del risultato e moltiplicandolo per la deviazione standard dei punteggi del test.

La logica alla base dell'errore standard della misurazione si fonda sull'assunzione che se una persona dovesse sostenere numerosi test equivalenti, i punteggi ottenuti seguirebbero una distribuzione normale con il vero punteggio dell'individuo come media. In altre parole, possiamo immaginare che l'individuo affronti ripetutamente versioni identiche del test, in circostanze simili e senza ricordare le risposte precedenti. In tale contesto ipotetico, l'errore standard della misurazione rappresenterebbe la deviazione standard tra queste misurazioni ripetute.

La formula sopra indicata evidenzia come l'errore standard della misurazione ($\sigma_E$) sia strettamente correlato all'attendibilità del test: all'aumentare dell'attendibilità del test, l'errore standard della misurazione diminuisce. Se l'attendibilità del test si avvicina a 0, l'errore standard della misurazione tende a diventare uguale alla deviazione standard dei punteggi osservati del test. In contrasto, se l'attendibilità del test raggiunge 1, l'errore standard della misurazione si riduce a zero: in una situazione di perfetta affidabilità, in cui non vi è alcun errore di misurazione, $\sigma_E$ assume valore zero.

### Interpretazione

Secondo la prospettiva di McDonald, il termine di errore ($E$) segue una "propensity distribution", che riflette le fluttuazioni casuali nel tempo di un individuo nel rispondere al test. Queste fluttuazioni possono derivare da variabili come l'umore, la motivazione e altri fattori. L'errore standard di misura fornisce una stima della deviazione standard di tali punteggi, rappresentando la dispersione attesa dei punteggi che un singolo individuo otterrebbe in un numero infinito di somministrazioni del test (o di test paralleli) sotto identiche condizioni, nel caso in cui il vero punteggio rimanesse costante.

D'altro canto, la CTT assume che i punteggi ottenuti da un individuo in infinite somministrazioni del test, nelle stesse condizioni, seguano una distribuzione normale centrata sul vero valore. L'errore standard di misura diviene, quindi, la stima della deviazione standard di questa distribuzione teorica di punteggi. Maggiore è l'errore standard di misura, maggiore è l'incertezza introdotta nel processo di utilizzo del test per valutare l'abilità latente del rispondente.

Il coefficiente di attendibilità, la varianza dell'errore e l'errore standard di misura sono tutti indicatori diretti o indiretti della precisione del test. Tuttavia, ciascuno di essi fornisce un'informazione specifica sul livello di precisione del test:

-   L'errore standard di misura permette di fare inferenze sulla precisione del singolo punteggio osservato di un partecipante, mentre il coefficiente di attendibilità non ha una rappresentazione diretta in questo senso.
-   L'errore standard di misura è espresso nella stessa unità di misura del punteggio osservato, a differenza della varianza di $E$, che è espressa in termini del quadrato del punteggio osservato.
-   L'attendibilità rappresenta un rapporto tra varianze ed è quindi un indice adimensionale.

**Esempio 1.** Consideriamo un esempio in cui un test di intelligenza fornisce un punteggio medio di 100 con una deviazione standard di 15. Supponiamo inoltre che l'attendibilità di questo test sia pari a 0.73. Vogliamo calcolare l'errore standard della misurazione.

Utilizzando la formula dell'errore standard della misurazione, otteniamo:

$$
\begin{equation}
\begin{aligned}
\sigma_E &= \sigma_X \sqrt{1 -\rho_{XX^\prime}} \notag\\
&= 15 \sqrt{1 - 0.73} \notag\\
&= 7.79.\notag
\end{aligned}
\end{equation}
$$

Il valore 7.79 rappresenta l'errore standard atteso nei punteggi ottenuti da un singolo individuo se il test fosse somministrato più volte sotto identiche condizioni. In altre parole, ci aspettiamo che i punteggi variino in media di circa 8 punti tra diverse somministrazioni del test.

Inoltre, possiamo utilizzare l'errore standard della misurazione per calcolare un intervallo di confidenza intorno al vero punteggio del rispondente. Utilizzando la proprietà della distribuzione gaussiana, possiamo stimare che il 95% dei punteggi ottenuti da ripetute somministrazioni del test si troveranno nell'intervallo:

$$
\text{punteggio vero del rispondente} \pm 1.96 \cdot \text{errore standard della misurazione}. 
$$

Nel nostro caso, questo intervallo sarebbe pari a $2 \cdot 1.96 \cdot 7.79 = 30.54$ punti. Quindi, ci aspettiamo che i punteggi del QI di un singolo rispondente varino all'interno di un intervallo di 30 punti se il test fosse somministrato molte volte sotto le stesse condizioni.

Questo esempio dimostra che se un test ha un'attendibilità di 0.73 e una deviazione standard dei punteggi di 15, la misurazione del test su un singolo individuo risulterebbe poco affidabile a causa dell'ampio errore di misurazione. A titolo di confronto, la Full Scale IQ (FSIQ) della WAIS-IV {cite:p}`wechsler2008wechsler` ha un'attendibilità split-half di 0.98 e un errore standard di misurazione di 2.16.

L'errore standard della misurazione può anche essere calcolato utilizzando la funzione `SE.Means()` del pacchetto `psychometric`.

In [4]:
SE.Meas(15, .73)

**Esempio 2.** Continuando con l'esempio precedente, per gli ipotetici dati riportati
sopra, poniamoci ora la seguente domanda: qual è la probabilità che un
rispondente ottenga un punteggio minore o uguale a 116 nel test, se il
suo punteggio vero è uguale a 120?

Il problema si risolve rendendosi conto che i punteggi del
rispondente si distribuiscono normalmente attorno al punteggio vero di
120, con una deviazione standard uguale a 7.79. Dobbiamo dunque trovare
l'area sottesa alla normale $\mathcal{N}(120, 7.79)$ nell'intervallo
$[-\infty, 116]$. Utilizzando , la soluzione si trova nel modo
seguente:

In [5]:
pnorm(116, 120, 7.79)

Se la variabile aleatorie corrispondente al punteggio osservato segue
una distribuzione $\mathcal{N}(120, 7.79)$, la probabilità che il
rispondente ottenga un punteggio minore o uguale a 116 è dunque uguale a
0.30.

**Esempio 3.** Sempre per l'esempio discusso, poniamoci ora la seguente domanda: quale intervallo di valori centrato sul punteggio vero contiene, con una probabilità di 0.95, i punteggi che il rispondente otterrebbe in ipotetiche somministrazioni ripetute del
test sotto le stesse identiche condizioni?

Dobbiamo trovare i quantili della distribuzione $\mathcal{N}(120, 7.79)$ a cui sono associate le probabilità di 0.025 e 0.975. La soluzione è dunque data da:

In [6]:
qnorm(c(.025, .975), 120, 7.79)

L'intervallo cercato è dunque $[104.7, 135.3]$.

**Esempio 4.** Calcoliamo ora l'errore standard di misurazione utilizzando un campione di dati grezzi. Esamineremo un set di dati discusso da {cite:t}`brown2015confirmatory`. I dati consisteono in 9 indicatori usati per misurare la depressione maggiore così come è definita nel DSM-IV:

- MDD1: depressed mood;
- MDD2: loss of interest in usual activities;
- MDD3: weight/appetite change;
- MDD4: sleep disturbance;
- MDD5: psychomotor agitation/retardation;
- MDD6: fatigue/loss of energy;
- MDD7: feelings of worthlessness/guilt;
- MDD8: concentration difficulties;
- MDD9: thoughts of death/suicidality.

Importiamo i dati:

In [27]:
df <- readRDS(
    here::here("data", "mdd_sex.RDS")
) |>
    dplyr::select(-sex)

Ci sono 750 osservazioni:

In [21]:
dim(df)

In [20]:
head(df)

Unnamed: 0_level_0,mdd1,mdd2,mdd3,mdd4,mdd5,mdd6,mdd7,mdd8,mdd9
Unnamed: 0_level_1,<int>,<int>,<int>,<int>,<int>,<int>,<int>,<int>,<int>
1,5,4,1,6,5,6,5,4,2
2,5,5,5,5,4,5,4,5,4
3,4,5,4,2,6,6,0,0,0
4,5,5,3,3,5,5,6,4,0
5,5,5,0,5,0,4,6,0,0
6,6,6,4,6,4,6,5,6,2


Calcoliamo il coefficiente di attendibilità $\alpha$ di Cronbach con la funzione `alpha()` del pacchetto `psych`.

In [40]:
res <- psych::alpha(df)
alpha <- res$total$raw_alpha
alpha

Calcoliamo un vettore che contiene il punteggio totale del test per ciascun individuo:

In [None]:
total_score <- rowSums(df)

Infine, troviamo l'errore standard di misurazione:

In [41]:
sd(total_score) * sqrt(1 - alpha)

Confrontiamo il risultato con quello ottenuto con la funzione `SE.Meas()`:

In [42]:
SE.Meas(sd(total_score), alpha)

## Dimostrazione

Esaminiamo ora la derivazione della formula per l'errore standard di misurazione, $\sigma_E = \sigma_X \sqrt{1 - \rho_{XX^\prime}}$. Per arrivare a questa formula, seguiremo due passaggi chiave: innanzitutto, calcoleremo la varianza del vero punteggio e successivamente rappresenteremo il punteggio osservato come la somma della varianza del vero punteggio e la varianza dell'errore.

Iniziamo definendo il coefficiente di attendibilità come $\rho_{XX^\prime} = \frac{\sigma^2_T}{\sigma^2_X}$, in cui $\sigma^2_T$ è la varianza del vero punteggio e $\sigma^2_X$ è la varianza del punteggio osservato. Utilizzando questa definizione, possiamo riscrivere $\sigma^2_T$ come $\sigma^2_T = \rho_{XX^\prime} \sigma^2_X$, considerando che $X$ e $X^\prime$ sono forme parallele di un test e con proprietà simili.

Dato che $\sigma_X = \sigma_{X^\prime}$, possiamo semplificare l'equazione precedente in $\sigma^2_T = \rho_{XX^\prime} \sigma_X \sigma_{X^\prime}$. Inoltre, la covarianza tra $X$ e $X^\prime$ è definita come $\sigma_{XX^\prime} = \rho_{XX^\prime} \sigma_X \sigma_{X^\prime}$. Da qui, possiamo affermare che $\sigma^2_T = \sigma_{XX^\prime}$, dato che la varianza del vero punteggio equivale alla covarianza tra due misurazioni parallele.

Ora, passiamo a calcolare la varianza dell'errore, $\sigma^2_E$. La varianza del punteggio osservato è espressa come $\sigma^2_X = \sigma^2_T + \sigma^2_E$. Utilizzando la definizione di attendibilità, possiamo riscrivere questa equazione come $\sigma^2_X = \rho_{XX^\prime} \sigma^2_X + \sigma^2_E$, da cui otteniamo:

$$
\begin{equation}
\begin{aligned}
\sigma^2_E &= \sigma^2_X - \sigma^2_X \rho_{XX^\prime} \\
&= \sigma^2_X (1 - \rho_{XX^\prime}).
\end{aligned}
\end{equation}
$$

Di conseguenza, la varianza dell'errore di misurazione, $\sigma^2_E$, può essere espressa come il prodotto di due fattori: il primo rappresenta la varianza del punteggio osservato, mentre il secondo equivale a uno meno la correlazione tra le due forme parallele del test ($\rho_{XX^\prime}$). In conclusione, abbiamo calcolato l'incognita $\sigma^2_E$ in termini di due quantità osservabili, $\sigma^2_X$ e $\rho_{XX^\prime}$.

## Intervallo di confidenza per il punteggio vero e $\sigma_E$

L'errore standard della misurazione trova molteplici applicazioni, ma uno degli impieghi più comuni è nella creazione degli intervalli di confidenza per il punteggio vero. Tuttavia, è importante sottolineare che questa pratica non è corretta {cite:p}`charter1996revisiting`. Gli intervalli di confidenza costruiti utilizzando l'errore standard della misurazione sono a volte interpretati in modo errato, dando l'idea che l'intervallo di confidenza al livello $(1 - \alpha)%$ definisca un intervallo di valori centrato sul valore osservato. Questo intervallo, secondo l'interpretazione errata, conterrebbe i punteggi veri del test nell'$(1 - \alpha)%$ delle ipotetiche somministrazioni ripetute del test. Tuttavia, tale interpretazione non è corretta e va chiarita. In realtà, come accennato precedentemente, l'errore standard della misurazione rappresenta la deviazione standard calcolata *rispetto al valore vero*, considerando le ipotetiche misurazioni ripetute dello stesso test. Si può ribadire questo concetto nel modo seguente: "In spite of {cite:t}`dudek1979continuing`'s reminder that the SEM should not be used to construct confidence intervals, many test manuals, computer-scoring programs, and texts in psychology and education continue to do so. Because authors of many textbooks and manuals make these errors, it is understandable that those who learned from and look to these sources for guidance also make these errors. In summary, the SEM should not be used to construct confidence intervals for test scores" (p. 1141).

## Conclusioni

Nel contesto della CTT, le stime di affidabilità si rivelano uno strumento fondamentale per valutare la coerenza dei test. Tuttavia, quando si affrontano decisioni relative al singolo individuo, come ad esempio determinare se un candidato supera un esame, diventa più vantaggioso fare riferimento all'errore standard di misurazione (SEM). Il SEM rende evidente quanto i punteggi di un test siano suscettibili di fluttuazioni casuali se lo stesso test venisse ripetuto più volte dallo stesso esaminando. In generale, un SEM più ridotto corrisponde a un intervallo di fluttuazioni casuali più stretto. Ciò implica che, grazie a un SEM più basso, i punteggi rifletteranno in modo più coerente le vere capacità dell'esaminando.