(ctt-2-notebook)=
# L'affidabilità del test

In [None]:
source("_common.R")

L'affidabilità è un concetto fondamentale nella teoria della misurazione, che riguarda la coerenza, la stabilità e la precisione delle misurazioni in diverse condizioni. Poiché le condizioni in cui i punteggi possono variare dipendono dal tipo di misurazione in questione, esistono diversi metodi per valutare l'affidabilità di un test.

Le misure di affidabilità test-retest, note anche come coefficienti di stabilità, vengono utilizzate quando si desidera valutare la coerenza dei punteggi nel tempo. In pratica, lo stesso test viene somministrato a un gruppo di individui in due momenti diversi, e la correlazione tra i punteggi totali ottenuti fornisce una stima dell'affidabilità del test. Tuttavia, questo metodo è limitato dal fatto che le condizioni possono variare nel tempo e influenzare i risultati.

Le misure di affidabilità delle forme alternative, o coefficienti di equivalenza, sono utili quando ci sono diverse versioni del test progettate per fornire punteggi equivalenti. Questo metodo permette di valutare se le diverse versioni del test producono risultati simili e coerenti tra loro.

Le misure di consistenza interna riflettono il grado di correlazione tra gli elementi di un test. Questa forma di affidabilità è importante per i test che contengono più elementi, i quali vengono sommati o mediati per ottenere un punteggio totale. Un elevato grado di consistenza interna indica che gli elementi del test misurano lo stesso costrutto in modo coerente.

Infine, le misure dell'accordo tra osservatori valutano la coerenza dei punteggi ottenuti da diversi osservatori. Questo tipo di affidabilità è rilevante in situazioni in cui più osservatori stanno valutando lo stesso fenomeno e si vuole verificare la coerenza dei loro giudizi.

In conclusione, l'affidabilità è un aspetto cruciale per garantire la validità e la precisione delle misurazioni. Utilizzando diversi metodi per valutare l'affidabilità, è possibile ottenere una valutazione più completa e accurata delle misure effettuate.

## L'attendibilità del test

In questo capitolo esamineremo l'affidabilità intesa come misura di consistenza secondo la CTT. Il coefficiente di attendibilità, anche noto come affidabilità, costanza o credibilità, ci offre una stima della proporzione di varianza nei punteggi osservati attribuibile all'abilità latente o "punteggio vero", ovvero la parte priva di errore di misurazione. Un coefficiente di attendibilità superiore a 0.80 viene generalmente considerato soddisfacente, poiché indica che almeno l'80% della varianza nei punteggi ottenuti è dovuto all'abilità effettivamente misurata dal test, piuttosto che all'errore di misurazione.

Per definire l'attendibilità, la CTT si basa su due informazioni chiave:

1. La varianza dei punteggi osservati.
2. La correlazione tra il punteggio osservato e il punteggio vero.

Vedremo come ottenere queste informazioni utilizzando le assunzioni del modello statistico alla base della CTT.

### La varianza del punteggio osservato

La varianza del punteggio osservato $X$ è uguale alla somma della varianza del punteggio vero e della varianza dell'errore di misurazione:

$$
\sigma^2_X =   \sigma_T^2 + \sigma_E^2.
$$(eq-var-sum)

La dimostrazione è la seguente. La varianza del punteggio osservato è uguale a

$$
\sigma^2_X =  \mathbb{V}(T+E) =  \sigma_T^2 + \sigma_E^2 + 2 \sigma_{TE}.
$$(eq-3-2-4)

Dato che $\sigma_{TE}=\rho_{TE}\sigma_T \sigma_E=0$, in quanto $\rho_{TE}=0$, ne segue che

$$
\sigma^2_X =   \sigma_T^2 + \sigma_E^2.
$$


### La covarianza tra punteggio osservato e punteggio vero

La covarianza tra punteggio osservato $X$ e punteggio vero $T$ è uguale alla varianza del punteggio vero:

$$
\sigma_{X T} = \sigma_T^2.
$$(eq-cov-obs-true)

La dimostrazione è la seguente. La covarianza tra punteggio osservato e punteggio vero è uguale a

$$
\begin{aligned}
\sigma_{X T} &= \mathbb{E}(XT) - \mathbb{E}(X)\mathbb{E}(T)\notag\\
&=  \mathbb{E}[(T+E)T] - \mathbb{E}(T+E)\mathbb{E}(T)\notag\\
&=  \mathbb{E}(T^2) + \underbrace{\mathbb{E}(ET)}_{=0} - [\mathbb{E}(T)]^2 -  \underbrace{\mathbb{E}(E)}_{=0} \mathbb{E}(T)\notag\\
&=\mathbb{E}(T^2) - [\mathbb{E}(T)]^2\notag \\
&= \sigma_T^2.
\end{aligned}
$$


### Correlazione tra punteggio osservato e punteggio vero

La correlazione tra punteggio osservato $X$ e punteggio vero $T$ è uguale al rapporto tra la covarianza tra $X$ e $T$ divisa per il prodotto delle due deviazioni standard:

$$
\rho_{XT} = \frac{\sigma_{XT}}{\sigma_X \sigma_T} = \frac{\sigma^2_{T}}{\sigma_X \sigma_T} = \frac{\sigma_{T}}{\sigma_X}.
$$(eq-sd-ratio)

Dunque, la correlazione tra il punteggio osservato e il punteggio vero è uguale al rapporto tra la deviazione standard dei punteggi veri e la deviazione standard dei punteggi osservati.

### Definizione e significato dell'attendibilità

Sulla base della {ref}`eq-sd-ratio` giungiamo alla definizione dell'attendibilità. 
La CTT definisce attendibilità di un test (o di un item) come il rapporto tra la varianza del punteggio vero e la varianza del punteggio osservato, ovvero come il
quadrato della correlazione tra punteggio osservato $X$ e punteggio vero
$T$:

$$
\begin{equation}
\rho_{XT}^2 = \frac{\sigma_{T}^2}{\sigma_X^2}.
\end{equation}
$$(eq-reliability-1)

Questa è la quantità fondamentale della CTT e misura il grado di variazione del punteggio vero rispetto alla variazione del punteggio osservato. Dato che $\sigma^2_X = \sigma_T^2 + \sigma_E^2$, in base alla {ref}`eq-reliability-1` possiamo scrivere 

$$
\begin{equation}
\rho_{XT}^2 = \frac{\sigma_{T}^2}{\sigma_X^2} =\frac{\sigma_{X}^2 - \sigma^2_E}{\sigma_X^2} = 1-\frac{\sigma_{E}^2}{\sigma_X^2}.
\end{equation}
$$(eq-3-2-6)

La {eq}`eq-3-2-6` ci dice che il coefficiente di attendibilità assume valore $1$ se la varianza degli errori $\sigma_{E}^2$ è nulla e assume valore $0$ se la varianza degli errori è uguale alla varianza del punteggio osservato. Il coefficiente di attendibilità è dunque un numero puro contenuto nell'intervallo compreso tra $0$ e $1$.

## Attendibilità e modello di regressione lineare

In parole semplici, la CTT (Teoria Classica dei Test) si basa sul modello di regressione lineare, dove i punteggi osservati sono considerati come variabile dipendente e i punteggi veri come variabile indipendente. Il coefficiente di attendibilità $\rho_{XT}^2$ rappresenta la proporzione di varianza nella variabile dipendente spiegata dalla variabile indipendente in un modello di regressione lineare con una pendenza unitaria e un'intercetta di zero. In altre parole, il coefficiente di attendibilità è equivalente al coefficiente di determinazione del modello di regressione.

### Simulazione

Per dare un contenuto concreto alle affermazioni precedenti, consideriamo la seguente simulazione svolta in $\textsf{R}$. In tale simulazione il punteggio vero $T$ e l'errore $E$ sono creati in modo tale da soddisfare i vincoli della CTT: $T$ e $E$ sono variabili casuali gaussiane tra loro incorrelate. Nella simulazione generiamo 100 coppie di valori $X$ e $T$ con i seguenti parametri: $T \sim \mathcal{N}(\mu_T = 12, \sigma^2_T = 6)$, $E \sim \mathcal{N}(\mu_E = 0, \sigma^2_T = 3)$:

In [1]:
set.seed(12345)
library("MASS")

n <- 100
Sigma <- matrix(c(6, 0, 0, 3), byrow = TRUE, ncol = 2)
Sigma
mu <- c(12, 0)
mu
Y <- mvrnorm(n, mu, Sigma, empirical = TRUE)
T <- Y[, 1]
E <- Y[, 2]

0,1
6,0
0,3


Le istruzioni precedenti (`empirical = TRUE`) creano un campione di valori nei quali  le medie e la matrice di covarianze assumono esattamente i valori richiesti. Possiamo dunque immaginare tale insieme di dati come la "popolazione".

Secondo la CTT, il punteggio osservato è $X = T + E$. Simuliamo dunque
il punteggio osservato $X$ come:

In [2]:
X <- T + E

Le prime 6 osservazioni così ottenute sono:

In [None]:
head(cbind(T, E, X))

Un diagramma di dispersione è fornito nella figura seguente:

In [None]:
tibble(X, T) %>%
  ggplot(aes(X, T)) +
  geom_point()

Secondo la CTT, il valore atteso di $T$ è uguale al valore atteso di
$X$. Verifichiamo questa assunzione nei nostri dati:

In [None]:
mean(T)
mean(X)

L'errore deve avere media zero, varianza $\sigma_E^2$ e deve essere
incorrelato con $T$:

In [None]:
mean(E)
var(E)
cor(T, E)

Ricordiamo che la radice quadrata della varianza degli errori è l'errore standard della misurazione, $\sigma_E$. La quantità $\sqrt{\sigma_E^2}$ fornisce una misura della dispersione del punteggio osservato attorno al valore vero, nella condizione ipotetica di ripetute somministrazioni del test:

In [None]:
sqrt(3)

Dato che $T$ e $E$ sono incorrelati, ne segue che la varianza del punteggio osservato $X$ è uguale alla somma della varianza del punteggio vero $T$ e della varianza degli errori $E$:

In [None]:
var(X)
var(T) + var(E)

La varianza del punteggio vero $T$ è uguale alla covarianza tra il
punteggio vero $T$ e il punteggio osservato $X$:

In [None]:
var(T)
cov(T, X)

La correlazione tra punteggio osservato e punteggio vero è uguale al rapporto tra la deviazione standard del punteggio vero e la deviazione standard del punteggio osservato:

In [None]:
cor(X, T)
sd(T) / sd(X)

Per la CTT, l'attendibilità è uguale al quadrato del coefficiente di correlazione tra il punteggio vero $T$ e il punteggio osservato $X$, ovvero:

In [None]:
cor(X, T)^2

La motivazione di questa simulazione è quella di mettere in relazione il
coefficiente di attendibilità, calcolato con la formula della CTT (come abbiamo fatto sopra), con il modello di regressione lineare. Analizziamo dunque i dati della
simulazione mediante il seguente modello di regressione lineare:

$$
X = a + b T + E.
$$

Usando $\textsf{R}$ otteniamo:

In [None]:
fm <- lm(X ~ T)
summary(fm)

Si noti che la retta di regressione ha intercetta 0 e pendenza 1. Questo è coerente con l'assunzione $\mathbb{E}(X) = \mathbb{E}(T)$. Ma il risultato più importante di questa simulazione è che il coefficiente di determinazione ($R^2$ = 0.67) del modello di regressione $X = 0 + 1 \times T + E$ è identico al coefficiente di attendibilità calcolato con la formula $\rho_{XT}^2 = \frac{\sigma_{T}^2}{\sigma_X^2}$:

In [None]:
var(T) / var(X)

Ciò ci consente di interpretare il coefficiente di attendibilità nel modo
seguente: l'attendibilità di un test non è altro che la quota di varianza del punteggio osservato $X$ che viene spiegata dalla regressione di $X$ sul punteggio vero $T$ in un modello di regressione lineare dove $\alpha$ = 0 e $\beta$ = 1.

## Misurazioni parallele e affidabilità

L'equazione $\rho_{XT}^2 = \frac{\sigma_{T}^2}{\sigma_X^2}$ definisce il
coefficiente di attendibilità ma non ci fornisce gli strumenti per
calcolarlo in pratica, dato che la varianza del punteggio vero $\sigma_{T}^2$ è una
quantità incognita. Il metodo utilizzato dalla CTT per ottenere una
stima empirica dell'attendibilità è quello delle *forme parallele* del
test: se è possibile elaborare versioni alternative dello stesso test
che risultino equivalenti tra loro in termini di contenuto, modalità di
risposta e caratteristiche statistiche, allora diventa anche possibile
stimare il coefficiente di attendibilità.

Secondo la CTT, due test $X=T+E$ e $X^\prime=T^\prime+E^\prime$ si dicono misurazioni
parallele della stessa abilità latente se 

- $T = T^\prime$,
- $\mathbb{V}(E) = \mathbb{V}(E^\prime)$.

Da tali assunzioni segue che $\mathbb{E}(X) = \mathbb{E}(X^\prime)$.

````{prf:proof}
Dato che $\mathbb{E}(X) = T$ e che $\mathbb{E}(X^\prime) = T$, è immediato vedere che $\mathbb{E}(X) =\mathbb{E}(X^\prime)$ in quanto $\mathbb{E}(E) = \mathbb{E}(E^\prime) = 0$.
````

In maniera corrispondente, anche le varianze dei punteggi osservati di due misurazioni parallele devono essere uguali, $\mathbb{V}(X) = \mathbb{V}(X^\prime)$.

````{prf:proof}
Per $X$ abbiamo che $\mathbb{V}(X) = \mathbb{V}(T + E) = \mathbb{V}(T) + \mathbb{V}(E)$; per $X^\prime$ abbiamo che $\mathbb{V}(X^\prime) = \mathbb{V}(T^\prime + E^\prime) = \mathbb{V}(T^\prime) + \mathbb{V}(E^\prime)$. Dato che $\mathbb{V}(E) = \mathbb{V}(E^\prime)$ e che $T = T^\prime$, ne segue che $\mathbb{V}(X) = \mathbb{V}(X^\prime)$.
````

Per costruzione, inoltre, gli errori $E$ e $E^\prime$ devono essere incorrelati con $T$ e tra loro.

### La correlazione tra due forme parallele del test

Dimostriamo ora che, in base alle assunzioni della CTT, la correlazione tra  due forme parallele del test è uguale al rapporto tra la varianza del punteggio vero e la varianza del punteggio osservato. 

La dimostrazione è la seguente. Assumendo, senza perdita di generalità, che $\mathbb{E}(X)=\mathbb{E}(X')=\mathbb{E}(T)=0$, possiamo scrivere 

$$
\begin{equation}
\begin{aligned}
\rho_{X X^\prime} &= \frac{\sigma(X, X^\prime)}{\sigma(X) \sigma(X^\prime)}\notag\\
&= \frac{\mathbb{E}(XX^\prime)}{\sigma(X) \sigma(X^\prime)}\notag\\
&=\frac{\mathbb{E}[(T+E)(T+E^\prime)]}{\sigma(X) \sigma(X^\prime)}\notag\\
&=\frac{\mathbb{E}(T^2)+\mathbb{E}(TE^\prime)+\mathbb{E}(TE)+ \mathbb{E}(EE^\prime)}{\sigma(X) \sigma(X^\prime)}.\notag
\end{aligned}
\end{equation}
$$

Ma $\mathbb{E}(TE) = \mathbb{E}(TE^\prime) = \mathbb{E}(EE^\prime)=0$. Inoltre, $\sigma(X) =\sigma(X^\prime)= \sigma_X$. Dunque,

$$
\begin{equation}
\rho_{X X^\prime} =\frac{\mathbb{E}(T^2)}{\sigma_X \sigma_X} = \frac{\sigma^2_T}{\sigma^2_X}.
(\#eq:3-3-5)
\end{equation}
$$

Si noti come la \@ref(eq:3-3-5) e l'equazione che definisce il coefficiente di attendibilità, ovvero $\rho_{XT}^2 = \frac{\sigma_{T}^2}{\sigma_X^2}$, riportano tutte e due la stessa quantità a destra dell'uguale. Otteniamo così un importante risultato: il coefficiente di attendibilità, ovvero il quadrato del coefficiente di correlazione tra il punteggio osservato e il punteggio vero, è uguale alla correlazione tra il valore osservato di due misurazioni parallele: 

$$
\begin{equation}
\rho^2_{XT} =  \rho_{XX^\prime}.
\end{equation}
$$(eq-rho2xt-rhoxx)

Tale risultato è importante perché consente di esprimere la quantità inosservabile $\rho^2_{XT}$ nei termini della quantità $\rho_{XX^\prime}$ che può essere calcolata sulla base dei punteggi osservati di due forme parallele del test. Quindi, la stima di $\rho^2_{XT}$ si riduce alla stima di $\rho^2_{XX^\prime}$. Per questa ragione, la {}ref{eq-rho2xt-rhoxx} è forse la formula più importante della CTT. Inoltre, è importante notare che l'eq. {ref}`eq:rho2xt-rhoxx` fornisce la giustificazione per l'utilizzo della correlazione split-half come misura di attendibilità.

### La correlazione tra punteggio osservato e punteggio vero

Consideriamo ora la correlazione tra punteggio osservato e punteggio vero. La {ref}`eq-rho2xt-rhoxx` si può scrivere come

$$
\rho_{XT} = \sqrt{\rho_{XX^\prime}}.
$$ 

In altri termini: la radice quadrata del coefficiente di attendibilità è uguale alla correlazione tra il punteggio osservato e il punteggio vero.

### I fattori che influenzano l'attendibilità

Considerando le tre equazioni

$$
\rho^2_{XT} = \rho_{XX'},\quad
\rho_{XT}^2 = \frac{\sigma_{T}^2}{\sigma_X^2}, \quad
\rho_{XT}^2 = 1-\frac{\sigma_{E}^2}{\sigma_X^2},
$$ 

possiamo dire che ci sono tre modi equivalenti per concludere che l'attendibilità di un test è alta. La attendibilità di un test è considerata alta se si verificano le seguenti condizioni:

- La correlazione tra le forme parallele del test è alta.
- La varianza del punteggio vero è grande rispetto alla varianza del punteggio osservato.
- La varianza dell'errore di misura è piccola rispetto alla varianza del punteggio osservato.
 
Queste considerazioni sono importanti per la progettazione di un test. In particolare, l'equazione $\rho^2_{XT} = \rho_{XX'}$ fornisce un criterio per la selezione degli item da includere nel test. Se interpretiamo $\rho_{XX'}$ come la correlazione tra due item, allora gli item che hanno la correlazione più alta tra di loro dovrebbero essere inclusi nel test. In questo modo, l'attendibilità del test aumenta perché gli item inclusi sono maggiormente correlati con il punteggio vero.

## Conclusioni

L'affidabilità è un concetto centrale nella teoria della misurazione poiché riguarda il grado di coerenza dei punteggi in diverse situazioni, come diversi insiemi di elementi, forme di test o momenti di somministrazione. I punteggi ottenuti da un test rappresentano un'istantanea del comportamento misurato in un insieme limitato di condizioni specifiche. Ad esempio, quando si interpreta un punteggio basato su 20 elementi di addizione, l'insegnante non è interessato solo alla capacità degli studenti di rispondere a quei 20 elementi specifici. Piuttosto, l'insegnante è solitamente interessato ai punteggi degli studenti perché forniscono un'indicazione del loro probabile rendimento su altri elementi simili. Se tali generalizzazioni non possono essere fatte, i punteggi hanno un'utilità limitata.

In questo capitolo, abbiamo esaminato le basi teoriche dell'affidabilità, che sono radicate nella CTT. Il modello CTT è semplice ma potente, in quanto ipotizza che i punteggi osservati siano composti da un punteggio vero e un punteggio di errore. Il punteggio di errore rappresenta ciò che è attribuibile a processi casuali, come la fatica, la distrazione, errori di compilazione del foglio di risposta o confusione nell'interpretazione degli elementi del test. Sebbene tali processi possano influenzare le risposte di una persona in un particolare test, gli effetti sono casuali e non si ripeterebbero nello stesso modo in un nuovo test. Il punteggio vero è ipotizzato come la media dei punteggi che una persona otterrebbe se facesse il test più volte, con la memoria azzerata dopo ogni prova. Il punteggio vero è teoricamente costante nei test ripetuti. Poiché il punteggio osservato è la somma del punteggio vero e del punteggio di errore, le fluttuazioni nei punteggi osservati derivano dalle fluttuazioni nei punteggi di errore.

In teoria, l'affidabilità è definita come la correlazione tra il punteggio vero e il punteggio osservato, oppure, equivalentemente, come uno meno la correlazione tra il punteggio di errore e il punteggio osservato. Tuttavia, il punteggio vero non è direttamente osservabile nella pratica. Per ottenere un coefficiente di affidabilità effettivo, è necessario ricorrere a metodi alternativi per stimare l'affidabilità. In questo capitolo, abbiamo esplorato come ciò può essere realizzato attraverso la correlazione dei punteggi su due test paralleli. I test paralleli sono quelli con medie dei punteggi veri e varianze dei punteggi veri, di errore e osservati uguali. Poiché le assunzioni per i test paralleli sono piuttosto rigorose, sono stati sviluppati altri metodi per valutare l'affidabilità, in cui queste assunzioni sono leggermente rilassate. 

<!-- [^2]: Vedremo in seguito -->
<!--     (§ [\[ch:err_stnd_stima\]](#ch:err_stnd_stima){reference-type="ref" -->
<!--     reference="ch:err_stnd_stima"}) come il livello di abilità latente -->
<!--     (il punteggio vero) possa essere stimato con la formula di Kelley -->
<!--     (1923), ovvero $$\begin{aligned} -->
<!--     \hat{T}_i &= \rho_{XT} x_i + (1 - \rho_{XT})\mu_x\notag\\ -->
<!--     &= \mu_x + \rho_{XT} (x_i - \mu_x),\notag\end{aligned}$$ dove -->
<!--     $\mu_x$ è la media dei punteggio osservato e $\hat{T}_i$ è la stima -->
<!--     del punteggio vero per l'$i$-esimo rispondente. -->

<!-- [^3]:  -->