# L'affidabilità del test {#sec-ctt-2}

**Prerequisiti**

**Concetti e Competenze Chiave**

**Preparazione del Notebook**

In [1]:
# Carica il file _common.R per impostazioni di pacchetti e opzioni
here::here("code", "_common.R") |> source()

# Carica pacchetti aggiuntivi
pacman::p_load(modelsummary, MASS)

## Introduzione

L'affidabilità è un principio fondamentale nella teoria della misurazione, essenziale per garantire coerenza, stabilità e precisione nelle misurazioni effettuate in vari contesti. Nell'ambito del testing psicologico, è cruciale che i punteggi mostrino un grado di consistenza accettabile per essere considerati significativi. Questo concetto è particolarmente rilevante, poiché i punteggi possono variare a seconda delle specifiche condizioni di misurazione, rendendo necessario l'impiego di diversi metodi per valutare l'affidabilità di un test.

Esploriamo i vari metodi utilizzati per valutare l'affidabilità:

1. **Affidabilità Test-Retest (Coefficiente di Stabilità):** Questo metodo valuta la coerenza dei punteggi nel tempo. Si somministra lo stesso test a un gruppo di individui in due momenti distinti, e la correlazione tra i punteggi ottenuti fornisce un'indicazione dell'affidabilità. Tuttavia, la limitazione di questo metodo risiede nel fatto che variazioni nelle condizioni ambientali o psicologiche possono influenzare i risultati nel tempo.

2. **Affidabilità delle Forme Alternative (Coefficiente di Equivalenza):** Utile quando esistono diverse versioni di un test, questo metodo serve a verificare se queste versioni producono punteggi simili e coerenti. È cruciale per assicurare che le diverse forme del test siano equivalenti in termini di difficoltà e contenuto.

3. **Consistenza Interna:** Questo metodo misura il grado in cui gli elementi individuali di un test sono correlati tra loro. È particolarmente importante in test che includono molteplici item, dove la consistenza interna alta suggerisce che gli item misurano lo stesso costrutto in modo uniforme.

4. **Affidabilità Inter-Osservatori:** Questo approccio valuta la coerenza tra le valutazioni di diversi osservatori. È fondamentale in situazioni dove più persone valutano lo stesso fenomeno, assicurando che i loro giudizi siano uniformi e affidabili.

Uno dei modelli più utilizzati nella teoria della misurazione è la Teoria Classica dei Test (CTT), conosciuta anche come "Teoria del punteggio vero". Questo modello, sebbene abbia alcune limitazioni rispetto a teorie più recenti come la Teoria della Risposta all'Item (IRT) e la Teoria della Generalizzabilità, rimane una delle fondamenta della psicometria.

## L'attendibilità del test

Uno degli obiettivi principali della CTT è quello di suddividere la varianza di un insieme di punteggi osservati in varianza del punteggio vero e varianza dell'errore. Per definire l'attendibilità, la CTT si basa su due informazioni chiave:

1. La varianza dei punteggi osservati.
2. La correlazione tra il punteggio osservato e il punteggio vero.

Vedremo come ottenere queste informazioni utilizzando le assunzioni del modello statistico alla base della CTT. Queste assunzioni includono:

- **Errore medio nullo**: Si assume che l'errore di misurazione abbia una media pari a zero, cioè $E(e) = 0$. Questo implica che l'errore è casuale e distribuito uniformemente attorno al punteggio vero.
- **Indipendenza tra punteggio vero e errore**: La CTT assume che non ci sia correlazione tra il punteggio vero e l'errore di misurazione ($r_{T,e} = 0$).
- **Indipendenza dell'errore nel tempo**: Si assume che l'errore di misurazione in un determinato momento non sia correlato con l'errore in un altro momento ($r_{e1,e2} = 0$).

### La varianza del punteggio osservato

La varianza del punteggio osservato $X$ è uguale alla somma della varianza del punteggio vero e della varianza dell'errore di misurazione:

$$
\sigma^2_X =   \sigma_T^2 + \sigma_E^2.
$$ {#eq-var-sum}

La dimostrazione è la seguente. La varianza del punteggio osservato è uguale a

$$
\sigma^2_X =  \mathbb{V}(T+E) =  \sigma_T^2 + \sigma_E^2 + 2 \sigma_{TE}.
$$ {#eq-3-2-4}

Dato che $\sigma_{TE}=\rho_{TE}\sigma_T \sigma_E=0$, in quanto $\rho_{TE}=0$, ne segue che

$$
\sigma^2_X =   \sigma_T^2 + \sigma_E^2.
$$

Per fare un esempio concreto, riprendiamo la simulazione del capitolo precedente.

In [16]:
set.seed(8394)

n <- 100
Sigma <- matrix(c(6, 0, 0, 3), byrow = TRUE, ncol = 2)
mu <- c(12, 0)
dat <- mvrnorm(n, mu, Sigma, empirical = TRUE)
T <- dat[, 1]
E <- dat[, 2]
X <- T + E

tibble(X, T, E) |> head()

X,T,E
<dbl>,<dbl>,<dbl>
15.698623,16.765359,-1.0667358
13.657503,12.248096,1.4094073
6.731979,7.852136,-1.1201563
14.621813,14.233699,0.3881133
10.606647,10.187035,0.4196115
12.370288,13.329971,-0.9596831


In [17]:
var(X) == var(T) + var(E)

### La covarianza tra punteggio osservato e punteggio vero

La covarianza tra punteggio osservato $X$ e punteggio vero $T$ è uguale alla varianza del punteggio vero:

$$
\sigma_{X T} = \sigma_T^2.
$$ {#eq-cov-obs-true}

La dimostrazione è la seguente. La covarianza tra punteggio osservato e punteggio vero è uguale a

$$
\begin{aligned}
\sigma_{X T} &= \mathbb{E}(XT) - \mathbb{E}(X)\mathbb{E}(T)\notag\\
&=  \mathbb{E}[(T+E)T] - \mathbb{E}(T+E)\mathbb{E}(T)\notag\\
&=  \mathbb{E}(T^2) + \underbrace{\mathbb{E}(ET)}_{=0} - [\mathbb{E}(T)]^2 -  \underbrace{\mathbb{E}(E)}_{=0} \mathbb{E}(T)\notag\\
&=\mathbb{E}(T^2) - [\mathbb{E}(T)]^2\notag \\
&= \sigma_T^2.
\end{aligned}
$$

Verifichiamo per i dati dell'esempio.

In [18]:
cov(X, T) == var(T)

### Correlazione tra punteggio osservato e punteggio vero

La correlazione tra punteggio osservato $X$ e punteggio vero $T$ è uguale al rapporto tra la covarianza tra $X$ e $T$ divisa per il prodotto delle due deviazioni standard:

$$
\rho_{XT} = \frac{\sigma_{XT}}{\sigma_X \sigma_T} = \frac{\sigma^2_{T}}{\sigma_X \sigma_T} = \frac{\sigma_{T}}{\sigma_X}.
$$ {#eq-sd-ratio}

Dunque, la correlazione tra il punteggio osservato e il punteggio vero è uguale al rapporto tra la deviazione standard dei punteggi veri e la deviazione standard dei punteggi osservati.

Verifichiamo per i dati dell'esempio.

In [19]:
cor(X, T) 

In [20]:
sd(T) / sd(X)

### Definizione e significato dell'attendibilità

Sulla base dell'@eq-sd-ratio, possiamo giungere alla definizione di attendibilità. La Teoria della Misurazione Classica (CTT) definisce l'attendibilità di un test (o di un singolo elemento) come il rapporto tra la varianza del punteggio vero e la varianza del punteggio osservato. In altre parole, l'attendibilità rappresenta il quadrato della correlazione tra il punteggio osservato $X$ e il punteggio vero $T$:

$$
\begin{equation}
\rho_{XT}^2 = \frac{\sigma_{T}^2}{\sigma_{X}^2}.
\end{equation}
$$

Questa formula è il concetto fondamentale della CTT e misura il livello di variazione del punteggio vero rispetto alla variazione del punteggio osservato.

Adesso possiamo procedere a verificare questa relazione utilizzando i dati forniti nell'esempio.

In [21]:
cor(X, T)^2

In [22]:
var(T) / var(X)

Dato che $\sigma^2_X = \sigma_T^2 + \sigma_E^2$, in base alla {ref}`eq-reliability-1` possiamo scrivere 

$$
\begin{equation}
\rho_{XT}^2 = \frac{\sigma_{T}^2}{\sigma_X^2} =\frac{\sigma_{X}^2 - \sigma^2_E}{\sigma_X^2} = 1-\frac{\sigma_{E}^2}{\sigma_{X}^2}.
\end{equation}
$$ {#eq-3-2-6}

In [23]:
1 - (var(E) / var(X))

Dall'@eq-3-2-6, possiamo dedurre che il coefficiente di affidabilità assume il valore di $1$ quando la varianza degli errori $\sigma_{E}^2$ è nulla, e assume il valore di $0$ quando la varianza degli errori è uguale alla varianza del punteggio osservato. Quindi, il coefficiente di affidabilità è un valore assoluto situato nell'intervallo tra $0$ e $1$.

## Attendibilità e modello di regressione lineare

In parole semplici, la CTT si basa sul modello di regressione lineare, dove i punteggi osservati sono considerati come variabile dipendente e i punteggi veri come variabile indipendente. Il coefficiente di attendibilità $\rho_{XT}^2$ rappresenta la proporzione di varianza nella variabile dipendente spiegata dalla variabile indipendente in un modello di regressione lineare con una pendenza unitaria e un'intercetta di zero. In altre parole, il coefficiente di attendibilità è equivalente al coefficiente di determinazione del modello di regressione.

Per rendere questo concetto più chiaro, possiamo tornare a considerare i dati simulati come esempio.

La motivazione di questa simulazione è quella di mettere in relazione il
coefficiente di attendibilità, calcolato con la formula della CTT (come abbiamo fatto sopra), con il modello di regressione lineare. Analizziamo dunque i dati della
simulazione mediante il seguente modello di regressione lineare:

$$
X = a + b T + E.
$$

Usando $\textsf{R}$ otteniamo:

In [26]:
fm <- lm(X ~ T)
summary(fm)


Call:
lm(formula = X ~ T)

Residuals:
    Min      1Q  Median      3Q     Max 
-4.4343 -0.9720 -0.0865  1.0803  3.7347 

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept) 9.948e-15  8.746e-01       0        1    
T           1.000e+00  7.143e-02      14   <2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 1.741 on 98 degrees of freedom
Multiple R-squared:  0.6667,	Adjusted R-squared:  0.6633 
F-statistic:   196 on 1 and 98 DF,  p-value: < 2.2e-16


Si noti che la retta di regressione ha intercetta 0 e pendenza 1. Questo è coerente con l'assunzione $\mathbb{E}(X) = \mathbb{E}(T)$. Ma il risultato più importante di questa simulazione è che il coefficiente di determinazione ($R^2$ = 0.67) del modello di regressione $X = 0 + 1 \times T + E$ è identico al coefficiente di attendibilità calcolato con la formula $\rho_{XT}^2 = \frac{\sigma_{T}^2}{\sigma_X^2}$:

In [27]:
var(T) / var(X)

Questi risultati ci permettono di interpretare il coefficiente di affidabilità nel seguente modo: l'affidabilità di un test rappresenta la porzione di varianza presente nel punteggio osservato $X$ che viene spiegata dalla regressione di $X$ rispetto al punteggio vero $T$. Questo risultato è stato ottenuto mediante una regressione lineare, dove il coefficiente angolare $\beta$ è uguale a 1 e l'intercetta $\alpha$ è uguale a 0.

Inoltre, ricordiamo che la radice quadrata della varianza degli errori è l'*errore standard della misurazione*, $\sigma_E$. La quantità $\sqrt{\sigma_E^2}$ fornisce una misura della dispersione del punteggio osservato attorno al valore vero, nella condizione ipotetica di ripetute somministrazioni del test:

In [30]:
sqrt(var(E) * 99 / 98)

L'output della funzione `lm()` rende chiaro che l'errore standard della misurazione della CTT è identico all'errore standard della regressione nel caso di un modello di regressione definito come abbiamo fatto sopra.

Nel codice precedente è stato incluso il termine correttivo 99/98. Questa correzione è necessaria poiché, mentre R calcola la deviazione standard con $n-1$ al denominatore, l'errore standard della regressione richiede $n-2$ al denominatore.

## Misurazioni parallele e affidabilità

L'equazione $\rho_{XT}^2 = \frac{\sigma_{T}^2}{\sigma_X^2}$ definisce il coefficiente di affidabilità, ma non ci fornisce gli strumenti pratici per calcolarlo direttamente. Questo perché la varianza del punteggio reale $\sigma_{T}^2$ rappresenta un valore sconosciuto. Il metodo utilizzato dalla CTT per ottenere una stima empirica dell'attendibilità è quello delle *forme parallele* del
test. In pratica, se è possibile creare versioni alternative del test che siano equivalenti in termini di contenuto, modalità di risposta e caratteristiche statistiche, allora diventa possibile ottenere una stima empirica del coefficiente di affidabilità.

Secondo la CTT, due test $X=T+E$ e $X^\prime=T^\prime+E^\prime$ sono considerati misurazioni parallele della stessa abilità latente quando:

- $T = T^\prime$,
- $\mathbb{V}(E) = \mathbb{V}(E^\prime)$.

Queste premesse implicano che $\mathbb{E}(X) = \mathbb{E}(X^\prime)$.

La dimostrazione procede come segue. Considerando che $\mathbb{E}(X) = T$ e $\mathbb{E}(X^\prime) = T$, è evidente che $\mathbb{E}(X) =\mathbb{E}(X^\prime)$ poiché $\mathbb{E}(E) = \mathbb{E}(E^\prime) = 0$.

In modo analogo, l'uguaglianza delle varianze nei punteggi osservati delle due misurazioni parallele deve essere verificata, cioè $\mathbb{V}(X) = \mathbb{V}(X^\prime)$.

Questa dimostrazione si sviluppa come segue. Per $X$, possiamo scrivere 

$$\mathbb{V}(X) = \mathbb{V}(T + E) = \mathbb{V}(T) + \mathbb{V}(E);$$

mentre per $X^\prime$ possiamo scrivere 

$$\mathbb{V}(X^\prime) = \mathbb{V}(T^\prime + E^\prime) = \mathbb{V}(T^\prime) + \mathbb{V}(E^\prime).$$ 

Poiché sappiamo che $\mathbb{V}(E) = \mathbb{V}(E^\prime)$ e che $T = T^\prime$, possiamo dedurre che $\mathbb{V}(X) = \mathbb{V}(X^\prime)$.

In aggiunta, è importante notare che per costruzione gli errori $E$ e $E^\prime$ sono incorrelati sia con $T$ che tra di loro.

### La correlazione tra due forme parallele del test

Ora procediamo a dimostrare che, secondo le ipotesi della Teoria della CTT, la correlazione tra due versioni parallele di un test è effettivamente equivalente al rapporto tra la varianza del punteggio reale e la varianza del punteggio osservato. Come discusso nel capitolo precedente, le misurazioni parallele rappresentano il grado più elevato di somiglianza tra due diverse versioni di un test.

La dimostrazione è la seguente. Consideriamo, senza perdita di generalità, che $\mathbb{E}(X) = \mathbb{E}(X') = \mathbb{E}(T) = 0$. Questa scelta ci consente di scrivere:

$$
\begin{aligned}
\rho_{X X^\prime} &= \frac{\sigma(X, X^\prime)}{\sigma(X) \sigma(X^\prime)} \\
&= \frac{\mathbb{E}(XX^\prime)}{\sigma(X) \sigma(X^\prime)} \\
&= \frac{\mathbb{E}[(T+E)(T+E^\prime)]}{\sigma(X) \sigma(X^\prime)} \\
&= \frac{\mathbb{E}(T^2) + \mathbb{E}(TE^\prime) + \mathbb{E}(TE) + \mathbb{E}(EE^\prime)}{\sigma(X) \sigma(X^\prime)}.
\end{aligned}
$$

Tuttavia, sappiamo che $\mathbb{E}(TE) = \mathbb{E}(TE^\prime) = \mathbb{E}(EE^\prime) = 0$. Inoltre, $\sigma(X) = \sigma(X^\prime) = \sigma_X$. Pertanto, giungiamo a:

$$
\rho_{X X^\prime} = \frac{\mathbb{E}(T^2)}{\sigma_X \sigma_X} = \frac{\sigma^2_T}{\sigma^2_X}.
$$ {#eq:3-3-5}

Notiamo che il risultato ottenuto, insieme all'equazione che definisce il coefficiente di affidabilità $\rho_{XT}^2 = \frac{\sigma_{T}^2}{\sigma_X^2}$, presentano entrambi la stessa espressione a destra del segno di uguale. Questo conduce a un risultato cruciale: il coefficiente di affidabilità, ossia il quadrato della correlazione tra il punteggio osservato e il punteggio reale, è identico alla correlazione tra i punteggi osservati di due versioni parallele del test:

$$
\rho^2_{XT} =  \rho_{XX^\prime}.
$$ {#eq-rho2xt-rhoxx}

Questa conclusione è di notevole importanza in quanto consente di esprimere la variabile inosservabile $\rho^2_{XT}$ in termini della variabile osservabile $\rho_{XX^\prime}$, la quale può essere calcolata in base ai punteggi osservati delle due forme parallele del test. Fondamentalmente, la stima di $\rho^2_{XT}$ si semplifica nella stima di $\rho^2_{XX^\prime}$. Questo spiega l'importanza dell'equazione {eq}`eq-rho2xt-rhoxx` nella CTT. Inoltre, è da sottolineare che l'equazione {ref}`eq:rho2xt-rhoxx` fornisce una giustificazione per l'utilizzo della correlazione split-half come misura di affidabilità.

### La correlazione tra punteggio osservato e punteggio vero

Esaminiamo adesso la correlazione tra il punteggio osservato e il punteggio reale. L'@eq-rho2xt-rhoxx può essere riformulata come segue:

$$
\rho_{XT} = \sqrt{\rho_{XX^\prime}}.
$$ 

In altre parole, la radice quadrata del coefficiente di affidabilità equivale alla correlazione tra il punteggio osservato e il punteggio reale.

Procediamo ora a verificare questa relazione utilizzando i dati dell'esempio.

In [32]:
sqrt(var(T) / var(X))

In [33]:
cor(X, T)

### I fattori che influenzano l'attendibilità

Considerando le tre equazioni:

$$
\rho^2_{XT} = \rho_{XX'},\quad
\rho_{XT}^2 = \frac{\sigma_{T}^2}{\sigma_X^2}, \quad
\rho_{XT}^2 = 1-\frac{\sigma_{E}^2}{\sigma_X^2},
$$ 

possiamo affermare che esistono tre modi equivalenti per giungere alla conclusione che l'attendibilità di un test è elevata. L'attendibilità di un test è considerata alta quando si verificano le seguenti condizioni:

- La correlazione tra le forme parallele del test è elevata.
- La varianza del punteggio vero è ampia rispetto alla varianza del punteggio osservato.
- La varianza dell'errore di misurazione è ridotta rispetto alla varianza del punteggio osservato.

Queste considerazioni rivestono un'importanza fondamentale nella progettazione di un test. In particolare, l'equazione $\rho^2_{XT} = \rho_{XX'}$ fornisce un criterio per la selezione degli item da includere nel test. Se interpretiamo $\rho_{XX'}$ come la correlazione tra due item, allora gli item che presentano la correlazione più elevata tra di loro dovrebbero essere inclusi nel test. In questo modo, l'attendibilità del test aumenta, poiché gli item selezionati risultano fortemente correlati con il punteggio vero.

## Conclusioni

L'affidabilità costituisce un concetto fondamentale all'interno della teoria della misurazione, poiché si riferisce alla coerenza dei punteggi in varie situazioni, come diverse configurazioni di item, versioni del test o momenti di somministrazione. Nel corso di questo capitolo, abbiamo esplorato le basi teoriche dell'affidabilità. All'interno della CTT, l'affidabilità è definita come la correlazione tra il punteggio vero e il punteggio osservato, oppure, equivalentemente, come uno meno la correlazione tra il punteggio di errore e il punteggio osservato. Dal momento che il punteggio vero non è direttamente osservabile, è necessario ricorrere a metodi alternativi per stimare l'affidabilità. Il metodo proposto dalla CTT per ottenere tale stima è quello della correlazione dei punteggi ottenuti da due test paralleli.

## Session Info

In [2]:
sessionInfo()

R version 4.3.2 (2023-10-31)
Platform: aarch64-apple-darwin20 (64-bit)
Running under: macOS Sonoma 14.3.1

Matrix products: default
BLAS:   /Library/Frameworks/R.framework/Versions/4.3-arm64/Resources/lib/libRblas.0.dylib 
LAPACK: /Library/Frameworks/R.framework/Versions/4.3-arm64/Resources/lib/libRlapack.dylib;  LAPACK version 3.11.0

locale:
[1] C

time zone: Europe/Rome
tzcode source: internal

attached base packages:
[1] stats     graphics  grDevices utils     datasets  methods   base     

other attached packages:
 [1] MASS_7.3-60.0.1    modelsummary_1.4.5 ggokabeito_0.1.0   viridis_0.6.5     
 [5] viridisLite_0.4.2  ggpubr_0.6.0       ggExtra_0.10.1     bayesplot_1.11.1  
 [9] gridExtra_2.3      patchwork_1.2.0    semTools_0.5-6     semPlot_1.1.6     
[13] lavaan_0.6-17      psych_2.4.1        scales_1.3.0       markdown_1.12     
[17] knitr_1.45         lubridate_1.9.3    forcats_1.0.0      stringr_1.5.1     
[21] dplyr_1.1.4        purrr_1.0.2        readr_2.1.5        tidyr_1.

<!-- [^2]: Vedremo in seguito -->
<!--     (§ [\[ch:err_stnd_stima\]](#ch:err_stnd_stima){reference-type="ref" -->
<!--     reference="ch:err_stnd_stima"}) come il livello di abilità latente -->
<!--     (il punteggio vero) possa essere stimato con la formula di Kelley -->
<!--     (1923), ovvero $$\begin{aligned} -->
<!--     \hat{T}_i &= \rho_{XT} x_i + (1 - \rho_{XT})\mu_x\notag\\ -->
<!--     &= \mu_x + \rho_{XT} (x_i - \mu_x),\notag\end{aligned}$$ dove -->
<!--     $\mu_x$ è la media dei punteggio osservato e $\hat{T}_i$ è la stima -->
<!--     del punteggio vero per l'$i$-esimo rispondente. -->

<!-- [^3]:  -->