(ctt-3-notebook)=
# Metodi di stima dell'affidabilità 

In [1]:
source("_common.R")
suppressPackageStartupMessages(library("psych"))
suppressPackageStartupMessages(library("ltm"))

Come evidenziato nel capitolo precedente, i punteggi dei test possono variare in varie situazioni. Ad esempio, potrebbe interessare quanto i punteggi differiscano tra diversi insiemi di item o misurare l'incoerenza tra diverse somministrazioni o valutazioni. Pertanto, sono stati sviluppati vari metodi per valutare l'affidabilità, ciascuno tenendo conto di diversi tipi di errori casuali. 

In questo capitolo, esploreremo i coefficienti di affidabilità della CTT adatti a valutare le discrepanze o gli errori casuali derivanti dalle differenze tra gli item, le somministrazioni e le forme del test. Questi coefficienti sono noti come coefficienti di consistenza interna.

Per iniziare, esamineremo tre scenari distinti che illustrano le possibili relazioni tra gli item di un test: quelli con indicatori congenerici, tau-equivalenti e paralleli. All'interno della CTT, sono disponibili due indicatori principali per valutare l'affidabilità in termini di coerenza interna, a seconda del tipo di relazione tra gli item che si presume: l'indice alpha di Cronbach per gli item tau-equivalenti e l'indice di Spearman-Brown per gli item paralleli.

## Coefficienti di consistenza interna

La CTT presenta il metodo delle forme parallele come un approccio parziale per stimare l'attendibilità dei test. Questo metodo prevede la somministrazione di due test distinti, indicati come $X$ e $X^\prime$, che valutano lo stesso costrutto, a un campione di individui nello stesso momento. In questo contesto, la correlazione tra i punteggi totali dei due test, $\rho^2_{XT} = \rho_{XX^\prime}$, rappresenta l'indicatore principale dell'attendibilità. Tuttavia, è cruciale che le due versioni del test siano effettivamente parallele, secondo la definizione fornita dalla teoria classica dei test, affinché questa relazione sia valida.

Nella pratica, risulta impraticabile somministrare lo stesso test due volte agli stessi partecipanti "nelle stesse condizioni", come richiesto dal metodo delle forme parallele. Di conseguenza, la stima dell'attendibilità deve basarsi sui dati raccolti attraverso una singola somministrazione del test. La CTT risponde a questa sfida introducendo specifici indicatori di coerenza interna, mirati a valutare l'affidabilità.

Questi indicatori di coerenza interna costituiscono la soluzione proposta dalla CTT per affrontare tale problematica. La loro logica si basa sull'idea che una correlazione tra i punteggi di diversi item che misurano lo stesso costrutto rifletta la varianza condivisa del punteggio reale, anziché la varianza condivisa dell'errore. Considerando che gli errori casuali dovrebbero mancare di una varianza condivisa, i coefficienti di coerenza interna riflettono la correlazione tra gli item all'interno del test, offrendo così un'indicazione dell'affidabilità generale della scala di misurazione.

Oltre a questo, gli item stessi possono rappresentare una fonte di errore nei punteggi dei test. Problemi come formulazioni confuse, item non coerenti con il costrutto, linguaggio poco comprensibile o item con risposte ambigue possono emergere quando gli item non sono formulati in modo adeguato. Tali problemi possono portare a risposte inconsistenti per due ragioni: innanzitutto, i partecipanti potrebbero reagire in modi diversi agli item problematici; in secondo luogo, tali item interferiscono con la capacità dei partecipanti di esprimere il loro reale livello del costrutto.

Per valutare la coerenza delle risposte tra gli item all'interno di una scala, vengono impiegati i coefficienti di consistenza interna. Questi coefficienti si basano sull'assunto che una correlazione tra due punteggi osservati, che misurano lo stesso costrutto, rifletta la varianza condivisa del punteggio reale, non la varianza condivisa dell'errore. Dal momento che gli errori casuali dovrebbero mancare di varianza condivisa, i coefficienti di consistenza interna riflettono la correlazione tra gli item del test e forniscono un'indicazione dell'affidabilità complessiva della scala.

Quando si valuta l'attendibilità con una singola somministrazione del test, sono disponibili vari approcci. In questo capitolo, esamineremo due metodi proposti dalla CTT: l'indice $\alpha$ di Cronbach e il metodo di Spearman-Brown. L'indice $\alpha$ è l'indicatore più comunemente usato per valutare l'attendibilità in termini di coerenza interna o omogeneità. Analizzeremo come questo indice rappresenta il valore minimo possibile dell'attendibilità di un test, sotto determinate ipotesi soddisfatte, e come, allo stesso tempo, può fornire una valutazione distorta dell'attendibilità se le assunzioni che delineeremo non sono rispettate.

Tuttavia, prima di esplorare dettagliatamente questi due diversi metodi di stima dell'attendibilità come coerenza interna, è essenziale distinguere tra tre diverse tipologie di relazioni tra gli item: item congenerici, item $\tau$-equivalenti e item paralleli.

### Simulazione

#### Test paralleli

Simuliamo i punteggi di due test paralleli.

In [None]:
set.seed(2237) # setting the seed ensure reproducibility
num_person <- 1000 # number of respondents
# True scores for Test 1
t1 <- rnorm(num_person, mean = 20, sd = 5)
# Error scores for Test 1
e1 <- rnorm(num_person, mean = 0, sd = 2)
# Observed scores for Test 1
x1 <- t1 + e1
# True scores for Test 2
t2 <- t1 # parallel tests have equal true scores
# Error scores for Test 2
e2 <- rnorm(num_person, mean = 0, sd = 2)
# Observed scores for Test 2
x2 <- t2 + e2

# Merge into a data frame
test_df <- data.frame(x1, x2)

mv <- datasummary(x1 + x2 ~ Mean + Var,
    data = test_df,
    output = "data.frame"
)
mv

In [None]:
# Correlation
cor(test_df) |>
    round(2)

In conclusione, per test paralleli:
- le medie e le varianze dei punteggi osservati sono statisticamente uguali;
- la correlazione è uguale all'attendibilità.

#### Test $\tau$-equivalenti

In [None]:
# True scores for Test 3
t3 <- 5 + t1 # essentially tau-equivalent tests
# Error scores for Test 3 (larger error SDs)
e3 <- rnorm(num_person, mean = 0, sd = 4)
# Observed scores for Test 2
x3 <- t3 + e3

# Merge into a data frame
test_df2 <- data.frame(x1, x3)
# Get means and variances
mv <- datasummary(x1 + x3 ~ Mean + Var,
    data = test_df2,
    output = "data.frame"
)
mv

In [None]:
# Correlation
cor(test_df2) |>
    round(2)

Se conosciamo i punteggi veri, l'attendibilità di X3 si trova come

In [None]:
# Reliability for x3
var(t3) / var(x3)

In conclusione, per test tau-equivalenti:
- le medie e le varianze dei punteggi osservati sono diverse;
- correlazione $\neq$ attendibilità.

#### Test congenerici

In [None]:
# True scores for Test 4
t4 <- 2 + 0.8 * t1
# Error scores for Test 4 (larger error SDs)
e4 <- rnorm(num_person, mean = 0, sd = 3)
# Observed scores for Test 2
x4 <- t4 + e4

# Merge into a data frame
test_df3 <- data.frame(x1, x4)
# Get means and variances
mv <- datasummary(x1 + x4 ~ Mean + Var,
    data = test_df3,
    output = "data.frame"
)
mv

In [None]:
# Correlation
cor(test_df3) |>
    round(2)

Se conosciamo i punteggi veri, l'attendibilità di X4 si trova come

In [None]:
# Reliability for x4
var(t4) / var(x4)

In conclusione, per test congenerici:
- le medie e le varianze dei punteggi osservati sono diverse;
- correlazione $\neq$ attendibilità;
- sono necessari più di due test per distinguere test congenerici e test $\tau$-equivalenti.

### Coefficiente $\alpha$ di Cronbach

Il coefficiente $\alpha$ consente la stima dell'affidabilità nel contesto di indicatori $\tau$-equivalenti. In queste circostanze, l'attendibilità viene valutata utilizzando l'equazione:

$$
\alpha = \frac{{k}}{{k-1}} \left( 1 - \frac{{\sum_{i=1}^{k} \sigma_{i}^{2}}}{{\sigma_{X}^{2}}} \right)
$$

dove:
- $k$ è il numero di item nel test,
- $\sigma_{i}^{2}$ rappresenta la varianza del punteggio dell'item \(i\),
- $\sigma_{X}^{2}$ è la varianza totale dei punteggi del test.

Una derivazione della formula del coefficiente alpha di Cronbach è fornita nel capitolo {ref}`reliability-fa-notebook`.

Fu Guttman nel 1945 a scoprire questo coefficiente, anche se erroneamente attribuito a Cronbach. È spesso noto come coefficiente $\alpha$ di Guttman-Cronbach o G-C $\alpha$.

Quando il modello di $\tau$-equivalenza è applicabile, il coefficiente $\alpha$ costituisce un limite inferiore dell'affidabilità, in altri termini, il coefficiente $\alpha$ offre una stima prudente dell'affidabilità. Questa caratteristica è considerata uno dei principali vantaggi di questo indice. Tuttavia, è fondamentale notare che questa natura conservativa del coefficiente $\alpha$ vale solo se le ipotesi del modello $\tau$-equivalente sono rispettate.

Il coefficiente di attendibilità $\alpha$ è ampiamente utilizzato nell'ambito della psicometria. Tuttavia, come menzionato in precedenza, quando l'assunzione di $\tau$-equivalenza non è valida, $\alpha$ può perdere la sua proprietà conservativa e sovrastimare l'attendibilità del test (Sijtsma, 2009). In tal caso, è necessario valutare attentamente l'adeguatezza dell'utilizzo del coefficiente $\alpha$ come indicatore di affidabilità.

**Esempio.** Per illustrare la procedura di calcolo del coefficiente $\omega$, useremo i dati `bfi` contenuti nel pacchetto `psych`. Il dataframe `bfi` comprende 25 item di autovalutazione della personalità. Sono riportati i dati di 2800 soggetti. Ci concentreremo qui sulla sottoscala *Openness*. 
- O1: *Am full of ideas*; 
- O2: *Avoid difficult reading material*; 
- O3: *Carry the conversation to a higher level*; 
- O4: *Spend time reflecting on things*; 
- O5: *Will not probe deeply into a subject*. 

Leggiamo i dati in R.

In [3]:
data(bfi, package = "psych")
head(bfi[c("O1", "O2", "O3", "O4", "O5")])

Unnamed: 0_level_0,O1,O2,O3,O4,O5
Unnamed: 0_level_1,<int>,<int>,<int>,<int>,<int>
61617,3,6,3,4,3
61618,4,2,4,3,3
61620,4,2,5,5,2
61621,3,3,4,3,5
61622,3,3,4,3,3
61623,4,3,5,6,1


Esaminiamo la correlazione tra gli item della sottoscale Openness.

In [4]:
cor(bfi[c("O1", "O2", "O3", "O4", "O5")], use = "pairwise.complete.obs") |>
    round(2)

Unnamed: 0,O1,O2,O3,O4,O5
O1,1.0,-0.21,0.4,0.18,-0.24
O2,-0.21,1.0,-0.26,-0.07,0.32
O3,0.4,-0.26,1.0,0.19,-0.31
O4,0.18,-0.07,0.19,1.0,-0.18
O5,-0.24,0.32,-0.31,-0.18,1.0


È necessario ricodificare due item.

In [5]:
bfi$O2r <- 7 - bfi$O2
bfi$O5r <- 7 - bfi$O5

In [6]:
cor(bfi[c("O1", "O2r", "O3", "O4", "O5r")], use = "pairwise.complete.obs") |>
    round(2)

Unnamed: 0,O1,O2r,O3,O4,O5r
O1,1.0,0.21,0.4,0.18,0.24
O2r,0.21,1.0,0.26,0.07,0.32
O3,0.4,0.26,1.0,0.19,0.31
O4,0.18,0.07,0.19,1.0,0.18
O5r,0.24,0.32,0.31,0.18,1.0


Consideriamo la matrice di varianze e covarianze della sottoscala Openness. 

In [7]:
C <- cov(bfi[c("O1", "O2r", "O3", "O4", "O5r")], use = "pairwise.complete.obs")
C |> round(2)

Unnamed: 0,O1,O2r,O3,O4,O5r
O1,1.28,0.38,0.54,0.25,0.36
O2r,0.38,2.45,0.5,0.13,0.67
O3,0.54,0.5,1.49,0.29,0.5
O4,0.25,0.13,0.29,1.49,0.29
O5r,0.36,0.67,0.5,0.29,1.76


Calcoliamo alpha:

In [8]:
p <- 5
alpha <- (p / (p - 1)) * (1 - tr(C) / sum(C))
alpha

Lo stesso risultato si ottiene utilizzando la funzione `alpha()`
contenuta nel pacchetto `psych`:

In [9]:
psych::alpha(C)


Reliability analysis   
Call: psych::alpha(x = C)

  raw_alpha std.alpha G6(smc) average_r S/N median_r
       0.6      0.61    0.57      0.24 1.5     0.23

    95% confidence boundaries 
      lower alpha upper
Feldt -0.49   0.6  0.95

 Reliability if an item is dropped:
    raw_alpha std.alpha G6(smc) average_r S/N  var.r med.r
O1       0.53      0.53    0.48      0.22 1.1 0.0092  0.23
O2r      0.57      0.57    0.51      0.25 1.3 0.0076  0.22
O3       0.50      0.50    0.44      0.20 1.0 0.0071  0.20
O4       0.61      0.62    0.56      0.29 1.6 0.0044  0.29
O5r      0.51      0.53    0.47      0.22 1.1 0.0115  0.20

 Item statistics 
       r r.cor r.drop
O1  0.65  0.52   0.39
O2r 0.60  0.43   0.33
O3  0.69  0.59   0.45
O4  0.52  0.29   0.22
O5r 0.66  0.52   0.42

### Metodi alternativi per la stima del coefficiente di attendibilità

Ci sono altri coefficienti di consistenza interna oltre al coefficiente alpha di Cronbach. Alcuni esempi includono il coefficiente KR-20 e il coefficiente KR-21, che vengono utilizzati con item  dicotomici (ossia con risposte a due alternative, come vero/falso). 

#### Coefficiente KR-20

La formula di Kuder-Richardson-20 (KR-20) è un caso particolare del coefficiente α. Se ogni item è dicotomico, il coefficiente α diventa il KR-20. Il coefficiente Coefficiente KR-20 si calcola con la formula:

$$
KR\_20 = \frac{{k}}{{k-1}} \left( 1 - \frac{{p(1-p)}}{{\sigma_{X}^{2}}} \right) 
$$

dove:
- $k$ è il numero di item nel test,
- $p$ è la proporzione di individui che rispondono correttamente all'item,
- $\sigma_{X}^{2}$ è la varianza totale dei punteggi del test.

**Esempio.** Per fare un esempio, consideriamo il data-set `LSAT` contenuto nel pacchetto `ltm`.

In [38]:
KR20 <- function(responses) {
    # Get number of items (N) and individuals
    n.items <- ncol(responses)
    n.persons <- nrow(responses)
    # get p_j for each item
    p <- colMeans(responses)
    # Get total scores (X)
    x <- rowSums(responses)
    # observed score variance
    var.x <- var(x) * (n.persons - 1) / n.persons
    # Apply KR-20 formula
    rel <- (n.items / (n.items - 1)) * (1 - sum(p * (1 - p)) / var.x)
    return(rel)
}

In [42]:
data(LSAT)
head(LSAT)

Unnamed: 0_level_0,Item 1,Item 2,Item 3,Item 4,Item 5
Unnamed: 0_level_1,<int>,<int>,<int>,<int>,<int>
1,0,0,0,0,0
2,0,0,0,0,0
3,0,0,0,0,0
4,0,0,0,0,1
5,0,0,0,0,1
6,0,0,0,0,1


In [43]:
KR20(LSAT)

#### Coefficiente KR-21

Il coefficiente Coefficiente KR-21 si calcola con la formula:

$$
KR\_21 = \frac{{k}}{{k-1}} \left( 1 - \frac{{\frac{{\sum_{i=1}^{k} p_{i}(1-p_{i})}}{{\sigma_{X}^{2}}}}}{{1 - \frac{{\sum_{i=1}^{k} p_{i}}}{k}}} \right) 
$$

dove:
- $k$ è il numero di item nel test,
- $p_{i}$ è la proporzione di individui che rispondono correttamente all'item \(i\),
- $\sigma_{X}^{2}$ è la varianza totale dei punteggi del test.

### La formula "profetica" di Spearman-Brown 

L'indice di Spearman-Brown stima l'attendibilità nel caso di $p$ indicatori paralleli:

$$
\begin{equation}
  \rho_p = \frac{p \rho_1}{(p-1)\rho_1 + 1},
\end{equation}
$$ (eq-spearman-brown-der)

dove $\rho_1$ rappresenta l'attendibilità di un singolo elemento.

Una derivazione della formula Spearman-Brown è fornita nel capitolo {ref}`reliability-fa-notebook`.

L'equazione {eq}`eq-spearman-brown-der` esprime l'attendibilità $\rho_p$ di un test composto da $p$ elementi paralleli in termini dell'attendibilità di un singolo elemento. Questa equazione è universalmente riconosciuta come la formula "profetica" di Spearman-Brown (*Spearman-Brown prophecy formula*).

Per fare un esempio concreto, poniamoci il problema di calcolare l'attendibilità della sottoscala Openness utilizzando la formula di Spearman-Brown. Ipotizziamo dunque che gli item della scala Openness siano paralleli. La matrice di correlazione è:

In [11]:
R <- cor(bfi[c("O1", "O2r", "O3", "O4", "O5r")], use = "pairwise.complete.obs")
R |> round(2)

Unnamed: 0,O1,O2r,O3,O4,O5r
O1,1.0,0.21,0.4,0.18,0.24
O2r,0.21,1.0,0.26,0.07,0.32
O3,0.4,0.26,1.0,0.19,0.31
O4,0.18,0.07,0.19,1.0,0.18
O5r,0.24,0.32,0.31,0.18,1.0


Supponiamo di calcolare l'attendibilità di un singolo item ($\rho_1$) come la correlazione media tra gli item:

In [12]:
rr <- NULL
p <- 5
k <- 1
for (i in 1:p) {
    for (j in 1:p) {
        if (j != i) {
            rr[k] <- R[i, j]
        }
        k <- k + 1
    }
}
ro_1 <- mean(rr, na.rm = TRUE)
ro_1

Applicando la formula di Spearman-Brown, la stima dell'attendibilità del
test diventa pari a

In [13]:
(p * ro_1) / ((p - 1) * ro_1 + 1)

## Forme parallele del test

In alcune situazioni, è possibile avere a disposizione diverse versioni di un test che sono progettate per essere interscambiabili, in modo tale che la specifica versione del test non influenzi i punteggi ottenuti dai partecipanti. Queste forme alternative del test sono comuni soprattutto nel campo dell'educazione, dove spesso vengono preparate diverse versioni al fine di prevenire frodi o imbrogli. Inoltre, anche i ricercatori possono adottare forme alternative in studi che coinvolgono pre-test e post-test, al fine di evitare che i partecipanti beneficiino degli effetti di pratica o memoria. Tuttavia, è di fondamentale importanza determinare se i punteggi ottenuti da queste diverse versioni sono coerenti, poiché la mancanza di equivalenza tra le forme potrebbe condurre a conclusioni errate riguardo alle variazioni dei punteggi.

Le principali fonti di errore di misurazione per le forme alternative di test cognitivi derivano dalle differenze nei contenuti, nella difficoltà e nella complessità cognitiva degli item. Per quanto riguarda i test non-cognitivi, le differenze nei contenuti e nell'intensità degli item sono motivo di attenzione. Gli sviluppatori di forme alternative adottano diverse procedure al fine di garantire l'equivalenza tra le varie versioni, basandosi sulla stessa tabella di specifiche che stabilisce la proporzione di item per i diversi domini di contenuto e i livelli cognitivi o non-cognitivi. Inoltre, vengono appaiati gli item in base alla loro difficoltà e alla loro capacità discriminante.

I coefficienti di equivalenza, noti anche come affidabilità delle forme alternative, valutano la similitudine tra due o più versioni di un test. Per calcolare questi coefficienti, le diverse forme vengono somministrate agli stessi partecipanti e i punteggi ottenuti vengono correlati. Tuttavia, vi sono alcune considerazioni legate alla somministrazione dei test e alla possibile fatica dei partecipanti. Al fine di affrontare tali problematiche, possono essere adottate strategie come il bilanciamento dell'ordine di somministrazione e l'introduzione di un breve intervallo di tempo tra le diverse versioni. Inoltre, è importante considerare gli effetti della pratica o della memoria, i quali potrebbero influenzare i punteggi ottenuti nel secondo test somministrato. L'impiego del bilanciamento tra gruppi può contribuire a controllare tali effetti.

## Attendibilità test-retest

Infine, esaminiamo il concetto di "affidabilità test-retest", che si riferisce alla coerenza o stabilità dei punteggi di un test in diverse occasioni nel corso del tempo. Questo tipo di affidabilità riveste una particolare importanza nelle situazioni in cui i punteggi vengono ottenuti in momenti diversi e confrontati, come nel caso di test effettuati prima e dopo un intervento. Inoltre, è di rilievo quando i punteggi del test vengono utilizzati per prendere decisioni diagnostiche, di selezione o di collocazione. Tuttavia, è importante sottolineare che l'affidabilità test-retest non è adatta per valutare costrutti che non sono noti per la loro stabilità nel tempo. Ciò deriva dal fatto che l'analisi della stabilità di un test potrebbe essere influenzata da effettivi cambiamenti nei livelli veri del costrutto tra i partecipanti. Di conseguenza, è essenziale che i ricercatori siano consapevoli in anticipo della stabilità del costrutto che intendono misurare. È importante notare che molti costrutti di interesse nelle scienze sociali sono generalmente considerati stabili nel tempo, come ad esempio la creatività, l'abilità cognitiva e alcune caratteristiche della personalità.

## Conclusioni

In conclusione, la valutazione dell'affidabilità di un test richiede l'impiego di diversi coefficienti che tengono conto delle varie fonti di errore. I coefficienti di consistenza interna si concentrano sull'errore derivante dalle fluttuazioni delle risposte tra gli item, mentre quelli di equivalenza esaminano la coerenza dei punteggi tra diverse versioni del test. I coefficienti di stabilità misurano la coerenza dei punteggi nel corso del tempo. È di fondamentale importanza selezionare il tipo di affidabilità appropriato in base allo scopo del test, al fine di ottenere informazioni affidabili e utili per le decisioni basate sui punteggi ottenuti dal test.


<!-- [^2]: Vedremo in seguito -->
<!--     (§ [\[ch:err_stnd_stima\]](#ch:err_stnd_stima){reference-type="ref" -->
<!--     reference="ch:err_stnd_stima"}) come il livello di abilità latente -->
<!--     (il punteggio vero) possa essere stimato con la formula di Kelley -->
<!--     (1923), ovvero $$\begin{aligned} -->
<!--     \hat{T}_i &= \rho_{XT} x_i + (1 - \rho_{XT})\mu_x\notag\\ -->
<!--     &= \mu_x + \rho_{XT} (x_i - \mu_x),\notag\end{aligned}$$ dove -->
<!--     $\mu_x$ è la media dei punteggio osservato e $\hat{T}_i$ è la stima -->
<!--     del punteggio vero per l'$i$-esimo rispondente. -->

<!-- [^3]:  -->