(ctt-3-notebook)=
# Metodi di stima dell'affidabilità 

In [41]:
source("_common.R")
suppressPackageStartupMessages(library("psych"))
suppressPackageStartupMessages(library("ltm"))

Come evidenziato nel capitolo precedente, i punteggi dei test possono variare in molteplici situazioni. Ad esempio, si può essere interessati a valutare quanto i punteggi differiscano tra diversi insiemi di item, o a misurare l'incoerenza tra differenti momenti di somministrazione, o tra diversi valutatori. Di conseguenza, sono stati sviluppati diversi metodi per valutare l'affidabilità, ciascuno tenendo conto di differenti tipi di errore casuale. Alcuni di questi metodi si basano su assunzioni meno rigide rispetto a quelli delle misure parallele.

In questo capitolo, discutiamo i coefficienti di affidabilità appropriati per valutare le discrepanze o gli errori casuali dovuti alle differenze tra gli item, i momenti di somministrazione e le forme del test. Questi coefficienti sono chiamati, rispettivamente, coefficienti di consistenza interna, coefficienti di stabilità e coefficienti di equivalenza. Infine, esaminiamo le sfide connesse alla valutazione dell'affidabilità dei punteggi di differenza. Questi punteggi rappresentano la differenza tra due misurazioni ottenute in momenti diversi e risultano di particolare interesse quando si vuole misurare la crescita o il cambiamento nel tempo.

## Consistenza interna

Una delle fonti di errore nei punteggi dei test è rappresentata dagli item stessi. Se gli item non vengono formulati in maniera adeguata, possono insorgere problemi come una formulazione confusa, item non pertinenti al costrutto, vocabolario sconosciuto ai partecipanti o item con risposte ambigue. Questi problemi possono portare a risposte inconsistenti per due ragioni: innanzitutto, non tutti i partecipanti saranno influenzati nello stesso modo dagli item problematici; in secondo luogo, tali item interferiscono con la capacità dei partecipanti di esprimere il loro vero livello del costrutto.

Per valutare la coerenza delle risposte tra gli item all'interno di una scala, si utilizzano i coefficienti di consistenza interna. Questi coefficienti si basano sull'idea che una correlazione tra due punteggi osservati che misurano lo stesso costrutto rifletta la varianza condivisa del punteggio vero e non la varianza condivisa dell'errore. Dal momento che gli errori sono considerati casuali e non dovrebbero avere varianza condivisa, i coefficienti di consistenza interna riflettono la correlazione tra gli item del test e forniscono un'indicazione dell'affidabilità complessiva della scala. Questo approccio è alla base del coefficiente di affidabilità più noto, ovvero il coefficiente alpha di Cronbach.

### coefficiente $\alpha$ di Cronbach

Il coefficiente alpha di Cronbach è calcolato come segue:

$$
\alpha = \frac{{k}}{{k-1}} \left( 1 - \frac{{\sum_{i=1}^{k} \sigma_{i}^{2}}}{{\sigma_{X}^{2}}} \right)
$$

dove:
- $k$ è il numero di item nel test,
- $\sigma_{i}^{2}$ rappresenta la varianza del punteggio dell'item \(i\),
- $\sigma_{X}^{2}$ è la varianza totale dei punteggi del test.

Una derivazione della formula del coefficiente alpha di Cronbach è fornita nel capitolo {ref}`reliability-fa-notebook`.

**Esempio.** Per illustrare la procedura di calcolo del coefficiente $\omega$, useremo i dati `bfi` contenuti nel pacchetto `psych`. Il dataframe `bfi` comprende 25 item di autovalutazione della personalità. Sono riportati i dati di 2800 soggetti. Ci concentreremo qui sulla sottoscala *Openness*. 
- O1: *Am full of ideas*; 
- O2: *Avoid difficult reading material*; 
- O3: *Carry the conversation to a higher level*; 
- O4: *Spend time reflecting on things*; 
- O5: *Will not probe deeply into a subject*. 

Leggiamo i dati in R.

In [19]:
data(bfi, package = "psych")
head(bfi[c("O1", "O2", "O3", "O4", "O5")])


Unnamed: 0_level_0,O1,O2,O3,O4,O5
Unnamed: 0_level_1,<int>,<int>,<int>,<int>,<int>
61617,3,6,3,4,3
61618,4,2,4,3,3
61620,4,2,5,5,2
61621,3,3,4,3,5
61622,3,3,4,3,3
61623,4,3,5,6,1


Esaminiamo la correlazione tra gli item della sottoscale Openness.

In [20]:
cor(bfi[c("O1", "O2", "O3", "O4", "O5")], use = "pairwise.complete.obs") |>
    round(2)

Unnamed: 0,O1,O2,O3,O4,O5
O1,1.0,-0.21,0.4,0.18,-0.24
O2,-0.21,1.0,-0.26,-0.07,0.32
O3,0.4,-0.26,1.0,0.19,-0.31
O4,0.18,-0.07,0.19,1.0,-0.18
O5,-0.24,0.32,-0.31,-0.18,1.0


È necessario ricodificare due item.

In [21]:
bfi$O2r <- 7 - bfi$O2
bfi$O5r <- 7 - bfi$O5

In [22]:
cor(bfi[c("O1", "O2r", "O3", "O4", "O5r")], use = "pairwise.complete.obs") |>
    round(2)

Unnamed: 0,O1,O2r,O3,O4,O5r
O1,1.0,0.21,0.4,0.18,0.24
O2r,0.21,1.0,0.26,0.07,0.32
O3,0.4,0.26,1.0,0.19,0.31
O4,0.18,0.07,0.19,1.0,0.18
O5r,0.24,0.32,0.31,0.18,1.0


Consideriamo la matrice di varianze e covarianze della sottoscala Openness. 

In [23]:
C <- cov(bfi[c("O1", "O2r", "O3", "O4", "O5r")], use = "pairwise.complete.obs")
C |> round(2)

Unnamed: 0,O1,O2r,O3,O4,O5r
O1,1.28,0.38,0.54,0.25,0.36
O2r,0.38,2.45,0.5,0.13,0.67
O3,0.54,0.5,1.49,0.29,0.5
O4,0.25,0.13,0.29,1.49,0.29
O5r,0.36,0.67,0.5,0.29,1.76


Calcoliamo alpha:

In [25]:
p <- 5
alpha <- (p / (p - 1)) * (1 - tr(C) / sum(C))
alpha

Lo stesso risultato si ottiene utilizzando la funzione `alpha()`
contenuta nel pacchetto `psych`:

In [24]:
psych::alpha(C)


Reliability analysis   
Call: psych::alpha(x = C)

  raw_alpha std.alpha G6(smc) average_r S/N median_r
       0.6      0.61    0.57      0.24 1.5     0.23

    95% confidence boundaries 
      lower alpha upper
Feldt -0.49   0.6  0.95

 Reliability if an item is dropped:
    raw_alpha std.alpha G6(smc) average_r S/N  var.r med.r
O1       0.53      0.53    0.48      0.22 1.1 0.0092  0.23
O2r      0.57      0.57    0.51      0.25 1.3 0.0076  0.22
O3       0.50      0.50    0.44      0.20 1.0 0.0071  0.20
O4       0.61      0.62    0.56      0.29 1.6 0.0044  0.29
O5r      0.51      0.53    0.47      0.22 1.1 0.0115  0.20

 Item statistics 
       r r.cor r.drop
O1  0.65  0.52   0.39
O2r 0.60  0.43   0.33
O3  0.69  0.59   0.45
O4  0.52  0.29   0.22
O5r 0.66  0.52   0.42

### Metodi alternativi per la stima del coefficiente di attendibilità

Ci sono altri coefficienti di consistenza interna oltre al coefficiente alpha di Cronbach. Alcuni esempi includono il coefficiente KR-20 e il coefficiente KR-21, che vengono utilizzati con item  dicotomici (ossia con risposte a due alternative, come vero/falso). 

#### Coefficiente KR-20

La formula di Kuder-Richardson-20 (KR-20) è un caso particolare del coefficiente α. Se ogni item è dicotomico, il coefficiente α diventa il KR-20. Il coefficiente Coefficiente KR-20 si calcola con la formula:

$$
KR\_20 = \frac{{k}}{{k-1}} \left( 1 - \frac{{p(1-p)}}{{\sigma_{X}^{2}}} \right) 
$$

dove:
- $k$ è il numero di item nel test,
- $p$ è la proporzione di individui che rispondono correttamente all'item,
- $\sigma_{X}^{2}$ è la varianza totale dei punteggi del test.

**Esempio.** Per fare un esempio, consideriamo il data-set `LSAT` contenuto nel pacchetto `ltm`.

In [38]:
KR20 <- function(responses) {
    # Get number of items (N) and individuals
    n.items <- ncol(responses)
    n.persons <- nrow(responses)
    # get p_j for each item
    p <- colMeans(responses)
    # Get total scores (X)
    x <- rowSums(responses)
    # observed score variance
    var.x <- var(x) * (n.persons - 1) / n.persons
    # Apply KR-20 formula
    rel <- (n.items / (n.items - 1)) * (1 - sum(p * (1 - p)) / var.x)
    return(rel)
}

In [42]:
data(LSAT)
head(LSAT)

Unnamed: 0_level_0,Item 1,Item 2,Item 3,Item 4,Item 5
Unnamed: 0_level_1,<int>,<int>,<int>,<int>,<int>
1,0,0,0,0,0
2,0,0,0,0,0
3,0,0,0,0,0
4,0,0,0,0,1
5,0,0,0,0,1
6,0,0,0,0,1


In [43]:
KR20(LSAT)

#### Coefficiente KR-21

Il coefficiente Coefficiente KR-21 si calcola con la formula:

$$
KR\_21 = \frac{{k}}{{k-1}} \left( 1 - \frac{{\frac{{\sum_{i=1}^{k} p_{i}(1-p_{i})}}{{\sigma_{X}^{2}}}}}{{1 - \frac{{\sum_{i=1}^{k} p_{i}}}{k}}} \right) 
$$

dove:
- $k$ è il numero di item nel test,
- $p_{i}$ è la proporzione di individui che rispondono correttamente all'item \(i\),
- $\sigma_{X}^{2}$ è la varianza totale dei punteggi del test.


## Attendibilità test-retest

Il concetto di "affidabilità test-retest" riguarda la coerenza o stabilità dei punteggi del test in diverse occasioni nel tempo. Questo tipo di affidabilità è fondamentale per situazioni in cui i punteggi verranno ottenuti in momenti diversi e comparati, come ad esempio in situazioni di pre-test e post-test. È altrettanto importante quando i punteggi del test verranno utilizzati per prendere decisioni diagnostiche, di selezione o di collocazione. Tuttavia, l'affidabilità test-retest non è adatta per misurare costrutti che non sono noti per essere stabili. Ciò è dovuto al fatto che l'analisi della stabilità di un test potrebbe essere influenzata dai cambiamenti effettivi nei livelli veri del costrutto dei partecipanti. Pertanto, è essenziale che i ricercatori siano consapevoli in anticipo che il costrutto da misurare sia stabile. Va sottolineato che molti costrutti di interesse nelle scienze sociali sono considerati relativamente stabili nel tempo, come ad esempio la creatività, l'abilità cognitiva e alcune caratteristiche della personalità.

## Forme parallele del test

In alcune situazioni, si hanno a disposizione più versioni di un test progettate per essere interscambiabili, in modo che la versione specifica del test non influenzi i punteggi dei partecipanti. Queste forme alternative di test sono comuni nel campo dell'istruzione, dove spesso vengono preparate diverse versioni per prevenire frodi. Anche i ricercatori possono utilizzare forme alternative negli studi che coinvolgono pre-test e post-test, per evitare che i partecipanti traggano vantaggio da effetti di pratica o memoria. Tuttavia, è essenziale determinare se i punteggi sono coerenti tra le diverse forme, poiché la mancanza di equivalenza può portare a conclusioni errate sulla variazione dei punteggi.

Le principali fonti di errore di misurazione per le forme alternative di test cognitivi sono rappresentate dalle differenze nei contenuti, nella difficoltà e nella complessità cognitiva degli item. Per i test non-cognitivi, le differenze nei contenuti e nell'intensità degli item sono di preoccupazione. Gli sviluppatori di forme alternative utilizzano diverse procedure per garantire l'equivalenza tra le forme, basandosi sulla stessa tabella di specifiche che determina la proporzione di item per i vari domini di contenuto e livelli cognitivi o non-cognitivi. Inoltre, gli item vengono abbinati per difficoltà e capacità discriminante.

I coefficienti di equivalenza, noti anche come affidabilità delle forme alternative, valutano la similarità tra due o più forme di test. Per ottenere stime di questi coefficienti, le due forme vengono somministrate agli stessi partecipanti e i punteggi ottenuti vengono correlati. Tuttavia, ci sono alcune considerazioni riguardo alla somministrazione dei test e al possibile affaticamento dei partecipanti. Alcune strategie, come il bilanciamento dell'ordine di somministrazione e l'utilizzo di un breve intervallo di tempo tra le forme, possono essere adottate per mitigare tali problemi. Inoltre, è necessario considerare gli effetti della pratica o della memoria, che possono influenzare i punteggi del secondo test somministrato. L'uso del bilanciamento tra i gruppi può aiutare a controllare tali effetti.

## Conclusioni

In conclusione, la valutazione dell'affidabilità di un test richiede l'utilizzo di diversi coefficienti che considerano le diverse fonti di errore. I coefficienti di consistenza interna valutano l'errore derivante dalle fluttuazioni delle risposte tra gli item, mentre quelli di equivalenza esaminano la coerenza dei punteggi tra diverse forme del test. I coefficienti di stabilità misurano la coerenza dei punteggi nel tempo. È fondamentale selezionare il tipo di affidabilità adeguato allo scopo del test, al fine di ottenere informazioni attendibili e utili per le decisioni basate sui punteggi del test.


<!-- [^2]: Vedremo in seguito -->
<!--     (§ [\[ch:err_stnd_stima\]](#ch:err_stnd_stima){reference-type="ref" -->
<!--     reference="ch:err_stnd_stima"}) come il livello di abilità latente -->
<!--     (il punteggio vero) possa essere stimato con la formula di Kelley -->
<!--     (1923), ovvero $$\begin{aligned} -->
<!--     \hat{T}_i &= \rho_{XT} x_i + (1 - \rho_{XT})\mu_x\notag\\ -->
<!--     &= \mu_x + \rho_{XT} (x_i - \mu_x),\notag\end{aligned}$$ dove -->
<!--     $\mu_x$ è la media dei punteggio osservato e $\hat{T}_i$ è la stima -->
<!--     del punteggio vero per l'$i$-esimo rispondente. -->

<!-- [^3]:  -->