(reliability-fa-notebook)=
# Attendibilità e modello fattoriale 

In [1]:
source("_common.R")
suppressPackageStartupMessages({
    library("psych")
    library("lavaan")
    library("modelsummary") # for summarizing data
})
options(repr.plot.width=6, repr.plot.height=6)
set.seed(42)

“non è possibile aprire il file '_common.R': No such file or directory”


ERROR: Error in file(filename, "r", encoding = encoding): non è possibile aprire la connessione


In questo capitolo esamineremo il problema relativo alla valutazione dell'affidabilità di uno strumento mediante l'impiego della tecnica dell'analisi fattoriale. Saranno differenziati tre distinti modelli che delineano le connessioni tra gli indicatori e il sottostante fattore latente comune (modelli congenerico, tau-equivalente, parallelo). Saranno presentati altresì tre diversi indici volti a caratterizzare l'affidabilità, intesa come coerenza interna, in accordo con il modello adottato. Tali indici includono l'indice omega di McDonald, l'indice alpha di Cronbach e l'indice rho, derivato dalla formula "profetica" di Spearman-Brown.

Sarà evidente che l'utilizzo dell'indice alpha di Cronbach è giustificato soltanto se particolari condizioni specifiche vengono soddisfatte, circostanza che si verifica piuttosto raramente nei dati empirici. A causa di tale ragione, in linea generale, risulta più opportuno adottare l'indice omega di McDonald quale misura di coerenza interna.

## Teoria classica dei test e analisi fattoriale

{cite:t}`mcdonald2013test` illustra come la teoria classica dei test possa essere correlata al modello dell'analisi fattoriale. La figura rappresenta, attraverso i termini del modello fattoriale, la relazione che sussiste tra i punteggi $Y$, derivanti dalla somministrazione di un test composto da cinque item, e i punteggi veri.


```{figure} images/factmod1.png
---
height: 300px
name: lcsm1-fig
---
**Diagramma di percorso del modello monofattoriale.** 
```

Esistono diverse strategie per stimare l'attendibilità in situazioni in cui viene somministrato un unico test. In questo contesto, analizzeremo tre metodologie che possono essere implementate attraverso l'analisi fattoriale: l'$\alpha$ di Cronbach, l'$\omega$ di McDonald e il metodo di Spearman-Brown.

Il coefficiente $\alpha$ rappresenta il principale indice utilizzato per quantificare l'attendibilità come misura di coerenza interna o omogeneità. Approfondiremo come questo indice rappresenti il limite inferiore dell'attendibilità di un test, a condizione che siano soddisfatte alcune ipotesi. Tuttavia, se queste assunzioni non vengono rispettate, l'$\alpha$ si rivela un stimatore distorto dell'attendibilità.

Prima di esaminare le diverse metodologie per stimare l'attendibilità in termini di coerenza interna, è essenziale distinguere tra le tre diverse forme che il modello unifattoriale può assumere. Queste tre forme corrispondono al modello con indicatori congenerici, al modello $\tau$-equivalente e al modello parallelo.

## Modello fattoriale e CTT

Considerando un insieme di item osservati $X_1, X_2, \dots, X_p$, con $p>2$, i punteggi ottenuti da questi item sono composti da due elementi distinti: una componente di punteggio reale e una componente di errore.

$$
\begin{equation}
\begin{aligned}
X_1 &=T_1+E_1,\notag\\ 
X_2 &=T_2+E_2,\notag\\ 
&\dots\notag\\ 
X_p &=T_p+E_p.\notag
\end{aligned}
\end{equation}
$$

In linea con l'approccio delineato da {cite:t}`mcdonald2013test`, questa decomposizione tra la componente vera e quella di errore può essere formalizzata mediante l'utilizzo dei parametri del modello fattoriale. L'equazione $X_i = T_i + E_i$ può quindi essere riformulata come segue:

$$
X_i = \lambda_i \xi + \delta_i, \quad{i=1, \dots, p},
$$ 

In questa equazione, $X_i$ rappresenta il punteggio osservato per l'item $i$-esimo, $\lambda_i$ è il carico fattoriale associato all'item $i$-esimo, $\xi$ costituisce il fattore comune e $\delta_i$ è la componente residuale del punteggio osservato per l'item $i$-esimo. Tale formulazione si basa sulle assunzioni del modello monofattoriale. Nello specifico, si ipotizza che $\xi$ e $\delta_i$ siano non correlati per ogni item $i$, e che $\delta_i$ e $\delta_k$ siano non correlati per ogni coppia $i \neq k$.

## Classi di modelli

All'interno del contesto del modello monofattoriale, è possibile individuare tre distinti scenari di rilievo:

1. **Modello con indicatori congenerici:** Si tratta del caso più ampio e generale, dove non sono imposte restrizioni particolari sulla struttura degli indicatori.

2. **Modello con indicatori $\tau$-equivalenti:** Questa è una situazione specifica in cui gli indicatori condividono la medesima variabilità, ma non necessariamente coincidono nei valori delle saturazioni fattoriali.

3. **Modello con indicatori paralleli:** In questo caso, gli indicatori sono perfettamente equivalenti tra loro in termini di saturazioni fattoriali, evidenziando una struttura più rigida rispetto al modello congenerico.

Il modello con indicatori congenerici rappresenta il caso più generale, mentre le situazioni di indicatori $\tau$-equivalenti e paralleli costituiscono delle situazioni specifiche, prodotte dall'introduzione di vincoli e restrizioni sul modello a indicatori congenerici.

### Indicatori congenerici

Gli indicatori *congenerici* rappresentano misure di uno stesso costrutto, ma non è necessario che riflettano tale costrutto con la medesima intensità. Nel contesto degli indicatori congenerici all'interno del modello monofattoriale, non vengono introdotte limitazioni né sulle saturazioni fattoriali né sulle specificità:

$$
\lambda_1\neq \lambda_2 \neq \dots\neq \lambda_p,
$$

$$
\psi_{11}\neq \psi_{22} \neq \dots\neq \psi_{pp}.
$$ 

Il modello mono-fattoriale con indicatori congenerici è dunque

$$
\begin{equation}
X_i = \lambda_i \xi + \delta_i.
\end{equation}
$$(eq-mod-tau-eq)

Dalle assunzioni precedenti possiamo derivare la matrice $\boldsymbol{\Sigma}$ riprodotta in base al modello congenerico la quale risulta essere uguale a

$$
\boldsymbol{\Sigma}=\left[
      \begin{array}{ c c c c }
        \sigma_{11} & \sigma_{12} & \dots & \sigma_{1p}, \\
        \sigma_{21} & \sigma_{22} & \dots & \sigma_{2p}. \\
        \vdots & \vdots & & \vdots\\
        \sigma_{p1} & \sigma_{p2} & \dots & \sigma_{pp} 
      \end{array} 
    \right].
$$ 
    
Si noti come tutte le varianze e tutte le covarianze siano tra loro diverse.

### Indicatori tau-equivalenti

Nel caso di indicatori $\tau$-equivalenti, si ha che

$$
\lambda_1=\lambda_2=\dots=\lambda_p=\lambda,
$$

$$
\psi_{11}\neq \psi_{22} \neq \dots\neq \psi_{pp}.
$$ 

Il modello monofattoriale con indicatori $\tau$-equivalenti diventa dunque

$$
\begin{equation}
X_i = \lambda \xi + \delta_i, 
\end{equation}
$$(eq-mod-tau-eq)

ovvero 

$$
\begin{equation}
X_i = \tau + \delta_i,
\end{equation}
$$(eq-mod-tau-eq-b)

dove $\tau=\lambda \xi$ è l'attributo comune scalato nell'unità di misura dell'indicatore. Secondo il modello {eq}`eq-mod-tau-eq`, tutte le $p(p-1)$ covarianze tra gli item
del test devono essere uguali, ovvero

$$
\begin{equation}
\sigma_{ik} = \lambda^2=\sigma^2_T,
\end{equation}
$$(eq-cov-tau-eq)

per $i\neq k$. Gli elementi sulla diagonale principale della matrice di varianze e covarianze saranno invece

$$
\begin{equation}
\sigma_{ii} = \lambda^2 + \psi_{ii} =\sigma^2_T + \psi_{ii}.
\end{equation}
$$(eq-var-tau)

La matrice $\boldsymbol{\Sigma}$ riprodotta in base al modello $\tau$-equivalente è dunque uguale a

$$
\begin{equation}
\boldsymbol{\Sigma}=\left[
      \begin{array}{ c c c c }
        \sigma_{T}^2 + \psi_{11} & \sigma_{T}^2 & \dots & \sigma_{T}^2 \\
        \sigma_{T}^2 & \sigma_{T}^2 + \psi_{22} & \dots & \sigma_{T}^2 \\
        \vdots & \vdots & & \vdots\\
        \sigma_{T}^2 & \sigma_{T}^2 & \dots & \sigma_{T}^2 + \psi_{pp} 
      \end{array} 
    \right].
\end{equation}
$$(eq-sigma-tau-eq)
    
Tutte le covarianze sono uguali, mentre le varianze sono tra loro diverse.

### Indicatori paralleli

Nel caso di indicatori paralleli si ha che

$$
\lambda_1=\lambda_2=\dots=\lambda_p=\lambda,
$$

$$
\psi_{11}=\psi_{22}=\dots=\psi_{pp}=\psi.
$$ 

Il modello costituito da indicatori paralleli impone dunque un'ulteriore restrizione che riguarda le varianze degli item, ovvero:

$$
\sigma_{ii} = \lambda^2 + \psi =\sigma^2_T + \sigma^2.
$$ 

La struttura di varianze e covarianze imposta dal modello per indicatori paralleli è
dunque tale da richiedere l'uguaglianza tra tutte le covarianze tra gli
item e l'uguaglianza tra tutte le varianze degli item. La matrice
$\boldsymbol{\Sigma}$ riprodotta in base al modello con indicatori
paralleli è dunque uguale a 

$$
\boldsymbol{\Sigma}=\left[
      \begin{array}{ c c c c }
        \sigma_{T}^2 + \sigma^2 & \sigma_{T}^2 & \dots & \sigma_{T}^2 \\
        \sigma_{T}^2 & \sigma_{T}^2 + \sigma^2 & \dots & \sigma_{T}^2 \\
        \vdots & \vdots & & \vdots\\
        \sigma_{T}^2 & \sigma_{T}^2 & \dots & \sigma_{T}^2 +\sigma^2 \notag
      \end{array} 
    \right].
$$



## Metodo dei minimi quadrati non pesati

Nel contesto del modello unifattoriale, la varianza di ciascun indicatore è decomposta in due componenti: la componente $\sigma^2_T$, attribuibile all'effetto del fattore latente comune, e la componente $\psi$, riferita all'influenza del fattore specifico. {cite:t}`mcdonald2013test` dimostra come sia possibile ottenere stime di tali componenti dai dati osservati. Queste stime vengono successivamente impiegate per calcolare l'affidabilità interna del test mediante le formule degli indici $\alpha$ di Cronbach e $\omega$ di McDonald.

In precedenza, abbiamo esaminato come la varianza del punteggio vero possa essere equivalente alla covarianza tra due forme parallele dello stesso test: $\sigma^2_T = \sigma_{XX^\prime}$. Nel caso di indicatori $\tau$-equivalenti, la matrice $\boldsymbol{\Sigma}$ prevista dal modello risulta essere:

$$
\boldsymbol{\Sigma}=\left[
      \begin{array}{ c c c c }
        \sigma_{T}^2 + \psi_{11} & \sigma_{T}^2 & \dots & \sigma_{T}^2 \\
        \sigma_{T}^2 & \sigma_{T}^2 + \psi_{22} & \dots & \sigma_{T}^2 \\
        \vdots & \vdots & & \vdots\\
        \sigma_{T}^2 & \sigma_{T}^2 & \dots & \sigma_{T}^2 + \psi_{pp} \notag
      \end{array}
    \right],
$$

ossia, tutte le covarianze sono equivalenti tra loro. Nel caso degli indicatori $\tau$-equivalenti, una stima $\hat{\sigma}^2_T$ di $\sigma^2_T$ è ottenuta calcolando la media delle covarianze della matrice **S**:

$$
\begin{equation}
\hat{\sigma}_T^2 = \frac{1}{p(p-1)} {\sum \sum}_{i \neq k} s_{ik}.
\end{equation}
$$ (eq-sigma-t)

Questo metodo di stima di $\sigma^2_T$ è noto come "metodo dei minimi quadrati non pesati" {cite:p}`mcdonald2013test`.

Inoltre, nel caso di indicatori $\tau$-equivalenti, la stima di $\psi_{ii}$ nell'eq. {eq}`eq-var-tau` è calcolata come:

$$
\hat{\psi}_{ii }= s_{ii} - \hat{\sigma}_T^2,
$$

per ogni item $i$.

Per quanto riguarda gli *indicatori paralleli*, la stima di $\sigma^2_T$ è ancora basata sull'eq. {eq}`eq-sigma-t`, ovvero sulla media delle covarianze della matrice $\boldsymbol{\Sigma}$. Tuttavia, la stima del valore costante $\psi$ è ottenuta tramite l'equazione:

$$
\begin{equation}
\hat{\psi} = \frac{1}{p} \sum_i (s_{ii} - \hat{\sigma}_T^2)
\end{equation}
$$(eq-psi-par-st)

## Varianza del punteggio totale di un test

Il punteggio complessivo $Y$ di un test omogeneo rappresenta la somma dei punteggi $X_i$ relativi ai $p$ item che costituiscono il test: $Y = \sum_{i=1}^p X_i$. Lo scopo è descrivere la varianza del punteggio totale del test sfruttando i parametri del modello unifattoriale.

Nel contesto di un modello congenerico con un singolo fattore comune, il punteggio dell'item $i$-esimo può essere espresso come

$$
X_i = \lambda_i \xi + \delta_i,
$$

questa formulazione è coerente con l'equazione $X_i = T_i + E_i$ nella teoria classica dei test. Il punteggio totale è dato dalla somma di tutti gli item, ovvero $\sum_i \left(\lambda_i \xi + \delta_i\right)$. Di conseguenza, la varianza del punteggio totale è

$$
\begin{equation}
\mathbb{V}(Y) = \left( \sum_i \lambda_i\right)^2 + \sum_i \psi_{ii}.
\end{equation}
$$(eq-var-y)

In altre parole, la varianza del punteggio totale $Y$ del test può essere suddivisa in due componenti: il quadrato della somma delle saturazioni fattoriali, che riflette la variazione associata al vero punteggio (cioè la varianza legata all'attributo misurato dagli item), e la somma delle varianze specifiche dei $p$ indicatori, che incarna la variazione dovuta agli errori di misurazione del punteggio totale del test.

L'eq. {eq}`eq-var-y` può essere facilmente dimostrata nel contesto di un modello congenerico. Infatti, la varianza del punteggio totale $Y$ equivale a $\mathbb{V}\left[ \sum_i \left(\lambda_i \xi + \delta_i\right) \right]$. Espandendo l'espressione si ottiene

$$
\begin{equation}
\begin{aligned}
  \mathbb{V}(Y) &= \mathbb{V}\left[ \sum_i  \left(\lambda_i \xi + \delta_i\right)  \right]\notag\\
  &= \mathbb{V}\left[  (\lambda_1 \xi + \delta_1) + (\lambda_2 \xi + \delta_2) + \dots +  (\lambda_p \xi + \delta_p)  \right]\notag\\
  &= \mathbb{V}\left[ \left( \sum_i \lambda_i\right) \xi + \sum_i \delta_i\right]\notag\\
  &=  \left(\sum_i \lambda_i\right)^2 \underbrace{\mathbb{V}(\xi)}_{=1} +  \sum_i  \mathbb{V}(\delta_i)\notag\\
  &= \left(\sum_i \lambda_i\right)^2 + \sum_i \psi_{ii}.\notag
\end{aligned}
\end{equation}
$$


## Stima dell'attendibilità

### Coefficiente Omega

Avendo effettuato la decomposizione della varianza del punteggio totale di un test come indicato nell'eq. {eq}`eq-var-y`:

$$
\mathbb{V}(Y) = \left( \sum_i \lambda_i\right)^2 + \sum_i \psi_{ii},
$$

{cite:t}`mcdonald2013test` introduce la definizione del coefficiente di affidabilità $\omega$ quale rapporto tra la varianza "vera" (attribuibile all'attributo comune) e la varianza totale. Nella formulazione basata sui parametri del modello monofattoriale, il coefficiente $\omega$ può essere espresso come:

$$
\begin{equation}
\begin{aligned}
\omega &= \frac{\left( \sum_{i=1}^p \lambda_i \right)^2}{\sigma_Y^2} \notag\\
&= \frac{\left( \sum_{i=1}^p \lambda_i \right)^2}{\left( \sum_{i=1}^p \lambda_i \right)^2  + \sum_{i=1}^p \psi_{ii}}
\end{aligned}
\end{equation}
$$(eq-omega)

Il coefficiente $\omega$ fornisce pertanto una stima del grado di affidabilità, formulata sulla base dei parametri del modello fattoriale congenerico e sfruttando i dati raccolti in una singola somministrazione del test.


#### Un esempio concreto

Consideriamo nuovamente la scala *Openness* del dataframe `bfi` discussi nel capitolo {ref}`ctt-3-notebook`. Leggiamo i dati in R.

In [8]:
data(bfi, package = "psych")

È necessario ricodificare due item.

In [9]:
bfi$O2r <- 7 - bfi$O2
bfi$O5r <- 7 - bfi$O5

In [10]:
cor(bfi[c("O1", "O2r", "O3", "O4", "O5r")], use = "pairwise.complete.obs") |>
    round(2)

Unnamed: 0,O1,O2r,O3,O4,O5r
O1,1.0,0.21,0.4,0.18,0.24
O2r,0.21,1.0,0.26,0.07,0.32
O3,0.4,0.26,1.0,0.19,0.31
O4,0.18,0.07,0.19,1.0,0.18
O5r,0.24,0.32,0.31,0.18,1.0


Eseguiamo l'analisi fattoriale confermativa con `lavaan`.

In [20]:
mod <- "
    f =~ NA*O1 + O2r + O3 + O4 + O5r
    f ~~ 1*f
"

fit <- cfa(mod, data = bfi, std.ov = TRUE, std.lv = TRUE)


Estraiamo le saturazioni fattoriali e le specificità dall'oggetto `fit`.

In [29]:
lambda <- inspect(fit, what = "std")$lambda
psy <- diag(inspect(fit, what = "est")$theta)

Calcoliamo il coefficiente $\omega$

$$
\omega = \frac{\left( \sum_{i=1}^p \lambda_i \right)^2}{\left( \sum_{i=1}^p \lambda_i \right)^2  + \sum_{i=1}^p \psi_{ii}}
$$

usando i parametri del modello fattoriale.

In [30]:
sum(lambda)^2 / (sum(lambda)^2 + sum(psy))

Ripetiamo i calcoli usando la funzione `compRelSEM` del pacchetto `semTools`.

In [31]:
semTools::compRelSEM(fit,  tau.eq = FALSE)

Il coefficiente $\omega=0.62$ può essere interpretato dicendo che il 62% della varianza del punteggio totale $Y$ della sottoscala Openness viene spiegato dal fattore comune latente.

#### Coefficiente $\omega$ e assunzioni della teoria classica dei test

Il calcolo di $\omega$ si basa sull'assunzione, conforme alla teoria classica dei test, che $\psi_{ik}=0$ quando $i\neq k$. Tuttavia, in situazioni di dati empirici, questa assunzione potrebbe non essere rispettata. In tali circostanze, come evidenziato da Bollen (1980), l'eq. {eq}`eq-omega` diventa:

$$
\begin{equation}
\omega = \frac{\left( \sum_{i=1}^p \lambda_i \right)^2}{\left( \sum_{i=1}^p \lambda_i \right)^2  + \sum_{i=1}^p \psi_{ii} + \sum_{i, k, i\neq k}^p \psi_{ik}}.
\end{equation}
$$(eq-omega2)

La validità dell'assunzione sull'assenza di correlazione tra i fattori specifici può essere sottoposta a verifica mediante un'analisi fattoriale confermativa. Se emergono numerose coppie di fattori specifici correlati, potrebbe divenire necessario introdurre fattori aggiuntivi nel modello per tenere conto di queste covarianze. Questa eventualità potrebbe condurre a una struttura non più unidimensionale: la presenza di diversi fattori suggerisce l'esistenza di sottoscale multiple. Tuttavia, il problema esposto sopra non può sempre essere risolto con la semplice identificazione di sottoscale, poiché persino in questa situazione potrebbero permanere covarianze tra i fattori specifici che non sono spiegate dai fattori che delineano le sottoscale. In tali scenari, il calcolo di $\omega$ richiederà l'utilizzo dell'eq. {eq}`eq-omega2`.

#### Interpretazione

{cite:t}`mcdonald2013test` fornisce le seguenti interpretazioni al coefficiente $\omega$:
- $\omega$ rappresenta il quadrato della correlazione tra $Y$ e il fattore comune $\xi$, o equivalentemente tra $Y$ e il punteggio vero (in accordo con la definizione di affidabilità: $\rho_{XT}^2=\sigma^2_{\tau}/\sigma^2_X$);
- $\omega$ corrisponde alla correlazione tra due test $Y$ e $Y'$ che condividono la stessa somma (o media) delle saturazioni nel modello a singolo fattore, e la stessa somma (o media) delle varianze specifiche nel modello a singolo fattore;
- $\omega$ è il quadrato della correlazione tra il punteggio totale di $p$ item e il punteggio medio di un insieme infinito di item in un dominio omogeneo, nel quale i $p$ item costituiscono un sottoinsieme.

In sostanza, il coefficiente $\omega$ offre un quadro di riferimento per comprendere il legame tra il punteggio totale del test e il fattore sottostante, sia attraverso la correlazione, sia attraverso le caratteristiche di omogeneità e consistenza riscontrabili tra diversi test.


### Coefficienti $\alpha$ e $\omega$ nel modello $\tau$-equivalente

Nei modelli monofattoriali, sia il coefficiente $\omega$ che il coefficiente $\alpha$ forniscono stime dell'attendibilità, ma in differenti contesti. Il coefficiente $\omega$ stima l'attendibilità nel caso di un modello con indicatori congenerici, mentre il coefficiente $\alpha$ fornisce una stima nell'ambito di un modello con indicatori $\tau$-equivalenti.

Se consideriamo $p$ item che soddisfano il modello di $\tau$-equivalenza, la varianza di ciascun item può essere scomposta in una componente attribuibile al valore vero e una componente d'errore, come espresso nell'eq. {eq}`eq-var-tau`, ovvero $\sigma_{ii} = \lambda^2 + \psi_{ii} = \sigma^2_T + \sigma^2_i$. In accordo con il principio di $\tau$-equivalenza, le varianze e covarianze generabili dal modello monofattoriale rispondono alle caratteristiche descritte nella matrice {eq}`eq-sigma-tau-eq`. Considerando che tutti gli item presentano la medesima saturazione fattoriale $\lambda$, la formula di calcolo del coefficiente $\omega$ si semplifica come segue:

$$
\omega = \frac{\left( \sum_i \lambda_i \right)^2}{\left( \sum_i \lambda_i \right)^2  + \sum_i \psi_{ii}} = \frac{p^2 \lambda^2}{\sigma^2_Y} = \frac{p^2 \sigma_T^2}{\sigma_Y^2}
$$

dove $Y$ rappresenta il punteggio totale del test.

Attraverso l'uso del metodo dei minimi quadrati non pesati, possiamo ottenere la seguente stima per $\omega$:

$$
\begin{equation}
\hat{\omega} = \frac{p^2 \hat{\sigma}_T^2}{s_Y^2}
\end{equation}
$$(eq-omega-firt-part)

dove una stima di $\sigma_T^2$ è data dall'eq. {eq}`eq-sigma-t`, ossia

$$
\begin{equation}
\hat{\sigma}_T^2 = \frac{1}{p(p-1)} {\sum \sum}_{i \neq k} s_{ik}
\end{equation}
$$(eq-hat-sigma-tau2)

Sostituendo l'eq. {eq}`eq-hat-sigma-tau2` nell'eq. {eq}`eq-omega-firt-part`, otteniamo

$$
\begin{equation}
\hat{\omega} = \frac{p}{p-1}\frac{{\sum \sum}_{i \neq k} s_{ik}}{s_Y^2}
\end{equation}
$$

In sintesi, per indicatori $\tau$-equivalenti, una stima di $\omega$ è data da

$$
\begin{equation}
\begin{aligned}
\hat{\omega} &= \frac{p}{p-1}\frac{{\sum \sum}_{i \neq k} s_{ik}}{s_Y^2} \notag\\
 &= \frac{p}{p-1}\left(1-\frac{\sum_i s_{ii}}{s_Y^2}\right)
\end{aligned}
\end{equation}
$$(eq-alpha-camp)

La stima di attendibilità fornita dall'eq. {eq}`eq-alpha-camp` trova una sua controparte nei valori di popolazione nell'equazione seguente:

$$
\begin{equation}
\begin{aligned}
\alpha &= \frac{p}{p-1}\left(1-\frac{\sum_{i=1}^p \sigma_{ii}}{\sigma_Y^2}\right)
&= \frac{p}{p-1}\frac{\sum_{i\neq k}^p \text{Cov}(X_i, X_k)}{\mathbb{V}(Y)}
\end{aligned}
\end{equation}
$$(eq-alpha-pop)

L'eq. {eq}`eq-alpha-pop` definisce il coefficiente $\alpha$.

Se gli indicatori soddisfano le condizioni del modello $\tau$-equivalente, i coefficienti $\alpha$ e $\omega$ coincidono. Nel contesto di un modello $\tau$-equivalente adeguate, il coefficiente $\alpha$ rappresenta un limite inferiore di $\omega$ (cioè, sottostima $\omega$): $\omega \geq \alpha$. Pertanto, data la natura conservativa della stima di attendibilità fornita da $\alpha$, alcuni studiosi preferiscono $\alpha$ a $\omega$. È importante notare, però, che questa caratteristica conservativa di $\alpha$ si applica solo quando le assunzioni del modello $\tau$-equivalente sono soddisfatte.

#### Un esempio concreto

Consideriamo la matrice di varianze e covarianze della sottoscala Openness. 

In [6]:
C <- cov(bfi[c("O1", "O2r", "O3", "O4", "O5r")], use = "pairwise.complete.obs")
C |> round(2)

Unnamed: 0,O1,O2r,O3,O4,O5r
O1,1.28,0.38,0.54,0.25,0.36
O2r,0.38,2.45,0.5,0.13,0.67
O3,0.54,0.5,1.49,0.29,0.5
O4,0.25,0.13,0.29,1.49,0.29
O5r,0.36,0.67,0.5,0.29,1.76


In precedenza abbiamo visto come calcolare il coefficiente $\alpha$ usando l'eq. {eq}`eq-alpha-camp`:

In [7]:
p <- 5
alpha <- (p / (p - 1)) * (1 - tr(C) / sum(C))
alpha


### La formula "profetica" di Spearman-Brown

La formula profetica di Spearman-Brown è utilizzata per valutare l'affidabilità in un modello di misurazione composto da indicatori paralleli. Immaginiamo di avere $p$ item paralleli, dove $\lambda_1=\lambda_2=\dots=\lambda_p=\lambda$ e $\psi_{11}=\psi_{22}=\dots=\psi_{pp}=\psi$. In questa situazione, la proporzione di varianza nel punteggio totale del test spiegata dalla variabile latente è uguale a

$$
\left(\sum_i \lambda_i \right)^2 = (p \lambda)^2 = p^2 \lambda^2.
$$

L'affidabilità di un singolo item, che chiameremo $\rho_1$, è definita come

$$
\rho_1 = \frac{\sigma_T^2}{\sigma_T^2+ \sigma_E^2} = \frac{\lambda^2}{\lambda^2 + \psi}.
$$

Per $p$ item paralleli, otteniamo

$$
\begin{equation}
\begin{aligned}
  \rho_p &= \frac{p^2 \lambda^2}{p^2 \lambda^2 + p \psi} \notag\\
         &= \frac{p^2 \lambda^2}{ p (p \lambda^2 + \psi)} \notag\\
         &= \frac{p \lambda^2}{ p \lambda^2 + \psi} \notag\\
         &= \frac{p \lambda^2}{(p-1) \lambda^2 + (\lambda^2 + \psi)}. \notag
\end{aligned}
\end{equation}
$$

Ricordando che l'affidabilità di un singolo item è $\rho_1 = \frac{\lambda^2}{\lambda^2 + \psi}$, possiamo scrivere

$$
\begin{equation}
\begin{aligned}
  \rho_p &= \frac{p \frac{\lambda^2}{\lambda^2+\psi}}{(p-1) \frac{\lambda^2}{\lambda^2+\psi} + \frac{\lambda^2 + \psi}{\lambda^2+\psi}} \notag\\
  &= \frac{p \rho_1}{(p-1)\rho_1 + 1}.
\end{aligned}
\end{equation}
$$(eq-spearman-brown-der)

L'eq. {eq}`eq-spearman-brown-der` esprime l'affidabilità $\rho_p$ di un test composto da $p$ item paralleli come una funzione dell'affidabilità di un singolo item. Questa formula è conosciuta come la "formula di predizione" di Spearman-Brown (*Spearman-Brown prophecy formula*). 

Nel caso di item paralleli, possiamo notare che

$$
\omega=\alpha=\rho_p.
$$

#### Un esempio concreto

Poniamoci il problema di calcolare l'attendibilità della sottoscala Openness utilizzando la formula di Spearman-Brown. Ipotizziamo dunque che gli item della scala Openness siano paralleli. La matrice di correlazione è:

In [38]:
R <- cor(bfi[c("O1", "O2r", "O3", "O4", "O5r")], use = "pairwise.complete.obs")

Seguendo {cite:t}`mcdonald2013test`, supponiamo di calcolare l'attendibilità di un singolo item ($\rho_1$) come la correlazione media tra gli item:

In [39]:
rr <- NULL
p <- 5
k <- 1
for (i in 1:p) {
  for (j in 1:p) {
    if (j != i) {
      rr[k] <- R[i, j]
    }
    k <- k + 1
  }
}
ro_1 <- mean(rr, na.rm = TRUE)
ro_1

Applicando la formula di Spearman-Brown, la stima dell'attendibilità del
test diventa pari a

In [40]:
(p * ro_1) / ((p - 1) * ro_1 + 1)

## Commenti e considerazioni conclusive

L'indice di affidabilità ampiamente utilizzato nell'ambito della psicometria è il coefficiente $\alpha$ di Cronbach. Tuttavia, per ottenere una stima attendibile dell'affidabilità del test tramite $\alpha$, è necessario che gli item siano $\tau$-equivalenti. Questo significa che il modello di $\tau$-equivalenza richiede che il tratto latente sia unidimensionale. Tuttavia, in pratica, spesso questa assunzione viene violata, poiché molti test misurano oltre al fattore generale, anche altri fattori. Addirittura, anche nel caso di un test unidimensionale, le comunalità degli item solitamente non sono uguali, infrangendo l'ipotesi di $\tau$-equivalenza. In situazioni del genere, se l'assunzione di incorrelazione degli errori è rispettata, il coefficiente $\alpha$ tende a sottostimare l'affidabilità del test. D'altro canto, se l'assunzione di incorrelazione degli errori non è soddisfatta, il coefficiente $\alpha$ può sovrastimare l'affidabilità del test.

Per queste ragioni, l'utilità del coefficiente $\alpha$ di Cronbach è limitata, e in generale, è preferibile adottare il coefficiente $\omega$ introdotto da {cite:t}`mcdonald2013test`. Altre alternative ai coefficienti $\alpha$ e $\omega$ includono gli indici $glb$ (*Greatest Lower Bound*), come discusso da Ten Berge e Sočan (2004), e l'indice $\beta$ proposto da Revelle (1979).
