(meanstructure-notebook)=
# La struttura delle medie

In [1]:
source("../_common.R")

## L'impiego delle Medie nei Modelli di Equazioni Strutturali (SEM)

Nei modelli di equazioni strutturali (SEM), simili all'analisi fattoriale, esaminiamo principalmente le relazioni di covarianza tra le variabili. Una caratteristica distintiva dei modelli SEM rispetto all'analisi fattoriale tradizionale è la possibilità di includere le medie sia delle variabili osservate che di quelle latenti. Questo è particolarmente utile in modelli come quelli di analisi fattoriale confermativa (CFA) longitudinale, dove le ipotesi si concentrano sulle medie dei costrutti analizzati.

### Interpretazione delle Intercette nei Modelli SEM

In un modello SEM, l'intercetta di una variabile indicatore (denotata con $ \tau $) indica la media stimata di quella variabile. Il valore di $ \tau $ rappresenta il valore atteso dell'indicatore quando il fattore latente a cui è associato è zero. La relazione generale per un indicatore $ y $ in un modello SEM è data dalla formula:

$$ 
y = \tau + \lambda \cdot \text{fattore latente} + \varepsilon, 
$$

dove:
- $ y $ è il punteggio osservato dell'indicatore.
- $ \lambda $ rappresenta il carico fattoriale, che indica quanto fortemente l'indicatore è influenzato dal fattore latente.
- $ \tau $ è l'intercetta, cioè la media stimata dell'indicatore.
- $ \varepsilon $ è l'errore di misura associato all'indicatore.

### Struttura delle Medie nel Modello CFA

Nel contesto di un modello CFA, la struttura delle medie è descritta dalla formula:

$$ \text{media(variabile latente)} = \Lambda \mu_{\text{lat}} + \tau, $$

qui:
- $ \Lambda $ è la matrice dei carichi fattoriali.
- $ \mu_{\text{lat}} $ è il vettore che rappresenta le medie dei costrutti latenti.
- $ \tau $ è il vettore delle intercette degli indicatori.

### Utilizzo delle Medie nel Software `lavaan`

Nel software `lavaan`, utilizzato per l'analisi SEM, è possibile stimare le intercette inserendo l'opzione `meanstructure = TRUE` nella sintassi del modello. Questo comando permette di includere automaticamente una costante "1" in tutte le equazioni del modello, facilitando così il calcolo delle intercette per le variabili endogene. È necessario fornire i dati originali o una matrice di covarianza, insieme alle medie di tutte le variabili interessate.

## Un Esempio Pratico

Utilizziamo il dataset `HolzingerSwineford1939` per costruire un modello di misurazione con tre costrutti latenti (`visual`, `textual`, `speed`), ciascuno definito da tre indicatori (`x1`, `x2`, `x3`, ecc.). 

In [2]:
data(HolzingerSwineford1939)
glimpse(HolzingerSwineford1939)

Rows: 301
Columns: 15
$ id     [3m[90m<int>[39m[23m 1, 2, 3, 4, 5, 6, 7, 8, 9, 11, 12, 13, 14, 15, 16, 17, 18, 19, ~
$ sex    [3m[90m<int>[39m[23m 1, 2, 2, 1, 2, 2, 1, 2, 2, 2, 1, 1, 2, 2, 1, 2, 2, 1, 2, 2, 1, ~
$ ageyr  [3m[90m<int>[39m[23m 13, 13, 13, 13, 12, 14, 12, 12, 13, 12, 12, 12, 12, 12, 12, 12,~
$ agemo  [3m[90m<int>[39m[23m 1, 7, 1, 2, 2, 1, 1, 2, 0, 5, 2, 11, 7, 8, 6, 1, 11, 5, 8, 3, 1~
$ school [3m[90m<fct>[39m[23m Pasteur, Pasteur, Pasteur, Pasteur, Pasteur, Pasteur, Pasteur, ~
$ grade  [3m[90m<int>[39m[23m 7, 7, 7, 7, 7, 7, 7, 7, 7, 7, 7, 7, 7, 7, 7, 7, 7, 7, 7, 7, 7, ~
$ x1     [3m[90m<dbl>[39m[23m 3.333333, 5.333333, 4.500000, 5.333333, 4.833333, 5.333333, 2.8~
$ x2     [3m[90m<dbl>[39m[23m 7.75, 5.25, 5.25, 7.75, 4.75, 5.00, 6.00, 6.25, 5.75, 5.25, 5.7~
$ x3     [3m[90m<dbl>[39m[23m 0.375, 2.125, 1.875, 3.000, 0.875, 2.250, 1.000, 1.875, 1.500, ~
$ x4     [3m[90m<dbl>[39m[23m 2.333333, 1.666667, 1.000000, 2.666667, 2.666667, 1.0

In [3]:
hs_model <- "
    visual =~ NA*x1 + x2 + x3
    textual =~ NA*x4 + x5 + x6
    speed =~ NA*x7 + x8 + x9

    visual ~~ 1*visual
    textual ~~ 1 * textual
    speed ~~ 1 * speed
"

Utilizziamo l'argomento `meanstructure = TRUE` per richiedere la stima delle intercette degli indicatori $ \tau $. 

- Ogni costrutto latente è definito in relazione ai suoi indicatori, dove le intercette degli indicatori ($\tau$) non sono fissate a priori, ma stimate dal modello.
- Le varianze dei costrutti latenti sono fissate a 1, mentre le loro medie sono fissate a 0 (come evidenziato dall'output, righe 34-36).
- Nel caso presente, poiché le medie dei costrutti latenti sono fissate a zero, la media predetta per gli indicatori corrisponde alle intercette stimate.

In [4]:
fit <- cfa(hs_model,
    data = HolzingerSwineford1939,
    meanstructure = TRUE
)

In [5]:
params <- parameterEstimates(fit)
print(params)

       lhs op     rhs   est    se      z pvalue ci.lower ci.upper
1   visual =~      x1 0.900 0.081 11.128      0    0.741    1.058
2   visual =~      x2 0.498 0.077  6.429      0    0.346    0.650
3   visual =~      x3 0.656 0.074  8.817      0    0.510    0.802
4  textual =~      x4 0.990 0.057 17.474      0    0.879    1.101
5  textual =~      x5 1.102 0.063 17.576      0    0.979    1.224
6  textual =~      x6 0.917 0.054 17.082      0    0.811    1.022
7    speed =~      x7 0.619 0.070  8.903      0    0.483    0.756
8    speed =~      x8 0.731 0.066 11.090      0    0.602    0.860
9    speed =~      x9 0.670 0.065 10.305      0    0.543    0.797
10  visual ~~  visual 1.000 0.000     NA     NA    1.000    1.000
11 textual ~~ textual 1.000 0.000     NA     NA    1.000    1.000
12   speed ~~   speed 1.000 0.000     NA     NA    1.000    1.000
13      x1 ~~      x1 0.549 0.114  4.833      0    0.326    0.772
14      x2 ~~      x2 1.134 0.102 11.146      0    0.934    1.333
15      x3

### Interpretazione delle Medie Stimate

La media dei punteggi osservati per gli indicatori (`x1`, `x2`, `x3`, ecc.) viene calcolata attraverso le intercette stimate dal modello. È fondamentale distinguere tra la media empirica, calcolata direttamente dai dati, e la media predetta dal modello. La media predetta degli indicatori in un modello dove la media dei costrutti latenti è fissata a zero è influenzata esclusivamente dalle loro intercette. 

### Calcolo delle Medie Osservate e Predette in R

Consideriamo gli indicatori `x1`, `x2`, `x3`. Per calcolare la media osservata di questi indicatori, usiamo le loro intercette stimate. 

In [6]:
intercepts <- params$est[params$op == "~1"][1:9] # Intercette degli indicatori (τ)

Questo ci fornisce le intercette degli indicatori:

In [7]:
intercepts |> print()

[1] 4.935770 6.088040 2.250415 3.060908 4.340532 2.185572 4.185902 5.527076
[9] 5.374123


Per ottenere la media osservata dei punteggi di `x1`, `x2`, `x3`, calcoliamo la media aritmetica delle loro intercette:

In [11]:
 mean_observed_scores <- mean(intercepts[1:3])
 print(mean_observed_scores)

[1] 4.424742


Questo valore rappresenta la media osservata calcolata come la media aritmetica delle intercette di `x1`, `x2`, `x3`. Nel contesto del nostro modello CFA, dove la media dei costrutti latenti è fissata a zero, la media predetta degli indicatori corrisponde alla media osservata:

In [12]:
mean((HolzingerSwineford1939$x1 + HolzingerSwineford1939$x2 + HolzingerSwineford1939$x3) / 3) 

In [13]:
mean_predicted_scores <- mean_observed_scores
print(mean_predicted_scores)

[1] 4.424742


### Medie di Costrutti Latenti Non Zero

In situazioni in cui le medie dei costrutti latenti non sono fissate a zero, la media predetta degli indicatori è influenzata sia dalle intercette sia dai carichi fattoriali. Per esempio, se la media del costrutto latente fosse diversa da zero, l'equazione per calcolare la media di un indicatore (come `x1`) includerebbe il contributo del costrutto latente:

$$ 
\text{media predetta}(x1) = \mu_{\text{latente}} \cdot \lambda_{x1} + \tau_{x1}, 
$$

dove:

- $\mu_{\text{latente}}$ è la media stimata del costrutto latente.
- $\lambda_{x1}$ è il carico dell'indicatore `x1`.
- $\tau_{x1}$ è l'intercetta stimata dell'indicatore `x1`.

Esaminiamo un esempio nel quale le medie dei fattori latenti non sono fissate a zero. Per ottenere questo risultato è necessario identificare il modello introducendo due vincoli:

- l'intercetta degli indicatori è fissata a zero;
- una delle intercette delle variabili latenti è fissata a zero.

In [14]:
hs_model <- "
    visual =~ NA*x1 + x2 + x3
    textual =~ NA*x4 + x5 + x6
    speed =~ NA*x7 + x8 + x9

    visual ~~ 1*visual
    textual ~~ 1*textual
    speed ~~ 1*speed

    x1 ~ 0*1 # Setting the intercepts of the manifest
    x4 ~ 0*1 # variables to zero
    x7 ~ 0*1

    visual ~ 0*1 # Setting the mean of visual to zero
    textual ~ 1 # freely estimating the mean of textual
    speed ~ 1 # freely estimating the mean of speed
"

In [15]:
# Fit del modello con la struttura delle medie
fit <- cfa(hs_model, data = HolzingerSwineford1939, meanstructure = TRUE)

In [16]:
params <- parameterEstimates(fit)
print(params)

       lhs op     rhs    est    se       z pvalue ci.lower ci.upper
1   visual =~      x1  4.983 0.212  23.538  0.000    4.568    5.398
2   visual =~      x2  1.702 0.093  18.248  0.000    1.519    1.885
3   visual =~      x3  2.243 0.106  21.099  0.000    2.035    2.451
4  textual =~      x4  1.783 0.081  21.945  0.000    1.624    1.942
5  textual =~      x5  1.985 0.090  22.007  0.000    1.808    2.162
6  textual =~      x6  1.652 0.076  21.702  0.000    1.502    1.801
7    speed =~      x7  1.136 0.072  15.882  0.000    0.996    1.277
8    speed =~      x8  1.341 0.070  19.127  0.000    1.204    1.478
9    speed =~      x9  1.229 0.068  17.979  0.000    1.095    1.363
10  visual ~~  visual  1.000 0.000      NA     NA    1.000    1.000
11 textual ~~ textual  1.000 0.000      NA     NA    1.000    1.000
12   speed ~~   speed  1.000 0.000      NA     NA    1.000    1.000
13      x1 ~1          0.000 0.000      NA     NA    0.000    0.000
14      x4 ~1          0.000 0.000      NA     N

In sintesi, la media predetta degli indicatori in un modello SEM può variare a seconda della configurazione delle medie dei costrutti latenti e del contributo dei carichi fattoriali.

## Session Info

In [17]:
sessionInfo()

R version 4.3.3 (2024-02-29)
Platform: aarch64-apple-darwin20 (64-bit)
Running under: macOS Sonoma 14.4.1

Matrix products: default
BLAS:   /Library/Frameworks/R.framework/Versions/4.3-arm64/Resources/lib/libRblas.0.dylib 
LAPACK: /Library/Frameworks/R.framework/Versions/4.3-arm64/Resources/lib/libRlapack.dylib;  LAPACK version 3.11.0

locale:
[1] C

time zone: Europe/Rome
tzcode source: internal

attached base packages:
[1] stats     graphics  grDevices utils     datasets  methods   base     

other attached packages:
 [1] ggokabeito_0.1.0  viridis_0.6.5     viridisLite_0.4.2 ggpubr_0.6.0     
 [5] ggExtra_0.10.1    bayesplot_1.11.1  gridExtra_2.3     patchwork_1.2.0  
 [9] semTools_0.5-6    semPlot_1.1.6     lavaan_0.6-17     psych_2.4.3      
[13] scales_1.3.0      markdown_1.12     knitr_1.45        lubridate_1.9.3  
[17] forcats_1.0.0     stringr_1.5.1     dplyr_1.1.4       purrr_1.0.2      
[21] readr_2.1.5       tidyr_1.3.1       tibble_3.2.1      ggplot2_3.5.0    
[25] tidyvers