# La revisione del modello {#sec-sem-revision}

**Prerequisiti**

**Concetti e Competenze Chiave**

**Preparazione del Notebook**

In [None]:
here::here("code", "_common.R") |>
    source()

# Load packages
if (!requireNamespace("pacman")) install.packages("pacman")
pacman::p_load(lavaan, effectsize)

## Introduzione

I passi principali nella CFA e nei modelli SEM comprendono la specificazione del modello, la stima dei parametri, la valutazione del modello e dei parametri e la modificazione del modello. Questa sequenza può essere ripetuta molte volte fino a quando non si trovi un modello considerato accettabile. 

## Stima del modello 

Consideriamo qui un modello SEM con una sola variabile latente identificata da un insieme di indicatori, ovvero un modello CFA. L'obiettivo della CFA è ottenere stime per i parametro del modello (vale a dire, saturazioni fattoriali, varianze e covarianze fattoriali, varianze residue ed eventualmente covarianze degli errori) che sono in grado di produrre una matrice di covarianza prevista (denotata da $\boldsymbol{\Sigma}$) la quale è il più possibile simile alla matrice di covarianze campionarie (denotata da $\boldsymbol{S}$). Questo processo di stima è basato sulla minimizzazione di una funzione che descrive la differenza tra $\boldsymbol{\Sigma}$ e $\boldsymbol{S}$. Il metodo di stima più utilizzato nella CFA (e, in generale, nei modelli SEM) è la massima verosimiglianza (ML). 

## Massima verosimiglianza

L'equazione fondamentale dell'analisi fattoriale è

$$
\boldsymbol y = \boldsymbol \Lambda  \boldsymbol x  + \boldsymbol z, 
$$

dove $\boldsymbol{y}$ è un vettore di $p$ componenti (i punteggi osservati nel del test), $\boldsymbol{x}$ è un vettore di $k < p$ componenti (i punteggi fattoriali),  $\boldsymbol{\Lambda}$ è una $p \cdot k$ matrice (di saturazioni fattoriali), e $\boldsymbol{z}$ è un vettore di $p$ componenti (la componenti dei punteggi del test non dovute all'effetto causale delle variabili comuni latenti). Per l'item $i$-esimo, in precedenza abbiamo scritto l'equazione precedente come

$$
y_i = \lambda_{i1} \xi_1 + \dots + \lambda_{ik} \xi_k + \delta_i. 
$$

Dalle assunzioni del modello fattoriale deriva che

$$
\boldsymbol{\Sigma} = \boldsymbol{\Lambda}\boldsymbol{\Phi}\boldsymbol{\Lambda}^\prime + \Psi,
$$

dove $\boldsymbol{\Phi}$ è la matrice delle inter-correlazioni fattoriali.

Si assume che il vettore casuale $\boldsymbol{y}$ abbia una distribuzione normale multivariata con matrice di covarianza $\boldsymbol{\Sigma}$ e che da tale distribuzione sia stato estratto un campione casuale di $n$ osservazioni $y_l, y_2, \dots, y_n$. Il logaritmo della funzione di verosimiglianza per il campione è dato da

$$
\log L = \frac{1}{2}n [\log | \boldsymbol{\Sigma}| + tr(\boldsymbol{\boldsymbol{S} \Sigma}^{-1})].
$$

L'equazione precedente viene vista come funzione di $\Lambda$ e $\Psi$. Anziché massimizzare $\log L$, è equivalente e più conveniente minimizzare 

$$
F_{k}(\Lambda, \Psi) = \log |\boldsymbol{\Sigma}| + tr[\boldsymbol{S}\boldsymbol{\Sigma}^{-1}]  - \log|\boldsymbol{S}| – p,
$$

dove $|\boldsymbol{S}|$ è il determinante della matrice di covarianza tra le variabili osservate, $|\boldsymbol{\Sigma}|$ è il determinante della matrice di covarianza prevista e $p$ è il numero di indicatori. 

L'obiettivo della stima di massima verosimiglianza della CFA è trovare le stime dei parametri che rendono più verosimili i dati osservati (o, al contrario, massimizzano la verosimiglianza dei parametri dati i dati). Le stime dei parametri in un modello CFA si ottengono con una procedura iterativa. Cioè, l'algoritmo inizia con una serie iniziale di stime dei parametri (denominate valori iniziali o stime iniziali, che possono essere generate automaticamente dal software o specificate dall'utente) e raffina ripetutamente queste stime nel tentativo di minimizzare la differenza tra $\boldsymbol{\Sigma}$ e $\boldsymbol{S}$. Il programma effettua controlli interni per valutare i suoi progressi nell'ottenere stime dei parametri che al meglio riproducono  $\boldsymbol{S}$. Si raggiunge la convergenza quando l'algoritmo produce una serie di stime dei parametri che non possono essere ulteriormente migliorate per ridurre la differenza tra $\boldsymbol{\Sigma}$ e $\boldsymbol{S}$. 

## Identificabilità del modello

Un modello CFA deve essere formulato in modo tale da garantire la risolvibilità matematica dello stesso, ovvero deve essere tale da consentire una stima univoca dei parametri del modello. Detto in altre parole, la specificazione del modello ne deve garantire l'dentificabilità.

Il problema dell’identificazione richiede, innanzitutto, di chiarire il concetto di gradi di libertà (*degrees of freedom*). Nel presente contesto, per gradi di libertà ($dof$) intendiamo

$$
dof = \# (\text{unità di informazione}) - \# (\text{parametri da stimare}).
$$

I dati che vengono analizzati da un modello CFA sono contenuti in una matrice di covarianza. Per una matrice di covarianza di ordine $p$, il numero di unità di informazione è

$$
\frac{p (p+1)}{2}.
$$

Affinché il modello sia identificabile, devono essere soddisfatte le seguenti condizioni.

1. Indipendentemente dalla complessità del modello (ad es. modelli ad un fattore rispetto a più fattori), l'unità di misura delle variabili latenti deve essere specificata (di solito fissandola a un valore di 1);
2. Indipendentemente dalla complessità del modello, il numero di unità di informazione  (es. la matrice di covarianza degli indicatori) deve essere uguale o superiore al numero di parametri da stimare (es. saturazioni fattoriali, specificità, covarianze degli errori dell'indicatore, covarianze tra i fattori);
3. Nel caso di modelli ad un fattore è richiesto un minimo di tre indicatori. Quando vengono utilizzati tre indicatori, la soluzione a un fattore si dice "appena identificata" (*just-identified*); in tali condizioni non è possibile valutare la bontà dell'adattamento.
4. Nel caso di modelli a due o più fattori e due indicatori per costrutto latente, la soluzione è sovraidentificata, a condizione che ogni variabile latente sia correlata con almeno un'altra variabile latente e gli errori tra gli indicatori siano tra loro incorrelati. Tuttavia, poiché tali soluzioni sono suscettibili di scarsa identificazione empirica, viene raccomandato un minimo di tre indicatori per variabile latente.

In conclusione, una semplice e necessaria condizione per l'identificazione di un modello CFA è che vi siano più unità di informazione che parametri da stimare. Dunque, abbiamo che:

- se $dof < 0$, il modello *non è identificato* e, in questo caso, non è possibile stimare i parametri;
- se $dof = 0$, il modello è *appena identificato* o "saturo"; in questo caso, la matrice di covarianza riprodotta coincide con la matrice di covarianza delle variabili osservate e, di conseguenza, non esiste un residuo attraverso cui valutare la bontà dell'adattamento del modello;
- se $dof > 0$, il modello è *sovra-identificato* ed esistono le condizioni per valutare la bontà dell'adattamento.

Le considerazioni precedenti ci fanno capire perché non si può fare un'analisi fattoriale con solo due indicatori e un fattore; in tali circostanze, infatti, ci sono $(2 \cdot 3)/2 = 3$ gradi di libertà, ma 4 parametri da stimare (due saturazioni fattoriali e due specificità). Il caso di tre item e un fattore definisce un modello "appena identificato", ovvero, il caso in cui ci sono zero gradi di libertà. In tali circostanze è possibile stimare i parametri (ricordiamo il metodo dell'annullamento della tetrade), ma non è possibile un test di bontà dell'adattamento. Questo vuol dire, in pratica, che per un modello SEM ad un solo fattore comune latente è necessario disporre di almeno quattro indicatori. 

## Un Esempio Concreto

Nell'approfondire la tematica dei Modelli di Equazioni Strutturali, è utile considerare alcune problematiche comuni che possono emergere nella fase di adattamento del modello ai dati. Facendo riferimento agli esempi discussi da @brown2015confirmatory nel contesto dell'analisi fattoriale confermativa (CFA), possiamo identificare diverse potenziali cause di inadeguato adattamento. Queste cause possono essere di natura sia teorica che tecnica e spesso richiedono un'attenta riflessione e analisi per essere risolte. Esaminiamo alcune delle questioni più rilevanti:

1. **Numero Errato di Fattori Comuni Latenti:**
   - Uno degli errori più comuni è ipotizzare un numero di fattori latenti che non riflette adeguatamente la struttura sottostante dei dati. Un numero insufficiente di fattori può portare a un modello semplificato eccessivamente, mentre un numero eccessivo può causare sovra-aggiustamento e complessità non necessaria.

2. **Item che Saturano su Fattori Multipli:**
   - In alcuni casi, un item può essere erroneamente ipotizzato per saturare su un singolo fattore comune, mentre in realtà ha relazioni significative con più fattori. Questo errore nella specificazione del modello può portare a stime imprecise e a un adattamento inadeguato.

3. **Assegnazione Errata degli Item ai Fattori:**
   - Un'altra possibile causa di inadeguato adattamento riguarda l'errata assegnazione di un item al fattore comune sbagliato. Tale errore può derivare da una comprensione insufficiente delle dimensioni teoriche che si stanno misurando o da una cattiva interpretazione dei dati empirici.

4. **Correlazioni Residue Non Considerate:**
   - Infine, le correlazioni residue non incorporate nel modello possono giocare un ruolo significativo nell'adattamento del modello. Queste correlazioni possono indicare relazioni non catturate dai fattori comuni, suggerendo la necessità di rivedere l'ipotesi di base del modello o di aggiungere percorsi specifici per accomodare queste correlazioni.

In sintesi, l'adattamento del modello SEM ai dati è un processo complesso che richiede una profonda comprensione sia della teoria sottostante che della natura dei dati. Ogni volta che un modello non si adatta adeguatamente, è essenziale esaminare criticamente questi e altri potenziali fattori per identificare e correggere le cause alla base di tale inadeguatezza. Questo processo non solo migliora l'adattamento del modello, ma può anche fornire intuizioni preziose sulla struttura dei dati e sulla validità delle teorie sottostanti.

@brown2015confirmatory mostra come il ricercatore possa usare i *Modification Indices* per valutare le cause del mancato adattamento del modello ai dati. I Modification Indices sono una misura utilizzata per identificare le covariate tra le variabili del modello che potrebbero migliorare l'aderenza del modello ai dati. I modification indices indicano quale sarebbe il miglioramento nell'aderenza del modello, ad esempio, se venisse permessa la correlazione tra due variabili che attualmente non sono considerate correlate. Ciò consente di identificare le relazioni nascoste tra le variabili e può aiutare a migliorare la precisione e l'accuratezza del modello.

Tuttavia, è importante tenere presente che i *modification indices* da soli non dovrebbero essere usati per prendere decisioni definitive sulle modifiche del modello. Invece, dovrebbero essere considerati insieme ad altre informazioni, come la conoscenza teorica, l'esperienza e altre tecniche di analisi dei dati per determinare se una modifica del modello è giustificata e in che modo.

## Un numero di fattori troppo piccolo

Una delle possibili fonti di mancanza di adattamento del modello può dipendere dal fatto che è stato ipotizzato un numero insufficiente di fattori latenti comuni. @brown2015confirmatory discute il caso nel quale si confrontano gli indici di bontà di adattamento di un modello ad un solo fattore comune e un modello a due fattori comuni. L'esempio riguarda i dati già in precedenza discussi e relativi relativi a otto misure di personalità raccolte su un campione di 250 pazienti che hanno concluso un programma di psicoterapia. Le scale sono le seguenti:

- anxiety (N1), 
- hostility (N2), 
- depression (N3), 
- self-consciousness (N4), 
- warmth (E1), 
- gregariousness (E2), 
- assertiveness (E3), 
- positive emotions (E4). 

Leggiamo i dati in $\mathsf{R}$.

In [5]:
varnames <- c("N1", "N2", "N3", "N4", "E1", "E2", "E3", "E4")

sds <- c(5.7,  5.6,  6.4,  5.7,  6.0,  6.2,  5.7,  5.6)

cors <- '
 1.000
 0.767  1.000 
 0.731  0.709  1.000 
 0.778  0.738  0.762  1.000 
-0.351  -0.302  -0.356  -0.318  1.000 
-0.316  -0.280  -0.300  -0.267  0.675  1.000 
-0.296  -0.289  -0.297  -0.296  0.634  0.651  1.000 
-0.282  -0.254  -0.292  -0.245  0.534  0.593  0.566  1.000'

psychot_cor_mat <- getCov(cors, names = varnames)

n <- 250

Supponiamo di adattare ai dati il modello "sbagliato" che include un unico fattore comune.  Svolgiamo qui l'analisi *fattoriale esplorativa* usando la funzione sperimentale `efa()` di `lavaan`.

In [6]:
# 1-factor model
f1 <- '
  efa("efa")*f1 =~ N1 + N2 + N3 + N4 + E1 + E2 + E3 + E4
'

 Adattiamo il modello ai dati.

In [7]:
efa_f1 <-
  cfa(
    model = f1,
    sample.cov = psychot_cor_mat,
    sample.nobs = 250,
    rotation = "oblimin"
  )

Consideriamo ora un modello a due fattori.

In [8]:
f2 <- '
  efa("efa")*f1 +
  efa("efa")*f2 =~ N1 + N2 + N3 + N4 + E1 + E2 + E3 + E4
'

Adattiamo il modello ai dati.

In [9]:
efa_f2 <-
  cfa(
    model = f2,
    sample.cov = psychot_cor_mat,
    sample.nobs = 250,
    rotation = "oblimin"
  )

Esaminiamo gli indici di bontà di adattamento.

In [10]:
# define the fit measures
fit_measures_robust <- c("chisq", "df", "pvalue", "cfi", "tli", "rmsea", "srmr")

# collect them for each model
rbind(
  fitmeasures(efa_f1, fit_measures_robust),
  fitmeasures(efa_f2, fit_measures_robust)
) %>%
  # wrangle
  data.frame() %>%
  mutate(
    chisq = round(chisq, digits = 0),
    df = as.integer(df),
    pvalue = ifelse(pvalue == 0, "< .001", pvalue)
  ) %>%
  mutate_at(vars(cfi:srmr), ~ round(., digits = 3))

chisq,df,pvalue,cfi,tli,rmsea,srmr
<dbl>,<int>,<chr>,<dbl>,<dbl>,<dbl>,<dbl>
375,20,< .001,0.71,0.594,0.267,0.187
10,13,0.709310449320098,1.0,1.006,0.0,0.01


In [11]:
print(effectsize::interpret(efa_f1))

    Name     Value Threshold Interpretation
1    GFI 0.6713421      0.95           poor
2   AGFI 0.4084158      0.90           poor
3    NFI 0.7006460      0.90           poor
4   NNFI 0.5941736      0.90           poor
5    CFI 0.7101240      0.90           poor
6  RMSEA 0.2665811      0.05           poor
7   SRMR 0.1873289      0.08           poor
8    RFI 0.5809044      0.90           poor
9   PNFI 0.5004614      0.50   satisfactory
10   IFI 0.7120036      0.90           poor


In [12]:
print(effectsize::interpret(efa_f2))

    Name       Value Threshold Interpretation
1    GFI 0.990554109      0.95   satisfactory
2   AGFI 0.973842148      0.90   satisfactory
3    NFI 0.992174918      0.90   satisfactory
4   NNFI 1.005603388      0.90   satisfactory
5    CFI 1.000000000      0.90   satisfactory
6  RMSEA 0.000000000      0.05   satisfactory
7   SRMR 0.009907613      0.08   satisfactory
8    RFI 0.983145977      0.90   satisfactory
9   PNFI 0.460652640      0.50           poor
10   IFI 1.002570123      0.90   satisfactory


I risultati mostrano come, in un modello EFA, una soluzione a due fattori produca un adattamento adeguato, mentre ciò non si verifica con un modello ad un solo fattore.

## Specificazione errata delle relazioni tra indicatori e fattori latenti

Un'altra potenziale fonte di errata specificazione del modello CFA è una designazione errata delle relazioni tra indicatori e fattori latenti.

In questo esempio, un ricercatore ha sviluppato un questionario di 12 item (gli item sono valutati su scale da 0 a 8) progettato per valutare le motivazioni dei giovani adulti a consumare bevande alcoliche (Cooper, 1994). La misura aveva lo scopo di valutare tre aspetti di questo costrutto (4 item ciascuno): (1) motivazioni di coping (item 1–4), (2) motivazioni sociali (item 5–8) e (3) motivazioni di miglioramento (item 9 –12). I dati sono i seguenti.

In [13]:
sds <- c(2.06, 1.52, 1.92, 1.41, 1.73, 1.77, 2.49, 2.27, 2.68, 1.75, 2.57, 2.66)

cors <- '
  1.000 
  0.300  1.000 
  0.229  0.261  1.000 
  0.411  0.406  0.429  1.000 
  0.172  0.252  0.218  0.481  1.000 
  0.214  0.268  0.267  0.579  0.484  1.000 
  0.200  0.214  0.241  0.543  0.426  0.492  1.000 
  0.185  0.230  0.185  0.545  0.463  0.548  0.522  1.000 
  0.134  0.146  0.108  0.186  0.122  0.131  0.108  0.151  1.000 
  0.134  0.099  0.061  0.223  0.133  0.188  0.105  0.170  0.448  1.000 
  0.160  0.131  0.158  0.161  0.044  0.124  0.066  0.061  0.370  0.350  1.000 
  0.087  0.088  0.101  0.198  0.077  0.177  0.128  0.112  0.356  0.359  0.507  1.000'

covs <- getCov(cors, sds = sds, names = paste("x", 1:12, sep = ""))

Iniziamo con un modello che ipotizza tre fattori comuni latenti correlati, coerentemente con la motivazione che stava alla base della costruzione dello strumento.

In [14]:
model1 <- '
  copingm  =~ x1 + x2 + x3 + x4
  socialm  =~ x5 + x6 + x7 + x8
  enhancem =~ x9 + x10 + x11 + x12
'

Adattiamo il modello ai dati.

In [15]:
fit1 <- cfa(
  model1, 
  sample.cov = covs, 
  sample.nobs = 500, 
  mimic = "mplus"
)

"lavaan->lav_lavaan_step05_samplestats():  
   sample.mean= argument is missing, but model contains mean/intercept 
   parameters."


Esaminando le misure di adattamento potremmo concludere che il modello è adeguato.

In [16]:
print(effectsize::interpret(fit1))

    Name      Value Threshold Interpretation
1    GFI 0.97009178      0.95   satisfactory
2   AGFI 0.94722078      0.90   satisfactory
3    NFI 0.94785001      0.90   satisfactory
4   NNFI 0.97102541      0.90   satisfactory
5    CFI 0.97761054      0.90   satisfactory
6  RMSEA 0.03745791      0.05   satisfactory
7   SRMR 0.03438699      0.08   satisfactory
8    RFI 0.93251177      0.90   satisfactory
9   PNFI 0.73242955      0.50   satisfactory
10   IFI 0.97781875      0.90   satisfactory


Tuttavia, un esame più attento mette in evidenza un comportamento anomalo dell'item `x4` e alcune caratteristiche anomale del modello in generale.

In [17]:
print(standardizedSolution(fit1))

        lhs op      rhs est.std    se      z pvalue ci.lower ci.upper
1   copingm =~       x1   0.432 0.039 11.030   0.00    0.355    0.508
2   copingm =~       x2   0.436 0.039 11.174   0.00    0.359    0.512
3   copingm =~       x3   0.451 0.038 11.730   0.00    0.376    0.527
4   copingm =~       x4   0.953 0.024 38.967   0.00    0.905    1.001
5   socialm =~       x5   0.633 0.032 20.064   0.00    0.571    0.695
6   socialm =~       x6   0.748 0.025 29.363   0.00    0.698    0.798
7   socialm =~       x7   0.690 0.029 24.154   0.00    0.634    0.746
8   socialm =~       x8   0.729 0.026 27.519   0.00    0.677    0.781
9  enhancem =~       x9   0.602 0.039 15.581   0.00    0.526    0.678
10 enhancem =~      x10   0.597 0.039 15.397   0.00    0.521    0.673
11 enhancem =~      x11   0.661 0.037 17.982   0.00    0.589    0.733
12 enhancem =~      x12   0.665 0.037 18.167   0.00    0.593    0.737
13       x1 ~~       x1   0.814 0.034 24.085   0.00    0.747    0.880
14       x2 ~~      

In particolare, l'item `x4` mostra una saturazione molto forte sul fattore Motivi di coping (.955) ed emerge una correlazione molto alta tra i fattori Motivi di coping e Motivi sociali (.798).

{cite:t}`brown2015confirmatory` suggerisce di esaminare i *Modification Indices*. Tale esame mostra che il MI associato a `x4` è molto alto, 18.916.

In [18]:
print(modindices(fit1))

         lhs op rhs     mi    epc sepc.lv sepc.all sepc.nox
46   copingm =~  x5  0.030 -0.030  -0.027   -0.015   -0.015
47   copingm =~  x6  0.484  0.127   0.113    0.064    0.064
48   copingm =~  x7  0.780  0.220   0.196    0.079    0.079
49   copingm =~  x8  1.962 -0.323  -0.287   -0.127   -0.127
50   copingm =~  x9  0.101  0.044   0.039    0.015    0.015
51   copingm =~ x10  2.016  0.129   0.114    0.065    0.065
52   copingm =~ x11  1.870 -0.181  -0.161   -0.063   -0.063
53   copingm =~ x12  0.040 -0.027  -0.024   -0.009   -0.009
54   socialm =~  x1  6.927 -0.520  -0.569   -0.277   -0.277
55   socialm =~  x2  0.052 -0.033  -0.036   -0.024   -0.024
56   socialm =~  x3  2.058 -0.267  -0.292   -0.152   -0.152
57   socialm =~  x4 18.916  1.300   1.423    1.010    1.010
58   socialm =~  x9  0.338  0.067   0.073    0.027    0.027
59   socialm =~ x10  2.884  0.128   0.140    0.080    0.080
60   socialm =~ x11  4.357 -0.229  -0.251   -0.098   -0.098
61   socialm =~ x12  0.001  0.004   0.00

Le considerazioni precedenti, dunque, suggeriscono che il modello potrebbe non avere descritto in maniera adeguata le relazioni tra `x4` e i fattori comuni latenti.  In base a considerazioni teoriche, supponiamo che abbia senso pensare che `x4` saturi non solo sul fattore Motivi di coping ma anche sul fattore di Motivi Sociali. Specifichiamo dunque un nuovo modello nel modo seguente.

In [19]:
model2 <- '
  copingm  =~ x1 + x2 + x3 + x4
  socialm  =~ x4 + x5 + x6 + x7 + x8
  enhancem =~ x9 + x10 + x11 + x12
'

Adattiamo il modello.

In [20]:
fit2 <- cfa(
  model2, 
  sample.cov = covs, 
  sample.nobs = 500, 
  mimic = "mplus"
)

"lavaan->lav_lavaan_step05_samplestats():  
   sample.mean= argument is missing, but model contains mean/intercept 
   parameters."


Esaminiamo gli indici di bontà di adattamento.

In [21]:
print(effectsize::interpret(fit2))

    Name      Value Threshold Interpretation
1    GFI 0.97684139      0.95   satisfactory
2   AGFI 0.95831451      0.90   satisfactory
3    NFI 0.95826773      0.90   satisfactory
4   NNFI 0.98393923      0.90   satisfactory
5    CFI 0.98783275      0.90   satisfactory
6  RMSEA 0.02788804      0.05   satisfactory
7   SRMR 0.02887855      0.08   satisfactory
8    RFI 0.94491340      0.90   satisfactory
9   PNFI 0.72596040      0.50   satisfactory
10   IFI 0.98795337      0.90   satisfactory


La bontà di adattamento è migliorata.

Esaminiamo la soluzione standardizzata. Vediamo ora che sono scomparse le due anomalie trovate in precedenza.

In [22]:
print(standardizedSolution(fit2))

        lhs op      rhs est.std    se      z pvalue ci.lower ci.upper
1   copingm =~       x1   0.514 0.043 12.034      0    0.430    0.597
2   copingm =~       x2   0.515 0.043 12.072      0    0.431    0.599
3   copingm =~       x3   0.516 0.043 12.106      0    0.432    0.600
4   copingm =~       x4   0.538 0.062  8.660      0    0.416    0.660
5   socialm =~       x4   0.439 0.061  7.204      0    0.320    0.558
6   socialm =~       x5   0.632 0.032 19.995      0    0.570    0.694
7   socialm =~       x6   0.746 0.025 29.279      0    0.696    0.796
8   socialm =~       x7   0.691 0.028 24.235      0    0.635    0.746
9   socialm =~       x8   0.731 0.026 27.762      0    0.679    0.782
10 enhancem =~       x9   0.603 0.039 15.625      0    0.527    0.678
11 enhancem =~      x10   0.595 0.039 15.308      0    0.519    0.671
12 enhancem =~      x11   0.665 0.037 18.188      0    0.593    0.737
13 enhancem =~      x12   0.663 0.037 18.103      0    0.591    0.735
14       x1 ~~      

Esaminando i MI, notiamo che il modello potrebbe migliorare se introduciamo una correlazione tra le specificità `x11` e `x12`.

In [23]:
print(modindices(fit2))

         lhs op rhs     mi    epc sepc.lv sepc.all sepc.nox
47   copingm =~  x5  0.076  0.032   0.034    0.020    0.020
48   copingm =~  x6  1.413  0.143   0.151    0.086    0.086
49   copingm =~  x7  0.245  0.083   0.088    0.035    0.035
50   copingm =~  x8  3.668 -0.295  -0.311   -0.137   -0.137
51   copingm =~  x9  0.243  0.066   0.069    0.026    0.026
52   copingm =~ x10  0.566  0.065   0.069    0.040    0.040
53   copingm =~ x11  0.119 -0.044  -0.046   -0.018   -0.018
54   copingm =~ x12  0.598 -0.102  -0.108   -0.041   -0.041
55   socialm =~  x1  1.948 -0.396  -0.245   -0.119   -0.119
56   socialm =~  x2  0.718  0.177   0.110    0.072    0.072
57   socialm =~  x3  0.298  0.144   0.089    0.047    0.047
58   socialm =~  x9  0.316  0.114   0.071    0.026    0.026
59   socialm =~ x10  3.169  0.236   0.146    0.084    0.084
60   socialm =~ x11  4.927 -0.430  -0.266   -0.104   -0.104
61   socialm =~ x12  0.017  0.026   0.016    0.006    0.006
62  enhancem =~  x1  0.314  0.040   0.06

Il nuovo modello diventa dunque il seguente.

In [24]:
model3 <- '
  copingm  =~ x1 + x2 + x3 + x4
  socialm  =~ x4 + x5 + x6 + x7 + x8
  enhancem =~ x9 + x10 + x11 + x12
  x11 ~~ x12
'

Adattiamo il modello.

In [25]:
fit3 <- cfa(
  model3, 
  sample.cov = covs, 
  sample.nobs = 500, 
  mimic = "mplus"
)

"lavaan->lav_lavaan_step05_samplestats():  
   sample.mean= argument is missing, but model contains mean/intercept 
   parameters."


Un test basato sul rapporto di verosimiglianze conferma che il miglioramento di adattamento è sostanziale.

In [26]:
print(lavTestLRT(fit2, fit3))


Chi-Squared Difference Test

     Df   AIC   BIC  Chisq Chisq diff   RMSEA Df diff Pr(>Chisq)    
fit3 49 23934 24107 44.955                                          
fit2 50 23957 24125 69.444     24.488 0.21674       1  7.477e-07 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1


Esaminiamo gli indici di bontà di adattamento.

In [27]:
print(summary(fit3, fit.measures = TRUE))

lavaan 0.6-18 ended normally after 61 iterations

  Estimator                                         ML
  Optimization method                           NLMINB
  Number of model parameters                        41

  Number of observations                           500

Model Test User Model:
                                                      
  Test statistic                                44.955
  Degrees of freedom                                49
  P-value (Chi-square)                           0.638

Model Test Baseline Model:

  Test statistic                              1664.026
  Degrees of freedom                                66
  P-value                                        0.000

User Model versus Baseline Model:

  Comparative Fit Index (CFI)                    1.000
  Tucker-Lewis Index (TLI)                       1.003

Loglikelihood and Information Criteria:

  Loglikelihood user model (H0)             -11926.170
  Loglikelihood unrestricted model (H1)     -119

Gli indici di fit sono migliorati.

Esaminiamo la soluzione standardizzata.

In [28]:
print(standardizedSolution(fit3))

        lhs op      rhs est.std    se      z pvalue ci.lower ci.upper
1   copingm =~       x1   0.514 0.043 12.016      0    0.430    0.598
2   copingm =~       x2   0.515 0.043 12.055      0    0.431    0.599
3   copingm =~       x3   0.514 0.043 12.037      0    0.431    0.598
4   copingm =~       x4   0.540 0.063  8.609      0    0.417    0.663
5   socialm =~       x4   0.438 0.061  7.129      0    0.317    0.558
6   socialm =~       x5   0.632 0.032 20.004      0    0.570    0.694
7   socialm =~       x6   0.746 0.025 29.291      0    0.697    0.796
8   socialm =~       x7   0.690 0.029 24.206      0    0.634    0.746
9   socialm =~       x8   0.731 0.026 27.800      0    0.680    0.783
10 enhancem =~       x9   0.669 0.041 16.388      0    0.589    0.749
11 enhancem =~      x10   0.664 0.041 16.243      0    0.584    0.744
12 enhancem =~      x11   0.542 0.045 12.120      0    0.454    0.629
13 enhancem =~      x12   0.541 0.045 12.083      0    0.453    0.628
14      x11 ~~      

Non ci sono ulteriori motivi di preoccupazione.  @brown2015confirmatory conclude che il modello più adeguato sia `model3`. 

Nel caso presente, a mio parare, l'introduzione della correlazione residua tra `x11` e `x12` si sarebbe anche potuta evitare, dato che il modello `model3` (con meno idiosincrasie legate al campione) si era già dimostrato adeguato.

## Saturazione sul fattore sbagliato

@brown2015confirmatory considera anche il caso opposto, ovvero quello nel quale il ricercatore ipotizza una saturazione spuria. Per i dati in discussione, si può avere la situazione presente.

In [29]:
model4 <- '
  copingm  =~ x1 + x2 + x3 + x4
  socialm  =~ x4 +x5 + x6 + x7 + x8 + x12
  enhancem =~ x9 + x10 + x11
'

Adattiamo il modello ai dati.

In [30]:
fit4 <- cfa(
  model4, 
  sample.cov = covs, 
  sample.nobs = 500, 
  mimic = "mplus"
)

"lavaan->lav_lavaan_step05_samplestats():  
   sample.mean= argument is missing, but model contains mean/intercept 
   parameters."


Esaminiamo la soluzione ottenuta.

In [31]:
print(summary(fit4, fit.measures = TRUE))

lavaan 0.6-18 ended normally after 59 iterations

  Estimator                                         ML
  Optimization method                           NLMINB
  Number of model parameters                        40

  Number of observations                           500

Model Test User Model:
                                                      
  Test statistic                               212.717
  Degrees of freedom                                50
  P-value (Chi-square)                           0.000

Model Test Baseline Model:

  Test statistic                              1664.026
  Degrees of freedom                                66
  P-value                                        0.000

User Model versus Baseline Model:

  Comparative Fit Index (CFI)                    0.898
  Tucker-Lewis Index (TLI)                       0.866

Loglikelihood and Information Criteria:

  Loglikelihood user model (H0)             -12010.051
  Loglikelihood unrestricted model (H1)     -119

È chiaro che il modello `model4` è inadeguato. Il problema emerge chiaramente anche esaminando i MI.

In [32]:
print(modindices(fit4))

         lhs op rhs      mi    epc sepc.lv sepc.all sepc.nox
47   copingm =~  x5   0.090  0.036   0.038    0.022    0.022
48   copingm =~  x6   0.554  0.090   0.096    0.054    0.054
49   copingm =~  x7   0.107  0.055   0.059    0.024    0.024
50   copingm =~  x8   3.919 -0.306  -0.325   -0.143   -0.143
51   copingm =~ x12   6.109  0.499   0.530    0.199    0.199
52   copingm =~  x9   0.390 -0.096  -0.102   -0.038   -0.038
53   copingm =~ x10   0.027 -0.016  -0.017   -0.010   -0.010
54   copingm =~ x11   0.823  0.123   0.131    0.051    0.051
55   socialm =~  x1   1.990 -0.398  -0.251   -0.122   -0.122
56   socialm =~  x2   0.638  0.166   0.105    0.069    0.069
57   socialm =~  x3   0.372  0.160   0.101    0.053    0.053
58   socialm =~  x9   0.315 -0.130  -0.082   -0.031   -0.031
59   socialm =~ x10   1.423  0.179   0.113    0.064    0.064
60   socialm =~ x11   0.520 -0.150  -0.094   -0.037   -0.037
61  enhancem =~  x1   1.029  0.067   0.121    0.059    0.059
62  enhancem =~  x2   0.

Il MI relativo alla saturazione di `x12` su `enhancem` è uguale a 116.781. Chiaramente, in una revisione del modello, questo problema dovrebbe essere affrontato.

## Commenti e considerazioni finali

Gli esempi presentati da @brown2015confirmatory mostrano come l'applicazione dei MI, combinata con l'esame delle soluzioni fattoriali, rappresenti un approccio fondamentale per ottimizzare e perfezionare il modello proposto.