# Introducción a los modelos de ecuaciones estructurales

>Este tutorial es una selección y adaptación al español de los libros [Multivariate Data Analysis](https://www.cengage.co.uk/books/9781473756540/) de Joseph F. Hair et al.

## Nociones previas

### ¿Qué es un modelo de ecuaciones estructurales (SEM)?

En las secciones anteriores, cada técnica multivariante se ha clasificado como técnica de interdependencia o dependencia. Se puede pensar en SEM como una combinación única de ambos tipos de técnicas, porque la base de SEM radica en dos técnicas multivariadas familiares: análisis factorial y análisis de regresión múltiple.

El SEM examina la **estructura** de las interrelaciones expresadas en una serie de ecuaciones, similar a una serie de ecuaciones de regresión múltiple. 
- Estas ecuaciones representan todas las relaciones entre constructos (las variables dependientes e independientes) y las variables involucradas en el análisis. 
- Igual de importante, una estructura teórica especifica qué variables y constructos probablemente no estén relacionados entre sí. 

>Los constructors son factores latentes o no observables representados por múltiples variables.

Los modelos SEM se distinguen de los modelos de regresión tradicionales en que tienden a involucrar:
- Estimación simultánea de relaciones de dependencia múltiples e interrelacionadas.
- Capacidad para representar conceptos no observados en estas relaciones y tener en cuenta el error de medición en el proceso de estimación.
- Definición de un modelo teórico para explicar todo el conjunto de relaciones.
- Supuestos de sobreidentificación (las variables se explican mediante un conjunto único de variables que no incluye todas las relaciones posibles).

Un modelo convencional en la terminología de SEM consta en realidad de dos teorías: 
- Modelo de medición (representa cómo las variables medidas se unen para representar constructos)
- Modelo estructural (muestra cómo los constructos se asocian entre sí).

> No se debe desarrollar ningún modelo para su uso con SEM sin una teoría subyacente plausible.

### Diagramas de ruta

Un modelo SEM completo que consta de modelos estructurales y de medición puede ser bastante complejo. Aunque todas las relaciones se pueden expresar en notación de análisis de ruta (que veremos más adelante), muchos investigadores encuentran más conveniente representar un modelo en una forma visual, conocida como **diagrama de ruta**.

<p align="center">
  <img width="500" src="https://github.com/renatoparedes/EstadisticaYPsicologiaMatematica/raw/main/SEM/semdiagram1.png" alt="SEM Diagram 1">
</p>

- Los constructos generalmente se representan mediante óvalos o círculos, y las variables medidas se representan mediante cuadrados o rectángulos.
- Para ayudar a distinguir los indicadores de constructos endógenos frente a exógenos, las variables medidas (indicadores) para constructos exógenos se suelen denominar variables X, mientras que los indicadores de constructos endógenos suelen denominarse variables Y.
>Los constructos exógenos son el equivalente latente, de múltiples elementos, de las variables independientes. Los constructos endógenos son el equivalente latente de múltiples elementos de las variables dependientes.

- Las variables medidas X o Y se asocian con sus respectivos constructos mediante una flecha recta de una sola cabeza desde las construcciones hasta la variable medida.
- Las relaciones de dependencia se representan con flechas direccionales de una sola cabeza.
- Las relaciones de correlación (covarianza) se representan con flechas de dos puntas.

En este tipo de diagramas podemos representar el modelo de medición y el modelo estructural simultáneamente:

<p align="center">
  <img width="500" src="https://github.com/renatoparedes/EstadisticaYPsicologiaMatematica/raw/main/SEM/semdiagram2.png" alt="SEM Diagram 2">
</p>

En contraste con la regresión u otras técnicas de dependencia que buscan predecir relaciones en una sola ecuación, el objetivo estadístico de la SEM basada en covarianza es **reproducir la matriz de covarianza observada de todas las variables medidas necesarias para probar una teoría**.

Debido a que el enfoque está en todo el modelo teórico, la SEM se basa en la matriz de covarianza observada entre las variables medidas, que contiene información completa sobre cómo todas las variables se corresponden entre sí. 

**El ajuste del modelo está determinado por la similitud resultante entre la matriz de covarianza observada y una matriz de covarianza estimada producida a partir de las ecuaciones que representan el modelo teórico propuesto**. Si la teoría propuesta crea ecuaciones que reproducen con precisión la correspondencia entre las variables medidas (matriz de covarianza observada), entonces podemos decir que la teoría se ajusta a la realidad.

### Causalidad

La inferencia causal es el tipo de inferencia más fuerte que puede hacer un investigador al momento de aplicar estadísticas multivariadas. Esta implica **proponer que una relación de dependencia en realidad se basa en la causalidad**. Una inferencia causal implica una relación hipotética de causa y efecto. 

Veamos algunos ejemplos de los tipos de relaciones causales que puede especifica un modelo SEM:

<p align="center">
  <img width="500" src="https://github.com/renatoparedes/EstadisticaYPsicologiaMatematica/raw/main/SEM/semdiagram3.png" alt="SEM Diagram 3">
</p>

Los modelos SEM se utilizan normalmente **en situaciones no experimentales** en las que los constructos exógenos no son variables controladas experimentalmente. Esto limita la capacidad del investigador para extraer inferencias causales y **el SEM por sí solo no puede establecer la causalidad**. 

Sin embargo, SEM puede tratar las relaciones de dependencia como causales si cuatro condiciones se reflejan en el modelo SEM:

- Covarianza entre causa y efecto
- La causa debe ocurrir antes que el efecto.
- Debe existir una asociación no espuria entre la causa y el efecto.
- Existe apoyo teórico para la relación entre causa y efecto.

SEM puede proporcionar evidencia de covariación sistemática y puede ayudar a demostrar que una relación no es falsa. Si los datos son longitudinales, SEM también puede ayudar a establecer la secuencia de relaciones. Sin embargo, le corresponde al investigador establecer un soporte teórico. 

Por lo tanto, SEM es útil para establecer una inferencia causal, pero no puede hacerlo solo.

## Definición de constructos individuales



El proceso comienza con una buena definición teórica de los constructos involucrados. Esta definición proporciona la base para seleccionar o diseñar elementos de indicadores individuales. Un investigador operacionaliza un constructo latente seleccionando sus elementos de escala de medición y el tipo de escala.

Cuando un modelo tiene escalas tomadas o adaptadas de diversas fuentes que informan sobre otras investigaciones, se recomienda una prueba previa con encuestados similares a los de la población que se va a estudiar para evaluar la idoneidad de los elementos.

## Especificación del modelo de medición

En esta etapa se define cada constructo latente a incluir en el modelo y se asignan las variables (ítems) indicadores medidas a los constructos latentes correspondientes.

Como se discutió anteriormente, hay tres tipos de relaciones: relaciones de medición entre indicadores / elementos y constructos; relaciones estructurales entre constructos; y relaciones de correlación entre constructos. También hay dos tipos de términos de error, uno relacionado con indicadores individuales y el otro con constructos endógenos.

Para especificar un modelo SEM se utiliza una notación especial que se resume en la siguiente tabla:

<p align="center">
  <img width="500" src="https://github.com/renatoparedes/EstadisticaYPsicologiaMatematica/raw/main/SEM/semnotation.png" alt="SEM Notation">
</p>

### Diseño de un estudio

El tamaño mínimo de la muestra para un modelo SEM en particular depende de varios factores, incluida la complejidad del modelo y las comunalidades (varianza promedio extraída entre elementos) en cada factor:

- Los modelos SEM que contienen cinco o menos constructos, cada uno con más de tres ítems (variables observadas), y con altas comunalidades de ítems (.6 o más), se pueden estimar adecuadamente con muestras tan pequeñas como 50. Recuerda que siempre se requieren más observaciones que el un número de variables medidas para que las matemáticas funcionen.
- Cuando el número de factores es superior a seis, algunos de los cuales tienen menos de tres items medidos como indicadores, existen problemas de distribución graves y existen múltiples comunidades bajas, los requisitos de tamaño de la muestra se vuelven mucho mayores.

Contamos con las siguientes guías generales:

- Tamaño mínimo de la muestra — 100: modelos que contienen cinco o menos constructos, cada uno con más de tres ítems (variables observadas) y con alta comunalidad de ítems (.6 o más).
- Tamaño mínimo de la muestra: 150: modelos con siete constructos o menos, al menos comunidades modestas (.5) y sin constructos subidentificados.
- Tamaño mínimo de la muestra: 300: modelos con siete o menos constructos, comunidades más bajas (por debajo de .45) y / o múltiples constructos subidentificados (menos de tres).
- Tamaño mínimo de la muestra: 500: modelos con un gran número de constructos, algunos con comunidades más bajas y / o con menos de tres elementos medidos.

El tamaño de la muestra debe ser suficiente para permitir que el modelo se ejecute, pero lo que es más importante, debe representar adecuadamente la población de interés.