# Modelado de Ecuaciones Estructurales (SEM): Caso Práctico y Aplicación

## Introducción a la Sesión

En esta sesión, vamos a explorar cómo aplicar el **Modelado de Ecuaciones Estructurales (SEM)** en un entorno práctico dentro de una empresa. SEM es una herramienta poderosa para investigar relaciones complejas entre variables observables y no observables (latentes), ayudando a entender mejor fenómenos que involucran múltiples dimensiones.

### Objetivo de la Empresa

Supongamos que trabajamos para una empresa llamada **EcomInsights**, que está interesada en comprender cómo varios factores afectan la **satisfacción del cliente** en su plataforma de e-commerce. La empresa quiere identificar no solo las relaciones directas entre las variables que miden la satisfacción del cliente, sino también los **efectos indirectos** a través de otras variables intermedias como la confianza, el valor percibido, y la calidad del servicio.

### Escenario y Problema

La dirección de **EcomInsights** ha identificado que factores como el **ingreso del hogar**, la **confianza en la plataforma**, y la **calidad del servicio** están relacionados de alguna manera con la **satisfacción del cliente**. Sin embargo, no está claro cómo estas variables se interrelacionan entre sí, ni cuál es su impacto directo e indirecto en la satisfacción general del cliente. Además, algunas de estas variables no son observables directamente (por ejemplo, "confianza" es una variable latente).

La empresa quiere construir un modelo que explique la **satisfacción del cliente** como un concepto multidimensional, midiendo tanto **efectos directos** como **indirectos** entre las variables observadas y latentes.

---

## ¿Qué es el Modelado de Ecuaciones Estructurales (SEM)?

El **Modelado de Ecuaciones Estructurales (SEM)** es una técnica estadística que integra análisis de regresión, análisis de factores y análisis de trayectorias en un marco cohesivo. Es especialmente útil para:

- Investigar **constructos complejos** que no se pueden medir directamente (como la confianza o la satisfacción).
- Modelar **sistemas de relaciones** entre variables.
- Evaluar tanto los **efectos directos** como los **efectos indirectos** de las variables.

### ¿Cuándo usar SEM?

- Cuando necesitamos medir variables que no se observan directamente (variables **latentes**), como actitudes o percepciones.
- Cuando queremos estudiar sistemas de relaciones complejas entre varias variables y analizar cómo una variable puede influir en otra **a través de** una tercera variable (mediación).
- En investigaciones donde la **causalidad** y los efectos acumulativos son importantes.

### Aplicación en el Caso de EcomInsights

La empresa quiere saber cómo diferentes factores influyen en la satisfacción del cliente. SEM es ideal para este caso, ya que algunas variables clave como la **confianza en la plataforma** son latentes y no pueden medirse directamente.

---

## Pasos para Implementar SEM en la Empresa

### 1. **Entender el Modelo**

#### Variables Latentes
- **Confianza en la Plataforma**: No se puede observar directamente. Se mide a través de varios indicadores, como la frecuencia de uso, recomendaciones a otros usuarios, y la percepción de seguridad.
- **Calidad del Servicio**: Se mide mediante indicadores como la rapidez de entrega, la atención al cliente, y la resolución de problemas.

#### Variables Observables
- **Ingreso del Hogar**: Directamente observable.
- **Satisfacción del Cliente**: Una variable observada, pero influenciada por constructos latentes como la confianza y la calidad del servicio.

#### Relaciones Directas e Indirectas
- **Relación directa**: ¿Cómo afecta el ingreso directamente a la satisfacción del cliente?
- **Relación indirecta**: ¿Cómo influye el ingreso en la calidad del servicio, y cómo esto afecta la satisfacción?

### 2. **Especificar el Modelo de Medición**

Primero, definimos cómo las variables latentes (**confianza**, **calidad del servicio**) se relacionan con sus indicadores observados. Esto se hace mediante un modelo de **análisis factorial confirmatorio (CFA)**.

### 3. **Pasar al Modelo Estructural**

Después de establecer el modelo de medición, pasamos a la **parte estructural**, donde modelamos las relaciones entre las variables latentes y observables, incluyendo los efectos directos e indirectos.

---

## Elementos Clave en SEM

### 1. **Variables Exógenas y Endógenas**

- **Exógenas**: Variables independientes dentro del sistema, como el **ingreso del hogar**.
- **Endógenas**: Variables dependientes que están siendo explicadas dentro del modelo, como la **satisfacción del cliente**.

### 2. **Análisis de Covarianza**

SEM analiza las matrices de varianza/covarianza en lugar de los datos brutos. Esto permite modelar las relaciones entre las variables a un nivel más profundo.

### 3. **Estimación y Ajuste del Modelo**

El modelo es estimado utilizando **Máxima Verosimilitud (ML)**, que ajusta los parámetros maximizando la probabilidad de que los datos observados se ajusten al modelo teórico. Evaluamos el ajuste del modelo con métricas como el **AIC** o el **BIC** para asegurar que el modelo sea parsimonioso y explique bien los datos.

### 4. **Identificación del Modelo**

El modelo debe ser identificado correctamente. Si hay más incógnitas que datos observados, el modelo será **no identificado** y no podrá estimarse correctamente. Se pueden hacer ajustes para que el modelo esté **sobre-identificado**, lo que permite hacer inferencias sobre los parámetros.

---

## Ejemplo de Implementación Práctica

### Diagrama de Trayectoria

En el caso de **EcomInsights**, un modelo SEM podría tener este formato:

1. **Variables Latentes**:
   - Confianza en la plataforma → Indicadores como "Frecuencia de uso", "Percepción de seguridad".
   - Calidad del servicio → Indicadores como "Tiempo de respuesta", "Resolución de problemas".

2. **Variables Observables**:
   - Ingreso del Hogar
   - Satisfacción del Cliente

3. **Relaciones**:
   - Ingreso del hogar influye en la calidad del servicio (directo).
   - La calidad del servicio influye en la satisfacción del cliente (indirecto).
   - La confianza en la plataforma afecta directamente la satisfacción del cliente.

### ¿Qué buscamos con SEM?

1. **Confirmar hipótesis**: ¿La calidad del servicio actúa como mediador entre el ingreso y la satisfacción?
2. **Evaluar el ajuste del modelo**: ¿El modelo teórico refleja adecuadamente los datos reales?

---

## Conclusión

El **Modelado de Ecuaciones Estructurales (SEM)** es una herramienta esencial para entender relaciones complejas entre variables, permitiendo a las empresas como **EcomInsights** identificar no solo los efectos directos de sus estrategias en la satisfacción del cliente, sino también los efectos indirectos a través de constructos como la confianza y la calidad del servicio. SEM ayuda a las empresas a validar sus modelos teóricos y a mejorar su toma de decisiones con base en datos.

### Beneficios de SEM para EcomInsights:

- **Mejora de estrategias**: Identificación de los factores clave que influyen en la satisfacción.
- **Manejo de variables complejas**: Modela constructos difíciles de medir, como la confianza.
- **Optimización**: Evaluación de cómo la mejora en uno de los factores influye en los demás.

Este tipo de análisis permite decisiones estratégicas más informadas, ayudando a la empresa a optimizar la experiencia del cliente y a mejorar su propuesta de valor.


# Implementación de SEM en Python usando semopy

## Paso 1: Instalación de semopy
Instala la librería `semopy` usando el siguiente comando si aún no la tienes instalada:

## Paso 2: Definir el Modelo SEM
Definimos el modelo SEM en términos de las relaciones entre las variables observadas y latentes. En nuestro caso, modelamos Confianza en la Plataforma y Calidad del Servicio como variables latentes que influyen en la Satisfacción del Cliente.

In [4]:
import pandas as pd
import numpy as np
from semopy import Model, Optimizer
import matplotlib.pyplot as plt
from semopy import Model, Optimizer, semplot

# Definir el modelo SEM usando la notación estándar de SEM
model_desc = """
# Latent Variables
Confianza =~ Uso + Seguridad + Recomendaciones
Calidad =~ Tiempo_Respuesta + Resolucion_Problemas

# Regressions
Satisfaccion ~ Confianza + Calidad + Ingreso

# Variances and Covariances
Confianza ~~ Calidad
"""

## Paso 3: Generar Datos Sintéticos para EcomInsights
Creamos un conjunto de datos sintéticos que sigue la estructura definida

In [5]:
np.random.seed(42)

# Variables relacionadas con Confianza
uso = np.random.normal(4, 0.5, 300)
seguridad = uso + np.random.normal(0, 0.3, 300)  # Seguridad correlacionada con Uso
recomendaciones = uso * 0.8 + np.random.normal(0, 0.2, 300)  # Recomendaciones correlacionadas con Uso

# Variables relacionadas con Calidad
tiempo_respuesta = np.random.normal(4.2, 0.3, 300)
resolucion_problemas = tiempo_respuesta * 0.9 + np.random.normal(0, 0.2, 300)  # Resolución correlacionada con Tiempo de Respuesta

# Ingreso del Hogar
ingreso = np.random.normal(50000, 10000, 300)

# Satisfacción del Cliente influenciada por Confianza y Calidad
satisfaccion = 0.5 * uso + 0.7 * tiempo_respuesta + np.random.normal(0, 0.5, 300)

# Crear DataFrame con los datos generados
data = pd.DataFrame({
    "Uso": uso,
    "Seguridad": seguridad,
    "Recomendaciones": recomendaciones,
    "Tiempo_Respuesta": tiempo_respuesta,
    "Resolucion_Problemas": resolucion_problemas,
    "Ingreso": ingreso,
    "Satisfaccion": satisfaccion
})

## Paso 4: Ajustar el Modelo SEM a los Datos Sintéticos

In [6]:
mod = Model(model_desc)
res_opt = mod.fit(data)
estimates = mod.inspect()

# Imprimir los resultados del ajuste del modelo
print(estimates)

                    lval  op                  rval      Estimate  Std. Err  \
0                    Uso   ~             Confianza  1.000000e+00         -   
1              Seguridad   ~             Confianza  9.762671e-01  0.037555   
2        Recomendaciones   ~             Confianza  7.847173e-01  0.026803   
3       Tiempo_Respuesta   ~               Calidad  1.000000e+00         -   
4   Resolucion_Problemas   ~               Calidad  8.842540e-01  0.097589   
5           Satisfaccion   ~             Confianza  4.684551e-01  0.058186   
6           Satisfaccion   ~               Calidad  6.763459e-01  0.116271   
7           Satisfaccion   ~               Ingreso -5.926080e-07  0.000003   
8              Confianza  ~~               Calidad  1.015207e-02  0.008599   
9              Confianza  ~~             Confianza  2.413574e-01  0.020116   
10               Calidad  ~~               Calidad  9.126770e-02   0.01191   
11       Recomendaciones  ~~       Recomendaciones  3.954604e-02

In [7]:
# Paso 5: Visualizar el Modelo SEM con un Diagrama de Trayectoria
print(res_opt)

Name of objective: MLW
Optimization method: SLSQP
Optimization successful.
Optimization terminated successfully
Objective value: 0.046
Number of iterations: 30
Params: 0.976 0.785 0.884 0.468 0.676 -0.000 0.010 0.241 0.091 0.040 0.040 0.239 0.083 0.000 0.000


### Análisis del Modelo SEM y Resultados

Este análisis está basado en un modelo de ecuaciones estructurales (SEM) que mide la influencia de dos variables latentes (**Confianza en la Plataforma** y **Calidad del Servicio**) sobre la **Satisfacción del Cliente**, además de incorporar el **Ingreso del Hogar** como una variable observada. A continuación, se presenta un resumen de los resultados y las conclusiones derivadas del modelo.

#### Estimaciones de Parámetros

1. **Relaciones entre Variables Latentes y Observadas**:
   - **Uso** (Confianza): Establecido como referencia con un valor de 1.0 (por convención en SEM).
   - **Seguridad** (Confianza): Estima una carga factorial de **0.976**, lo que indica una fuerte relación con la variable latente **Confianza**.
   - **Recomendaciones** (Confianza): Tiene una carga factorial de **0.785**, también indicando una relación significativa con **Confianza**, aunque algo menor que **Seguridad**.
   - **Tiempo de Respuesta** (Calidad): Establecido como referencia con un valor de 1.0.
   - **Resolución de Problemas** (Calidad): Carga factorial de **0.884**, lo que indica una relación muy fuerte con la **Calidad del Servicio**.

2. **Relaciones entre las Variables Latentes y la Satisfacción del Cliente**:
   - **Confianza** → **Satisfacción**: Coeficiente de **0.468**, con una significancia alta (*p-value = 0.0*). Esto indica que a mayor confianza del cliente en la plataforma, mayor es su satisfacción.
   - **Calidad del Servicio** → **Satisfacción**: Coeficiente de **0.676**, también significativo (*p-value = 0.0*), sugiriendo que la calidad del servicio tiene una influencia importante sobre la satisfacción del cliente, incluso mayor que la confianza.
   - **Ingreso del Hogar** → **Satisfacción**: El coeficiente es prácticamente cero (**-0.000**), y no significativo (*p-value = 0.836*). Esto implica que el ingreso del hogar no tiene un impacto relevante en la satisfacción del cliente en este modelo.

3. **Covarianzas**:
   - **Confianza** y **Calidad del Servicio** están correlacionadas positivamente (**0.010**), aunque esta relación no es estadísticamente significativa (*p-value = 0.237*).
   - La varianza residual de **Satisfacción del Cliente** es **0.239**, lo que indica que el modelo captura una buena parte de la varianza en satisfacción, pero aún hay factores no explicados que influyen.

#### Métricas de Ajuste del Modelo

El ajuste del modelo fue satisfactorio, con un valor objetivo de **0.046** después de 30 iteraciones utilizando el método de optimización **SLSQP**. El modelo se ajustó correctamente a los datos, lo que se refleja en el éxito del proceso de optimización.

#### Interpretación General

- **Confianza en la Plataforma** y **Calidad del Servicio** son dos factores clave que explican la **Satisfacción del Cliente** en la plataforma de e-commerce. Ambos factores tienen un impacto significativo y positivo, siendo la **Calidad del Servicio** el factor más importante en términos de influencia sobre la satisfacción.
  
- **Ingreso del Hogar** no parece tener un impacto directo en la satisfacción del cliente, lo que sugiere que la experiencia del usuario no depende significativamente de su nivel socioeconómico en este caso.

- Las relaciones entre las variables latentes y sus indicadores observados son fuertes y significativas, lo que valida la construcción teórica de las variables latentes de **Confianza** y **Calidad del Servicio**.

#### Conclusiones

Este modelo de ecuaciones estructurales ha demostrado ser útil para entender cómo factores complejos como la confianza y la calidad del servicio impactan en la satisfacción del cliente. Las empresas pueden enfocarse en mejorar estos dos aspectos, especialmente en el servicio, para aumentar la satisfacción general de los usuarios. Además, las intervenciones en mejorar la percepción de seguridad y la resolución de problemas pueden ser prioritarias, dado su peso en los constructos latentes.

Este análisis proporciona una base sólida para la toma de decisiones basada en datos dentro de la empresa, dirigiendo los esfuerzos hacia las áreas que mayor impacto tienen en la satisfacción del cliente.


In [8]:
# Cargar factores estimados (cargas factoriales)
confianza_factors = [1.0, 0.976, 0.785]  # Uso, Seguridad, Recomendaciones
calidad_factors = [1.0, 0.884]           # Tiempo_Respuesta, Resolucion_Problemas

# Función para calcular el valor de la variable latente
def calculate_latent_values(df):
    # Calcular Confianza como la suma ponderada de Uso, Seguridad y Recomendaciones
    df['Confianza'] = (df['Uso'] * confianza_factors[0] +
                       df['Seguridad'] * confianza_factors[1] +
                       df['Recomendaciones'] * confianza_factors[2])
    
    # Calcular Calidad del Servicio como la suma ponderada de Tiempo de Respuesta y Resolución de Problemas
    df['Calidad'] = (df['Tiempo_Respuesta'] * calidad_factors[0] +
                     df['Resolucion_Problemas'] * calidad_factors[1])
    
    return df[['Confianza', 'Calidad']]

# Calcular valores latentes en el dataset
latent_values = calculate_latent_values(data)

# Mostrar los primeros valores calculados
print(latent_values.head())


   Confianza   Calidad
0  10.938839  7.762257
1   9.927179  7.253717
2  11.614626  7.578626
3  12.790536  8.326252
4  10.169922  7.653100


In [9]:
g = semplot(mod, 'pd.png')

<img src="pd.png">