Un modelo de efectos mixtos multivariado es una extensión de los modelos de efectos mixtos que permite manejar múltiples variables de respuesta simultáneamente. Estos modelos son útiles cuando las variables de respuesta están correlacionadas y hay estructuras jerárquicas o agrupadas en los datos.

### Componentes clave.

#### 1. Efectos Fijos y Aleatorios.
- Efectos Fijos.
Representan los efectos sistemáticos de las variables explicativas en la respuesta. Son constantes a través de todas las unidades de observación.
- Efectos Aleatorios.
Capturan la variabilidad adicional no explicada por los efectos fijos, permitiendo que ciertas partes del modelo varíen entre los niveles de agrupación (por ejemplo, individuos, escuelas, etc.).

#### 2. Múltiples Variables de Respuesta.
El modelo puede manejar más de una variable de respuesta a la vez, permitiendo que las correlaciones entre estas variables sean consideradas en el análisis.

#### 3. Estructuras Jerárquicas o Agrupadas.
Los datos pueden tener una estructura jerárquica (por ejemplo, estudiantes dentro de clases, clases dentro de escuelas). Los modelos de efectos mixtos pueden manejar estas dependencias.

### Ejemplo.

Imaginate un estudio sobre el rendimiento académico de estudiantes de diferentes escuelas, donde se mide el rendimiento en matemáticas y ciencias. Estos dos resultados (matemáticas y ciencias) pueden estar correlacionados, y los estudiantes están agrupados dentro de escuelas.

### Modelo univariado vs. multivariado.

#### Modelos Univariados.
- Se ajusta un modelo separado para cada variable de respuesta.
- Se utilizan si las variables respuesta no están correlacionadas.
- Ejemplo. Un modelo para el rendimiento en matemáticas y otro para el rendimiento en ciencias, sin considerar la correlación entre ambos.

#### Modelo Multivariado.
- Se ajusta un solo modelo que incluye todas las variables de respuesta.
- Se utiliza si las variables de respuesta están correlacionadas.
- Permite modelar la correlación entre las variables de respuesta y mejorar la eficiencia y la interpretación del análisis.

### Estructura matemática del modelo.

El modelo multivariado de efectos mixtos puede ser representado matemáticamente como:

Yij = Xij * β + Zij * bi + ϵij

donde:

- Yij​ es el vector de respuestas multivariadas para la unidad j en el grupo i.
- Xij​ es la matriz de covariables para los efectos fijos.
- β es el vector de parámetros fijos.
- Zij​ es la matriz de covariables para los efectos aleatorios.
- bi son los efectos aleatorios específicos del grupo i.
- ϵij​ es el vector de errores residuales.

### Armado del dataset.

In [113]:
# Carga de librerías.

import pandas as pd
import numpy as np
import statsmodels.api as sm
from statsmodels.formula.api import mixedlm
import matplotlib.pyplot as plt
import seaborn as sns

# Configurar el número máximo de filas y columnas a mostrar
pd.set_option('display.max_rows', 10)   # Cambia 10 al número deseado de filas
pd.set_option('display.max_columns', 5) # Cambia 5 al número deseado de columnas

Cargamos el dataset con las variables respuesta en cada columna propia. 

Ejemplo:

![image.png](attachment:280e153a-5713-4609-9015-ad8bfd0daffc.png)

Las variables respuesta son Rendimiento_Matematicas y Rendimiento_Ciencias.

In [114]:
# Carga del dataset.

%run "Base 2 - 1. Dataset para modelos.ipynb"

En este programa se hace esto: pasar las variables respuesta a un formato largo.


#### Acomodar dataset. 
Si tenemos dos variables respuesta, que son, por ejemplo, V1 y V2, se crea una columna nueva que se llama "Variables", y en este columna va a indicar si es V1 o V2. En otra columna, "Valor", va a ir el valor correspondiente de cada variable.


Algo así:

![image.png](attachment:c56be4f4-76fa-4498-ae0d-4c7768774c23.png)

En este ejemplo, las variables respuesta son Rendimiento_Matemática y Rendimiento_Ciencias. Se pone en la columna "Asignatura" a cuál variable corresponde, y en "Rendimiento" se pone el valor original.

Muchos modelos de regresión lineal requieren una constante (intercepto) para funcionar correctamente. Esto se hace añadiendo una columna de unos a las variables explicativas.

Creamos un df personalizado para esto.
Quedaría algo así en el ejemplo:

![image.png](attachment:f4b59c8f-0557-4c96-89da-af0c84bdecc3.png)

In [115]:
# Agregar una columna con una constante 1 al modelo.
df_Largo = sm.add_constant(df_Largo) 

df_Largo

Unnamed: 0,id,const,...,cambio_op_pro,cambio_op_con
0,2792,1.0,...,0.369048,-1.833333
1,2800,1.0,...,-0.166667,1.011905
2,2805,1.0,...,2.750000,0.683333
3,3148,1.0,...,0.800000,-0.400000
4,3212,1.0,...,1.700000,-0.600000
...,...,...,...,...,...
2773,7352,1.0,...,-1.523810,3.666667
2774,7355,1.0,...,-1.500000,-2.321429
2775,7374,1.0,...,-0.950000,2.400000
2776,7402,1.0,...,-0.375000,2.933333


### Armado del modelo.

Definimos los efectos aleatorios, que son los que capturan la variabilidad específica de cada grupo o nivel de una variable categórica. En el caso del ejemplo, Sujeto es el grupo para los efectos aleatorios, lo que significa que esperamos que haya variabilidad en el rendimiento que sea específica de cada sujeto.

Los efectos fijos son los efectos que estamos interesados en estimar, como las diferencias entre grupos.

In [116]:
# Chequeo de que no haya valores nulos o no numéricos en variables explicatorias.

# Verificar valores nulos
Nulos = df_Largo[Variables_Explicatorias].isnull().sum()

# Filtrar las columnas que tienen valores nulos
Columnas_Con_Nulos = Nulos[Nulos > 0].index

if len(Columnas_Con_Nulos) > 0:
    print("Valores nulos por columna:")
    print(Nulos[Columnas_Con_Nulos])
else:
    print("Valores nulos: Ninguno")

# Verificar si hay valores no numéricos en cada columna
print("\nVerificación de valores no numéricos:")
for i in Variables_Explicatorias:
    if not pd.api.types.is_numeric_dtype(df_Largo[i]):
        print(f"La columna {i} no es numérica.")

# Convertir todas las variables explicatorias a numéricas
for i in Variables_Explicatorias:
    df_Largo[i] = pd.to_numeric(df_Largo[i], errors='coerce')

# Verificar tipos de datos.
print("\nTipos de datos de las columnas:")
print(df_Largo[Variables_Explicatorias].dtypes)

Valores nulos: Ninguno

Verificación de valores no numéricos:

Tipos de datos de las columnas:
edad                     int64
autopercep_izqder        int64
autopercep_conpro        int64
autopercep_perantiper    int64
cercania_Massa           int64
                         ...  
votara_2023_Ignora       int32
votara_2023_No           int32
votara_2023_Si           int32
afiliacion_pol_No        int32
afiliacion_pol_Si        int32
Length: 97, dtype: object


In [117]:
# Eliminamos algunas columnas del df.

# Lista de columnas a mantener.
Columnas = ['id', 'const', 'indice_conservadurismo','indice_progresismo', 'cambio_op_pro', 'cambio_op_con']

# Filtrar el DataFrame para conservar solo las columnas especificadas.
df_Largo = df_Largo[Columnas]

# Configurar el número máximo de filas y columnas a mostrar
pd.set_option('display.max_rows', 10)   # Cambia 10 al número deseado de filas
pd.set_option('display.max_columns', 5) # Cambia 5 al número deseado de columnas


df_Largo

Unnamed: 0,id,const,...,cambio_op_pro,cambio_op_con
0,2792,1.0,...,0.369048,-1.833333
1,2800,1.0,...,-0.166667,1.011905
2,2805,1.0,...,2.750000,0.683333
3,3148,1.0,...,0.800000,-0.400000
4,3212,1.0,...,1.700000,-0.600000
...,...,...,...,...,...
2773,7352,1.0,...,-1.523810,3.666667
2774,7355,1.0,...,-1.500000,-2.321429
2775,7374,1.0,...,-0.950000,2.400000
2776,7402,1.0,...,-0.375000,2.933333


In [118]:
# Crear una lista de las variables explicatorias y de respuesta.
Variables_Respuesta = ['cambio_op_pro', 'cambio_op_con']

# Todas las que no son la anterior.
Variables_Explicatorias = [i for i in df_Largo.columns if i not in ['id', 'const'] + Variables_Respuesta + Cambio_Opinion]

Variables_Explicatorias

['indice_conservadurismo', 'indice_progresismo']

El VIF mide cuánto se incrementa la varianza de los coeficientes de regresión debido a la colinealidad entre las variables independientes. Un VIF alto sugiere que una variable está altamente correlacionada con otras variables en el modelo.

Interpretación:

VIF = 1: No hay colinealidad.

1 < VIF < 5: Moderada colinealidad.

VIF > 5: Alta colinealidad, lo que podría indicar problemas en el modelo.

In [119]:
from statsmodels.stats.outliers_influence import variance_inflation_factor

# Calcular el VIF para cada variable explicatoria
X = df_Largo[Variables_Explicatorias]
vif_data = pd.DataFrame()
vif_data["Variable"] = X.columns
vif_data["VIF"] = [variance_inflation_factor(X.values, i) for i in range(len(X.columns))]

# Filtrar las variables con VIF alto (> 5)
high_vif_variables = vif_data[vif_data['VIF'] > 5]

# Imprimir todas las variables con su respectivo VIF
with pd.option_context('display.max_rows', None, 'display.max_columns', None):
    print(high_vif_variables)

Empty DataFrame
Columns: [Variable, VIF]
Index: []


In [120]:
from statsmodels.regression.mixed_linear_model import MixedLM


# Ajustar las opciones de pandas para mostrar más filas y columnas
pd.set_option('display.max_rows', None)  # Muestra todas las filas
pd.set_option('display.max_columns', None)  # Muestra todas las columnas

# Crear una fórmula para el modelo de efectos mixtos.
for i in Variables_Respuesta:
    Formula = f"{i} ~ {' + '.join(Variables_Explicatorias)}"
    Modelo = MixedLM.from_formula(Formula, df_Largo, groups=df_Largo['id'])
    Resultados = Modelo.fit()

    # Extraer los p-values de los coeficientes
    p_values = Resultados.pvalues

    # Filtrar p-values menores o iguales a 0.05
    significant_p_values = p_values[p_values <= 0.05]
    
    if not significant_p_values.empty:
        print(f"P-values significativos para {i}:")
        print(significant_p_values)



P-values significativos para cambio_op_pro:
Intercept                 0.000000e+00
indice_conservadurismo    9.421935e-07
indice_progresismo        0.000000e+00
dtype: float64
P-values significativos para cambio_op_con:
Intercept                 0.0
indice_conservadurismo    0.0
dtype: float64




### Interpretación de resultados.

#### 1) Intercepto (const).
Valor promedio del rendimiento para el grupo de referencia (Grupo A) en la asignatura de referencia (Ciencias).
- Coeficiente: 77.250
- Intervalo de confianza (95%): [73.529, 80.971]

#### 2) Asignatura_Rendimiento_Matematicas.
Este coeficiente indica que, en promedio, el rendimiento en Matemáticas es 5 puntos más alto que en Ciencias, después de ajustar por el grupo y los efectos aleatorios del sujeto.
- Coeficiente: 5.000
- P-valor: 0.001 (muy significativo)
- Intervalo de confianza (95%): [2.115, 7.885]

#### 3) Grupo_B.
Este coeficiente indica que, en promedio, el rendimiento de los sujetos en el Grupo B es 7.5 puntos más alto que en el Grupo A, después de ajustar por la asignatura y los efectos aleatorios del sujeto.
- Coeficiente: 7.500
- P-valor: 0.002 (muy significativo)
- Intervalo de confianza (95%): [2.649, 12.351]

#### 4) Group Var.
Esta varianza indica la cantidad de variabilidad en el rendimiento que se debe a diferencias entre sujetos.
- Varianza del grupo (efectos aleatorios): 3.958

#### Conclusiones.

- Tanto la asignatura como el grupo tienen efectos significativos en el rendimiento.
- El rendimiento en Matemáticas es significativamente mayor que en Ciencias.
- Los sujetos en el Grupo B tienen un rendimiento significativamente mayor que los del Grupo A.
- Hay una variabilidad considerable en el rendimiento entre los sujetos, capturada por la varianza del grupo (efectos aleatorios).

### Supuestos.

1. Homocedasticidad de los residuos.

In [121]:
from scipy.stats import bartlett

# Extraer los valores ajustados del modelo
fitted_values = Resultados.fittedvalues

# Verificar la homoscedasticidad de los residuos usando la prueba de Bartlett
stat, p = bartlett(fitted_values, residuos)
if p > 0.05:
    print(f'Se cumple el supuesto de homoscedasticidad de los residuos: p-value = {p}')
else:
    print(f'No se cumple el supuesto de homoscedasticidad de los residuos: p-value = {p}')

No se cumple el supuesto de homoscedasticidad de los residuos: p-value = 0.0


2. Normalidad de los residuos.

In [122]:
import pandas as pd
from statsmodels.regression.mixed_linear_model import MixedLM
from scipy.stats import shapiro

# Crear una fórmula para el modelo de efectos mixtos.
Formula = f"{Variables_Respuesta[0]} ~ {' + '.join(Variables_Explicatorias)}"
Modelo = MixedLM.from_formula(Formula, df_Largo, groups=df_Largo['id'])
Resultados = Modelo.fit()

# Extraer los residuos del modelo
residuos = Resultados.resid

# Verificar la normalidad de los residuos
stat, p = shapiro(residuos)
if p > 0.05:
    print(f'Se cumple el supuesto de normalidad de los residuos: p-value = {p}')
else:
    print(f'No se cumple el supuesto de normalidad de los residuos: p-value = {p}')



No se cumple el supuesto de normalidad de los residuos: p-value = 1.518757558952033e-12


3. Independencia de los residuos.

In [123]:
from statsmodels.tsa.stattools import acf
import numpy as np

# Calcular la autocorrelación de los residuos
acf_values = acf(residuos, fft=True, nlags=20)

# Verificar si hay autocorrelaciones significativas (umbral arbitrario de 0.2)
if any(abs(acf_values[1:]) > 0.2):  # ACF[lags > 0]
    print(f'No se cumple el supuesto de independencia de los residuos.')
else:
    print(f'Se cumple el supuesto de independencia de los residuos.')

Se cumple el supuesto de independencia de los residuos.


4.  Influencia de variables.

In [124]:
import pandas as pd
from statsmodels.stats.outliers_influence import variance_inflation_factor

# Crear una lista de las variables explicatorias
Variables_Explicatorias = [i for i in df_Largo.columns if i not in ['id', 'const'] + Variables_Respuesta + Cambio_Opinion]

# Calcular el VIF para cada variable explicatoria
X = df_Largo[Variables_Explicatorias]
vif_data = pd.DataFrame()
vif_data["Variable"] = X.columns
vif_data["VIF"] = [variance_inflation_factor(X.values, i) for i in range(len(X.columns))]

# Mostrar el VIF para cada variable
for index, row in vif_data.iterrows():
    print(f"Variable: {row['Variable']}, VIF: {row['VIF']:.2f}")

# Filtrar y mostrar las variables con VIF alto (> 5)
high_vif_variables = vif_data[vif_data['VIF'] > 5]
if not high_vif_variables.empty:
    print("\nVariables con VIF alto (> 5):")
    print(high_vif_variables)
else:
    print("\nNo hay variables con VIF alto.")

Variable: indice_conservadurismo, VIF: 4.82
Variable: indice_progresismo, VIF: 4.82

No hay variables con VIF alto.


Resumen de supuestos.
1. Homocedasticidad de los residuos: no se cumple.
2. Normalidad de los residuos: no se cumple.
3. Independencia de los residuos: se cumple.
4. Influencia de las variables: se cumple.

Soluciones.
1. Aplicar técnicas como la regresión robusta o transformar las variables para corregir la heteroscedasticidad.
- La transformación logarítmica no funciona.
- La transformación box-cox no funciona.
- La transformación Yeo-Johnson no funciona.
  
2. Transformaciones que podrían mejorar la normalidad de los residuos.
- La transformación logarítmica no funciona.
- La transformación box-cox no funciona.
- La transformación Yeo-Johnson no funciona.

### Transformación de la base.

#### Ninguna funcionó.