In [2]:
import statsmodels.api as sm
import statsmodels.formula.api as smf
import pandas as pd

In [8]:
df_long = pd.read_csv('../data/processed/df_long.csv')

In [13]:
# Asegúrate de que tus categóricas estén bien definidas
# Por ejemplo, poner 'SIN' como referencia para comparar contra él
df_long['Tratamiento'] = pd.Categorical(df_long['Dilema'], 
                                        categories=['Bloque_SIN', 'Bloque_CON', 'Dist'], 
                                        ordered=False)

# Ajusta el orden según tu hipótesis base

# --- MODELO 1: Efecto Directo (Sin Controles) ---
# Usamos GEE (Generalized Estimating Equations) familia Binomial para datos binarios repetidos
formula_m1 = "Mantiene ~ C(Tratamiento) * Gap_Size" 

model_1 = smf.gee(formula_m1, 
                  data=df_long, 
                  groups=df_long['ID_Sujeto'],  # Agrupar por sujeto
                  family=sm.families.Binomial()) # Familia logística
result_1 = model_1.fit()
print("--- MODELO 1: Tratamiento y Gap ---")
print(result_1.summary())


# --- MODELO 2: Controlando por Demográficos y Psicológicos ---
# Agregamos Género, NDC_Score, etc. como efectos fijos
# C() indica variable categórica. Si NDC es numérico, va directo.
formula_m2 = "Mantiene ~ C(Tratamiento) * Gap_Size + C(Genero) + NDC_Score + SDO_Score"

model_2 = smf.gee(formula_m2, 
                  data=df_long, 
                  groups=df_long['ID_Sujeto'], 
                  family=sm.families.Binomial())
result_2 = model_2.fit()
print("\n--- MODELO 2: Con Controles ---")
print(result_2.summary())

--- MODELO 1: Tratamiento y Gap ---
                               GEE Regression Results                              
Dep. Variable:                    Mantiene   No. Observations:                 2142
Model:                                 GEE   No. clusters:                      118
Method:                        Generalized   Min. cluster size:                  18
                      Estimating Equations   Max. cluster size:                  36
Family:                           Binomial   Mean cluster size:                18.2
Dependence structure:         Independence   Num. iterations:                     2
Date:                     Mon, 26 Jan 2026   Scale:                           1.000
Covariance type:                    robust   Time:                         22:10:58
                                            coef    std err          z      P>|z|      [0.025      0.975]
------------------------------------------------------------------------------------------------------

In [14]:
# Asegúrate de que tus categóricas estén bien definidas
# Por ejemplo, poner 'SIN' como referencia para comparar contra él
df_exp = pd.read_csv('../data/processed/df_expectativas_filtrada.csv')
df_exp['Tratamiento'] = pd.Categorical(df_exp['Dilema'], 
                                        categories=['Bloque_SIN', 'Bloque_CON', 'Dist'], 
                                        ordered=False)

# Ajusta el orden según tu hipótesis base

# --- MODELO 1: Efecto Directo (Sin Controles) ---
# Usamos GEE (Generalized Estimating Equations) familia Binomial para datos binarios repetidos
formula_m1 = "Mantiene ~ C(Tratamiento) * Gap_Size" 

model_1 = smf.gee(formula_m1, 
                  data=df_exp, 
                  groups=df_exp['ID_Sujeto'],  # Agrupar por sujeto
                  family=sm.families.Binomial()) # Familia logística
result_1 = model_1.fit()
print("--- MODELO 1: Tratamiento y Gap ---")
print(result_1.summary())


# --- MODELO 2: Controlando por Demográficos y Psicológicos ---
# Agregamos Género, NDC_Score, etc. como efectos fijos
# C() indica variable categórica. Si NDC es numérico, va directo.
formula_m2 = "Mantiene ~ C(Tratamiento) * Gap_Size + C(Genero) + NDC_Score + SDO_Score"

model_2 = smf.gee(formula_m2, 
                  data=df_exp, 
                  groups=df_exp['ID_Sujeto'], 
                  family=sm.families.Binomial())
result_2 = model_2.fit()
print("\n--- MODELO 2: Con Controles ---")
print(result_2.summary())

--- MODELO 1: Tratamiento y Gap ---
                               GEE Regression Results                              
Dep. Variable:                    Mantiene   No. Observations:                 1620
Model:                                 GEE   No. clusters:                      108
Method:                        Generalized   Min. cluster size:                   6
                      Estimating Equations   Max. cluster size:                  30
Family:                           Binomial   Mean cluster size:                15.0
Dependence structure:         Independence   Num. iterations:                     2
Date:                     Mon, 26 Jan 2026   Scale:                           1.000
Covariance type:                    robust   Time:                         22:11:02
                                            coef    std err          z      P>|z|      [0.025      0.975]
------------------------------------------------------------------------------------------------------

In [6]:
df_expectativas_ndc = pd.read_csv('../data/processed/df_expectativas_ndc.csv')

# Asegúrate de que tus categóricas estén bien definidas
# Por ejemplo, poner 'SIN' como referencia para comparar contra él
df_expectativas_ndc['Tratamiento'] = pd.Categorical(df_expectativas_ndc['Dilema'], 
                                        categories=['Bloque_SIN', 'Bloque_CON', 'Dist'], 
                                        ordered=False)

# Ajusta el orden según tu hipótesis base

# --- MODELO 1: Efecto Directo (Sin Controles) ---
# Usamos GEE (Generalized Estimating Equations) familia Binomial para datos binarios repetidos
formula_m1 = "Mantiene ~ C(Tratamiento) * Gap_Size" 

model_1 = smf.gee(formula_m1, 
                  data=df_expectativas_ndc, 
                  groups=df_expectativas_ndc['ID_Sujeto'],  # Agrupar por sujeto
                  family=sm.families.Binomial()) # Familia logística
result_1 = model_1.fit()
print("--- MODELO 1: Tratamiento y Gap ---")
print(result_1.summary())


# --- MODELO 2: Controlando por Demográficos y Psicológicos ---
# Agregamos Género, NDC_Score, etc. como efectos fijos
# C() indica variable categórica. Si NDC es numérico, va directo.
formula_m2 = "Mantiene ~ C(Tratamiento) * Gap_Size + C(Genero) + NDC_Score + SDO_Score"

model_2 = smf.gee(formula_m2, 
                  data=df_expectativas_ndc, 
                  groups=df_expectativas_ndc['ID_Sujeto'], 
                  family=sm.families.Binomial())
result_2 = model_2.fit()
print("\n--- MODELO 2: Con Controles ---")
print(result_2.summary())

--- MODELO 1: Tratamiento y Gap ---
                               GEE Regression Results                              
Dep. Variable:                    Mantiene   No. Observations:                  678
Model:                                 GEE   No. clusters:                       48
Method:                        Generalized   Min. cluster size:                   6
                      Estimating Equations   Max. cluster size:                  18
Family:                           Binomial   Mean cluster size:                14.1
Dependence structure:         Independence   Num. iterations:                     2
Date:                     Tue, 27 Jan 2026   Scale:                           1.000
Covariance type:                    robust   Time:                         07:42:30
                                            coef    std err          z      P>|z|      [0.025      0.975]
------------------------------------------------------------------------------------------------------

In [10]:
# --- MODELO 4: Con Variables Socio-Políticas ---
# Agregamos nivel_se y politica a la ecuación
formula_socio = "Mantiene ~ C(Dilema) * Gap_Size + C(Genero) + NDC_Score + SDO_Score + nivel_se + politica"

model_socio = smf.gee(formula_socio, 
                      data=df_long, # Ojo: usa tu df filtrado si quieres el grupo "creyentes"
                      groups=df_long['ID_Sujeto'], 
                      family=sm.families.Binomial())

result_socio = model_socio.fit()
print("--- MODELO 4: Control Socio-Político ---")
print(result_socio.summary())

--- MODELO 4: Control Socio-Político ---
                               GEE Regression Results                              
Dep. Variable:                    Mantiene   No. Observations:                 2142
Model:                                 GEE   No. clusters:                      118
Method:                        Generalized   Min. cluster size:                  18
                      Estimating Equations   Max. cluster size:                  36
Family:                           Binomial   Mean cluster size:                18.2
Dependence structure:         Independence   Num. iterations:                     2
Date:                     Tue, 27 Jan 2026   Scale:                           1.000
Covariance type:                    robust   Time:                         08:35:16
                                       coef    std err          z      P>|z|      [0.025      0.975]
----------------------------------------------------------------------------------------------------
I

In [13]:
import pandas as pd
from statsmodels.stats.anova import AnovaRM

# Supongamos que tu dataframe se llama df_long (o df filtrado si usas el subgrupo)
df = df_long.copy() 

# ---------------------------------------------------------
# PREPARACIÓN 1: ANOVA DE TRATAMIENTOS
# Objetivo: Ver si hay diferencias entre SIN, CON, DIST (ignorando el Gap por un momento)
# ---------------------------------------------------------

# 1. Agrupamos para crear la variable continua (Proporción)
# Por cada sujeto y tratamiento, calculamos el promedio de "Mantiene"
df_anova_trat = df.groupby(['ID_Sujeto', 'Dilema'])['Mantiene'].mean().reset_index()

# 2. Corremos el ANOVA de Medidas Repetidas (Un factor)
anova_trat = AnovaRM(data=df_anova_trat, 
                     depvar='Mantiene',      # Ahora es una proporción (0 a 1)
                     subject='ID_Sujeto', 
                     within=['Dilema']).fit()

print("=== RESULTADOS ANOVA 1: TRATAMIENTO ===")
print(anova_trat)


# ---------------------------------------------------------
# PREPARACIÓN 2: ANOVA DE GAPS
# Objetivo: Ver si hay diferencias entre los niveles de costo (0, 10, 20...)
# ---------------------------------------------------------

# 1. Agrupamos por Sujeto y Gap_Size
df_anova_gap = df.groupby(['ID_Sujeto', 'Gap_Size'])['Mantiene'].mean().reset_index()

# 2. Corremos el ANOVA de Medidas Repetidas
# Nota: Aquí el Gap se trata como una "Categoría", no como número continuo
anova_gap = AnovaRM(data=df_anova_gap, 
                    depvar='Mantiene', 
                    subject='ID_Sujeto', 
                    within=['Gap_Size']).fit()

print("\n=== RESULTADOS ANOVA 2: GAP (COSTO) ===")
print(anova_gap)

=== RESULTADOS ANOVA 1: TRATAMIENTO ===
                Anova
       F Value Num DF  Den DF  Pr > F
-------------------------------------
Dilema  1.8230 2.0000 234.0000 0.1638


=== RESULTADOS ANOVA 2: GAP (COSTO) ===
                 Anova
         F Value Num DF  Den DF  Pr > F
---------------------------------------
Gap_Size 48.7861 4.0000 468.0000 0.0000

