In [1]:
import statsmodels.api as sm
import statsmodels.formula.api as smf
import pandas as pd

In [12]:
df_long = pd.read_csv('df_long.csv')

In [13]:
# Asegúrate de que tus categóricas estén bien definidas
# Por ejemplo, poner 'SIN' como referencia para comparar contra él
df_long['Tratamiento'] = pd.Categorical(df_long['Dilema'], 
                                        categories=['Bloque_SIN', 'Bloque_CON', 'Dist'], 
                                        ordered=False)

# Ajusta el orden según tu hipótesis base

# --- MODELO 1: Efecto Directo (Sin Controles) ---
# Usamos GEE (Generalized Estimating Equations) familia Binomial para datos binarios repetidos
formula_m1 = "Mantiene ~ C(Tratamiento) * Gap_Size" 

model_1 = smf.gee(formula_m1, 
                  data=df_long, 
                  groups=df_long['ID_Sujeto'],  # Agrupar por sujeto
                  family=sm.families.Binomial()) # Familia logística
result_1 = model_1.fit()
print("--- MODELO 1: Tratamiento y Gap ---")
print(result_1.summary())


# --- MODELO 2: Controlando por Demográficos y Psicológicos ---
# Agregamos Género, NDC_Score, etc. como efectos fijos
# C() indica variable categórica. Si NDC es numérico, va directo.
formula_m2 = "Mantiene ~ C(Tratamiento) * Gap_Size + C(Genero) + NDC_Score + SDO_Score"

model_2 = smf.gee(formula_m2, 
                  data=df_long, 
                  groups=df_long['ID_Sujeto'], 
                  family=sm.families.Binomial())
result_2 = model_2.fit()
print("\n--- MODELO 2: Con Controles ---")
print(result_2.summary())

--- MODELO 1: Tratamiento y Gap ---
                               GEE Regression Results                              
Dep. Variable:                    Mantiene   No. Observations:                 2142
Model:                                 GEE   No. clusters:                      118
Method:                        Generalized   Min. cluster size:                  18
                      Estimating Equations   Max. cluster size:                  36
Family:                           Binomial   Mean cluster size:                18.2
Dependence structure:         Independence   Num. iterations:                     2
Date:                     Mon, 26 Jan 2026   Scale:                           1.000
Covariance type:                    robust   Time:                         22:10:58
                                            coef    std err          z      P>|z|      [0.025      0.975]
------------------------------------------------------------------------------------------------------

In [14]:
# Asegúrate de que tus categóricas estén bien definidas
# Por ejemplo, poner 'SIN' como referencia para comparar contra él
df_exp = pd.read_csv('df_expectativas_filtrada.csv')
df_exp['Tratamiento'] = pd.Categorical(df_exp['Dilema'], 
                                        categories=['Bloque_SIN', 'Bloque_CON', 'Dist'], 
                                        ordered=False)

# Ajusta el orden según tu hipótesis base

# --- MODELO 1: Efecto Directo (Sin Controles) ---
# Usamos GEE (Generalized Estimating Equations) familia Binomial para datos binarios repetidos
formula_m1 = "Mantiene ~ C(Tratamiento) * Gap_Size" 

model_1 = smf.gee(formula_m1, 
                  data=df_exp, 
                  groups=df_exp['ID_Sujeto'],  # Agrupar por sujeto
                  family=sm.families.Binomial()) # Familia logística
result_1 = model_1.fit()
print("--- MODELO 1: Tratamiento y Gap ---")
print(result_1.summary())


# --- MODELO 2: Controlando por Demográficos y Psicológicos ---
# Agregamos Género, NDC_Score, etc. como efectos fijos
# C() indica variable categórica. Si NDC es numérico, va directo.
formula_m2 = "Mantiene ~ C(Tratamiento) * Gap_Size + C(Genero) + NDC_Score + SDO_Score"

model_2 = smf.gee(formula_m2, 
                  data=df_exp, 
                  groups=df_exp['ID_Sujeto'], 
                  family=sm.families.Binomial())
result_2 = model_2.fit()
print("\n--- MODELO 2: Con Controles ---")
print(result_2.summary())

--- MODELO 1: Tratamiento y Gap ---
                               GEE Regression Results                              
Dep. Variable:                    Mantiene   No. Observations:                 1620
Model:                                 GEE   No. clusters:                      108
Method:                        Generalized   Min. cluster size:                   6
                      Estimating Equations   Max. cluster size:                  30
Family:                           Binomial   Mean cluster size:                15.0
Dependence structure:         Independence   Num. iterations:                     2
Date:                     Mon, 26 Jan 2026   Scale:                           1.000
Covariance type:                    robust   Time:                         22:11:02
                                            coef    std err          z      P>|z|      [0.025      0.975]
------------------------------------------------------------------------------------------------------