In [None]:
!pip install statsmodels


In [5]:
import pandas as pd
import numpy as np
from scipy import stats 
import statsmodels.api as sm

## 3.1 Data Simulation

In [6]:
#seteo básico
np.random.seed(42)
n = 1000

X1 = np.random.normal(loc=15, scale=5, size=n)  # Continua
X2 = np.random.normal(loc=10, scale=2, size=n)  # Continua
X3 = np.random.binomial(n=1, p=0.6, size=n)     # Binaria
X4 = np.random.binomial(n=1, p=0.25, size=n)    # Binaria

# Generamos la asignación al tratamiento D ~ Bern(0.5)
D = np.random.binomial(n=1, p=0.5, size=n)
#print(D)

epsilon = np.random.normal(loc=0, scale=1, size=n) 
Y = 2*D + 0.5*X1 - 0.3*X2 + 0.2*X3 + epsilon
#print(epsilon)

In [7]:
#creamos dataframe
data = {
    'Y': Y,
    'D': D,
    'X1': X1,
    'X2': X2,
    'X3': X3,
    'X4': X4
}
df = pd.DataFrame(data)

#df.head()

In [8]:
# Separamos los datos en grupo de tratamiento y control para la comparación
treatment_group = df[df['D'] == 1]
control_group = df[df['D'] == 0]

#print(treatment_group)
#print(control_group)


In [9]:
covariates = ['X1', 'X2', 'X3', 'X4']

# Iteramos sobre cada covariable para realizar el t-test
for cov in covariates:
    # Comparamos la media de la covariable 'cov' en el grupo de tratamiento vs. control
    t_stat, p_value = stats.ttest_ind(treatment_group[cov], control_group[cov])
    
    print(f"Covariable: {cov}")
    print(f"  Media Grupo Tratamiento: {treatment_group[cov].mean():.4f}")
    print(f"  Media Grupo Control:     {control_group[cov].mean():.4f}")
    print(f"  P-value:                 {p_value:.4f}")
    
    if p_value > 0.05:
        print("  No hay diferencia estadística. grupos  balanceados")
    else:
        print("   Hay una diferencia estadística. grupos NO  balanceados")
    print("-" * 50)

Covariable: X1
  Media Grupo Tratamiento: 15.2449
  Media Grupo Control:     14.9554
  P-value:                 0.3501
  No hay diferencia estadística. grupos  balanceados
--------------------------------------------------
Covariable: X2
  Media Grupo Tratamiento: 10.1545
  Media Grupo Control:     10.1294
  P-value:                 0.8428
  No hay diferencia estadística. grupos  balanceados
--------------------------------------------------
Covariable: X3
  Media Grupo Tratamiento: 0.6004
  Media Grupo Control:     0.5801
  P-value:                 0.5140
  No hay diferencia estadística. grupos  balanceados
--------------------------------------------------
Covariable: X4
  Media Grupo Tratamiento: 0.1988
  Media Grupo Control:     0.2520
  P-value:                 0.0445
   Hay una diferencia estadística. grupos NO  balanceados
--------------------------------------------------


## 3.2 Estimating the Average Treatment Effect

In [10]:
#Estimate the treatment effect (ATE) using a simple reg:
y = df['Y']
X_simple = df[['D']]
#con constante:
X_simple = sm.add_constant(X_simple) 
model_simple = sm.OLS(y, X_simple).fit()
print(model_simple.summary())



                            OLS Regression Results                            
Dep. Variable:                      Y   R-squared:                       0.140
Model:                            OLS   Adj. R-squared:                  0.139
Method:                 Least Squares   F-statistic:                     162.3
Date:                Mon, 22 Sep 2025   Prob (F-statistic):           1.46e-34
Time:                        23:00:33   Log-Likelihood:                -2422.6
No. Observations:                1000   AIC:                             4849.
Df Residuals:                     998   BIC:                             4859.
Df Model:                           1                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const          4.5112      0.121     37.377      0.0

In [11]:
# estimo ATE controlando por todas las covariables
X_multiple = df[['D', 'X1', 'X2', 'X3', 'X4']]
#AGREGO LA CONSTANTE:
X_multiple = sm.add_constant(X_multiple) 
model_multiple = sm.OLS(y, X_multiple).fit()
print(model_multiple.summary())

                            OLS Regression Results                            
Dep. Variable:                      Y   R-squared:                       0.889
Model:                            OLS   Adj. R-squared:                  0.888
Method:                 Least Squares   F-statistic:                     1592.
Date:                Mon, 22 Sep 2025   Prob (F-statistic):               0.00
Time:                        23:00:33   Log-Likelihood:                -1398.9
No. Observations:                1000   AIC:                             2810.
Df Residuals:                     994   BIC:                             2839.
Df Model:                           5                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const         -0.4311      0.200     -2.157      0.0

Los valores del ATE no varian mucho, los valores que tomó fue de 2.2014 para el modelo simple y para el modelo múltiple fue 2.0606. Mientras que el valor verdadero es 2. Esto se debe a que la asignación del D fue aletoria y no esta correlacionada con las X.

Acerca de lo que pasa con los errores estandares es que bajaron de 0.173 para el modelo simple y 0.062 el modelo multiple. Lo que pasa es que las covariables son buenas predictoras del Y (asi es nuestro PGD), por lo que al incluirlos reduicmos la magnitud del error residual.

## 3.3 LASSO and Variable Selection (3 points)

### 3.3.1 Use LASSO to select covariates that predict Y (1 point)

In [15]:
from sklearn.linear_model import LassoCV

In [16]:
#definimos las covariables
X_lasso = df.drop(columns=['Y', 'D'])
y_lasso = df['Y']
lasso_cv = LassoCV(cv=10, random_state=42).fit(X_lasso, y_lasso)

coefficients = lasso_cv.coef_
selected_mask = coefficients != 0  #variables eleggidas osn las que son dif de cero
selected_covariates = X_lasso.columns[selected_mask].tolist()
#print(selected_covariates)

#variables selecionadas
print(f"El alpha (lambda_min) óptimo encontrado por CV es: {lasso_cv.alpha_:.4f}")
print("\nCoeficientes de LASSO para cada covariable:")
for name, coef in zip(X_lasso.columns, coefficients):
    print(f"  {name}: {coef:.4f}")

print(f"\n✅ Covariables seleccionadas por LASSO: {selected_covariates}")


El alpha (lambda_min) óptimo encontrado por CV es: 0.0174

Coeficientes de LASSO para cada covariable:
  X1: 0.5104
  X2: -0.2666
  X3: 0.2472
  X4: -0.0000

✅ Covariables seleccionadas por LASSO: ['X1', 'X2', 'X3']


In [17]:
#reestimando ATE con las varibles seleccionadas por LASSO
X_post_lasso = df[['D'] + selected_covariates]
y = df['Y'] 

# Agregamos la constante y ajustamos el modelo
X_post_lasso = sm.add_constant(X_post_lasso)
model_post_lasso = sm.OLS(y, X_post_lasso).fit()
print(model_post_lasso.summary())



                            OLS Regression Results                            
Dep. Variable:                      Y   R-squared:                       0.889
Model:                            OLS   Adj. R-squared:                  0.888
Method:                 Least Squares   F-statistic:                     1990.
Date:                Mon, 22 Sep 2025   Prob (F-statistic):               0.00
Time:                        23:02:41   Log-Likelihood:                -1399.4
No. Observations:                1000   AIC:                             2809.
Df Residuals:                     995   BIC:                             2833.
Df Model:                           4                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const         -0.4175      0.199     -2.094      0.0

La precicisón de Lasso es casi identica a usar el modelo completo, el coeficiente de LASSO del D es 2.0565 y el de completo es 2.0606, mientras que el error estandar es el mismo para ambos 0.062. Esto se debe a que Lasso hizo un buen trabajo eliminando X4 que era variable irrelevante del modelo (recordemos que el PGD no depende de X4), es decir logra la casi la misma precisión que el modelo completo sin necesidad de agregar variables innecesarias