# Difference-in-Differences with Covariates
Prof. Daniel de Abreu Pereira Uhr


## Conteúdo

* Difference-in-Differences com Covariáveis.
* Difference in Difference Outcome Regression (Regression Adjustment) - Heckman et al (1997).
* IPW Difference in Difference Approach - Abadie (2005)
* Doubly Robust Difference in Difference - Sant'Anna e Zhao (2020)

## Referências

**Principais**

* Heckman, J., Ichimura, Smith, J. and Todd, P. 1998. Characterizing Selection Bias Using Experimental Data. Econometrica 66(5): 1017--1098
* Abadie, A. 2005. Semiparametric Difference-in-Differences Estimators. Review of Economic Studies 72: 1--19
* Sant'Anna e Zhao (2020) Doubly robust difference-in-differences estimators. Journal of Econometrics, Volume 219, Issue 1, November 2020.

**Complementares**

* Heckman, Ichimura e Todd (1998) - Matching as an Econometric Evaluation Estimator: Evidence from Evaluating a Job Training Programme
* Hirano, K., Imbens, G.W. and Ridder, G. 2003.  Efficient Estimation of Average Treatment Effects Using the Estimated Propensity Score. Econometrica 71(4): 1161--1189

### Difference-in-Differences com Covariáveis

Vimos que o DD apresenta as seguintes hipóteses de identificação:

* **Parallel Trends**: As tendências dos grupos tratado e controle são paralelas antes do tratamento.
* **No anticipation**: O tratamento não pode ser antecipado.
* **Distribuição dos dados**: Seja $W_{i}=(Y_{i,2}, Y_{i,1}, D_{i})´$ o vetor das variáveis de resultados e do status do tratamento para a unidade $i$. Nós observamos uma amostra de N *i.i.d.* com $W_{i}$~$F$ para alguma distribuição F (desconhecida) satisfazendo as tendências paralelas. Em outras palavras, os dados observados são amostrados de uma população maior de forma independente e identicamente distribuída, onde cada observação segue a mesma distribuição.

E nosso interesse é identificar o **Average Treatment Effect on the Treated** (ATT), para o caso 2x2:

$$ \delta_{ATT}= E[Y_{i,2}(1)-Y_{i,2}(0)|D_{i}=1] $$

Sob as hipóteses de identificação, o estimador de DD 2x2 é dado por:

$$ \hat{\delta}_{ATT}^{2x2} = (\overline{Y}_{i,t=2}(1) - \overline{Y}_{i,t=1}(1)) - (\overline{Y}_{i,t=2}(0) - \overline{Y}_{i,t=1}(0)) $$

Vamos representar em termos de esperanças condicionais (assumindo uma amostragem de uma população grande):

$$ \hat{\delta}_{ATT}^{2x2} = (E[Y_{i,t=2}(1)|D_{i}=1] - E[Y_{i,t=1}(1)|D_{i}=1]) - (E[Y_{i,t=2}(0)|D_{i}=0] - E[Y_{i,t=1}(0)|D_{i}=0]) $$


**Motivação para adicionar covariáveis**

Para muitos pesquisadores, a hipótese de **Parallel Trends** não é plausível em muitos casos, mas poderia ser ao condicionarmos em algumas covariáveis. Por exemplo, se a variável de resultado de interesse são os salários, o grupo de tratamento e controle diferem em níveis de escolaridade, e as tendências para os níveis de educação que afetam os salários diferem entre os trabalhadores. Então, o condicionamento poderia ser plausível.

Nesse contexto as hipóteses de identificação são alteradas e ampliadas:

* 1: Conditional Parallel Trends (porque condicionamos nas covariáveis)
* 2: No anticipation
* 3: Distribuição dos dados (Segue conforme anteriormente, considerando a estrutura de Panel-Data, ou repeated Cross-secion data, satisfazendo as tendências paralelas condicionais)
* 4: Common Suport (Overlap) Ao menos uma fração da população que é tratada e para cada valor de X há ao menos uma chance de uma unidade ser não tratada.
* 5: Efeito Homogêneo do Tratameto em X
* 6: Não há tendências específicas em X em ambos os grupos tratado e controle

Observação: Convem salientar que **a suposição de tendência paralela condicional não é nem mais forte nem mais fraca do que a tendência paralela incondicional.** A tendência paralela condicional não implica tendência paralela incondicional e a tendência paralela incondicional não implica tendência paralela condicional;

Considerando $X_{i}$ um vetor de covariáveis que **Não varia no tempo**:

$$ \hat{\delta}_{ATT}^{2x2} = (E[Y_{i,t=2}|D_{i}=1, X_{i}] - E[Y_{i,t=1}|D_{i}=1, X_{i}]) - (E[Y_{i,t=2}|D_{i}=0, X_{i}] - E[Y_{i,t=1}|D_{i}=0, X_{i}]) $$


Para identificar o efeito causal, os pesquisadores aplicados costumavam utilizar a especificação TWFE, apenas com a adição das covariáveis na regressão:

$$ Y_{i,t} = \alpha + \beta_{1} T_{t} + \beta_{2}D_{i} + \delta (T_{t}.D_{i}) + \gamma X_{i} + \epsilon_{i,t} $$

Ao adicionar as covariáveis na regressão significa que estamos **impondo uma estrutura paramétrica** para a relação entre as covariáveis e o resultado (é uma hipótese de estrutura paramétrica da relação). Essa regressão identifica o efeito causal se isso corresponde ao verdadeiro modelo que gera os resultados potenciais. O efeito do tratamento é **constante e aditivo**.

Entretanto, mesmo condicionando nas covariáveis, o modelo não permite que diferentes grupos tenham trajetórias diferentes ao longo do tempo. Ou seja, as trajetórias são as mesmas para todos os grupos. Mas a razão pela qual se desejava incluir covariáveis no modelo era justamente para permitir que diferentes grupos tivessem trajetórias distintas ao longo do tempo. No entanto, a restrição do modelo impede que essa variação seja capturada, o que contradiz o objetivo original de incluir as covariáveis.

Vamos tomar as expectativas condicionais do TWFE proposto:

* Tratados (Post e Pre):
$$E[Y_{1,1}|D_{i}=1] = \alpha + \beta_{1} + \beta_{2} + \delta + \gamma X_{11}$$
$$E[Y_{0,1}|D_{i}=1] = \alpha + \beta_{2} + \gamma X_{10}$$
* Controles (Post e Pre):
$$E[Y_{1,0}|D_{i}=0] = \alpha + \beta_{1} + \gamma X_{01}$$
$$E[Y_{0,0}|D_{i}=0] = \alpha + \gamma X_{00}$$

Tomando o DD:

$$ \hat{\delta}_{ATT}^{2x2} = ( (\alpha + \beta_{1} + \beta_{2} + \delta + \gamma X_{11}) - (\alpha + \beta_{2} + \gamma X_{10}) ) - ( (\alpha + \beta_{1} + \gamma X_{01}) - (\alpha + \gamma X_{00}) ) $$

$$ \hat{\delta}_{ATT}^{2x2} = ( \beta_{1} + \delta + \gamma X_{11} - \gamma X_{10} ) - ( \beta_{1} + \gamma X_{01} - \gamma X_{00} ) $$
$$ \hat{\delta}_{ATT}^{2x2} = \delta + ( \gamma X_{11} - \gamma X_{10} ) - ( \gamma X_{01} - \gamma X_{00} ) $$


A segunda parte da igualdade requer que as tendências de cada X do grupo tratado seja igual a tendência das variáveis X do grupo de controle. (hipóteses 5 e 6). Por isso que, normalmente o TWFE não irá identificar o efeito causal ($\delta$) corretamente.

Vejamos como a literatura propõe a inclusão de covariáveis no modelo de DD com menos hipóteses restritivas.

### Estimação do DD sob Hipótese de Tendências Paralelas Condicionais

Funciona se ambas as **unidades tratadas e de controle tiverem aproximadamente a mesma distribuição de covariáveis ​​(sobreposição forte)** e se o **efeito do tratamento for homogêneo**.

Em termos de estratégia de identificação, a literatura se desenvolveu apresentando as seguintes abordagens:
* Outcome Regression DD (Regression Adjustment DD - Heckman et al. 1997, 1998)
* Propensity score com DD (Abadie, 2005)
* Doubly Robust DD (Sant'Anna e Zhao, 2020)

#### Outcome Regression DD

Uma forma de identificar o efeito causal através do método de Diferença em Diferenças e incorporar covariáveis se dá através do Outcome Regression. A ideia é realizar a diferença entre as médias dos resultados potenciais para o grupo tratado e controle, entretanto, utilizar como ajuste do contrafactual a trajetória do grupo de controle com a distribuição de covariáveis do grupo tratado.

1. **Modelo de Regressão Linear:**

   $$ Y_{i,t} = \alpha + \beta D_{i,t} + \gamma X_{i} + \epsilon_{i,t} $$

   onde $ Y $ é a variável dependente, $ D $ é a variável indicadora de tratamento (1 se o tratamento foi aplicado, 0 caso contrário), $ X $ são as covariáveis constantes observáveis, e $ \epsilon $ é o termo de erro.

2. **Expectativas Condicionais:**
   
   Definimos os resultados da expectativa condicional

   $$ \mu_{0,1}(X) = E[Y | X, D=0, t=1] $$
   $$ \mu_{0,2}(X) = E[Y | X, D=0, t=2] $$
   
   Então, $\mu_{0,1}(X) $ e $ \mu_{0,2}(X) $ representam as médias dos resultados potenciais para os não tratados dado suas características observáveis $ X $.

3. **DD e as Expectativas Condicionais:**
   
   Retomando a equação do DD, temos:

   $$ \beta^{DD} = (E[Y|X, D=1, t=2] - E[Y|X, D=1, t=1]) - (E[Y|X, D=0, t=2] - E[Y|X, D=0, t=1]) $$

4. **Substituição das Definições:**

   A ideia dos autores é construir um contrafactual adequado, que considere a trajetória do grupo de controle com a distribuição de covariáveis do grupo tratado. Logo:

   $$ \beta^{OR-DD} = (E[Y|X, D=1, t=2] - E[Y|X, D=1, t=1]) - (\mu_{02}(X) - \mu_{01}(X) ) $$

  Considerando que queremos construir o contrafactual considerando a trajetória do grupo de controle com a distribuição de covariáveis do grupo tratado ($X^{T}$), obtemos:

   $$ \hat{\beta}_{ATT}^{OR-DD} = (E[Y|X, D=1, t=2] - E[Y|X, D=1, t=1]) - [\mu_{1}(X^{T}) - \mu_{0}(X^{T})]  $$

   Simplificando a notação, com $ \bar{Y}_{1,1} $ representando $ E[Y|X, D=1, t=1] $ e $ \bar{Y}_{1,2} $ representando $ E[Y|X, D=1, t=2] $, temos:

   $$ \hat{\beta}_{ATT}^{OR-DD} = (\bar{Y}_{1,2} - \bar{Y}_{1,1}) - [\mu_{1}(X^{T}) - \mu_{0}(X^{T})]  $$

In [1]:
# Pacotes
import numpy as np
import pandas as pd
import os
import plotnine as p
import statsmodels.api as sm
import linearmodels as lm
import statsmodels.formula.api as smf

In [2]:
# DataFrame
df = pd.read_stata("http://fmwww.bc.edu/repec/bocode/c/CardKrueger1994.dta")

In [3]:
# Há problemas na base que precisam ser ajustados
df.loc[(df['id'] == 407) & (df['kfc'] == 1), 'id'] = 408
# Crie a variável 'tratado' com valor inicial de 0
df['Treated'] = 0
# Recodifique 'tratado' para 1 se 'treated' for igual a 1
df.loc[df['treated'] == 'NJ', 'Treated'] = 1
# Crie a variável 'effect' como o produto entre 'tratado' e 't'
df['Effect'] = df['Treated'] * df['t']
# Remover lojas sem informação em ambos os anos
df['cont'] = df['fte'].notna().groupby(df['id']).cumsum()
df['media'] = df.groupby('id')['cont'].transform('mean')
df = df[df['media'] == 1.5]
df['y'] = df['fte']

df['pre'] = 0
df.loc[df['t'] == 0, 'pre'] = 1
df['pos'] = 0
df.loc[df['t'] == 1, 'pos'] = 1

In [4]:
# salvando a base em csv para usar no R posteriormente.
df.to_csv('card_krueger.csv', index=False)

In [5]:
# regressão DD canônico sem covariáveis:
DD1 = smf.ols('y ~ Treated + t + Effect', data=df).fit()
print(DD1.summary())

                            OLS Regression Results                            
Dep. Variable:                      y   R-squared:                       0.008
Model:                            OLS   Adj. R-squared:                  0.005
Method:                 Least Squares   F-statistic:                     2.195
Date:                Sat, 17 Aug 2024   Prob (F-statistic):             0.0873
Time:                        17:02:55   Log-Likelihood:                -2831.8
No. Observations:                 782   AIC:                             5672.
Df Residuals:                     778   BIC:                             5690.
Df Model:                           3                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
Intercept     20.0132      1.040     19.238      0.0

In [6]:
# regressão DD canônico com covariáveis:
DD2 = smf.ols('y ~ Treated + t + Effect + bk + kfc + roys', data=df).fit()
print(DD2.summary())

                            OLS Regression Results                            
Dep. Variable:                      y   R-squared:                       0.190
Model:                            OLS   Adj. R-squared:                  0.184
Method:                 Least Squares   F-statistic:                     30.26
Date:                Sat, 17 Aug 2024   Prob (F-statistic):           1.06e-32
Time:                        17:03:03   Log-Likelihood:                -2752.8
No. Observations:                 782   AIC:                             5520.
Df Residuals:                     775   BIC:                             5552.
Df Model:                           6                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
Intercept     21.2079      1.181     17.950      0.0

Lembre que sob a hipótese de tendências paralelas condicionais, o estimador de DD apenas adicionando as covariáveis pode apresentar viés se as tendências não forem paralelas nas prórias covariáveis. Os resultados aqui foram de $2.9425$ em ambos modelos.

Vamos realizar o OR-DD proposto por Heckman et al. (1997) para o dataset de exemplo.

In [7]:
import numpy as np
import pandas as pd
from sklearn.linear_model import LinearRegression
from joblib import Parallel, delayed
from scipy.stats import t

In [8]:
def OR_DD(df, X_cols, T_col, Y_col, Time_col, pre_time, post_time):
    # Separar dados por grupo e período
    df_pre = df[df[Time_col] == pre_time]
    df_post = df[df[Time_col] == post_time]

    X_pre_treated = df_pre[df_pre[T_col] == 1][X_cols]
    Y_pre_treated = df_pre[df_pre[T_col] == 1][Y_col]
    X_post_treated = df_post[df_post[T_col] == 1][X_cols]
    Y_post_treated = df_post[df_post[T_col] == 1][Y_col]

    X_pre_control = df_pre[df_pre[T_col] == 0][X_cols]
    Y_pre_control = df_pre[df_pre[T_col] == 0][Y_col]
    X_post_control = df_post[df_post[T_col] == 0][X_cols]
    Y_post_control = df_post[df_post[T_col] == 0][Y_col]

    # Ajustar modelos de regressão linear para os períodos pré e pós
    model_pre_control = LinearRegression().fit(X_pre_control, Y_pre_control)
    model_post_control = LinearRegression().fit(X_post_control, Y_post_control)

    # Previsões para o grupo controle nos períodos pré e pós
    mu0_X_pre = model_pre_control.predict(X_pre_treated)
    mu0_X_post = model_post_control.predict(X_post_treated)

    # Calcular a Diferença em Diferenças
    ORdid = (Y_post_treated.mean() - Y_pre_treated.mean()) - (mu0_X_post.mean() - mu0_X_pre.mean()) 

    return ORdid

# Exemplo de uso
T_col = 'Treated'
Y_col = 'y'
X_cols = ['bk', 'kfc', 'roys']
Time_col = 't'
pre_time = 0
post_time = 1

result_OR_DiD = OR_DD(df, X_cols, T_col, Y_col, Time_col, pre_time, post_time)
print("Outcome Regression DiD (ATT):", result_OR_DiD)

Outcome Regression DiD (ATT): 2.6757034544143536


In [10]:
import numpy as np
from sklearn.linear_model import LinearRegression
from scipy import stats

def OR_DD_with_SE(df, X_cols, T_col, Y_col, Time_col, pre_time, post_time):
    # Separar dados por grupo e período
    df_pre = df[df[Time_col] == pre_time]
    df_post = df[df[Time_col] == post_time]

    X_pre_treated = df_pre[df_pre[T_col] == 1][X_cols]
    Y_pre_treated = df_pre[df_pre[T_col] == 1][Y_col]
    X_post_treated = df_post[df_post[T_col] == 1][X_cols]
    Y_post_treated = df_post[df_post[T_col] == 1][Y_col]

    X_pre_control = df_pre[df_pre[T_col] == 0][X_cols]
    Y_pre_control = df_pre[df_pre[T_col] == 0][Y_col]
    X_post_control = df_post[df_post[T_col] == 0][X_cols]
    Y_post_control = df_post[df_post[T_col] == 0][Y_col]

    # Ajustar modelos de regressão linear para os períodos pré e pós
    model_pre_control = LinearRegression().fit(X_pre_control, Y_pre_control)
    model_post_control = LinearRegression().fit(X_post_control, Y_post_control)

    # Previsões para o grupo controle nos períodos pré e pós
    mu0_X_pre = model_pre_control.predict(X_pre_treated)
    mu0_X_post = model_post_control.predict(X_post_treated)

    # Calcular a Diferença em Diferenças
    ORdid = (Y_post_treated.mean() - Y_pre_treated.mean()) - (mu0_X_post.mean() - mu0_X_pre.mean())

    # Calcular resíduos
    res_pre_control = Y_pre_control - model_pre_control.predict(X_pre_control)
    res_post_control = Y_post_control - model_post_control.predict(X_post_control)

    # Variância dos resíduos
    var_res_pre_control = np.var(res_pre_control, ddof=1)
    var_res_post_control = np.var(res_post_control, ddof=1)

    # Tamanho das amostras
    n_pre_treated = len(Y_pre_treated)
    n_post_treated = len(Y_post_treated)
    n_pre_control = len(Y_pre_control)
    n_post_control = len(Y_post_control)

    # Calcular erro padrão
    SE_ORdid = np.sqrt((var_res_post_control / n_post_treated) +
                       (var_res_pre_control / n_pre_treated) +
                       (var_res_post_control / n_post_control) +
                       (var_res_pre_control / n_pre_control))

    # Calcular t-score
    t_score = ORdid / SE_ORdid

    # Calcular p-value (bilateral)
    p_value = 2 * (1 - stats.t.cdf(np.abs(t_score), df=n_pre_treated + n_post_treated + n_pre_control + n_post_control - 4))

    # Calcular intervalo de confiança de 95%
    confidence_interval = (
        ORdid - 1.96 * SE_ORdid,
        ORdid + 1.96 * SE_ORdid
    )

    return ORdid, SE_ORdid, t_score, p_value, confidence_interval

# Exemplo de uso
result_OR_DiD, SE_OR_DiD, t_score, p_value, confidence_interval = OR_DD_with_SE(df, X_cols, T_col, Y_col, Time_col, pre_time, post_time)
print("Outcome Regression DiD (ATT):", result_OR_DiD)
print("Erro Padrão Analítico:", SE_OR_DiD)
print("t-score:", t_score)
print("p-value:", p_value)
print("Intervalo de Confiança 95%:", confidence_interval)



Outcome Regression DiD (ATT): 2.6757034544143536
Erro Padrão Analítico: 1.4986928085678337
t-score: 1.785358172880861
p-value: 0.07459269802317303
Intervalo de Confiança 95%: (-0.2617344503786003, 5.613141359207308)


In [13]:
# Função para calcular o bootstrap
def bootstrap_OR_DD(df, X_cols, T_col, Y_col, Time_col, pre_time, post_time, n_iterations):
    np.random.seed(88)
    
    def calculate_did(sample_df):
        return OR_DD(sample_df, X_cols, T_col, Y_col, Time_col, pre_time, post_time)
    
    results = Parallel(n_jobs=-1)(delayed(calculate_did)(df.sample(frac=1, replace=True)) for _ in range(n_iterations))
    
    return np.array(results)

# Definir o número de amostras do bootstrap
bootstrap_samples = 40000

# Executar o bootstrap para calcular as estimativas do DiD
did_bootstrap = bootstrap_OR_DD(df, X_cols, T_col, Y_col, Time_col, pre_time, post_time, bootstrap_samples)

# Calcular a média e o erro padrão das estimativas do DiD
did_mean_bootstrap = np.mean(did_bootstrap)
did_std_bootstrap = np.std(did_bootstrap)

# Calcular o intervalo de confiança de 95% usando percentis
ci_lower_did_bootstrap = np.percentile(did_bootstrap, 2.5)
ci_upper_did_bootstrap = np.percentile(did_bootstrap, 97.5)

# Calcular os z-scores e p-valores
t_score_did_bootstrap = did_mean_bootstrap / did_std_bootstrap
p_value_did_bootstrap = 2 * (1 - t.cdf(abs(t_score_did_bootstrap), df=len(did_bootstrap)-1))

# Exibir os resultados
print("Outcome Regression DiD (ATT):", did_mean_bootstrap)
print("Erro padrão (bootstrap):", did_std_bootstrap)
print("Intervalo de confiança 95% (bootstrap): [{}, {}]".format(ci_lower_did_bootstrap, ci_upper_did_bootstrap))
print("t-score (bootstrap):", t_score_did_bootstrap)
print("p-valor (bootstrap):", p_value_did_bootstrap)

Outcome Regression DiD (ATT): 2.6778951284167314
Erro padrão (bootstrap): 1.4614826978902211
Intervalo de confiança 95% (bootstrap): [-0.12008934059629131, 5.615338825397242]
t-score (bootstrap): 1.8323139454764046
p-valor (bootstrap): 0.06691209100604145


####  IPW Difference in Difference Approach - Abadie (2005) 

A abordagem proposta por Abadie (2005) é um estimador de diferenças em diferenças Semiparametrico. A abordagem de Abadie (2005) utiliza técnicas de *matching* para criar grupos de comparação potencialmente mais adequados, onde unidades de tratamento e controle são pareadas com base em características observáveis. Isso ajuda a reduzir o viés de seleção por características observáveis e aumenta a validade causal da estimativa.


$$ \delta^{IPW} = \frac{1}{E_{N}[D]}E\left [\frac{D-\hat{p}(X)}{1-\hat{p}(X)}(Y_{1}-Y_{0})\right ]  $$


Onde $\hat{p}(X)$  é um estimador para o verdadeiro escore de propensão (probabilidade do indivíduo ser tratado baseado nas características observáveis). O qual reduz a dimensão de X em um escalar.

* $E_{N}[D]$ é a proporção média de unidades que receberam o tratamento na amostra
* $Y_{1}$ e $Y_{0}$ são as médias das variáveis de resultado dos tratados e não tratados **no período de tratamento**

Pode ser reescrito como:

$$ \delta^{IPW-DD} = \frac{1}{E_{N}[D]} E\left [(\bar{Y}_{1,2} - \bar{Y}_{1,1}) - \frac{(1-D)\hat{p}(X)}{1-\hat{p}(X)}(\bar{Y}_{0,2} - \bar{Y}_{0,1}) \right ]  $$

A ideia da ponderação é atribuir mais peso para as observações nos grupos de controle que "parecem" mais com as unidades tratadas.


In [13]:
# Propensity Score Weighting
D = df['Treated']
X = df[['bk', 'kfc', 'roys']]
X = sm.add_constant(X)

reg_logit = sm.Logit(D, X).fit()
df['peso_logit'] = reg_logit.predict()

print(reg_logit.summary())


Optimization terminated successfully.
         Current function value: 0.489622
         Iterations 6
                           Logit Regression Results                           
Dep. Variable:                Treated   No. Observations:                  782
Model:                          Logit   Df Residuals:                      778
Method:                           MLE   Df Model:                            3
Date:                Sat, 17 Aug 2024   Pseudo R-squ.:                0.005849
Time:                        17:17:32   Log-Likelihood:                -382.88
converged:                       True   LL-Null:                       -385.14
Covariance Type:            nonrobust   LLR p-value:                    0.2118
                 coef    std err          z      P>|z|      [0.025      0.975]
------------------------------------------------------------------------------
const          1.1239      0.226      4.979      0.000       0.681       1.566
bk             0.2095      0.

In [14]:
# Criar a medida de média dos tratados 'ED'
df['ED'] = df['Treated'].mean()
ED = df['ED'].mean()

# Criando os pesos e adicionando ao DataFrame
df['W_ATT'] = (df['peso_logit'] / (1 - df['peso_logit']))/ED
df.loc[df['Treated'] == 1, 'W_ATT'] = 1/ED

In [15]:
# Aplicando regressão ponderada
Y1 = df[['y']]
X1 = df[['Treated', 't', 'Effect']]
X1 = sm.add_constant(X1)

dd_ipw = sm.WLS(Y1, X1, weights=df['W_ATT']).fit()

# Imprimindo o resumo
print(dd_ipw.summary())

                            WLS Regression Results                            
Dep. Variable:                      y   R-squared:                       0.008
Model:                            WLS   Adj. R-squared:                  0.004
Method:                 Least Squares   F-statistic:                     2.143
Date:                Sat, 17 Aug 2024   Prob (F-statistic):             0.0934
Time:                        17:17:37   Log-Likelihood:                -2942.2
No. Observations:                 782   AIC:                             5892.
Df Residuals:                     778   BIC:                             5911.
Df Model:                           3                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const         18.9768      0.674     28.135      0.0

O resultado para o DD-IPW foi de $2.6757$. O mesmo econtrado anteriormente pelo OR-DD.

### Doubly Robust DD (DRDID)

O modelo Doubly Robust Difference in Differences (DRDID) de Sant'Anna e Zhao (2020) é uma extensão do método de diferenças em diferenças (DD). Ele usa **uma abordagem duplamente robusta**, que combina os dois modelos vistos anteriormente: um modelo de Outcome Regression e um modelo de probabilidade de receber o tratamento.

O modelo DRDID combina esses dois modelos para produzir estimativas do efeito causal que são consistentes mesmo que um dos modelos seja mal especificado. Essa abordagem pode melhorar a precisão da estimativa do efeito causal em comparação com o método DID padrão, especialmente quando há variáveis de controle que afetam tanto a probabilidade de tratamento quanto o resultado de interesse.

$$  \beta^{DRDID}= E\left[ \left ( \frac{D}{E[D]} - \frac{\frac{p(X)(1-D)}{(1-p(X))}}{E[\frac{p(X)(1-D)}{(1-p(X))}]} \right ) (\Delta Y - \mu_{0,\Delta (X)} )   \right ]  $$

Podemos reescrever a equação acima como:

$$ \beta^{DRDID}= E\left[ \frac{D}{E[D]}(\bar{Y}_{1,2} - \bar{Y}_{1,1}) - \frac{\frac{p(X)(1-D)}{(1-p(X))}}{E[\frac{p(X)(1-D)}{(1-p(X))}]} (\mu_{1}(X^{T}) - \mu_{0}(X^{T})) \right ]  $$


Observe como o modelo controla para $X$ você está ponderando o ajuste resultados usando o escore de propensão. A razão pela qual você controla $X$ duas vezes é porque você não sabe qual modelo está certo. DRDiD libera você de fazer uma escolha sem fazer você pagar muito por isso.


In [17]:
import pandas as pd
from sklearn.linear_model import LinearRegression, LogisticRegression

def DD_DR(df, X_cols, T_col, Y_col, Time_col, pre_time, post_time):
    # Separar dados por grupo e período
    df_pre = df[df[Time_col] == pre_time]
    df_post = df[df[Time_col] == post_time]

    X_pre_treated = df_pre[df_pre[T_col] == 1][X_cols]
    Y_pre_treated = df_pre[df_pre[T_col] == 1][Y_col]
    X_post_treated = df_post[df_post[T_col] == 1][X_cols]
    Y_post_treated = df_post[df_post[T_col] == 1][Y_col]

    X_pre_control = df_pre[df_pre[T_col] == 0][X_cols]
    Y_pre_control = df_pre[df_pre[T_col] == 0][Y_col]
    X_post_control = df_post[df_post[T_col] == 0][X_cols]
    Y_post_control = df_post[df_post[T_col] == 0][Y_col]
    
    # Ajustar modelos de regressão linear para os períodos pré e pós
    model_pre_control = LinearRegression().fit(X_pre_control, Y_pre_control)
    model_post_control = LinearRegression().fit(X_post_control, Y_post_control)

    # Previsões para o grupo controle nos períodos pré e pós
    mu0_X_pre = model_pre_control.predict(X_pre_treated)
    mu0_X_post = model_post_control.predict(X_post_treated)
    
    X_pre = df_pre[X_cols]
    Y_pre = df_pre[Y_col]
    T_pre = df_pre[T_col]
        
    # Estimativa da probabilidade de tratamento p(X) no período pré
    model_logistic = LogisticRegression(solver='liblinear').fit(X_pre, T_pre)
    p_X_pre = model_logistic.predict_proba(X_pre)[:, 1]
    
    # Criar os pesos para o período pré
    weight_treated_pre = T_pre / T_pre.mean()
    weight_control_pre = ((1 - p_X_pre) / p_X_pre) / ((1 - p_X_pre) / p_X_pre).mean()
    
    # Calcular a Diferença em Diferenças com os pesos
    term_treated = (Y_post_treated.mean() - Y_pre_treated.mean()) * weight_treated_pre.mean()
    term_control = (mu0_X_post.mean() - mu0_X_pre.mean()) * weight_control_pre.mean()

    DR_DiD = term_treated - term_control 

    return DR_DiD

# Exemplo de uso
T_col = 'Treated'
Y_col = 'y'
X_cols = ['bk', 'kfc', 'roys']
Time_col = 't'
pre_time = 0
post_time = 1


result_DD_DR = DD_DR(df, X_cols, T_col, Y_col, Time_col, pre_time, post_time)
print("Duplamente Robusto DiD (ATT):", result_DD_DR)


Duplamente Robusto DiD (ATT): 2.6757034544143536


In [11]:
import numpy as np
from sklearn.linear_model import LinearRegression, LogisticRegression
from scipy import stats

def DD_DR_with_SE(df, X_cols, T_col, Y_col, Time_col, pre_time, post_time):
    # Separar dados por grupo e período
    df_pre = df[df[Time_col] == pre_time]
    df_post = df[df[Time_col] == post_time]

    X_pre_treated = df_pre[df_pre[T_col] == 1][X_cols]
    Y_pre_treated = df_pre[df_pre[T_col] == 1][Y_col]
    X_post_treated = df_post[df_post[T_col] == 1][X_cols]
    Y_post_treated = df_post[df_post[T_col] == 1][Y_col]

    X_pre_control = df_pre[df_pre[T_col] == 0][X_cols]
    Y_pre_control = df_pre[df_pre[T_col] == 0][Y_col]
    X_post_control = df_post[df_post[T_col] == 0][X_cols]
    Y_post_control = df_post[df_post[T_col] == 0][Y_col]
    
    # Ajustar modelos de regressão linear para os períodos pré e pós
    model_pre_control = LinearRegression().fit(X_pre_control, Y_pre_control)
    model_post_control = LinearRegression().fit(X_post_control, Y_post_control)

    # Previsões para o grupo controle nos períodos pré e pós
    mu0_X_pre = model_pre_control.predict(X_pre_treated)
    mu0_X_post = model_post_control.predict(X_post_treated)
    
    X_pre = df_pre[X_cols]
    Y_pre = df_pre[Y_col]
    T_pre = df_pre[T_col]
        
    # Estimativa da probabilidade de tratamento p(X) no período pré
    model_logistic = LogisticRegression(solver='liblinear').fit(X_pre, T_pre)
    p_X_pre = model_logistic.predict_proba(X_pre)[:, 1]
    
    # Criar os pesos para o período pré
    weight_treated_pre = T_pre / T_pre.mean()
    weight_control_pre = ((1 - p_X_pre) / p_X_pre) / ((1 - p_X_pre) / p_X_pre).mean()
    
    # Calcular a Diferença em Diferenças com os pesos
    term_treated = (Y_post_treated.mean() - Y_pre_treated.mean()) * weight_treated_pre.mean()
    term_control = (mu0_X_post.mean() - mu0_X_pre.mean()) * weight_control_pre.mean()

    DR_DiD = term_treated - term_control 
    
    # Calcular resíduos
    res_pre_control = Y_pre_control - model_pre_control.predict(X_pre_control)
    res_post_control = Y_post_control - model_post_control.predict(X_post_control)

    # Variância dos resíduos
    var_res_pre_control = np.var(res_pre_control, ddof=1)
    var_res_post_control = np.var(res_post_control, ddof=1)
    
    # Resíduos da regressão logística
    res_logistic = T_pre - model_logistic.predict_proba(X_pre)[:, 1]
    var_res_logistic = np.var(res_logistic, ddof=1)

    # Tamanhos das amostras
    n_pre_treated = len(Y_pre_treated)
    n_post_treated = len(Y_post_treated)
    n_pre_control = len(Y_pre_control)
    n_post_control = len(Y_post_control)

    # Calcular erro padrão
    SE_DR_DiD = np.sqrt((var_res_post_control / n_post_treated) +
                        (var_res_pre_control / n_pre_treated) +
                        (var_res_post_control / n_post_control) +
                        (var_res_pre_control / n_pre_control) +
                        (var_res_logistic / len(X_pre)))

    # Calcular t-score
    t_score = DR_DiD / SE_DR_DiD

    # Calcular p-value (bilateral)
    p_value = 2 * (1 - stats.t.cdf(np.abs(t_score), df=n_pre_treated + n_post_treated + n_pre_control + n_post_control - 4))

    # Calcular intervalo de confiança de 95%
    confidence_interval = (
        DR_DiD - 1.96 * SE_DR_DiD,
        DR_DiD + 1.96 * SE_DR_DiD
    )

    return DR_DiD, SE_DR_DiD, t_score, p_value, confidence_interval

# Exemplo de uso
result_DD_DR, SE_DD_DR, t_score, p_value, confidence_interval = DD_DR_with_SE(df, X_cols, T_col, Y_col, Time_col, pre_time, post_time)
print("Duplamente Robusto DiD (ATT):", result_DD_DR)
print("Erro Padrão Analítico:", SE_DD_DR)
print("t-score:", t_score)
print("p-value:", p_value)
print("Intervalo de Confiança 95%:", confidence_interval)


Duplamente Robusto DiD (ATT): 2.6757034544143536
Erro Padrão Analítico: 1.4988259975281915
t-score: 1.7851995220439365
p-value: 0.07461844182875366
Intervalo de Confiança 95%: (-0.2619955007409014, 5.613402409569609)


In [18]:
def DD_DR_full(df, X_cols, T_col, Y_col, Time_col, pre_time, post_time):
    # Verificar se os dados são 2x2
    time_values = df[Time_col].unique()
    treat_values = df[T_col].unique()
    if len(time_values) != 2 or len(treat_values) != 2:
        raise ValueError("Os dados não são 2x2.")

    # Separar dados por grupo e período
    df_pre = df[df[Time_col] == pre_time]
    df_post = df[df[Time_col] == post_time]

    # Ajustar modelos de regressão linear para os períodos pré e pós
    model_pre_control = LinearRegression().fit(df_pre[df_pre[T_col] == 0][X_cols], df_pre[df_pre[T_col] == 0][Y_col])
    model_post_control = LinearRegression().fit(df_post[df_post[T_col] == 0][X_cols], df_post[df_post[T_col] == 0][Y_col])

    # Previsões para o grupo controle nos períodos pré e pós
    mu0_X_pre = model_pre_control.predict(df_pre[df_pre[T_col] == 1][X_cols])
    mu0_X_post = model_post_control.predict(df_post[df_post[T_col] == 1][X_cols])

    # Estimativa da probabilidade de tratamento p(X) no período pré
    model_logistic = LogisticRegression(solver='liblinear').fit(df_pre[X_cols], df_pre[T_col])
    p_X_pre = model_logistic.predict_proba(df_pre[X_cols])[:, 1]

    # Criar os pesos para o período pré
    weight_treated_pre = df_pre[T_col] / df_pre[T_col].mean()
    weight_control_pre = ((1 - p_X_pre) / p_X_pre) / ((1 - p_X_pre) / p_X_pre).mean()

    # Calcular a Diferença em Diferenças com os pesos
    term_treated = (df_post[df_post[T_col] == 1][Y_col].mean() - df_pre[df_pre[T_col] == 1][Y_col].mean()) * weight_treated_pre.mean()
    term_control = (mu0_X_post.mean() - mu0_X_pre.mean()) * weight_control_pre.mean()

    DR_DiD = term_treated - term_control

    # Debugging prints
    print(f"Mean Y post-treated: {df_post[df_post[T_col] == 1][Y_col].mean()}")
    print(f"Mean Y pre-treated: {df_pre[df_pre[T_col] == 1][Y_col].mean()}")
    print(f"Term treated: {term_treated}")
    print(f"Mu0_X post mean: {mu0_X_post.mean()}")
    print(f"Mu0_X pre mean: {mu0_X_pre.mean()}")
    print(f"Term control: {term_control}")

    return DR_DiD

# Usar a função DD_DR_full com os dados simulados
result_DD_DR_full = DD_DR_full(df, ['bk', 'kfc', 'roys'], 'Treated', 'y', 't', 0, 1)
result_DD_DR_full


Mean Y post-treated: 17.49920654296875
Mean Y pre-treated: 17.046825408935547
Term treated: 0.45238113403320307
Mu0_X post mean: 16.753446934329286
Mu0_X pre mean: 18.976769254710437
Term control: -2.2233223203811505


2.6757034544143536

In [19]:
import numpy as np
import pandas as pd
from sklearn.linear_model import LinearRegression
from joblib import Parallel, delayed
from scipy.stats import t

# Função para calcular o bootstrap
def bootstrap_OR_DD(df, X_cols, T_col, Y_col, Time_col, pre_time, post_time, n_iterations):
    np.random.seed(88)
    
    def calculate_did(sample_df):
        return OR_DD(sample_df, X_cols, T_col, Y_col, Time_col, pre_time, post_time)
    
    results = Parallel(n_jobs=-1)(delayed(calculate_did)(df.sample(frac=1, replace=True)) for _ in range(n_iterations))
    
    return np.array(results)

# Definir o número de amostras do bootstrap
bootstrap_samples = 30000

# Executar o bootstrap para calcular as estimativas do DiD
did_bootstrap = bootstrap_OR_DD(df, X_cols, T_col, Y_col, Time_col, pre_time, post_time, bootstrap_samples)

# Calcular a média e o erro padrão das estimativas do DiD
did_mean_bootstrap = np.mean(did_bootstrap)
did_std_bootstrap = np.std(did_bootstrap)

# Calcular o intervalo de confiança de 95% usando percentis
ci_lower_did_bootstrap = np.percentile(did_bootstrap, 2.5)
ci_upper_did_bootstrap = np.percentile(did_bootstrap, 97.5)

# Calcular os z-scores e p-valores
t_score_did_bootstrap = did_mean_bootstrap / did_std_bootstrap
p_value_did_bootstrap = 2 * (1 - t.cdf(abs(t_score_did_bootstrap), df=len(did_bootstrap)-1))

# Exibir os resultados
print("DR-DD (ATT):", did_mean_bootstrap)
print("Erro padrão (bootstrap):", did_std_bootstrap)
print("Intervalo de confiança 95% (bootstrap): [{}, {}]".format(ci_lower_did_bootstrap, ci_upper_did_bootstrap))
print("t-score (bootstrap):", t_score_did_bootstrap)
print("p-valor (bootstrap):", p_value_did_bootstrap)


DR-DD (ATT): 2.676879822808422
Erro padrão (bootstrap): 1.4567429810267496
Intervalo de confiança 95% (bootstrap): [-0.12290625791701908, 5.604854882842082]
t-score (bootstrap): 1.837578665333049
p-valor (bootstrap): 0.06613439883965477


In [20]:
from scipy.stats import t

# Calcular o erro padrão
standard_error = np.std(did_bootstrap, ddof=1)  # Dividido por ddof para corrigir o viés

# Calcular o grau de liberdade
degrees_of_freedom = len(did_bootstrap) - 1

# Calcular o intervalo de confiança de 95% usando a distribuição t de Student
t_score = t.ppf(0.975, df=degrees_of_freedom)  # Obtém o valor crítico para 95% de confiança
margin_of_error = t_score * standard_error

# Calcular o intervalo de confiança
ci_lower = did_mean_bootstrap - margin_of_error
ci_upper = did_mean_bootstrap + margin_of_error

# Calcular o p-valor
t_statistic = did_mean_bootstrap / standard_error
p_value = 2 * (1 - t.cdf(abs(t_statistic), df=degrees_of_freedom))

# Exibir os resultados
print("Erro padrão (t-Student):", standard_error)
print("Graus de liberdade:", degrees_of_freedom)
print("Intervalo de confiança 95% (t-Student): [{}, {}]".format(ci_lower, ci_upper))
print("t-estatística (t-Student):", t_statistic)
print("p-valor (t-Student):", p_value)


Erro padrão (t-Student): 1.4567672606834263
Graus de liberdade: 29999
Intervalo de confiança 95% (t-Student): [-0.17844674529920646, 5.53220639091605]
t-estatística (t-Student): 1.837548038766737
p-valor (t-Student): 0.06613891556533358


### Aplicação com o pacote CSDID

Intalar o pacote no python: `pip install csdid`



In [68]:
from csdid.att_gt import ATTgt
import pandas as pd
# DataFrame
df = pd.read_stata("http://fmwww.bc.edu/repec/bocode/c/CardKrueger1994.dta")
# Há problemas na base que precisam ser ajustados
df.loc[(df['id'] == 407) & (df['kfc'] == 1), 'id'] = 408
# Crie a variável 'tratado' com valor inicial de 0
df['Treated'] = 0
# Recodifique 'tratado' para 1 se 'treated' for igual a 1
df.loc[df['treated'] == 'NJ', 'Treated'] = 1
# Crie a variável 'effect' como o produto entre 'tratado' e 't'
df['Effect'] = df['Treated'] * df['t']
# Remover lojas sem informação em ambos os anos
df['cont'] = df['fte'].notna().groupby(df['id']).cumsum()
df['media'] = df.groupby('id')['cont'].transform('mean')
df = df[df['media'] == 1.5]
df['y'] = df['fte']

df['pre'] = 0
df.loc[df['t'] == 0, 'pre'] = 1
df['pos'] = 0
df.loc[df['t'] == 1, 'pos'] = 1

In [69]:
out = ATTgt(yname = "y",
              gname = "Treated",
              idname = "id",
              tname = "pos",
              xformla = f"bk + kfc + roys",
              data = df,
              ).fit(est_method = 'dr')

In [70]:
out.summ_attgt().summary2

Unnamed: 0,Group,Time,"ATT(g, t)",Post,Std. Error,[95% Pointwise,Conf. Band],Unnamed: 8
0,1,1,2.9425,1,2.823,-2.1573,8.0424,


In [71]:
out2 = ATTgt(yname = "y",
              gname = "Treated",
              idname = "id",
              tname = "t",
              xformla = "bk + kfc + roys",
              data = df,
              ).fit(est_method = 'or')

In [72]:
out2.summ_attgt().summary2

Unnamed: 0,Group,Time,"ATT(g, t)",Post,Std. Error,[95% Pointwise,Conf. Band],Unnamed: 8
0,1,1,2.9425,1,2.7442,-2.1765,8.0615,


In [73]:
out3 = ATTgt(yname = "y",
              gname = "Treated",
              idname = "id",
              tname = "t",
              xformla = "bk + kfc + roys",
              data = df,
              ).fit(est_method = 'ipw')
out3.summ_attgt().summary2

Unnamed: 0,Group,Time,"ATT(g, t)",Post,Std. Error,[95% Pointwise,Conf. Band],Unnamed: 8
0,1,1,2.9425,1,2.8326,-2.1787,8.0638,


In [74]:
from differences import ATTgt

# Definir os indices (estrutura de painel)
df.set_index(['id', 't'], inplace=True)

In [76]:
help(ATTgt)

Help on class ATTgt in module differences.attgt.attgt:

class ATTgt(builtins.object)
 |  ATTgt(data: 'DataFrame', cohort_name: 'str', strata_name: 'str' = None, base_period: 'str' = 'varying', anticipation: 'int' = 0, freq: 'str' = None)
 |  
 |  Group-Time ATT
 |  
 |  Difference in differences estimation and inference fot the following use cases
 |  
 |  - balanced panels, unbalanced panels or repeated cross-section
 |  - two or multiple periods
 |  - fixed or staggered treatment timing
 |  - binary or multi-valued treatment
 |  - heterogeneous treatment effects
 |  
 |  Group
 |  -----
 |      did
 |  
 |  Parameters
 |  ----------
 |  data: DataFrame
 |      pandas DataFrame
 |  
 |      .. code-block:: python
 |  
 |          df = df.set_index(['entity', 'time'])
 |  
 |      where *df* is the dataframe to use, *'entity'* should be replaced with the
 |      name of the entity column and *'time'* should be replaced with
 |      the name of the time column.
 |  
 |  cohort_name: str

In [67]:
from differences import ATTgt

# Definir os indices (estrutura de painel)
df.set_index(['id', 't'], inplace=True)

att_gt = ATTgt(data=df, cohort_name="Effect")

  warn(
  warn(


### Aplicação do DRDID de Sant'Anna e Zhao (2020) no R

É possível utilizar também o Sant’Anna and Zhao (2020) doubly robust DiD estimator based on stabilized inverse probability weighting and ordinary least squares [dripw].

Para isso precisamos recalcular o peso e utilizar as métricas estabilizadoras.

#### Podemos utilizar o pacote do R e calcular diretamente o DRDID

Lembre-se de alterar o kernell de Python para R.



In [1]:
# install.packages("remotes")
remotes::install_github("pedrohcgs/DRDID")

Using GitHub PAT from the git credential store.

Skipping install of 'DRDID' from a github remote, the SHA1 (8a1c09f9) has not changed since last install.
  Use `force = TRUE` to force installation



In [1]:
library(DRDID)
data <- read.csv("https://github.com/Daniel-Uhr/data/raw/main/card_krueger.csv")

: 

In [8]:
# Implement improved locally efficient DR DID:

out <- drdid(yname = "y", tname = "t", idname = "id", dname = "Treated", 
             xformla= ~ bk + kfc + roys,
             data = data, panel = TRUE)
summary(out)

 Call:
drdid(yname = "y", tname = "t", idname = "id", dname = "Treated", 
    xformla = ~bk + kfc + roys, data = data, panel = TRUE)
------------------------------------------------------------------
 Further improved locally efficient DR DID estimator for the ATT:
 
   ATT     Std. Error  t value    Pr(>|t|)  [95% Conf. Interval] 
  2.6757     1.2188     2.1953     0.0281     0.2868     5.0646  
------------------------------------------------------------------
 Estimator based on panel data.
 Outcome regression est. method: weighted least squares.
 Propensity score est. method: inverse prob. tilting.
 Analytical standard error.
------------------------------------------------------------------
 See Sant'Anna and Zhao (2020) for details.

In [1]:
import pandas as pd
from pyDRDID import pydrdid

# Carregar os dados
data = pd.read_csv("https://github.com/Daniel-Uhr/data/raw/main/card_krueger.csv")

# Testar a função pydrdid sem covariáveis
result = pydrdid(yname="y", tname="t", idname="id", dname="Treated", xformla= '~ bk + kfc + roys', data=data, panel=True)

result.summary()


D.shape: (782,), deltaY.shape: (391,), int_cov.shape: (782, 4), i_weights.shape: (782,)


IndexError: boolean index did not match indexed array along dimension 0; dimension is 391 but corresponding boolean dimension is 782

In [2]:
import pandas as pd
from pyDRDID import pydrdid

# Carregar os dados
data = pd.read_csv("https://github.com/Daniel-Uhr/data/raw/main/card_krueger.csv")

# Testar a função pydrdid sem covariáveis
result = pydrdid(yname="y", tname="t", idname="id", dname="Treated", data=data, panel=True)

result.summary()

D.shape: (782,), deltaY.shape: (391,), int_cov.shape: (782, 1), i_weights.shape: (782,)


IndexError: boolean index did not match indexed array along dimension 0; dimension is 391 but corresponding boolean dimension is 782

In [1]:
library(DRDID)
data <- read.csv("https://github.com/Daniel-Uhr/data/raw/main/card_krueger.csv")

out2 <- ordid(yname="y", tname = "t", idname = "id", dname = "Treated", xformla= ~ bk + kfc + roys, data = data, panel = TRUE)
summary(out2)



 Call:
ordid(yname = "y", tname = "t", idname = "id", dname = "Treated", 
    xformla = ~bk + kfc + roys, data = data, panel = TRUE)
------------------------------------------------------------------
 Outcome-Regression DID estimator for the ATT:
 
   ATT     Std. Error  t value    Pr(>|t|)  [95% Conf. Interval] 
  2.6757     1.2188     2.1953     0.0281     0.2868     5.0646  
------------------------------------------------------------------
 Estimator based on panel data.
 Outcome regression est. method: OLS.
 Analytical standard error.
------------------------------------------------------------------
 See Sant'Anna and Zhao (2020) for details.

In [3]:
library(DRDID)
# Implement improved DR locally efficient DiD with panel data 
drdid(yname="re", tname = "year", idname = "id", dname = "experimental", xformla= ~ age+ educ+ black+ married+ nodegree+ hisp+ re74, data = nsw_long, panel = TRUE) 


 Call:
drdid(yname = "re", tname = "year", idname = "id", dname = "experimental", 
    xformla = ~age + educ + black + married + nodegree + hisp + 
        re74, data = nsw_long, panel = TRUE)
------------------------------------------------------------------
 Further improved locally efficient DR DID estimator for the ATT:
 
   ATT     Std. Error  t value    Pr(>|t|)  [95% Conf. Interval] 
-428.4786   343.0759   -1.2489     0.2117   -1100.9073  243.9501 
------------------------------------------------------------------
 Estimator based on panel data.
 Outcome regression est. method: weighted least squares.
 Propensity score est. method: inverse prob. tilting.
 Analytical standard error.
------------------------------------------------------------------
 See Sant'Anna and Zhao (2020) for details.

In [4]:
#Implement "traditional" DR locally efficient DiD with panel data 
drdid(yname="re", tname = "year", idname = "id", dname = "experimental", xformla= ~ age+ educ+ black+ married+ nodegree+ hisp+ re74, data = nsw_long, panel = TRUE, estMethod = "trad")

 Call:
drdid(yname = "re", tname = "year", idname = "id", dname = "experimental", 
    xformla = ~age + educ + black + married + nodegree + hisp + 
        re74, data = nsw_long, panel = TRUE, estMethod = "trad")
------------------------------------------------------------------
 Locally efficient DR DID estimator for the ATT:
 
   ATT     Std. Error  t value    Pr(>|t|)  [95% Conf. Interval] 
-405.8749   345.4175    -1.175      0.24    -1082.8932  271.1433 
------------------------------------------------------------------
 Estimator based on panel data.
 Outcome regression est. method: OLS.
 Propensity score est. method: maximum likelihood.
 Analytical standard error.
------------------------------------------------------------------
 See Sant'Anna and Zhao (2020) for details.

In [1]:
import pandas as pd
from pyDRDID import pydrdid  

# Carregar os dados do CSV
data = pd.read_csv("https://github.com/Daniel-Uhr/data/raw/main/nsw_long.csv")

# Executar o estimador DRDID
result = pydrdid(
    yname="re",         # Nome da variável de resultado
    tname="year",       # Nome da variável de tempo (antes/depois do tratamento)
    idname="id",        # Nome da variável de identificação do indivíduo
    dname="experimental", # Nome da variável de tratamento
    xformla="~ age + educ + black + married + nodegree + hisp + re74", # Fórmula das covariáveis
    data=data,          # Dados carregados
    panel=True          # Indicador de que são dados de painel
)

# Exibir os resultados
result.summary()

IndexError: boolean index did not match indexed array along dimension 0; dimension is 0 but corresponding boolean dimension is 38408

In [2]:
import pandas as pd
from pyDRDID.pyordid import pyordid

# Carregar os dados
data = pd.read_csv("https://github.com/Daniel-Uhr/data/raw/main/card_krueger.csv")

# Executar o estimador ORDID
result = pyordid(
    yname="y",
    tname="t",
    idname="id",
    dname="Treated",
    xformla="~ bk + kfc + roys",
    data=data,
    panel=True
)

# Exibir os resultados
result.summary()



ModuleNotFoundError: No module named 'pyDRDID.pyordid'