# Difference-in-Differences with Covariates
Prof. Daniel de Abreu Pereira Uhr


## Conteúdo

* Difference-in-Differences com Covariáveis.
* Difference in Difference Outcome Regression (Regression Adjustment) - Heckman et al (1997).
* IPW Difference in Difference Approach - Abadie (2005)
* Doubly Robust Difference in Difference - Sant'Anna e Zhao (2020)

## Referências

**Principais**

* Heckman, J., Ichimura, Smith, J. and Todd, P. 1998. Characterizing Selection Bias Using Experimental Data. Econometrica 66(5): 1017--1098 
* James J. Heckman, Hidehiko Ichimura, Petra E. Todd, 1997. The Review of Economic Studies, Volume 64, Issue 4, October 1997, Pages 605–654, https://doi.org/10.2307/2971733 
* Abadie, A. 2005. Semiparametric Difference-in-Differences Estimators. Review of Economic Studies 72: 1--19 
* Sant'Anna e Zhao (2020) Doubly robust difference-in-differences estimators. Journal of Econometrics, Volume 219, Issue 1, November 2020.  https://doi.org/10.1016/j.jeconom.2020.06.003 

**Complementares**

* Heckman, Ichimura e Todd (1998) - Matching as an Econometric Evaluation Estimator: Evidence from Evaluating a Job Training Programme
* Hirano, K., Imbens, G.W. and Ridder, G. 2003.  Efficient Estimation of Average Treatment Effects Using the Estimated Propensity Score. Econometrica 71(4): 1161--1189





**Observações:** O material apresentado aqui é uma adaptação do material de aula do Prof. Daniel de Abreu Pereira Uhr, e não deve ser utilizado para fins comerciais. O material é disponibilizado para fins educacionais e de pesquisa, e não deve ser reproduzido sem a devida autorização do autor. Este material pode conter erros e imprecisões. O autor não se responsabiliza por quaisquer danos ou prejuízos decorrentes do uso deste material. O uso deste material é de responsabilidade exclusiva do usuário. Caso você encontre erros ou imprecisões neste material, por favor, entre em contato com o autor para que possam ser corrigidos. O autor agradece qualquer *feedback* ou sugestão de melhoria.

---

### Difference-in-Differences com Covariáveis

Vimos que o DD apresenta as seguintes hipóteses de identificação:

* **Parallel Trends**: As tendências dos grupos tratado e controle são paralelas antes do tratamento.
* **No anticipation**: O tratamento não pode ser antecipado.
* **Distribuição dos dados**: Seja $W_{i}=(Y_{i,2}, Y_{i,1}, D_{i})´$ o vetor das variáveis de resultados e do status do tratamento para a unidade $i$. Nós observamos uma amostra de N *i.i.d.* com $W_{i}$~$F$ para alguma distribuição F (desconhecida) satisfazendo as tendências paralelas. Em outras palavras, os dados observados são amostrados de uma população maior de forma independente e identicamente distribuída, onde cada observação segue a mesma distribuição.

E nosso interesse é identificar o **Average Treatment Effect on the Treated** (ATT), para o caso 2x2:

$$ \delta_{ATT}= E[Y_{i,2}(1)-Y_{i,2}(0)|D_{i}=1] $$

Sob as hipóteses de identificação, o estimador de DD 2x2 é dado por:

$$ \hat{\delta}_{ATT}^{2x2} = (\overline{Y}_{i,t=2}(1) - \overline{Y}_{i,t=1}(1)) - (\overline{Y}_{i,t=2}(0) - \overline{Y}_{i,t=1}(0)) $$

Vamos representar em termos de esperanças condicionais (assumindo uma amostragem de uma população grande):

$$ \hat{\delta}_{ATT}^{2x2} = (E[Y_{i,t=2}(1)|D_{i}=1] - E[Y_{i,t=1}(1)|D_{i}=1]) - (E[Y_{i,t=2}(0)|D_{i}=0] - E[Y_{i,t=1}(0)|D_{i}=0]) $$


**Motivação para adicionar covariáveis**

Para muitos pesquisadores, a hipótese de **Parallel Trends** não é plausível em muitos casos, mas poderia ser ao condicionarmos em algumas covariáveis. Por exemplo, se a variável de resultado de interesse são os salários, o grupo de tratamento e controle diferem em níveis de escolaridade, e as tendências para os níveis de educação que afetam os salários diferem entre os trabalhadores. Então, o condicionamento na covariável parece ser plausível.

Nesse contexto as hipóteses de identificação são alteradas e ampliadas:

* 1: Conditional Parallel Trends (porque condicionamos nas covariáveis)
* 2: No anticipation
* 3: Distribuição dos dados (Segue conforme anteriormente, considerando a estrutura de Panel-Data, ou repeated Cross-secion data, satisfazendo as tendências paralelas condicionais)
* 4: Common Suport (Overlap) Ao menos uma fração da população que é tratada e para cada valor de X há ao menos uma chance de uma unidade ser não tratada.
* 5: Efeito Homogêneo do Tratameto em X
* 6: Não há tendências específicas em X em ambos os grupos tratado e controle

Observação: Convem salientar que **a suposição de tendência paralela condicional não é nem mais forte nem mais fraca do que a tendência paralela incondicional.** A tendência paralela condicional não implica tendência paralela incondicional e a tendência paralela incondicional não implica tendência paralela condicional;

Considerando $X_{i}$ um vetor de covariáveis que **Não varia no tempo**:

$$ \hat{\delta}_{ATT}^{2x2} = (E[Y_{i,t=2}|D_{i}=1, X_{i}] - E[Y_{i,t=1}|D_{i}=1, X_{i}]) - (E[Y_{i,t=2}|D_{i}=0, X_{i}] - E[Y_{i,t=1}|D_{i}=0, X_{i}]) $$


Para identificar o efeito causal, os pesquisadores aplicados costumavam utilizar a especificação TWFE, apenas com a adição das covariáveis na regressão:

$$ Y_{i,t} = \alpha + \beta_{1} T_{t} + \beta_{2}D_{i} + \delta (T_{t}.D_{i}) + \gamma X_{i} + \epsilon_{i,t} $$

Ao adicionar as covariáveis na regressão significa que estamos **impondo uma estrutura paramétrica** para a relação entre as covariáveis e o resultado (é uma hipótese de estrutura paramétrica da relação). Essa regressão identifica o efeito causal se isso corresponde ao verdadeiro modelo que gera os resultados potenciais. O efeito do tratamento é **constante e aditivo**.

Entretanto, **mesmo condicionando nas covariáveis, o modelo não permite que diferentes grupos tenham trajetórias diferentes ao longo do tempo. Ou seja, as trajetórias são as mesmas para todos os grupos.** Mas a razão pela qual se desejava incluir covariáveis no modelo era justamente para permitir que diferentes grupos tivessem trajetórias distintas ao longo do tempo. No entanto, a restrição do modelo impede que essa variação seja capturada, o que contradiz o objetivo original de incluir as covariáveis.

Vamos tomar as expectativas condicionais do TWFE proposto (considerando os períodos 0 e 1):

* Tratados (Post e Pre):
$$E[Y_{1,1}|D_{i}=1] = \alpha + \beta_{1} + \beta_{2} + \delta + \gamma X_{11}$$
$$E[Y_{1,0}|D_{i}=1] = \alpha + \beta_{2} + \gamma X_{10}$$
* Controles (Post e Pre):
$$E[Y_{0,1}|D_{i}=0] = \alpha + \beta_{1} + \gamma X_{01}$$
$$E[Y_{0,0}|D_{i}=0] = \alpha + \gamma X_{00}$$

Tomando o DD:

$$ \hat{\delta}_{ATT}^{2x2} = ( (\alpha + \beta_{1} + \beta_{2} + \delta + \gamma X_{11}) - (\alpha + \beta_{2} + \gamma X_{10}) ) - ( (\alpha + \beta_{1} + \gamma X_{01}) - (\alpha + \gamma X_{00}) ) $$

$$ \hat{\delta}_{ATT}^{2x2} = ( \beta_{1} + \delta + \gamma X_{11} - \gamma X_{10} ) - ( \beta_{1} + \gamma X_{01} - \gamma X_{00} ) $$
$$ \hat{\delta}_{ATT}^{2x2} = \delta + ( \gamma X_{11} - \gamma X_{10} ) - ( \gamma X_{01} - \gamma X_{00} ) $$


Repare que a segunda parte da igualdade requer que as tendências de cada X do grupo tratado seja igual a tendência das variáveis X do grupo de controle. (hipóteses 5 e 6). Por isso que, normalmente o TWFE com covariáveis não irá identificar o efeito causal ($\delta$) corretamente.

Vejamos como a literatura propõe a inclusão de covariáveis no modelo de DD com menos hipóteses restritivas.

### Estimação do DD sob Hipótese de Tendências Paralelas Condicionais

Funciona se ambas as **unidades tratadas e de controle tiverem aproximadamente a mesma distribuição de covariáveis ​​(sobreposição forte)** e se o **efeito do tratamento for homogêneo**.

Em termos de estratégia de identificação, a literatura se desenvolveu apresentando as seguintes abordagens:
* Outcome Regression DD (Regression Adjustment DD - Heckman et al. 1997, 1998)
* Propensity score com DD (Abadie, 2005)
* Doubly Robust DD (Sant'Anna e Zhao, 2020)

#### Outcome Regression DD



<div style="text-align:center;">
    <img src="images\heckmanetal1998.png"  alt="Imagem" style="width: 700px;"/>
</div>


Uma forma de identificar o efeito causal através do método de Diferença em Diferenças e incorporar covariáveis se dá através do Outcome Regression. A ideia é realizar a diferença entre as médias dos resultados potenciais para o grupo tratado e controle, entretanto, **utilizar como ajuste do contrafactual a trajetória do grupo de controle com a distribuição de covariáveis do grupo tratado.**

1. **Modelo de Regressão Linear:**

   $$ Y_{i,t} = \alpha + \beta D_{i,t} + \gamma X_{i} + \epsilon_{i,t} $$

   onde $ Y $ é a variável dependente, $ D $ é a variável indicadora de tratamento (1 se o tratamento foi aplicado, 0 caso contrário), $ X $ são as covariáveis constantes observáveis, e $ \epsilon $ é o termo de erro.

2. **Expectativas Condicionais:**
   
   Definimos os resultados da expectativa condicional (para o período 1 e 2):

   $$ \mu_{0,1}(X) = E[Y | X, D=0, t=1] $$
   $$ \mu_{0,2}(X) = E[Y | X, D=0, t=2] $$
   
   Então, $\mu_{0,1}(X) $ e $ \mu_{0,2}(X) $ **representam as médias dos resultados potenciais para os não tratados dado suas características observáveis $ X $**.

3. **DD e as Expectativas Condicionais:**
   
   Retomando a equação do DD, temos:

   $$ \beta^{DD} = (E[Y|X, D=1, t=2] - E[Y|X, D=1, t=1]) - (E[Y|X, D=0, t=2] - E[Y|X, D=0, t=1]) $$

4. **Substituição das Definições:**

   A ideia dos autores é construir um contrafactual adequado, que considere a trajetória do grupo de controle com a distribuição de covariáveis do grupo tratado. Logo:

   $$ \beta^{OR-DD} = (E[Y|X, D=1, t=2] - E[Y|X, D=1, t=1]) - (\mu_{02}(X) - \mu_{01}(X) ) $$

  Considerando que queremos construir o contrafactual considerando a trajetória do grupo de controle com a distribuição de covariáveis do grupo tratado ($X^{T}$), obtemos:

   $$ \hat{\beta}_{ATT}^{OR-DD} = (E[Y|X, D=1, t=2] - E[Y|X, D=1, t=1]) - [\mu_{1}(X^{T}) - \mu_{0}(X^{T})]  $$

   Simplificando a notação, com $ \bar{Y}_{1,1} $ representando $ E[Y|X, D=1, t=1] $ e $ \bar{Y}_{1,2} $ representando $ E[Y|X, D=1, t=2] $, temos:

   $$ \hat{\beta}_{ATT}^{OR-DD} = (\bar{Y}_{1,2} - \bar{Y}_{1,1}) - [\mu_{1}(X^{T}) - \mu_{0}(X^{T})]  $$

Vamos aplicar o método de Outcome Regression DD em um exemplo prático em python. Com os dados de Card and Krueger (1994), vamos estimar o efeito do salário mínimo no emprego, só que com o OR-DD.

Começamos carregando os pacotes.

In [30]:
import numpy as np
import pandas as pd
import statsmodels.api as sm
from sklearn.linear_model import LinearRegression
import statsmodels.formula.api as smf
from differences import ATTgt

Importando os dados.

In [31]:
# DataFrame
df = pd.read_stata("http://fmwww.bc.edu/repec/bocode/c/CardKrueger1994.dta")

Lembre que os dados não estão corretos, então precisamos corrigir o erro.

In [32]:
# Há problemas na base que precisam ser ajustados
df.loc[(df['id'] == 407) & (df['kfc'] == 1), 'id'] = 408
# Crie a variável 'tratado' com valor inicial de 0
df['Treated'] = 0
# Recodifique 'tratado' para 1 se 'treated' for igual a 1
df.loc[df['treated'] == 'NJ', 'Treated'] = 1
# Crie a variável 'effect' como o produto entre 'tratado' e 't'
df['Effect'] = df['Treated'] * df['t']
# Remover lojas sem informação em ambos os anos
df['cont'] = df['fte'].notna().groupby(df['id']).cumsum()
df['media'] = df.groupby('id')['cont'].transform('mean')
df = df[df['media'] == 1.5]
df['y'] = df['fte']

df['pre'] = 0
df.loc[df['t'] == 0, 'pre'] = 1
df['pos'] = 0
df.loc[df['t'] == 1, 'pos'] = 1

In [None]:
# salvando a base em csv para usar no exemplo em R que realizaremos no final dessa aula.
# df.to_csv('card_krueger.csv', index=False)

#### DD Canônico

Vamos começar com o DD canônico, sem covariáveis, para entender o efeito do salário mínimo no emprego. Para ter um valor de referência para o efeito.

In [33]:
# regressão DD canônico sem covariáveis:
DD1 = smf.ols('y ~ Treated + t + Effect', data=df).fit()
print(DD1.summary())

                            OLS Regression Results                            
Dep. Variable:                      y   R-squared:                       0.008
Model:                            OLS   Adj. R-squared:                  0.005
Method:                 Least Squares   F-statistic:                     2.195
Date:                Wed, 20 Nov 2024   Prob (F-statistic):             0.0873
Time:                        19:58:45   Log-Likelihood:                -2831.8
No. Observations:                 782   AIC:                             5672.
Df Residuals:                     778   BIC:                             5690.
Df Model:                           3                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
Intercept     20.0132      1.040     19.238      0.0

#### DD Canônico com Covariáveis

Vamos adicionar covariáveis constantes no tempo e verificar se o efeito do salário mínimo no emprego se mantém.

In [34]:
# regressão DD canônico com covariáveis:
DD2 = smf.ols('y ~ Treated + t + Effect + bk + kfc + roys', data=df).fit()
print(DD2.summary())

                            OLS Regression Results                            
Dep. Variable:                      y   R-squared:                       0.190
Model:                            OLS   Adj. R-squared:                  0.184
Method:                 Least Squares   F-statistic:                     30.26
Date:                Wed, 20 Nov 2024   Prob (F-statistic):           1.06e-32
Time:                        19:58:47   Log-Likelihood:                -2752.8
No. Observations:                 782   AIC:                             5520.
Df Residuals:                     775   BIC:                             5552.
Df Model:                           6                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
Intercept     21.2079      1.181     17.950      0.0

Lembre que sob a hipótese de tendências paralelas condicionais, o estimador de DD apenas adicionando as covariáveis pode apresentar viés se as tendências não forem paralelas nas prórias covariáveis. 

Os resultados foram de $2.9425$ em ambos modelos.

#### Outcome Regression DD

Agora vamos realizar o OR-DD "na mão" para verificar a magnitude do efeito a ser estimado, e entender o mecânismo.

In [35]:
def OR_DD(df, X_cols, T_col, Y_col, Time_col, pre_time, post_time):
    # Separar dados por grupo e período
    df_pre = df[df[Time_col] == pre_time]
    df_post = df[df[Time_col] == post_time]

    X_pre_treated = df_pre[df_pre[T_col] == 1][X_cols]
    Y_pre_treated = df_pre[df_pre[T_col] == 1][Y_col]
    X_post_treated = df_post[df_post[T_col] == 1][X_cols]
    Y_post_treated = df_post[df_post[T_col] == 1][Y_col]

    X_pre_control = df_pre[df_pre[T_col] == 0][X_cols]
    Y_pre_control = df_pre[df_pre[T_col] == 0][Y_col]
    X_post_control = df_post[df_post[T_col] == 0][X_cols]
    Y_post_control = df_post[df_post[T_col] == 0][Y_col]

    # Ajustar modelos de regressão linear para os períodos pré e pós
    model_pre_control = LinearRegression().fit(X_pre_control, Y_pre_control)
    model_post_control = LinearRegression().fit(X_post_control, Y_post_control)

    # Previsões para o grupo controle nos períodos pré e pós
    mu0_X_pre = model_pre_control.predict(X_pre_treated)
    mu0_X_post = model_post_control.predict(X_post_treated)

    # Calcular a Diferença em Diferenças
    ORdid = (Y_post_treated.mean() - Y_pre_treated.mean()) - (mu0_X_post.mean() - mu0_X_pre.mean()) 

    return ORdid

# Exemplo de uso
T_col = 'Treated'
Y_col = 'y'
X_cols = ['bk', 'kfc', 'roys']
Time_col = 't'
pre_time = 0
post_time = 1

result_OR_DiD = OR_DD(df, X_cols, T_col, Y_col, Time_col, pre_time, post_time)
print("Outcome Regression DD (ATT):", result_OR_DiD)

Outcome Regression DD (ATT): 2.6757034544143536


Repare que o resultado é distinto do valor canônico. Fazendo manualmente, encontramos um efeito de $2.6757$.

Agora vamos aplicar o pacote `differences` do Python. Nesse pacote conseguimos estimar o OR-DD de forma mais simples.

In [36]:
# DataFrame
df = pd.read_stata("http://fmwww.bc.edu/repec/bocode/c/CardKrueger1994.dta")
# Há problemas na base que precisam ser ajustados
df.loc[(df['id'] == 407) & (df['kfc'] == 1), 'id'] = 408
# Crie a variável 'tratado' com valor inicial de 0
df['Treated'] = 0
# Recodifique 'tratado' para 1 se 'treated' for igual a 1
df.loc[df['treated'] == 'NJ', 'Treated'] = 1
# Crie a variável 'effect' como o produto entre 'tratado' e 't'
df['Effect'] = df['Treated'] * df['t']
# Remover lojas sem informação em ambos os anos
df['cont'] = df['fte'].notna().groupby(df['id']).cumsum()
df['media'] = df.groupby('id')['cont'].transform('mean')
df = df[df['media'] == 1.5]
df['Y'] = df['fte']

df['pre'] = 0
df.loc[df['t'] == 0, 'pre'] = 1
df['pos'] = 0
df.loc[df['t'] == 1, 'pos'] = 1

Para rodar o pacote precisamos definir o Grupo de tratamento, isto é, precisamos criar uma variável nova "Group" que identifica o grupo tratado e controle. Em outras palavras, o grupo de tratamento é definido como o ano (período) em que ocorreu o início do tratamento para as unidades tratadas. Como em nossa base de dados todos os tratados iniciaram o tratamento quando time é 1, então definimos Group=1 para os tratados e Group com NaN para os controles (NaN é um valor nulo).

In [37]:
df['Group'] = df['Treated']
df.loc[df['Treated'] == 0, 'Group'] = np.nan

Outro ponto importante para rodar esse pacote, temos que identificar a estrutura de painel de dados para o python.

In [38]:
# Vamos criar duas variáveis de identificação de individuos e tempo para indicar a estrutura de painel.
df['id1'] = df['id']
df['t1'] = df['t'].astype(int)

# Definir os indices (estrutura de painel)
df.set_index(['id1', 't1'], inplace=True)

In [39]:
att_gt = ATTgt(data=df, cohort_name="Group")

Ao entrar no "help(Attgt)", vemos que o pacote possui diversas opções de estimação, como o OR-DD, IPW-DD, e DR-DD.

est_method: *str*, default: ``"dr-mle"``
 |      
 |          - ``"dr-mle"`` or ``"dr"``
 |              for locally efficient doubly robust DiD estimator,
 |              with logistic propensity score model for the probability of being treated
 |      
 |          - ``"dr-ipt"``
 |              for locally efficient doubly robust DiD estimator,
 |              with propensity score estimated using the inverse probability tilting
 |      
 |          - ``"reg"``
 |              for outcome regression DiD estimator
 |      
 |          - ``"std_ipw-mle"`` or ``"std_ipw"``
 |              for standardized inverse probability weighted DiD estimator,
 |              with logistic propensity score model for the probability of being treated


 Vamos rodar o pacote para estimar o OR-DD, então precisamos definir o método de estimação como "reg".

In [40]:
att_gt.fit("Y ~ bk + kfc + roys", est_method="reg")

Computing ATTgt [workers=1]   100%|████████████████████| 1/1 [00:00<00:00, 199.95it/s]


Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,ATTgtResult,ATTgtResult,ATTgtResult,ATTgtResult,ATTgtResult
Unnamed: 0_level_1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,analytic,pointwise conf. band,pointwise conf. band,pointwise conf. band
Unnamed: 0_level_2,Unnamed: 1_level_2,Unnamed: 2_level_2,ATT,std_error,lower,upper,zero_not_in_cband
cohort,base_period,time,Unnamed: 3_level_3,Unnamed: 4_level_3,Unnamed: 5_level_3,Unnamed: 6_level_3,Unnamed: 7_level_3
1,0,1,2.675703,1.217264,0.289911,5.061496,*


Vamos salvar os resultados dentro em uma variável "results". E calcular suas estatísticas.

In [41]:
results = att_gt.fit("Y ~ bk + kfc + roys", est_method="reg")

# Acessar o coeficiente e o erro padrão
coef = results[('ATTgtResult', '', 'ATT')].iloc[0]
std_error = results[('ATTgtResult', 'analytic', 'std_error')].iloc[0]

# Calcular a estatística de teste
t_stat = coef / std_error

# Calcular o valor-p (para um teste bilateral)
import scipy.stats as stats
p_value = 2 * (1 - stats.norm.cdf(abs(t_stat)))

print(f"Estimativa do ATT: {coef}")
print(f"Estatística de Teste (t): {t_stat}")
print(f"Valor-p: {p_value}")

Computing ATTgt [workers=1]   100%|████████████████████| 1/1 [00:00<00:00, 125.05it/s]

Estimativa do ATT: 2.6757032727620924
Estatística de Teste (t): 2.198129841848015
Valor-p: 0.027939854480739434





####  IPW Difference in Difference Approach - Abadie (2005) 

<div style="text-align:center;">
    <img src="images\Abadie2005.png"  alt="Imagem" style="width: 700px;"/>
</div>


**Resumo em português**: O estimador de diferenças em diferenças (DID) é uma das ferramentas mais populares na pesquisa aplicada em economia para avaliar os efeitos de intervenções públicas e outros tratamentos de interesse em variáveis de resultado relevantes. No entanto, é amplamente conhecido que o estimador DID baseia-se em suposições fortes de identificação. Em particular, o estimador DID convencional exige que, na ausência do tratamento, os resultados médios para os grupos tratado e de controle teriam seguido trajetórias paralelas ao longo do tempo. Essa suposição pode ser implausível se as características pré-tratamento, que se acredita estarem associadas à dinâmica da variável de resultado, forem desbalanceadas entre os tratados e os não tratados. Esse seria o caso, por exemplo, se a seleção para o tratamento fosse influenciada por choques transitórios individuais em resultados passados (o chamado "Ashenfelter's dip"). Este artigo considera o caso em que diferenças nas características observadas criam dinâmicas não paralelas nos resultados entre tratados e controles. Demonstra-se que, nesse caso, uma estratégia simples em dois passos pode ser usada para estimar o efeito médio do tratamento para os tratados. Além disso, o framework de estimação proposto neste artigo permite o uso de covariáveis para descrever como o efeito médio do tratamento varia com mudanças nas características observadas.


A abordagem proposta por Abadie (2005) é um estimador de diferenças em diferenças Semiparametrico. A abordagem de Abadie (2005) utiliza técnicas de *matching* para criar grupos de comparação potencialmente mais adequados, onde unidades de tratamento e controle são pareadas com base em características observáveis. Isso ajuda a reduzir o viés de seleção por características observáveis e aumenta a validade causal da estimativa.


$$ \delta^{IPW} = \frac{1}{E_{N}[D]}E\left [\frac{D-\hat{p}(X)}{1-\hat{p}(X)}(Y_{1}-Y_{0})\right ]  $$


Onde $\hat{p}(X)$  é um estimador para o verdadeiro escore de propensão (probabilidade do indivíduo ser tratado baseado nas características observáveis). O qual reduz a dimensão de X em um escalar.

* $E_{N}[D]$ é a proporção média de unidades que receberam o tratamento na amostra
* $Y_{1}$ e $Y_{0}$ são as médias das variáveis de resultado dos tratados e não tratados **no período de tratamento**

Pode ser reescrito como:

$$ \delta^{IPW-DD} = \frac{1}{E_{N}[D]} E\left [(\bar{Y}_{1,2} - \bar{Y}_{1,1}) - \frac{(1-D)\hat{p}(X)}{1-\hat{p}(X)}(\bar{Y}_{0,2} - \bar{Y}_{0,1}) \right ]  $$

A ideia da ponderação é atribuir mais peso para as observações nos grupos de controle que "parecem" mais com as unidades tratadas.


Vamos aplicar essa abordagem em nosso exemplo prático. Aqui vou mostrar como fazer manualmente porque pode ser importante tanto para vocês entenderem o mecanismo, quanto para utilizarem em estratégias de pesquisa futuras.

In [42]:
# Propensity Score Weighting
D = df['Treated']
X = df[['bk', 'kfc', 'roys']]
X = sm.add_constant(X)

reg_logit = sm.Logit(D, X).fit()
df['peso_logit'] = reg_logit.predict()

print(reg_logit.summary())

Optimization terminated successfully.
         Current function value: 0.489622
         Iterations 6
                           Logit Regression Results                           
Dep. Variable:                Treated   No. Observations:                  782
Model:                          Logit   Df Residuals:                      778
Method:                           MLE   Df Model:                            3
Date:                Wed, 20 Nov 2024   Pseudo R-squ.:                0.005849
Time:                        19:59:15   Log-Likelihood:                -382.88
converged:                       True   LL-Null:                       -385.14
Covariance Type:            nonrobust   LLR p-value:                    0.2118
                 coef    std err          z      P>|z|      [0.025      0.975]
------------------------------------------------------------------------------
const          1.1239      0.226      4.979      0.000       0.681       1.566
bk             0.2095      0.

In [43]:
# Criar a medida de média dos tratados 'ED'
df['ED'] = df['Treated'].mean()
ED = df['ED'].mean()

# Criando os pesos e adicionando ao DataFrame
df['W_ATT'] = (df['peso_logit'] / (1 - df['peso_logit']))/ED
df.loc[df['Treated'] == 1, 'W_ATT'] = 1/ED

In [44]:
# Aplicando regressão ponderada
Y1 = df[['Y']]  # Selecionando a variável dependente
X1 = df[['Treated', 't', 'Effect']]  # Selecionando as variáveis independentes
X1 = sm.add_constant(X1)  # Adicionando uma constante (intercepto)

# Ajustando o modelo de regressão ponderada
dd_ipw = sm.WLS(Y1, X1, weights=df['W_ATT']).fit()

# Imprimindo o resumo
print(dd_ipw.summary())


                            WLS Regression Results                            
Dep. Variable:                      Y   R-squared:                       0.008
Model:                            WLS   Adj. R-squared:                  0.004
Method:                 Least Squares   F-statistic:                     2.143
Date:                Wed, 20 Nov 2024   Prob (F-statistic):             0.0934
Time:                        19:59:23   Log-Likelihood:                -2942.2
No. Observations:                 782   AIC:                             5892.
Df Residuals:                     778   BIC:                             5911.
Df Model:                           3                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const         18.9768      0.674     28.135      0.0

O resultado para o DD-IPW foi de $2.6757$. O mesmo econtrado anteriormente pelo OR-DD.

### Doubly Robust DD (DRDID)

O modelo Doubly Robust Difference in Differences (DRDID) de Sant'Anna e Zhao (2020) é uma extensão do método de diferenças em diferenças (DD). Ele usa **uma abordagem duplamente robusta**, que combina os dois modelos vistos anteriormente: um modelo de Outcome Regression e um modelo de probabilidade de receber o tratamento para o caso de diferença em diferenças.


<div style="text-align:center;">
    <img src="images\SantannaZhao.png"  alt="Imagem" style="width: 700px;"/>
</div>

**Resumo em português**: Este artigo propõe estimadores duplamente robustos para o efeito médio do tratamento sobre os tratados (ATT) em desenhos de pesquisa baseados em diferenças em diferenças (DID). Em contraste com outros estimadores DID alternativos, os estimadores propostos são consistentes se pelo menos um dos modelos de escore de propensão ou de regressão do resultado for corretamente especificado (mas não necessariamente ambos). Também derivamos o limite de eficiência semiparamétrica para o ATT em desenhos DID quando dados de painel ou de seções transversais repetidas estão disponíveis, e mostramos que os estimadores propostos atingem esse limite de eficiência semiparamétrica quando os modelos utilizados estão corretamente especificados. Além disso, quantificamos os possíveis ganhos de eficiência ao se utilizar dados de painel em vez de dados de seções transversais repetidas. Por fim, ao focar especialmente no método de estimação usado para os parâmetros auxiliares, mostramos que, em alguns casos, é possível construir estimadores DID duplamente robustos para o ATT que também são duplamente robustos para inferência. Estudos de simulação e uma aplicação empírica ilustram o desempenho desejável dos estimadores propostos em amostras finitas. Um software de código aberto para implementar as ferramentas propostas de avaliação de políticas está disponível.



O modelo DRDID combina esses dois modelos para produzir estimativas do efeito causal que são consistentes mesmo que um dos modelos seja mal especificado. Essa abordagem pode melhorar a precisão da estimativa do efeito causal em comparação com o método DID padrão, especialmente quando há variáveis de controle que afetam tanto a probabilidade de tratamento quanto o resultado de interesse.

$$  \beta^{DRDID}= E\left[ \left ( \frac{D}{E[D]} - \frac{\frac{p(X)(1-D)}{(1-p(X))}}{E[\frac{p(X)(1-D)}{(1-p(X))}]} \right ) (\Delta Y - \mu_{0,\Delta (X)} )   \right ]  $$

Podemos reescrever a equação acima como:

$$ \beta^{DRDID}= E\left[ \frac{D}{E[D]}(\bar{Y}_{1,2} - \bar{Y}_{1,1}) - \frac{\frac{p(X)(1-D)}{(1-p(X))}}{E[\frac{p(X)(1-D)}{(1-p(X))}]} (\mu_{1}(X^{T}) - \mu_{0}(X^{T})) \right ]  $$


Observe como o modelo controla para $X$ você está ponderando o ajuste resultados usando o escore de propensão. 

A razão pela qual você controla $X$ duas vezes é porque você não sabe qual modelo está certo. DRDiD libera você de fazer uma escolha sem fazer você pagar muito por isso.

Novamente, podemos fazer manualmente para entender o mecanismo.

In [47]:
from sklearn.linear_model import LinearRegression, LogisticRegression

def DD_DR(df, X_cols, T_col, Y_col, Time_col, pre_time, post_time):
    # Separar dados por grupo e período
    df_pre = df[df[Time_col] == pre_time]
    df_post = df[df[Time_col] == post_time]

    X_pre_treated = df_pre[df_pre[T_col] == 1][X_cols]
    Y_pre_treated = df_pre[df_pre[T_col] == 1][Y_col]
    X_post_treated = df_post[df_post[T_col] == 1][X_cols]
    Y_post_treated = df_post[df_post[T_col] == 1][Y_col]

    X_pre_control = df_pre[df_pre[T_col] == 0][X_cols]
    Y_pre_control = df_pre[df_pre[T_col] == 0][Y_col]
    X_post_control = df_post[df_post[T_col] == 0][X_cols]
    Y_post_control = df_post[df_post[T_col] == 0][Y_col]
    
    # Ajustar modelos de regressão linear para os períodos pré e pós
    model_pre_control = LinearRegression().fit(X_pre_control, Y_pre_control)
    model_post_control = LinearRegression().fit(X_post_control, Y_post_control)

    # Previsões para o grupo controle nos períodos pré e pós
    mu0_X_pre = model_pre_control.predict(X_pre_treated)
    mu0_X_post = model_post_control.predict(X_post_treated)
    
    X_pre = df_pre[X_cols]
    Y_pre = df_pre[Y_col]
    T_pre = df_pre[T_col]
        
    # Estimativa da probabilidade de tratamento p(X) no período pré
    model_logistic = LogisticRegression(solver='liblinear').fit(X_pre, T_pre)
    p_X_pre = model_logistic.predict_proba(X_pre)[:, 1]
    
    # Criar os pesos para o período pré
    weight_treated_pre = T_pre / T_pre.mean()
    weight_control_pre = ((1 - p_X_pre) / p_X_pre) / ((1 - p_X_pre) / p_X_pre).mean()
    
    # Calcular a Diferença em Diferenças com os pesos
    term_treated = (Y_post_treated.mean() - Y_pre_treated.mean()) * weight_treated_pre.mean()
    term_control = (mu0_X_post.mean() - mu0_X_pre.mean()) * weight_control_pre.mean()

    DR_DiD = term_treated - term_control 

    return DR_DiD

# Exemplo de uso
T_col = 'Treated'
Y_col = 'Y'
X_cols = ['bk', 'kfc', 'roys']
Time_col = 't'
pre_time = 0
post_time = 1


result_DD_DR = DD_DR(df, X_cols, T_col, Y_col, Time_col, pre_time, post_time)
print("Duplamente Robusto DiD (ATT):", result_DD_DR)


Duplamente Robusto DiD (ATT): 2.6757034544143536


### Aplicação Dobly Robust Difference in Differences (DRDID) - Sant'Anna e Zhao (2020) em Python

Vamos aplicar o DRDD com pacote `differences`.


In [48]:
# Pacotes
import pandas as pd
from differences import ATTgt
import numpy as np

In [49]:
# DataFrame
df = pd.read_stata("http://fmwww.bc.edu/repec/bocode/c/CardKrueger1994.dta")
# Há problemas na base que precisam ser ajustados
df.loc[(df['id'] == 407) & (df['kfc'] == 1), 'id'] = 408
# Crie a variável 'tratado' com valor inicial de 0
df['Treated'] = 0
# Recodifique 'tratado' para 1 se 'treated' for igual a 1
df.loc[df['treated'] == 'NJ', 'Treated'] = 1
# Crie a variável 'effect' como o produto entre 'tratado' e 't'
df['Effect'] = df['Treated'] * df['t']
# Remover lojas sem informação em ambos os anos
df['cont'] = df['fte'].notna().groupby(df['id']).cumsum()
df['media'] = df.groupby('id')['cont'].transform('mean')
df = df[df['media'] == 1.5]
df['Y'] = df['fte']

df['pre'] = 0
df.loc[df['t'] == 0, 'pre'] = 1
df['pos'] = 0
df.loc[df['t'] == 1, 'pos'] = 1

df['Group'] = df['Treated']
df.loc[df['Treated'] == 0, 'Group'] = np.nan

In [50]:
# Definir os indices (estrutura de painel)
df.set_index(['id', 't'], inplace=True)

In [51]:
att_gt = ATTgt(data=df, cohort_name="Group")

est_method: *str*, default: ``"dr-mle"``
 |      
 |          - ``"dr-mle"`` or ``"dr"``
 |              for locally efficient doubly robust DiD estimator,
 |              with logistic propensity score model for the probability of being treated
 |      
 |          - ``"dr-ipt"``
 |              for locally efficient doubly robust DiD estimator,
 |              with propensity score estimated using the inverse probability tilting
 |      
 |          - ``"reg"``
 |              for outcome regression DiD estimator
 |      
 |          - ``"std_ipw-mle"`` or ``"std_ipw"``
 |              for standardized inverse probability weighted DiD estimator,
 |              with logistic propensity score model for the probability of being treated

In [52]:
att_gt.fit("Y ~ bk + kfc + roys", est_method="dr")

Computing ATTgt [workers=1]   100%|████████████████████| 1/1 [00:00<00:00, 90.91it/s]


Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,ATTgtResult,ATTgtResult,ATTgtResult,ATTgtResult,ATTgtResult
Unnamed: 0_level_1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,analytic,pointwise conf. band,pointwise conf. band,pointwise conf. band
Unnamed: 0_level_2,Unnamed: 1_level_2,Unnamed: 2_level_2,ATT,std_error,lower,upper,zero_not_in_cband
cohort,base_period,time,Unnamed: 3_level_3,Unnamed: 4_level_3,Unnamed: 5_level_3,Unnamed: 6_level_3,Unnamed: 7_level_3
1,0,1,2.675703,1.217264,0.289911,5.061496,*


In [53]:
results2 = att_gt.fit("Y ~ bk + kfc + roys", est_method="dr")

# Acessar o coeficiente e o erro padrão
coef = results2[('ATTgtResult', '', 'ATT')].iloc[0]
std_error = results2[('ATTgtResult', 'analytic', 'std_error')].iloc[0]

# Calcular a estatística de teste
t_stat = coef / std_error

# Calcular o valor-p (para um teste bilateral)
import scipy.stats as stats
p_value = 2 * (1 - stats.norm.cdf(abs(t_stat)))

print(f"Estimativa do ATT: {coef}")
print(f"Estatística de Teste (t): {t_stat}")
print(f"Valor-p: {p_value}")

Computing ATTgt [workers=1]   100%|████████████████████| 1/1 [00:00<00:00, 125.00it/s]

Estimativa do ATT: 2.6757032727620964
Estatística de Teste (t): 2.198129841848017
Valor-p: 0.027939854480739212





### Aplicação do DRDID de Sant'Anna e Zhao (2020) no R

É possível utilizar também o Sant’Anna and Zhao (2020) doubly robust DiD estimator based on stabilized inverse probability weighting and ordinary least squares [dripw].

Para isso precisamos recalcular o peso e utilizar as métricas estabilizadoras.

#### Podemos utilizar o pacote do R e calcular diretamente o DRDID

Lembre-se de alterar o kernell de Python para R.



In [1]:
# install.packages("remotes")
remotes::install_github("pedrohcgs/DRDID")

Using GitHub PAT from the git credential store.

Skipping install of 'DRDID' from a github remote, the SHA1 (8a1c09f9) has not changed since last install.
  Use `force = TRUE` to force installation



In [1]:
library(DRDID)
data <- read.csv("https://github.com/Daniel-Uhr/data/raw/main/card_krueger.csv")

: 

In [None]:
# Implement improved locally efficient DR DID:
out <- drdid(yname = "y", tname = "t", idname = "id", dname = "Treated", xformla= ~ bk + kfc + roys, data = data, panel = TRUE)
summary(out)

 Call:
drdid(yname = "y", tname = "t", idname = "id", dname = "Treated", 
    xformla = ~bk + kfc + roys, data = data, panel = TRUE)
------------------------------------------------------------------
 Further improved locally efficient DR DID estimator for the ATT:
 
   ATT     Std. Error  t value    Pr(>|t|)  [95% Conf. Interval] 
  2.6757     1.2188     2.1953     0.0281     0.2868     5.0646  
------------------------------------------------------------------
 Estimator based on panel data.
 Outcome regression est. method: weighted least squares.
 Propensity score est. method: inverse prob. tilting.
 Analytical standard error.
------------------------------------------------------------------
 See Sant'Anna and Zhao (2020) for details.

In [None]:
library(DRDID)
data <- read.csv("https://github.com/Daniel-Uhr/data/raw/main/card_krueger.csv")
out2 <- ordid(yname="y", tname = "t", idname = "id", dname = "Treated", xformla= ~ bk + kfc + roys, data = data, panel = TRUE)
summary(out2)

 Call:
ordid(yname = "y", tname = "t", idname = "id", dname = "Treated", 
    xformla = ~bk + kfc + roys, data = data, panel = TRUE)
------------------------------------------------------------------
 Outcome-Regression DID estimator for the ATT:
 
   ATT     Std. Error  t value    Pr(>|t|)  [95% Conf. Interval] 
  2.6757     1.2188     2.1953     0.0281     0.2868     5.0646  
------------------------------------------------------------------
 Estimator based on panel data.
 Outcome regression est. method: OLS.
 Analytical standard error.
------------------------------------------------------------------
 See Sant'Anna and Zhao (2020) for details.