# Difference-in-differences with variation in treatment timing

Prof. Daniel de Abreu Pereira Uhr

## Conteúdo

* Difference-in-differences with variation in treatment timing
* Verificando a inconsistência do TWFE com tratamentos em diferentes momentos no tempo em Python
* Callaway & Sant´Anna (2021)
* Aplicação do estimador de Callaway & Sant´Anna (2021) em Python
* Aplicação do estimador de Callaway & Sant´Anna (2021) em R
* Overview da literatura sobre DiD

## Referências

**Principais:**

* Marcus, R., & Sant'Anna, P. H. C. (2020). The Role of Parallel Trends in Event Study Settings: An Application to Environmental Economics. Journal of the Association of Environmental and Resource Economists, 7(6), 1163-1199. https://doi.org/10.1086/710174
* Marcus and Sant’Anna (2020), “The Role of Parallel Trends in Event Study Settings: An Application to Environmental Economics,” JAERE

* Sun, L., & Abraham, M. (2021). Estimating Dynamic Treatment Effects in Event Studies with Heterogeneous Treatment Effects. Journal of Econometrics, 222(2), 1011-1033. https://doi.org/10.1016/j.jeconom.2021.01.002
* Sun and Abraham (2021), “Estimating Dynamic Treatment Effects in Event Studies with Heterogeneous Treatment Effects,” Journal of Econometric

* Schmidheiny, K., & Siegloch, S. (2023). On event studies and distributed-lags in two-way fixed effects models: Identification, equivalence, and generalization. Journal of Applied Econometrics, 1- 19. https://doi.org/10.1002/jae.2971
* Stevenson, Betsey, Wolfers, Justin, 2006. Bargaining in the shadow of the law: Divorce laws and family distress. Q. J. Econ. 121 (1), 267–288.
* Goodman-Bacon, A. (2021). Difference-in-differences with variation in treatment timing. Journal of Econometrics. https://doi.org/10.1016/j.jeconom.2021.03.014
* Callaway, B. and Sant'Anna, P. H. C. (2021). Difference-in-Differences with multiple time periods. Journal of Econometrics. https://doi.org/10.1016/j.jeconom.2020.12.001
* https://bcallaway11.github.io/did/articles/did-basics.html 
* 
**Complementares:**

* Borusyak, K.; Jaravel, X. and Spiess, J. (2023). Revisiting Event Study Designs: Robust and Efficient Estimation. arXiv: https://arxiv.org/pdf/2108.12419.pdf
* Clément deChaisemartin, Xavier d’Haultfoeuille. (2022) Difference-in-Differences Estimators of Intertemporal Treatment Effects. hal-03873903
* Roth et al. (2022) What’s Trending in Difference-in-Differences? A Synthesis of the Recent Econometrics Literature. https://www.jonathandroth.com/assets/files/DiD_Review_Paper.pdf
* 

## Difference-in-differences with variation in treatment timing

A especificação padrão do TWFE é dada por:

$$ Y_{i,t} = \mu_{i} + \lambda_{t} + \beta D_{i,t} + \gamma X_{i,t} + \epsilon_{i,t} $$

Em todos os exemplos anteriores estávamos representando o chamado DD-Canônico, isto é $D_{it} $ indicava os tratados a partir de um único período específico.

Entretanto, essas próprias especificações poderiam representar também um modelo ainda mais flexível, com o tratamento iniciando em momentos diferentes (variation in treatment timing) para diferentes grupos tratados. 

**O que, de fato, o TWFE estima quando existem efeitos de tratamento heterogêneos no tempo?**


### Overview sobre as desconfianças quanto ao estimador TWFE com variação no momento do tratamento

O estimador de efeitos fixos (TWFE) é um dos métodos mais utilizados para estimar o efeito causal de um tratamento em estudos de diferenças em diferenças (DiD). No entanto, a robustez do estimador TWFE tem sido questionada em estudos que envolvem variação no momento do tratamento. 

* Borusyak and Jaravel (2017) - Revisiting Event Study Designs, with an Application to the Estimation of the Marginal Propensity to Consume - (Working Paper)
  * [...] a principal mensagem para os profissionais é que, devido a questões de identificação e à ponderação negativa nos desenhos de estudos de eventos, os resultados de especificações comuns provavelmente parecerão não robustos. Estes problemas podem ser atenuados de uma forma baseada em princípios, através da utilização de estimadores e testes paramétricos e semiparamétricos.

* Sun and Abraham (2021), “Estimating Dynamic Treatment Effects in Event Studies with Heterogeneous Treatment Effects,” Journal of Econometric;
  * "Para estimar os efeitos dinâmicos de um tratamento "absorbing", os pesquisadores frequentemente utilizam regressões TWFE que incluem lags e leads do tratamento. Mostramos que, em configurações com variação no momento do tratamento entre unidades, o coeficiente em um determinado lag ou lead pode ser contaminado por efeitos de outros períodos, e pretendências aparentes podem surgir apenas da heterogeneidade dos efeitos do tratamento. Os autores propõe um estimador alternativo que está livre de contaminação e ilustramos as deficiências relativas das regressões de efeitos fixos de duas vias com avanços e atrasos por meio de uma aplicação empírica.

* de Chaisemartin and d’Haultfoeuille (2020), “Two-Way Fixed Effects Estimators with Heterogeneous Treatment Effects,” American Economic Review;
  * "[...] Mostramos que **elas estimam somas ponderadas** dos efeitos médios do tratamento (ATE) em cada grupo e período, **com pesos que podem ser negativos**. Devido aos pesos negativos, o coeficiente da regressão linear pode, por exemplo, ser negativo enquanto todos os ATEs são positivos. Propomos outro estimador que resolve esse problema. Nas duas aplicações que revisitamos, ele é significativamente diferente do estimador de regressão linear."

* Goodman-Bacon (2021), “Difference-in-Differences with Variation in Treatment Timing,” Journal of Econometrics
  * "[...] **o TWFE é igual a uma média ponderada de todos os possíveis estimadores DD de dois grupos/dois períodos nos dados**. Uma interpretação causal dos estimadores de DD de efeitos fixos de duas vias requer tanto uma suposição de tendências paralelas quanto efeitos de tratamento constantes ao longo do tempo. Eu mostro como decompor a diferença entre duas especificações e forneço uma nova análise de modelos que incluem controles variáveis no tempo."


### Goodman-Bacon (2021)

Goodman-Bacon (2021) tenta responder: "O que o TWFE estima quando há variação no momento do tratamento?".



<div style="text-align:center;">
    <img src="images\DD_FIG11.PNG"  alt="Imagem" style="width: 700px;"/>
</div>


Em resumo, **Bacon (2021) mostra que o TWFE calcula a média ponderada dos diversos DD canônicos possíveis**. A ideia é que existe heterogeneidade dos efeitos devido aos diferentes grupos que existem na amostra devido aos diferentes momentos do tratamento.

<div style="text-align:center;">
    <img src="images\DD_FIG12.PNG"  alt="Imagem" style="width: 700px;"/>
</div>




As figuras (da A à D) mostram na linha vertical em vermelho o momento do tratamento. Em triângulos e círculos pretos temos os grupos tratados. Em cinza temos o grupo dos nunca tratados.

É possivel notar que surgem as seguintes formas de construir grupos de comparação:

1. O uso de grupos **nunca tratados (Untreated group)** e que **ainda não não foram tratados (Late group)**, como o grupo de comparação (A, B e C na figura), e 
2. O uso de grupos que foram **tratados em períodos anteriores** (D na figura) como o grupo de comparação. 

* A primeira possibilidade é exatamente o tipo de **comparação que deve ser usado** nas aplicações de Diff-In-Diff (A, B e C).
* O segundo tipo de comparação (às vezes chamado de **“comparações ruins”** ou **“comparações proibidas”**) geralmente não é desejável nessas aplicações e pode levar a estimativas ruins de parâmetros de efeito causal, particularmente na presença de dinâmica de efeito de tratamento.

Ou seja, **o DD tradicional baseado no TWFE (Two-Way Fixed Effects) quando há tratamento em diferentes momentos do tempo é uma caixa preta**, onde ele pode realizar a regressão e ponderar a estimativa de forma a obter um efeito equivocadado, podendo gerar até mesmo pesos negativos para os diferentes grupos de unidades consideradas na análise. Assim, **esse tipo de regresseão não é robusta à existência de heterogeneidade temporal do tratamento**.

**Goldman-Bacon (2021) decompõe o estimador TWFE em diversos DD canônicos e mensura o peso que o TWFE atribui a cada comparação para que chegue ao resultado final.**

No artigo, Goldman-Bacon (2021) replica a análise de: **Stevenson, Betsey, Wolfers, Justin, 2006. Bargaining in the shadow of the law: Divorce laws and family distress. Q. J. Econ. 121 (1), 267–288.**  Como vimos, a ideia do artigo é aproveitar que o momento diferente da reforma da lei do divórcio entre os estados fornece um quase-experimento útil para examinar os efeitos dessa mudança. Eles analisam os dados em painel estadual para estimar as mudanças nas taxas de suicídio, violência doméstica e homicídio conjugal decorrentes da mudança na lei do divórcio.


<div style="text-align:center;">
    <img src="images\DD_FIG14.PNG"  alt="Imagem" style="width: 700px;"/>
</div>


Para evidenciar a falta de robutez do estimador TWFE quando há diferentes momentos do tratamento, Goldman-Bacon (2021) utiliza esses dados do artigo e propõe diferentes especificações do TWFE para identificação do efeito do divorcio unilateral sobre o suicídio feminino.

<div style="text-align:center;">
    <img src="images\DD_FIG13.PNG"  alt="Imagem" style="width: 1000px;"/>
</div>

Posteriormente, o autor se propôs calcular os pesos atribuídos pelo TWFE (Bacon-Decomposition: decomposição do efeito do DD). 

Então, vamos replicar a maioria desses resultados e verificar que, realmente, os resultados **NÃO** são robustos.


### Verificando o Viés e a inconsistência do TWFE com tratamentos em diferentes momentos no tempo em Python

In [5]:
# Pacotes
import numpy as np
import pandas as pd
import plotnine as p
import statsmodels.api as sm
import linearmodels as lm
import statsmodels.formula.api as smf 
from linearmodels.panel import PanelOLS
from statsmodels.iolib.summary2 import summary_col

In [6]:
# Carregar a base de dados
data = pd.read_stata("https://github.com/Daniel-Uhr/data/raw/main/bacon_example.dta")

In [7]:
# Filtragem dos dados
# Vamos criar identificadores estaduais
data['id'] = data.groupby('stfips').grouper.group_info[0] + 1
# Criar uma nova variável de tempo "time"
data['time'] = data['year'] - 1963

# Outcome (Suicide Mortality)
data['Y'] = data['asmrs']
# Treatment
data['D'] = data['post']
# Covariáveis - pcinc asmrh cases
data['X1'] = data['pcinc']
data['X2'] = data['asmrh']
data['X3'] = data['cases']

data['_nfd'].describe()

data['media_D'] = data.groupby('id')['D'].transform('mean')
data['always_treated'] = np.where(data['media_D'] == 1, 1, 0)
data['never_treated'] = np.where(data['media_D'] == 0, 1, 0)

In [8]:
# Regressão controlando os efeitos fixos id e ano, com erro padrão robusto à heterocedasticidade.
reg1 = smf.wls('Y ~ D + C(id) + C(year)', data=data).fit(cov_type='HC1')
#print(reg1.summary())

reg1.summary2().tables[1].loc[['Intercept', 'D'], :].round(4)

Unnamed: 0,Coef.,Std.Err.,z,P>|z|,[0.025,0.975]
Intercept,42.5023,2.4121,17.6206,0.0,37.7747,47.2299
D,-3.0799,1.2677,-2.4295,0.0151,-5.5646,-0.5953


In [9]:
# Restringir o dataframe para _nfd!=.
data_restricted = data[data['_nfd'].notnull()]
# Ajustar a regressão WLS
reg2 = smf.wls('Y ~ D + C(id) + C(year)', data=data_restricted).fit(cov_type='HC1')
# Imprimir o resumo
#print(reg2.summary())
reg2.summary2().tables[1].loc[['Intercept', 'D'], :].round(4)

Unnamed: 0,Coef.,Std.Err.,z,P>|z|,[0.025,0.975]
Intercept,42.9174,2.8005,15.325,0.0,37.4286,48.4062
D,2.4214,1.8102,1.3377,0.181,-1.1265,5.9693


In [10]:
# Regressão controlando os efeitos fixos id e ano, com erro padrão robusto à heterocedasticidade, ponderada pela variável data['weight'].
reg3 = smf.wls('Y ~ D + C(id) + C(year)', data=data, weights=data['weight']).fit(cov_type='HC1')
#print(reg3.summary())
reg3.summary2().tables[1].loc[['Intercept', 'D'], :].round(4)

Unnamed: 0,Coef.,Std.Err.,z,P>|z|,[0.025,0.975]
Intercept,45.7924,3.0733,14.9001,0.0,39.7688,51.8159
D,-0.3475,1.9714,-0.1762,0.8601,-4.2113,3.5164


In [11]:
# Regressão controlando os efeitos fixos id e ano, com erro padrão robusto à heterocedasticidade, e covariáveis.
reg4 = smf.wls('Y ~ D + X1 + X2 + X3 + C(id) + C(year)', data=data).fit(cov_type='HC1')
#print(reg4.summary())
reg4.summary2().tables[1].loc[['Intercept', 'D'], :].round(4)


Unnamed: 0,Coef.,Std.Err.,z,P>|z|,[0.025,0.975]
Intercept,51.8784,3.6428,14.2415,0.0,44.7387,59.0181
D,-2.516,1.274,-1.9749,0.0483,-5.0129,-0.019


In [12]:
# Regressão controlando os efeitos fixos id e ano, e o produto entre efeitos fixos e tempo, com erro padrão robusto à heterocedasticidade.
reg5 = smf.wls('Y ~ D + C(id)*time + C(id) + C(year)', data=data).fit(cov_type='HC1')
#print(reg5.summary())
reg5.summary2().tables[1].loc[['Intercept', 'D'], :].round(4)

Unnamed: 0,Coef.,Std.Err.,z,P>|z|,[0.025,0.975]
Intercept,29.7309,2.0926,14.2077,0.0,25.6295,33.8324
D,0.5927,1.347,0.44,0.6599,-2.0473,3.2327


* Não há como realizar as estimações (4), (7) e (8) da tabela 2 porque não temos dados disponíveis.

Nos chama a atenção os diferentes valores encontrados, mostrando uma clara **falta de robustez do estimador TWFE quando o tratamento ocorre em diferentes momentos do tempo** (adoção do tratamento escalonada - **Stagged Adoption**). Assim, Goldman-Bacon argumenta que isso se deve aos diferentes grupos de comparação que o TWFE realiza, atribuindo pesos diferentes para cada um deles. Logo, é necessário que a análise seja feita de forma mais cuidadosa, entendendo os grupos de comparação envolvidos.

Para finalizar, podemos verificar como ficaria uma regressão para uma amostra restrita sem os estados "Always Treated", ou seja, sem os estados que sempre tiveram a intervenção implementada durante o período da base.


In [13]:
# Restringir o dataframe para always_treated!=1
data_restricted2 = data.loc[data['always_treated'] != 1].copy()
reg_rest2 = smf.wls('Y ~ D + C(id) + C(year)', data=data_restricted2).fit(cov_type='HC1')
# Imprimir o resumo
#print(reg_rest2.summary())
reg_rest2.summary2().tables[1].loc[['Intercept', 'D'], :].round(4)

Unnamed: 0,Coef.,Std.Err.,z,P>|z|,[0.025,0.975]
Intercept,43.1307,2.5585,16.8577,0.0,38.1161,48.1453
D,-0.6045,1.4774,-0.4091,0.6824,-3.5002,2.2912


vamos comparar os resultados obtidos aqui em uma unica tabela.

In [14]:
import pandas as pd

# Criando uma função para arredondar os valores
def round_results(results):
    return [round(value, 4) if isinstance(value, (int, float)) else value for value in results]

# Criando um DataFrame vazio para armazenar os resultados
results_table = pd.DataFrame(index=['Effect', 'S.E.', 'T-test', 'P-value', 'N.', 'Adj. R-squared'])

# Definindo os modelos e os resultados de interesse
models = [reg1, reg2, reg3, reg4, reg5, reg_rest2]
model_names = ['Model 1', 'Model 2', 'Model 3', 'Model 4', 'Model 5', 'Model 6']

# Loop para iterar sobre os modelos
for model, model_name in zip(models, model_names):
    # Extrair os resultados de interesse
    coef = model.params['D']
    std_err = model.bse['D']
    t_value = model.tvalues['D']
    p_value = model.pvalues['D']
    sample_size = len(model.fittedvalues)
    adj_r_squared = model.rsquared_adj
    
    # Arredondar os resultados
    model_results = round_results([coef, std_err, t_value, p_value, sample_size, adj_r_squared])
    
    # Preencher a tabela com os resultados
    results_table[model_name] = model_results

# Exibir a tabela
print(results_table.to_markdown())


|                |   Model 1 |   Model 2 |   Model 3 |   Model 4 |   Model 5 |   Model 6 |
|:---------------|----------:|----------:|----------:|----------:|----------:|----------:|
| Effect         |   -3.0799 |    2.4214 |   -0.3475 |   -2.516  |    0.5927 |   -0.6045 |
| S.E.           |    1.2677 |    1.8102 |    1.9714 |    1.274  |    1.347  |    1.4774 |
| T-test         |   -2.4295 |    1.3377 |   -0.1762 |   -1.9749 |    0.44   |   -0.4091 |
| P-value        |    0.0151 |    0.181  |    0.8601 |    0.0483 |    0.6599 |    0.6824 |
| N.             | 1617      | 1188      | 1617      | 1617      | 1617      | 1353      |
| Adj. R-squared |    0.6849 |    0.7348 |    0.732  |    0.6937 |    0.7747 |    0.7192 |


### Dadas as inconsistências, novos estimadores foram propostos na literatura para lidar com a heterogeneidade temporal do tratamento.

As pesquisas recentes procuram relaxar uma ou duas suposições do DD:
* Permitir múltiplos períodos e variação no timming do tratamento 
  * novos estimadores isolam comparações “limpas” entre grupos ainda não tratados e, em seguida, agrega-os usando pesos especificados pelo usuário para estimar.
* Considerar a violação potencial das tendencias paralelas
  * São tendências paralelas quando condicionais às covariáveis observadas.
* Partir da suposição de observar uma amostra de muitos clusters independentes de uma população
  * Os métodos padrão de cluster-robust pressupõem que há um grande número de clusters tratados e não tratados e, portanto, podem ter um desempenho ruim no caso de um pequeno cluster tratado. Uma variedade de alternativas com melhores propriedades foram propostas para este caso, incluindo procedimentos de permutação e bootstrap.


Podemos diferenciar os estimadores em 3 grupos:

* **Estimadores robustos à Heterogenidade temporal do tratamento** 
  * de Chaisemartin e d’Haultfoeuille (2020); Sun and Abraham (2021); Callaway & Sant´Anna (2021)
* **Estimadores baseados em Imputação** 
  * Gardner (2021); Borusyak, Jaravel, and Spiess (2021); Entre outros: Xu (2017), Liu et al (2020), Gobillon and Magnac (2016).

* **Randomização e Estimadores robustos**
  * Athey and Imbens (2018); Arkhangelsky and Imbens (2019); Roth and Sant´Anna (2023); Callaway and Sant’Anna (2021);

### Callaway & Sant´Anna (2021)

A partir dos pontos levantados por Goldman-Bacon (2021), os autores Brantly Callaway & Pedro Sant´Anna se propõem a construir um estimador de diferença em diferenças robusto para o caso de tratamentos em diferentes momentos do tempo.


<div style="text-align:center;">
    <img src="images\DD_FIG15.PNG"  alt="Imagem" style="width: 700px;"/>
</div>

**Novidades do artigo**

* Permitem covariáveis de forma flexível
* Procedimento de estimação baseado em Doubly Robust Methods (combinação de Outcome Regression DD, e IPW DD)
* Discutem diferentes formas de agregação dos dados para sumarizar o efeito do tratamento;
* Cobrem tanto painel quanto cross-sections repetidos
* Procuram fazer hipóteses mínimas de tendências paralelas para identificar o ATT no grupo afetado em determinado ano (ATT(g,t)).

**Contexto geral do artigo**

Em termos procedimentais, os autores resolvem o problema dos tratamentos ocorrem em diferentes momentos do tempo (tratamentos escalonados - **Stagged Adoption**) ao desagregar os dados em diversos DD canônicos 2x2. Eles buscam identificar o momento específico em que alguns indivíduos são tratados, e separam a análise para blocos específicos ou “bloco de construção” ("building blocks"). 

Por exemplo, indivíduos que foram tratados no ano 7, são agrupados (Grupo: g=7), e é calculado o efeito do DD entre esse grupo (Coorte/Cohort) específico e o grupo de controle (Controle: "nunca tratados", ou "ainda não tratados"). Adicionalmente, os autores consideram o "Escore de Propensão Generalizado" como um peso para cada bloco de construção. Assim, combinam as estratégias de regressão propostas por Heckman et al.(1997, 1998) com a de escore de propensão proposta por Abadie (2005) para obter uma configuração de DD com múltiplos períodos, este procedimento de estimação é denominado duplamente robusto.

Ao separ a análise em blocos de construção 2x2, eles obtém outras métricas do efeito do tratamento. Pode-se obter o ATT geral, e seus componentes:

* Efeito médio overall (simple) [$ATT_{Simple}$]
* Efeito médio por Grupos (Coortes/Cohort) [$ATT_G$]
* Efeito Calendário (efeito agregado em cada ano t) [$ATT_C$]
* Efeito Dinâmico (Dynamic / Event Study Design) [$ATT_D$]


**Hipóteses (Assumptions)**

* Tendências Paralelas Condicionais (Conditional Parallel Trends - para os nunca tratados [Never treated, $C=1$] ou não ainda tratados)

$$ E[Y_{t}(0) - Y_{t-1}(0)|X, G_{g}=1] = E[Y_{t}(0) - Y_{t-1}(0)|X, C=1] $$

* Não antecipação do tratamento (No anticipation of treatment)
* Tratamento irreversível
* Suporte Comum (Common Support) - sobreposição das covariáveis para o propensity score
* Amostra é i.i.d.

**Parâmetro de Interesse**

O "bloco de construção" é dado por:

$$ ATT(g,t) = E[Y_{t}(g) - Y_{t}(0)|G_{g}=1] $$

Para $t$ maior ou igual à g. Depois é possível agregar esses blocos entre as Cohort, no tempo, ou na combinação dos dois. É uma generalização natural do parâmetro ATT 2x2.

O primeiro termo é observado ($Y_{t}(g)$), o segundo é o contrafactual.


**Procedimento geral**

* Aplicação do DD canônico 2x2 para os diferentes Cohorts (Grupos) em seus anos específicos.
* Ou seja, precisamos apenas de um ano antes e um depois da ocorrência do tratamento para cada grupo.
* OBS: Sem covariáveis, o ATT(g,t) é semelhante ao estimador de de Chaisemartin & D’Haultfoeuille (2022), e Sun & Abraham (2021).
* Adicionando as Covariáveis, o método muda completamente.


#### Callaway & Sant´Anna (2021) Doubly Robust Difference-in-Differences 

**Modelo Geral**

Com uma estrutura de dados em painel balanceado, o ATT para o grupo ($g$) no período ($t$), e grupo de controle com os *never-treated* ($C=1$), é estimado de forma semi-paramétrica como:

$$ ATT(g,t)=E \left [ \left ( \frac{G_{g}}{E[G_{g}]}  - \frac{\frac{p_{g,t}(X)C}{1-p_{g,t}(X)}}{E[\frac{p_{g,t}(X)C}{1-p_{g,t}(X)}]} \right ) (Y_{t}-Y_{g-1} - \mu_{g,t}^{nev}(X)) \right ]$$

onde 

$$\mu_{g,t}^{nev}(X) = E[Y_{t}-Y_{g-1}|X, C=1]$$

Esse estimador extende Heckman, Ichimura and Todd (1997), Abadie (2005), Sant´Anna and Zhao (2020).
* **Primeira parte**: Temos 2 grupos, a Cohort $G_{g}$ e/ou a Cohort never-treated $C$. As duas são variáveis *binárias*. Se as duas são zero, descartamos todos os dados. Os denominadores $E[G_{g}]$ e $E[\frac{p_{g,t}(X)C}{1-p_{g,t}(X)}]$ estão lá para garantir que esses pesos se integrem até 1 (são "pesos estabilizados"). Esses estabilizadores ajudam a não permitir que os valores subam muito caso o escore de propensão seja muito próximo de 1. O uso do propensity score busca atribuir mais peso àqueles grupos de controle mais semelhantes às cohorts de g. O propensity score é a probabiliade de ser tratado no período t, dado que ainda não foi tratado.
* **Segunda parte**: Estamos fazendo o DD, considerando a evolução do resultado do grupo de controle condicional nas covariáveis (Outcome Regression).
* Como estamos combinando o IPW com o Outcome Regression, o estimador é duplamente robusto. Ou seja, se uma das duas partes estiver correta, o estimador será consistente, e recuperará o ATT. "Temos dois tiros para acertar o alvo".

**Sumarizando os ATT(g,t)´s**

Os autores propõem tomar a média ponderada dos ATT(g,t)´s.

* Análise ponderada dos ATT(gt)´s, aqui começa a brincadeira, e há certa liberdade para escolher os pesos (w). Ou seja, esses pesos podem assumir diferentes formas, dependendo do objetivo da análise.

$$\sum_{g=2}^{\tau} \sum_{t=2}^{\tau} w_{g,t} ATT(g,t)$$


* **ATT Simple** (simple weighted average / overall average): Pesos iguais para todos (w=1) para todos. Pode ser ruim porque, umas cohorts são maiores que outras.

$$\theta_{M} = \frac{2}{\tau(\tau-1)}\sum_{g=2}^{\tau} \sum_{t=2}^{\tau} 1[g \leqslant t] ATT(g,t)$$

**ATT(g,t)´s que exploram as heterogeneidades**

  * **ATT by Group**: Efeito Médio de participação no tratamento que as unidades no grupo g experimentam.
     * Enfatiza a heterogeneidade entre os grupos.

$$ \theta_{S}(g) = \frac{1}{\tau - g + 1} \sum_{t=2}^{\tau} 1[g \leqslant t ]ATT(g,t)$$

  * **ATT by Calendar Period**: Efeito médio de participação no tratamento no período t para grupo g que participaram no tratamento a partir do período t. Lembra um Event Study individual para cada grupo g. E posteriormente, é feita uma média ponderada desses efeitos.
    
$$ \theta_{C}(t) = \sum_{t=2}^{\tau} 1[g \leqslant t ]ATT(g,t) P(G=g|C \neq 1)$$

  * **ATT Dynamic**: Pode-se reparametrizar a análise para avaliar o efeito médio em relação a um momento específico (e) a partir do início do tratamento (Event Study).
    
$$\theta_{D}(e) = \sum_{g=2}^{\tau} 1[g + e \leqslant \tau] ATT(g, g + e) P(G=g| G + e \leqslant \tau, C \neq 1)$$



## Aplicação do estimador de Callaway & Sant´Anna (2021) em Python

Existe um pacote no python para realizar as estimações propostas por Callaway & Sant´Anna (2021). O pacote é o **differences** está baseado nos artigos:

* Sant’Anna, Pedro HC, and Jun Zhao. “Doubly robust difference-in-differences estimators.” Journal of Econometrics 219, no. 1 (2020): 101-122.
* Callaway, Brantly, and Pedro HC Sant’Anna. “Difference-in-differences with multiple time periods.” Journal of Econometrics 225, no. 2 (2021): 200-230.
* Callaway, Brantly, Andrew Goodman-Bacon, and Pedro HC Sant’Anna. “Difference-in-differences with a continuous treatment.” arXiv preprint arXiv:2107.02637 (2021). [multi-valued treatment case]

Ver: https://github.com/bernardodionisi/differences 

OBS: O pacote permite o cálculo de tripla-differença, tratamento para multiplos-valores, 

In [15]:
# Pacotes
import pandas as pd
from differences import ATTgt
import numpy as np

Carregando a base de dados.

In [16]:
data = pd.read_stata("https://github.com/Daniel-Uhr/data/raw/main/bacon_example.dta")

Filtrando e construindo as variáveis necessárias para a estimação.

In [17]:
# Filtragem dos dados
# Vamos criar identificadores estaduais
data['id'] = data['stfips'].astype('category').cat.codes + 1

# Outcome (Suicide Mortality)
data['Y'] = data['asmrs']
# Treatment
data['D'] = data['post']
# Covariáveis - pcinc asmrh cases
data['X1'] = data['pcinc']
data['X2'] = data['asmrh']
data['X3'] = data['cases']

# Vamos criar a variável de grupo CSGroup
data['CSGroup']=data['_nfd']

In [18]:
# O pacote precisa entender a estrutura de painel dos dados. Precisamos ajustar a variável year para int (inteiro)
# Criando clones
data['year1'] = data['year']
data['id1'] = data['id']
data['year1'] = data['year'].astype(int)

# Definir os indices (estrutura de painel)
data.set_index(['id1', 'year1'], inplace=True)

A variável mais importante para utilização desse método é a criação da variável de identificação do ano de inicio do tratamento para cada grupo, que vamos chamar de "CSGroup". Além disso, esse método requer que definamos os índices de identificador de tempo e indivíduo (declarar a estrutura de painel de dados para o sistema - definição dos índices).

In [19]:
tabulacao_data = data['CSGroup'].value_counts().reset_index()
tabulacao_data.columns = ['CSGroup', 'Contagem']
print(tabulacao_data)

    CSGroup  Contagem
0    1973.0       330
1    1971.0       231
2    1977.0        99
3    1972.0        99
4    1974.0        99
5    1970.0        66
6    1969.0        66
7    1975.0        66
8    1984.0        33
9    1980.0        33
10   1976.0        33
11   1985.0        33


Os dados mostram que temos os seguintes grupos:

* 1969 
* 1970 
* 1971 
* 1972 
* 1973 
* 1974 
* 1975 
* 1976 
* 1977 
* 1980 
* 1984 
* 1985

Ou seja, se pensarmos em termos individuais, é como se tivéssemos 12 análises de diferenças em diferenças individuais possíveis. Dessa forma, Callaway e Sant´Anna (2021) seguem ampliam a abordagem de Sant´Anna e Zhao (2020), ao pensar o DD em termos de "blocos de construção" considerando mais períodos de tempo.

Agora, já podemos realizar as estimações. Primeiro vamos indicar o dataframe, e a variável de identificação do grupo de tratamento. Em seguida, vamos realizar a estimação do modelo.

In [20]:
att_gt = ATTgt(data=data, cohort_name="CSGroup")

Agora vamos estimar o modelo. Repare que é possivel definir a fórmula. E também indicar se queremos realizar "dr" o Doubly Robust (logistic propensity score model for the probability of being treated); ou "dr-ipt" (with propensity score estimated using the inverse probability tilting), "reg" (for outcome regression DiD estimator), "std_ipw-mle" (for standardized inverse probability weighted DiD estimator, with logistic propensity score model for the probability of being treated).

In [21]:
att_gt.fit("Y ~ X1 + X2", est_method="dr")

Computing ATTgt [workers=1]     0%|                    | 0/384 [00:00<?, ?it/s]

Computing ATTgt [workers=1]   100%|████████████████████| 384/384 [00:05<00:00, 72.91it/s]


Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,ATTgtResult,ATTgtResult,ATTgtResult,ATTgtResult,ATTgtResult
Unnamed: 0_level_1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,analytic,pointwise conf. band,pointwise conf. band,pointwise conf. band
Unnamed: 0_level_2,Unnamed: 1_level_2,Unnamed: 2_level_2,ATT,std_error,lower,upper,zero_not_in_cband
cohort,base_period,time,Unnamed: 3_level_3,Unnamed: 4_level_3,Unnamed: 5_level_3,Unnamed: 6_level_3,Unnamed: 7_level_3
1969,1964,1965,-4.656233,14.120479,-32.331863,23.019397,
1969,1965,1966,-1.506913,14.872968,-30.657395,27.643569,
1969,1966,1967,11.948504,9.864618,-7.385793,31.282800,
1969,1967,1968,1.311726,4.658177,-7.818132,10.441585,
1969,1968,1969,-0.077442,2.340024,-4.663806,4.508921,
...,...,...,...,...,...,...,...
1985,1984,1992,,,,,
1985,1984,1993,,,,,
1985,1984,1994,,,,,
1985,1984,1995,,,,,


**Agregação Simples (Overall ATT averages)**

Uma ideia que provavelmente virá imediatamente à mente é apenas retornar uma média ponderada de todos os efeitos médios do tratamento no tempo do grupo, **com pesos proporcionais ao tamanho do grupo**. Isso está disponível chamando a aggt-função "simple".

In [22]:
att_gt.aggregate("simple")

Unnamed: 0_level_0,SimpleAggregation,SimpleAggregation,SimpleAggregation,SimpleAggregation,SimpleAggregation
Unnamed: 0_level_1,Unnamed: 1_level_1,analytic,pointwise conf. band,pointwise conf. band,pointwise conf. band
Unnamed: 0_level_2,ATT,std_error,lower,upper,zero_not_in_cband
0,-5.536707,3.104244,-11.620913,0.547499,


Esse tipo de agregação evita imediatamente o problema dos pesos negativos que as regressões de efeitos fixos bidirecionais podem enfrentar, mas muitas vezes pensamos que existem alternativas melhores . Em particular, esta simples agregação tende a sobrecarregar o efeito dos grupos tratados precocemente, simplesmente porque observamos mais deles durante os períodos pós-tratamento. Acreditamos que provavelmente haverá alternativas melhores na maioria das aplicações.

**Efeitos Específicos do Grupo (Cohort)**

Outra ideia é observar os efeitos médios específicos de cada grupo. Também é simples agregar os efeitos médios do tratamento no tempo do grupo em efeitos médios do tratamento específicos do grupo usando o seguinte código:

In [23]:
att_gt.aggregate("cohort")

Unnamed: 0_level_0,CohortAggregation,CohortAggregation,CohortAggregation,CohortAggregation,CohortAggregation
Unnamed: 0_level_1,Unnamed: 1_level_1,analytic,pointwise conf. band,pointwise conf. band,pointwise conf. band
Unnamed: 0_level_2,ATT,std_error,lower,upper,zero_not_in_cband
cohort,Unnamed: 1_level_3,Unnamed: 2_level_3,Unnamed: 3_level_3,Unnamed: 4_level_3,Unnamed: 5_level_3
1969,-3.931717,7.026917,-17.704221,9.840786,
1970,-26.717309,5.770419,-38.027123,-15.407496,*
1971,-10.969619,5.682804,-22.107709,0.168472,
1972,-4.716401,4.467091,-13.471739,4.038936,
1973,-4.356368,5.775027,-15.675212,6.962477,
1974,3.14091,6.427166,-9.456105,15.737924,
1975,0.671068,3.038592,-5.284464,6.626599,
1976,5.590203,3.523138,-1.31502,12.495426,
1977,-2.675442,15.436516,-32.930458,27.579573,
1980,15.110557,1.499109,12.172358,18.048757,*


In [24]:
att_gt.aggregate("cohort", overall=True)

Unnamed: 0_level_0,CohortAggregationOverall,CohortAggregationOverall,CohortAggregationOverall,CohortAggregationOverall,CohortAggregationOverall
Unnamed: 0_level_1,Unnamed: 1_level_1,analytic,pointwise conf. band,pointwise conf. band,pointwise conf. band
Unnamed: 0_level_2,ATT,std_error,lower,upper,zero_not_in_cband
0,-4.92973,3.13293,-11.070161,1.210701,


**Efeito Calendário (Calendar Time Effects)**

para calcular o efeito médio do tratamento em cada "momento de tempo"

In [25]:
att_gt.aggregate("time")

Unnamed: 0_level_0,TimeAggregation,TimeAggregation,TimeAggregation,TimeAggregation,TimeAggregation
Unnamed: 0_level_1,Unnamed: 1_level_1,analytic,pointwise conf. band,pointwise conf. band,pointwise conf. band
Unnamed: 0_level_2,ATT,std_error,lower,upper,zero_not_in_cband
time,Unnamed: 1_level_3,Unnamed: 2_level_3,Unnamed: 3_level_3,Unnamed: 4_level_3,Unnamed: 5_level_3
1969,-0.077442,2.340024,-4.663806,4.508921,
1970,2.396,7.788316,-12.868819,17.660818,
1971,-9.119351,5.366425,-19.637351,1.398648,
1972,-3.764141,4.854532,-13.278849,5.750567,
1973,-7.94341,4.851494,-17.452163,1.565343,
1974,1.628741,3.624439,-5.475029,8.732511,
1975,-6.050235,5.41863,-16.670555,4.570085,
1976,-2.844638,3.508797,-9.721754,4.032477,
1977,-0.760849,4.019133,-8.638204,7.116506,
1978,-9.127478,4.348495,-17.650372,-0.604584,*


In [26]:
att_gt.aggregate("time", overall=True)

Unnamed: 0_level_0,TimeAggregationOverall,TimeAggregationOverall,TimeAggregationOverall,TimeAggregationOverall,TimeAggregationOverall
Unnamed: 0_level_1,Unnamed: 1_level_1,analytic,pointwise conf. band,pointwise conf. band,pointwise conf. band
Unnamed: 0_level_2,ATT,std_error,lower,upper,zero_not_in_cband
0,-5.112943,2.799004,-10.59889,0.373005,


**Efeitos Dinâmicos ou Estudos de Eventos**

Uma das abordagens alternativas mais comuns é agregar os efeitos do tempo do grupo em um gráfico de estudo de eventos. Os efeitos médios do tratamento no tempo de grupo podem ser imediatamente calculados em termos de efeitos médios do tratamento em diferentes durações de exposição ao tratamento usando o seguinte código:

In [27]:
att_gt.aggregate("event")

Unnamed: 0_level_0,EventAggregation,EventAggregation,EventAggregation,EventAggregation,EventAggregation
Unnamed: 0_level_1,Unnamed: 1_level_1,analytic,pointwise conf. band,pointwise conf. band,pointwise conf. band
Unnamed: 0_level_2,ATT,std_error,lower,upper,zero_not_in_cband
relative_period,Unnamed: 1_level_3,Unnamed: 2_level_3,Unnamed: 3_level_3,Unnamed: 4_level_3,Unnamed: 5_level_3
-18,-22.995622,7.680387,-38.048903,-7.94234,*
-17,-6.342212,6.450162,-18.984297,6.299873,
-16,4.001437,5.149154,-6.090719,14.093593,
-15,-6.572504,14.969817,-35.912807,22.767798,
-14,4.176037,4.567096,-4.775305,13.12738,
-13,-8.47288,3.340885,-15.020895,-1.924866,*
-12,2.050217,14.540693,-26.449017,30.549452,
-11,-13.959546,13.823279,-41.052675,13.133584,
-10,11.842761,10.484467,-8.706417,32.391939,
-9,-10.446355,7.29293,-24.740235,3.847524,


In [28]:
att_gt.aggregate("event", overall=True)

Unnamed: 0_level_0,EventAggregationOverall,EventAggregationOverall,EventAggregationOverall,EventAggregationOverall,EventAggregationOverall
Unnamed: 0_level_1,Unnamed: 1_level_1,analytic,pointwise conf. band,pointwise conf. band,pointwise conf. band
Unnamed: 0_level_2,ATT,std_error,lower,upper,zero_not_in_cband
0,-6.320876,3.114717,-12.42561,-0.216143,*


### Aplicação no R

In [3]:
library(did)

# importar os dados para o R diretamenta da internet#
data <- read.csv("https://github.com/Daniel-Uhr/data/raw/main/bacon_example.csv")

In [5]:
out <- att_gt(yname = "Y",
              gname = "CSGroup",
              idname = "id",
              tname = "year",
              xformla = ~ 1 + X1 + X2,
              data = data,
)

"Be aware that there are some small groups in your dataset.
  Check groups: 1969,1970,1972,1974,1975,1976,1977,1980,1984,1985."


"glm.fit: algoritmo não convergiu"
"glm.fit: probabilidades ajustadas numericamente 0 ou 1 ocorreu"
"overlap condition violated for 1970 in time period 1965"
"glm.fit: algoritmo não convergiu"
"glm.fit: probabilidades ajustadas numericamente 0 ou 1 ocorreu"
"overlap condition violated for 1976 in time period 1965"
"glm.fit: algoritmo não convergiu"
"glm.fit: probabilidades ajustadas numericamente 0 ou 1 ocorreu"
"overlap condition violated for 1976 in time period 1967"
"glm.fit: algoritmo não convergiu"
"glm.fit: probabilidades ajustadas numericamente 0 ou 1 ocorreu"
"overlap condition violated for 1976 in time period 1968"
"glm.fit: algoritmo não convergiu"
"glm.fit: probabilidades ajustadas numericamente 0 ou 1 ocorreu"
"overlap condition violated for 1976 in time period 1970"
"glm.fit: algoritmo não convergiu"
"glm.fit: probabilidades ajustadas numericamente 0 ou 1 ocorreu"
"overlap condition violated for 1976 in time period 1972"
"glm.fit: algoritmo não convergiu"
"glm.fit: probabi

In [6]:
summary(out)


Call:
att_gt(yname = "Y", tname = "year", idname = "id", gname = "CSGroup", 
    xformla = ~1 + X1 + X2, data = data)

Reference: Callaway, Brantly and Pedro H.C. Sant'Anna.  "Difference-in-Differences with Multiple Time Periods." Journal of Econometrics, Vol. 225, No. 2, pp. 200-230, 2021. <https://doi.org/10.1016/j.jeconom.2020.12.001>, <https://arxiv.org/abs/1803.09015> 

Group-Time Average Treatment Effects:
 Group Time ATT(g,t) Std. Error [95% Simult.  Conf. Band]  
  1969 1965  -4.6562    14.2137      -72.8047     63.4922  
  1969 1966  -1.5069    14.2818      -69.9817     66.9678  
  1969 1967  11.9485    10.0553      -36.2624     60.1595  
  1969 1968   1.3117     4.7230      -21.3330     23.9564  
  1969 1969  -0.0774     2.3690      -11.4358     11.2809  
  1969 1970  -5.5298    10.3225      -55.0215     43.9619  
  1969 1971  -9.2883     9.8624      -56.5742     37.9976  
  1969 1972   0.0651     3.4437      -16.4462     16.5763  
  1969 1973   3.0329    15.1783      -69.74

In [7]:
es <- aggte(out, type = "dynamic", na.rm = TRUE)
summary(es)



Call:
aggte(MP = out, type = "dynamic", na.rm = TRUE)

Reference: Callaway, Brantly and Pedro H.C. Sant'Anna.  "Difference-in-Differences with Multiple Time Periods." Journal of Econometrics, Vol. 225, No. 2, pp. 200-230, 2021. <https://doi.org/10.1016/j.jeconom.2020.12.001>, <https://arxiv.org/abs/1803.09015> 


Overall summary of ATT's based on event-study/dynamic aggregation:  
     ATT    Std. Error     [ 95%  Conf. Int.]  
 -6.3209        3.1215   -12.4389     -0.2029 *


Dynamic Effects:
 Event time Estimate Std. Error [95% Simult.  Conf. Band] 
        -18 -22.9956     8.9519      -68.7002     22.7090 
        -17  -6.3422     7.6340      -45.3184     32.6340 
        -16   4.0014     5.1237      -22.1579     30.1608 
        -15  -6.5725    15.3876      -85.1355     71.9905 
        -14   4.1760     5.2478      -22.6173     30.9694 
        -13  -8.4729     3.8461      -28.1093     11.1635 
        -12   2.0502    14.9971      -74.5186     78.6191 
        -11 -13.9595    15.4

In [8]:
group_effects <- aggte(out, type = "group", na.rm = TRUE)
summary(group_effects)


Call:
aggte(MP = out, type = "group", na.rm = TRUE)

Reference: Callaway, Brantly and Pedro H.C. Sant'Anna.  "Difference-in-Differences with Multiple Time Periods." Journal of Econometrics, Vol. 225, No. 2, pp. 200-230, 2021. <https://doi.org/10.1016/j.jeconom.2020.12.001>, <https://arxiv.org/abs/1803.09015> 


Overall summary of ATT's based on group/cohort aggregation:  
     ATT    Std. Error     [ 95%  Conf. Int.] 
 -4.9297        3.1175   -11.0399      1.1804 


Group Effects:
 Group Estimate Std. Error [95% Simult.  Conf. Band]  
  1969  -3.9317     7.2477      -20.3230     12.4596  
  1970 -26.7173     5.8714      -39.9960    -13.4387 *
  1971 -10.9696     5.9140      -24.3446      2.4054  
  1972  -4.7164     4.4835      -14.8562      5.4234  
  1973  -4.3564     5.6513      -17.1373      8.4246  
  1974   3.1409     6.9308      -12.5337     18.8155  
  1975   0.6711     3.1098       -6.3620      7.7042  
  1976   5.5902     3.9846       -3.4214     14.6018  
  1977  -2.6754   

## Literatura Relacionada

* Brewer, Crossley, and Joyce (2017), “Inferência com Diferenças em Diferenças Revisitada,” JEM
  * "Uma literatura em crescimento sobre inferência em designs de diferenças em diferenças (DiD) tem sido pessimista sobre a obtenção de testes de hipóteses do tamanho correto, particularmente com poucos grupos. Fornecemos evidências de Monte Carlo para quatro pontos: (i) é possível obter testes do tamanho correto mesmo com poucos grupos, e em muitas situações métodos muito diretos alcançarão isso; (ii) o principal problema em designs DiD com erros agrupados é, em vez disso, a baixa potência para detectar efeitos reais; (iii) a estimativa GLS viável combinada com inferência robusta pode aumentar consideravelmente a potência mantendo o tamanho do teste correto novamente, mesmo com poucos grupos, e (iv) usar OLS com inferência robusta pode levar a uma relação perversa entre potência e duração do painel."

* de Chaisemartin and d’Haultfoeuille (2018), “Fuzzy Differences-in-Differences,” REStud
  * "Diferenças em Diferenças (DID) é um método para avaliar o efeito de um tratamento. Em sua versão básica, um grupo de controle não é tratado em duas datas, enquanto um grupo de tratamento se torna completamente tratado na segunda data. No entanto, em muitas aplicações do método DID, a taxa de tratamento aumenta apenas no grupo de tratamento. Em tais designs "nebulosos", um estimador popular do efeito do tratamento é o DID do resultado dividido pelo DID do tratamento. Mostramos que essa razão identifica um efeito médio local do tratamento apenas se o efeito do tratamento for estável ao longo do tempo e se o efeito do tratamento for o mesmo no grupo de tratamento e no grupo de controle. Propomos então dois estimandos alternativos que não dependem de nenhuma suposição sobre os efeitos do tratamento e que podem ser usados quando a taxa de tratamento não muda ao longo do tempo no grupo de controle. Provamos que os estimadores correspondentes são assintoticamente normais. Finalmente, usamos nossos resultados para reavaliar os retornos à educação na Indonésia."

* Ferman e Pinto (2019), “Inference in Differences-in-Differences with Few Treated Groups and Heteroskedasticity,” REStat
  * "Nós desenvolvemos um método de inferência que funciona em configurações de diferenças em diferenças com poucos grupos tratados e muitos grupos de controle na presença de heteroscedasticidade. Como exemplo principal, fornecemos justificativa teórica e evidências empíricas de que a heteroscedasticidade gerada pela variação nos tamanhos dos grupos pode invalidar métodos de inferência existentes, mesmo em conjuntos de dados com um grande número de observações por grupo. Em contraste, nosso método de inferência permanece válido nesse caso. Nosso teste também pode ser combinado com quadrados mínimos generalizados viáveis, fornecendo uma proteção contra a especificação incorreta da correlação serial."

* Marcus and Sant’Anna (2020), “The Role of Parallel Trends in Event Study Settings: An Application to Environmental Economics,” JAERE
  * "Os projetos de pesquisa de Diferenças em Diferenças (DID) geralmente dependem da variação no momento do tratamento de forma que, após fazer uma suposição apropriada de tendências paralelas, seja possível identificar, estimar e fazer inferências sobre os efeitos causais. Na prática, no entanto, diferentes procedimentos de DID dependem de diferentes suposições de tendências paralelas (PTA) e recuperam diferentes parâmetros causais. Neste artigo, focamos no DID escalonado (também conhecido como estudos de evento) e discutimos o papel desempenhado pela PTA em termos de identificação e estimação de parâmetros causais. Documentamos um “trade-off” entre “robustez” e “eficiência” em termos da força da PTA subjacente e argumentamos que os praticantes devem ser explícitos sobre esses trade-offs sempre que usarem procedimentos de DID. Propomos novos estimadores de DID que refletem esses trade-offs e derivamos suas propriedades em amostras grandes. Ilustramos a relevância prática desses resultados avaliando se a transição da gestão federal para estadual da Lei de Água Limpa afeta as taxas de conformidade."

* Sant´Anna, Pedro HC, and Jun Zhao. “Doubly robust difference-in-differences estimators.” Journal of Econometrics 219, no. 1 (2020): 101-122.
  * "Este artigo propõe estimadores duplamente robustos para o efeito médio do tratamento nos tratados (ATT) em designs de pesquisa de diferenças em diferenças (DID). Em contraste com estimadores DID alternativos, os estimadores propostos são consistentes se, e somente se, um (mas não necessariamente ambos) escore de propensão ou modelos de regressão de resultado estiverem corretamente especificados. Também derivamos o limite de eficiência semiparamétrico para o ATT em designs de DID quando dados de painel ou de seções transversais repetidas estão disponíveis e mostramos que nossos estimadores propostos alcançam o limite de eficiência semiparamétrica quando os modelos de trabalho estão corretamente especificados. Além disso, quantificamos os potenciais ganhos de eficiência de ter acesso a dados de painel em vez de dados de seção transversal repetidos. Finalmente, ao prestar atenção especial ao método de estimação usado para estimar os parâmetros de incômodo, mostramos que às vezes é possível construir estimadores DID duplamente robustos para o ATT que também são duplamente robustos para inferência. Estudos de simulação e uma aplicação empírica ilustram o desempenho desejável em amostras finitas dos estimadores propostos. Software de código aberto para implementar as ferramentas de avaliação de políticas propostas está disponível."

* Arkhangelsky, Athey, Hirshberg, Imbens, and Wager (2021), “Synthetic Difference in Differences,” American Economic Review
  * "Apresentamos um novo estimador para efeitos causais com dados em painel que se baseia nos insights por trás dos métodos amplamente utilizados de diferença em diferenças e controle sintético. Em relação a esses métodos, encontramos, tanto teoricamente quanto empiricamente, que o estimador proposto de diferença em diferenças sintético possui propriedades de robustez desejáveis e que ele se comporta bem em configurações onde os estimadores convencionais são comumente usados na prática. Estudamos o comportamento assintótico do estimador quando a parte sistemática do modelo de resultado inclui fatores de unidade latentes interagidos com fatores de tempo latentes, e apresentamos condições para consistência e normalidade assintótica."

* Wooldridge (2021), “Two-Way Fixed Effects, the Two-Way Mundlak Regression, and Difference-in-Differences Estimators,” WP
  * "Estabeleço a equivalência entre o estimador de efeitos fixos de duas vias (TWFE) e um estimador obtido a partir de uma regressão de mínimos quadrados ordinários agrupados que inclui médias temporais específicas da unidade e médias transversais específicas do período, que chamo de regressão Mundlak de duas vias (TWM). Essa equivalência amplia nossa compreensão da anatomia do TWFE e tem várias aplicações. A equivalência entre TWFE e TWM implica que vários estimadores usados para análise de intervenção - com um tempo de entrada comum no tratamento ou entrada escalonada, com ou sem covariáveis - podem ser calculados usando regressões TWFE ou OLS agrupadas que controlam para intensidades de tratamento constantes no tempo, covariáveis e interações entre eles. A abordagem permite considerável heterogeneidade nos efeitos do tratamento em intensidade de tratamento, tempo calendário e covariáveis. A equivalência implica que estratégias padrão para tendências heterogêneas estão disponíveis para relaxar a suposição de tendências comuns. Além disso, a regressão Mundlak de duas vias é facilmente adaptada a modelos não lineares, como modelos exponenciais e modelos logit e probit."

* Caetano, Callaway, Stroud, and Sant’Anna Rodrigues (2022), “Difference in Differences with Time-Varying Covariates,” WP
  * "Este artigo considera a identificação e estimação de parâmetros de efeito causal da participação em um tratamento binário em uma configuração de diferenças em diferenças (DID) quando a suposição de tendências paralelas se mantém após o condicionamento em covariáveis observadas. Em relação ao trabalho existente na literatura econométrica, consideramos o caso em que o valor das covariáveis pode mudar ao longo do tempo e, potencialmente, onde a participação no tratamento pode afetar as próprias covariáveis. Propomos novas estratégias empíricas em ambos os casos. Também consideramos regressões de efeitos fixos de duas vias (TWFE) que incluem regressores variáveis no tempo, que é a forma mais comum que as estratégias de identificação de DID são implementadas sob tendências paralelas condicionais. Mostramos que, mesmo no caso com apenas dois períodos de tempo, essas regressões TWFE geralmente não são robustas a: (i) covariáveis variáveis no tempo sendo afetadas pelo tratamento, (ii) efeitos do tratamento e/ou caminhos de resultados potenciais não tratados dependendo do nível das covariáveis variáveis no tempo além apenas da mudança nas covariáveis ao longo do tempo, (iii) efeitos do tratamento e/ou caminhos de resultados potenciais não tratados dependendo de covariáveis invariantes no tempo, (iv) heterogeneidade de efeitos do tratamento em relação a covariáveis observadas, e (v) violações de fortes suposições de forma funcional, tanto para resultados ao longo do tempo quanto para o escore de propensão, que são improváveis de serem plausíveis na maioria das aplicações de DID. Assim, as regressões TWFE podem fornecer estimativas enganosas de parâmetros de efeito causal em vários casos empiricamente relevantes. Propomos tanto estimandos duplamente robustos quanto estratégias de ajuste/regressão de imputação que são robustas a esses problemas sem serem substancialmente mais desafiadoras de implementar."

* de Chaisemartin and d’Haultfoeuille (2023) Difference-in-Differences Estimators of Intertemporal Treatment Effects, arXiv:2007.04267
  * Estudamos a estimação de efeitos do tratamento usando dados de painel. O tratamento pode ser não binário, não absorvente, e o resultado pode ser afetado por defasagens do tratamento. Fazemos uma suposição de tendências paralelas e propomos estimadores de estudo de eventos do efeito de estar exposto a uma dose de tratamento levemente maior por ℓ períodos. Também propomos estimadores normalizados, que estimam uma média ponderada dos efeitos do tratamento atual e suas defasagens. Também analisamos regressões de efeitos fixos de duas vias comumente utilizadas. Ao contrário de nossos estimadores, eles podem ser tendenciosos na presença de efeitos de tratamento heterogêneos. Uma versão de projeção local dessas regressões é tendenciosa mesmo com efeitos homogêneos.

* de Chaisemartin, d’Haultfoeuille, Pasquier, Vasquez-Bare (2023) Difference-in-Differences for Continuous Treatments and Instruments with Stayers
  * Propomos estimadores de diferenças em diferenças para tratamentos contínuos com efeitos heterogêneos. Assumimos que entre períodos consecutivos, o tratamento de algumas unidades, os trocadores, muda, enquanto o tratamento de outras unidades não muda. Mostramos que, sob uma suposição de tendências paralelas, é possível estimar a média não ponderada e ponderada dos declives dos resultados potenciais dos trocadores. Enquanto o primeiro parâmetro pode ser mais intuitivo, o último pode ser usado para análise de custo-benefício e geralmente pode ser estimado com mais precisão. Generalizamos nossos estimadores para o caso de variáveis instrumentais. Usamos nossos resultados para estimar a elasticidade-preço do consumo de gasolina.

* Callaway, Bacon, Sant´Anna (2024) - Difference-in-Differences with a Continuous Treatment
  * Este artigo analisa configurações de diferenças em diferenças com um tratamento contínuo. Mostramos que os parâmetros do tipo efeito do tratamento nos tratados podem ser identificados sob uma suposição generalizada de tendências paralelas que é semelhante à configuração de tratamento binário. No entanto, interpretar as diferenças desses parâmetros entre diferentes valores do tratamento pode ser particularmente desafiador devido ao viés de seleção que não é descartado pela suposição de tendências paralelas. Discutimos alternativas, geralmente mais fortes, que aliviam esses desafios. Também fornecemos uma variedade de resultados de decomposição do efeito do tratamento, destacando que os parâmetros associados às especificações populares de efeitos fixos de duas vias lineares podem ser difíceis de interpretar, mesmo quando há apenas dois períodos de tempo. Introduzimos procedimentos de estimação alternativos que não sofrem dessas desvantagens dos TWFEs e mostramos em uma aplicação que eles podem levar a conclusões diferentes.

**Desenvolvimentos Adicionais**

* Butts (2021), “Difference-in-Differences Estimation with Spatial Spillovers,” WP
  * "O trabalho empírico frequentemente utiliza tratamento atribuído seguindo fronteiras geográficas. Quando os efeitos do tratamento ultrapassam as fronteiras, a estimativa clássica de diferenças em diferenças produz estimativas tendenciosas para o efeito médio do tratamento. Neste artigo, eu introduzo um framework de resultados potenciais para modelar os efeitos de transbordamento e decompor o viés da estimativa em duas partes: (1) o grupo de controle não identifica mais a tendência contrafactual porque seus resultados são afetados pelo tratamento e (2) mudanças nos resultados das unidades tratadas refletem o efeito do próprio status de tratamento e o efeito do status de tratamento das unidades "próximas". Proponho estratégias de estimação que podem remover ambas as fontes de viés e estimar semi-parametricamente os próprios efeitos de transbordamento. Estendo o trabalho de Callaway e Sant'Anna (2020) para permitir estimativas de estudos de eventos que controlam para transbordamentos. Para destacar a importância dos efeitos de transbordamento, revisito análises de três intervenções baseadas em localização."

* Roth (2022), “Pre-Test with Caution: Event-Study Estimates after Testing for Parallel Trends,” AER I
  * "Este artigo discute duas limitações importantes da prática comum de testar diferenças pré-existentes nas tendências ("pré-tendências") ao usar diferenças em diferenças e métodos relacionados. Primeiro, os testes de pré-tendências convencionais podem ter baixo poder. Em segundo lugar, condicionar a análise no resultado de um pré-teste pode distorcer a estimação e inferência, potencialmente exacerbando o viés das estimativas pontuais e a subcobertura dos intervalos de confiança. Analiso essas questões tanto em teoria quanto em simulações calibradas a uma pesquisa de trabalhos recentes em revistas econômicas líderes, que sugerem que essas limitações são importantes na prática. Concluo com recomendações práticas para mitigar essas questões."ER I

* Roth and Sant’Anna (2022), “When Is Parallel Trends Sensitive to Functional Form?,” ECMA
  * "Este artigo avalia quando a validade das diferenças em diferenças depende da forma funcional. Fornecemos uma caracterização inovadora: a suposição de tendências paralelas se mantém sob todas as transformações estritamente monótonas do resultado se e somente se uma condição mais forte do tipo 'tendências paralelas' se mantiver para a função de distribuição cumulativa dos resultados potenciais não tratados. Essa condição para as tendências paralelas serem insensíveis à forma funcional é satisfeita se e basicamente apenas se a população puder ser dividida em um subgrupo para o qual o tratamento é efetivamente atribuído aleatoriamente e um subgrupo restante para o qual a distribuição dos resultados potenciais não tratados é estável ao longo do tempo. Essas condições têm implicações testáveis, e introduzimos testes de falsificação para a hipótese nula de que as tendências paralelas são insensíveis à forma funcional."

* Roth and Sant’Anna (2022), “Efficient Estimation for Staggered Rollout Designs,” WP
  * "Este artigo estuda a estimação eficiente de efeitos causais quando o tratamento é (quase) aleatoriamente implementado em unidades em diferentes momentos no tempo. Resolvemos para o estimador mais eficiente em uma classe de estimadores que inclui modelos de efeitos fixos de duas vias e outros métodos populares de diferenças generalizadas em diferenças. Uma versão viável do estimador eficiente é assintoticamente não viesada com eficiência (fracamente) dominante em relação às abordagens existentes. Fornecemos métodos de inferência baseados tanto em t quanto em teste de permutação. Ilustramos o desempenho do estimador eficiente em simulações e em uma aplicação ao estudo de Wood et al (2020) sobre a implementação escalonada de um programa de treinamento em justiça processual para policiais. Descobrimos que os intervalos de confiança baseados no estimador eficiente têm boa cobertura e podem ser até oito vezes mais curtos do que os intervalos de confiança baseados em métodos existentes de ponta. Como contribuição empírica de interesse independente, nossa aplicação fornece as estimativas mais precisas até o momento sobre a eficácia de programas de treinamento em justiça processual para policiais."

* Sun and Shapiro (2022), “Linear Panel Model with Heterogeneous Coefficients and Variation in Exposure,” NBER WP
  * "Modelos lineares de painel com efeitos fixos de unidade e tempo aparecem em muitas áreas da economia empírica. Uma literatura ativa estuda a interpretação do estimador de mínimos quadrados ordinários do modelo, comumente chamado de estimador de efeitos fixos de duas vias (TWFE), na presença de heterogeneidade de coeficientes não modelada. Ilustramos algumas implicações para o caso em que o desenho de pesquisa aproveita a variação entre unidades (digamos, estados dos EUA) na exposição a algum tratamento (digamos, uma mudança de política). Neste caso, o TWFE pode falhar em estimar a média (ou mesmo uma média ponderada) dos coeficientes das unidades. Sob algumas condições, não existe nenhum estimador garantido para estimar mesmo uma média ponderada. Baseando-nos na literatura, observamos que quando existe uma unidade totalmente não afetada pelo tratamento, é possível estimar um efeito médio substituindo o TWFE por uma média dos estimadores de diferenças em diferenças."


