O método Diferença-em-Diferenças (DiD) é uma técnica estatística utilizada em econometria e pesquisa social para estimar o efeito causal de uma intervenção, tratamento ou política, comparando as mudanças ao longo do tempo entre um grupo de tratamento que recebe a intervenção e um grupo de controle que não a recebe. Essencialmente, o DiD compara a diferença nas médias entre os dois grupos antes e depois da intervenção.

**Passos Básicos do Método DiD:**

1. **Identificação dos Grupos:**
   - Grupo de Tratamento (ou experimental): Recebe a intervenção.
   - Grupo de Controle: Não recebe a intervenção.

2. **Observação ao Longo do Tempo:**
   - Os dados são coletados em dois momentos no tempo: antes e depois da intervenção.

3. **Cálculo das Diferenças:**
   - Calcula-se a diferença nas médias entre o grupo de tratamento e o grupo de controle antes e depois da intervenção.

4. **Diferença nas Diferenças:**
   - A diferença nas diferenças é obtida subtraindo a mudança no grupo de controle da mudança no grupo de tratamento.

5. **Teste de Significância:**
   - Realiza-se testes estatísticos para avaliar se a diferença nas diferenças é estatisticamente significativa.

**Exemplo Numérico:**

Vamos considerar um estudo sobre o impacto de um programa de treinamento de habilidades em um grupo de trabalhadores. O salário médio é medido antes e depois do programa.

- Grupo de Tratamento (TG): Trabalhadores que participaram do programa.
- Grupo de Controle (CG): Trabalhadores que não participaram do programa.

|         | Pré-Intervenção | Pós-Intervenção |
|---------|------------------|------------------|
| TG      | $30,000          | $35,000          |
| CG      | $28,000          | $29,000          |

**Exemplo em Python:**

In [None]:
import pandas as pd
import statsmodels.api as sm

# Criando um DataFrame com os dados
data = {'Name': ['Miguel', 'Júlia', 'Davi', 'Sophia', 'Gabriel', 'Isabella', 'Arthur', 'Manuela', 'Lucas', 'Giovana'],
        'y': [40, 80, 20, 100, 30, 0, 60, 40, 60, 90],
        'D_Tr': [0, 1, 0, 1, 0, 1, 0, 1, 0, 0],
        'D_Post': [0, 1, 0, 1, 0, 0, 1, 0, 1, 1]}

df = pd.DataFrame(data)
df.head(10)

Unnamed: 0,Name,y,D_Tr,D_Post
0,Miguel,40,0,0
1,Júlia,80,1,1
2,Davi,20,0,0
3,Sophia,100,1,1
4,Gabriel,30,0,0
5,Isabella,0,1,0
6,Arthur,60,0,1
7,Manuela,40,1,0
8,Lucas,60,0,1
9,Giovana,90,0,1


In [None]:
# # Criando variáveis dummy para os grupos e o período pós-intervenção
# df['grupo_dummy'] = df['grupo'].apply(lambda x: 1 if x == 'TG' else 0)
# df['pos_intervencao'] = df['intervencao'].apply(lambda x: 1 if x == 'Depois' else 0)

# Criando a variável de interação
df['grupo_pos_interacao'] = df['D_Post'] * df['D_Tr']

# Ajustando o modelo de diferença-em-diferenças
model = sm.OLS(df['y'], sm.add_constant(df[['D_Post', 'D_Tr', 'grupo_pos_interacao']]))
result = model.fit()

# Imprimindo os resultados
print(result.summary())

                            OLS Regression Results                            
Dep. Variable:                      y   R-squared:                       0.803
Model:                            OLS   Adj. R-squared:                  0.705
Method:                 Least Squares   F-statistic:                     8.178
Date:                Fri, 10 Nov 2023   Prob (F-statistic):             0.0153
Time:                        13:35:51   Log-Likelihood:                -40.154
No. Observations:                  10   AIC:                             88.31
Df Residuals:                       6   BIC:                             89.52
Df Model:                           3                                         
Covariance Type:            nonrobust                                         
                          coef    std err          t      P>|t|      [0.025      0.975]
---------------------------------------------------------------------------------------
const                  30.0000    




Este exemplo usa a biblioteca `statsmodels` para realizar uma regressão de diferença-em-diferenças. A variável de interesse é o salário, e o modelo inclui termos para o grupo, o período pós-intervenção e a interação entre grupo e período pós-intervenção. O coeficiente associado à interação é a estimativa da diferença nas diferenças.

# Exercício

Considere o conjunto de dados fornecido a seguir. Sua tarefa é executar a técnica DiD sobre esses dados. Para isso, implemente os passos a seguir. Na implementação desses passos, tome como base o exemplo fornecido no início deste notebook.

- Etapa 1: Crie uma variável dummy para indicar o momento em que o tratamento começou. Vamos supor que o tratamento tenha começado em 1994. Nesse caso, os anos anteriores a 1994 terão um valor de 0 e 1994+ um 1.

- Etapa 2: Crie uma variável dummy para identificar o grupo exposto ao tratamento. Neste exemplo, vamos supor que os países com código 5, 6 e 7 foram tratados (=1). Os países 1-4 não foram tratados (=0).

- Etapa 3: Crie uma interação entre o tempo e o tratamento. Chame coluna de interação de 'did'.

- Etapa 4: Compute o estimador DID (use o statsmodels)

- Etapa 5: Interprete o resultado.

# Solução

In [None]:
import pandas as pd

df_panel101 = pd.read_stata("Panel101.dta")
df_panel101.head()

Unnamed: 0,country,year,y,y_bin,x1,x2,x3,opinion,op
0,A,1990,1342788000.0,1.0,0.277904,-1.107956,0.282554,Str agree,1.0
1,A,1991,-1899661000.0,0.0,0.320685,-0.94872,0.492538,Disag,0.0
2,A,1992,-11234360.0,0.0,0.363466,-0.789484,0.702523,Disag,0.0
3,A,1993,2645775000.0,1.0,0.246144,-0.885533,-0.094391,Disag,0.0
4,A,1994,3008335000.0,1.0,0.424623,-0.729768,0.946131,Disag,0.0


In [None]:
df_panel101.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 70 entries, 0 to 69
Data columns (total 11 columns):
 #   Column   Non-Null Count  Dtype   
---  ------   --------------  -----   
 0   country  70 non-null     category
 1   year     70 non-null     int16   
 2   y        70 non-null     float64 
 3   y_bin    70 non-null     float32 
 4   x1       70 non-null     float32 
 5   x2       70 non-null     float32 
 6   x3       70 non-null     float32 
 7   opinion  70 non-null     category
 8   op       70 non-null     float32 
 9   time     70 non-null     category
 10  treated  70 non-null     int64   
dtypes: category(3), float32(5), float64(1), int16(1), int64(1)
memory usage: 4.0 KB


In [None]:
import pandas as pd
import numpy as np
import statsmodels.api as sm

df_panel101['time'] = pd.cut(df_panel101['year'], [-np.inf, 1994, np.inf], labels=[0, 1])

df_panel101['treated'] = df_panel101['country'].isin(['E', 'F', 'G']).astype(int)

df_panel101['did'] = df_panel101['time'].astype(int) * df_panel101['treated']

df_panel101.tail()

Unnamed: 0,country,year,y,y_bin,x1,x2,x3,opinion,op,time,treated,did
65,G,1995,1323696000.0,1.0,1.087186,-1.409817,2.829808,Str disag,0.0,1,1,1
66,G,1996,254524200.0,1.0,0.781075,-1.328,4.278224,Str agree,1.0,1,1,1
67,G,1997,3297033000.0,1.0,1.257879,-1.577367,4.587326,Disag,0.0,1,1,1
68,G,1998,3011821000.0,1.0,1.242777,-1.601218,6.113762,Disag,0.0,1,1,1
69,G,1999,3296283000.0,1.0,1.2342,-1.621761,7.168922,Disag,0.0,1,1,1


In [None]:
model = sm.OLS(df_panel101['y'], sm.add_constant(df_panel101[['time', 'treated', 'did']]))
result = model.fit()
print(result.summary())

                            OLS Regression Results                            
Dep. Variable:                      y   R-squared:                       0.045
Model:                            OLS   Adj. R-squared:                  0.002
Method:                 Least Squares   F-statistic:                     1.040
Date:                Fri, 17 Nov 2023   Prob (F-statistic):              0.381
Time:                        21:08:55   Log-Likelihood:                -1625.1
No. Observations:                  70   AIC:                             3258.
Df Residuals:                      66   BIC:                             3267.
Df Model:                           3                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const        1.01e+09   6.74e+08      1.499      0.1

# Técnicas para validação

A validade da abordagem diferença-em-diferenças baseia-se na suposição de **tendências iguais** (*equal trends*). De acordo com essa suposição,  na ausência do programa, não existiriam diferenças variáveis ​​no tempo entre os grupos de tratamento e de controle. Embora esta suposição não possa ser provada, sua validade pode ser validada de quatro maneiras:

1. Comparar repetidamente as mudanças nos resultados dos grupos de tratamento e controle antes de o programa ser implementado (ou seja, em t-3, t-2, t-1). Se a tendência dos resultados se mover em paralelo antes do início do programa, provavelmente teria continuado a mover-se em conjunto na ausência do programa.

2. Fazer um teste de placebo usando um grupo de tratamento falso. O grupo de tratamento falso deveria ser um grupo que não foi afetado pelo programa. Um teste placebo que revela impacto zero apoia a suposição de tendência igual.

3. Fazer um teste de placebo usando um resultado falso. Um teste placebo que revela impacto zero apoia a suposição de tendência igual.

4. Executar a estimativa de diferenças em diferenças usando diferentes grupos de comparação. Estimativas semelhantes do impacto do programa confirmam a suposição de tendência igual.

In [1]:
import pandas as pd

df_panel101 = pd.read_stata("AEJfigs.dta")
df_panel101.head()

Unnamed: 0,agecell,all,allfitted,internal,internalfitted,external,externalfitted,alcohol,alcoholfitted,homicide,homicidefitted,suicide,suicidefitted,mva,mvafitted,drugs,drugsfitted,externalother,externalotherfitted
0,19.068493,92.825401,91.706146,16.61759,16.738131,76.207817,74.96801,0.639138,0.794344,16.316818,16.284573,11.203714,11.5921,35.829327,34.81778,3.872425,3.448835,8.534373,8.388236
1,19.150684,95.100739,91.88372,18.327684,16.920654,76.773056,74.963066,0.677409,0.837575,16.859964,16.270697,12.193368,11.593611,35.639256,34.633888,3.236511,3.470022,8.655786,8.530174
2,19.232876,92.144295,92.049065,18.911053,17.098843,73.233238,74.950226,0.866443,0.877835,15.219254,16.262882,11.715812,11.595129,34.20565,34.446735,3.202071,3.492069,8.513741,8.662681
3,19.315069,88.427757,92.202141,16.10177,17.27268,72.325981,74.929466,0.867308,0.915115,16.742825,16.261148,11.27501,11.596655,32.278957,34.256302,3.280689,3.51498,8.258285,8.785728
4,19.397261,88.704941,92.342918,17.36352,17.442156,71.341415,74.900757,1.019163,0.949407,14.947726,16.265511,10.984314,11.598189,32.650967,34.062588,3.548198,3.538755,8.417533,8.899288


In [2]:
df_panel101.shape

(50, 19)

In [4]:
pip install ISLP

Collecting ISLP
  Downloading ISLP-0.3.21-py3-none-any.whl (3.6 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m3.6/3.6 MB[0m [31m30.0 MB/s[0m eta [36m0:00:00[0m
Collecting lifelines (from ISLP)
  Downloading lifelines-0.27.8-py3-none-any.whl (350 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m350.7/350.7 kB[0m [31m31.2 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting pygam (from ISLP)
  Downloading pygam-0.9.0-py3-none-any.whl (522 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m522.2/522.2 kB[0m [31m42.8 MB/s[0m eta [36m0:00:00[0m
Collecting pytorch-lightning (from ISLP)
  Downloading pytorch_lightning-2.1.2-py3-none-any.whl (776 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m776.9/776.9 kB[0m [31m44.6 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting torchmetrics (from ISLP)
  Downloading torchmetrics-1.2.0-py3-none-any.whl (805 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [

In [1]:
from ISLP import load_data
Auto = load_data('Auto')
Auto.columns

Index(['mpg', 'cylinders', 'displacement', 'horsepower', 'weight',
       'acceleration', 'year', 'origin', 'name'],
      dtype='object')

In [3]:
Auto.to_csv("Auto.csv")

In [4]:
import pandas as pd
df = pd.read_csv("card_krueger_1994_mod.csv")
df.head()

Unnamed: 0.1,Unnamed: 0,bonus,chain,co_owned,date,empft,emppt,firstinc,hrsopen,inctime,...,psoda,region,sheet,special,state,status,type,wage_st,emptot,pct_fte
0,1,yes,bk,no,,30.0,15.0,,16.5,19.0,...,1.03,phillypa,46,,Pennsylvania,,,,40.5,74.074074
1,2,no,kfc,no,,6.5,6.5,,13.0,26.0,...,1.01,phillypa,49,,Pennsylvania,,,,13.75,47.272727
2,3,no,kfc,yes,,3.0,7.0,0.37,10.0,13.0,...,0.95,phillypa,506,,Pennsylvania,,,,8.5,35.294118
3,4,yes,wendys,yes,,20.0,20.0,0.1,12.0,26.0,...,0.87,phillypa,56,,Pennsylvania,,,5.0,34.0,58.823529
4,5,yes,wendys,yes,,6.0,26.0,0.15,12.0,52.0,...,0.87,phillypa,61,,Pennsylvania,,,5.5,24.0,25.0
