O método Diferença-em-Diferenças (DiD) é uma técnica estatística utilizada em econometria e pesquisa social para estimar o efeito causal de uma intervenção, tratamento ou política, comparando as mudanças ao longo do tempo entre um grupo de tratamento que recebe a intervenção e um grupo de controle que não a recebe. Essencialmente, o DiD compara a diferença nas médias entre os dois grupos antes e depois da intervenção.

**Passos Básicos do Método DiD:**

1. **Identificação dos Grupos:**
   - Grupo de Tratamento (ou experimental): Recebe a intervenção.
   - Grupo de Controle: Não recebe a intervenção.

2. **Observação ao Longo do Tempo:**
   - Os dados são coletados em dois momentos no tempo: antes e depois da intervenção.

3. **Cálculo das Diferenças:**
   - Calcula-se a diferença nas médias entre o grupo de tratamento e o grupo de controle antes e depois da intervenção.

4. **Diferença nas Diferenças:**
   - A diferença nas diferenças é obtida subtraindo a mudança no grupo de controle da mudança no grupo de tratamento.

5. **Teste de Significância:**
   - Realiza-se testes estatísticos para avaliar se a diferença nas diferenças é estatisticamente significativa.

**Exemplo Numérico:**

Vamos considerar um estudo sobre o impacto de um programa de treinamento de habilidades em um grupo de trabalhadores. O salário médio é medido antes e depois do programa.

- Grupo de Tratamento (TG): Trabalhadores que participaram do programa.
- Grupo de Controle (CG): Trabalhadores que não participaram do programa.

|         | Pré-Intervenção | Pós-Intervenção |
|---------|------------------|------------------|
| TG      | $30,000          | $35,000          |
| CG      | $28,000          | $29,000          |

**Exemplo em Python:**

In [6]:
import pandas as pd
import statsmodels.api as sm

# Criando um DataFrame com os dados
data = {'Name': ['Miguel', 'Júlia', 'Davi', 'Sophia', 'Gabriel', 'Isabella', 'Arthur', 'Manuela', 'Lucas', 'Giovana'],
        'y': [40, 80, 20, 100, 30, 0, 60, 40, 60, 90],
        'D_Tr': [0, 1, 0, 1, 0, 1, 0, 1, 0, 0],
        'D_Post': [0, 1, 0, 1, 0, 0, 1, 0, 1, 1]}

df = pd.DataFrame(data)
df.head(10)

Unnamed: 0,Name,y,D_Tr,D_Post
0,Miguel,40,0,0
1,Júlia,80,1,1
2,Davi,20,0,0
3,Sophia,100,1,1
4,Gabriel,30,0,0
5,Isabella,0,1,0
6,Arthur,60,0,1
7,Manuela,40,1,0
8,Lucas,60,0,1
9,Giovana,90,0,1


In [3]:
# # Criando variáveis dummy para os grupos e o período pós-intervenção
# df['grupo_dummy'] = df['grupo'].apply(lambda x: 1 if x == 'TG' else 0)
# df['pos_intervencao'] = df['intervencao'].apply(lambda x: 1 if x == 'Depois' else 0)

# Criando a variável de interação
df['grupo_pos_interacao'] = df['D_Post'] * df['D_Tr']

# Ajustando o modelo de diferença-em-diferenças
model = sm.OLS(df['y'], sm.add_constant(df[['D_Post', 'D_Tr', 'grupo_pos_interacao']]))
result = model.fit()

# Imprimindo os resultados
print(result.summary())

                            OLS Regression Results                            
Dep. Variable:                      y   R-squared:                       0.803
Model:                            OLS   Adj. R-squared:                  0.705
Method:                 Least Squares   F-statistic:                     8.178
Date:                Fri, 10 Nov 2023   Prob (F-statistic):             0.0153
Time:                        13:35:51   Log-Likelihood:                -40.154
No. Observations:                  10   AIC:                             88.31
Df Residuals:                       6   BIC:                             89.52
Df Model:                           3                                         
Covariance Type:            nonrobust                                         
                          coef    std err          t      P>|t|      [0.025      0.975]
---------------------------------------------------------------------------------------
const                  30.0000    




Este exemplo usa a biblioteca `statsmodels` para realizar uma regressão de diferença-em-diferenças. A variável de interesse é o salário, e o modelo inclui termos para o grupo, o período pós-intervenção e a interação entre grupo e período pós-intervenção. O coeficiente associado à interação é a estimativa da diferença nas diferenças.