# Diferencias en Diferencias

El modelo de diferencias en diferencias (DiD) es una herramienta útil para estimar el efecto causal de políticas que focalizan un grupo de individuos. Bajo ciertos supuestos, este método logra eliminar diferencias pre-existentes entre el grupo focalizado y otros grupos poblacionales (*control o contrafactual*), y con ello determinar el impacto de una política.

Para usar este método se requiren datos longitudinales o cortes transversales repetidos en los cuales es posible identificar los individuos afectados (*directa o indirectamente*) por la política.

## Comparación entre Grupos y en el Tiempo

Supongamos que **en un periodo $t$ se introdujo de manera exogena un cambio de política** (es decir, un tratamiento) que afectó de manera directa a un grupo de individuos, a quienes podemos identificar con una variable binaria $D_{i}$.

El modelo de **diferencias en diferencias combina dos métodos** simples para estimar el efecto causal de la política, $\tau$:

1. *Comparar los resultados del grupo de tratados y los resultados del grupo de control en un periodo de tiempo particular*. Para implementar esta idea, podemos usar el siguiente estimador:
   
   $$\hat\tau^* = \bar y_{t}(1) - \bar y_t(0)$$
   
   *Problema*: Esta idea asume que no existen diferencias (pre-existentes) entre el grupo de tratamiento y el grupo de control.
   
   
2. *Comparar los resultados del grupo tratados antes y después de recibir el tratamiento*. Para implementar esta idea, podemos usar el siguiente estimador:

   $$\hat\tau^{\bullet} = \bar y_{t}(1) - \bar y_{t-1}(1)$$

   *Problema*: Esta idea asume que factores diferentes al tratamiento no afectan la variable de resultado a traves del tiempo.

## Intuición del Método

El estimador de diferencias en diferencias se puede calcular a partir de los promedios de la variable de resultado para el grupo de tratados y el grupo de control, antes y después de la introducción del tratamiento.

De manera específica, el estimador de diferencias en diferencias está dado por:

$$\hat\tau^{DiD} = [\bar y_{t}(1) - \bar y_{t-1}(1)] - [\bar y_{t}(0) - \bar y_{t-1}(0)]$$

Observe que esta expresión es equivalente a estimar:

$$\hat\tau^{DiD} = [\bar y_{t}(1) - \bar y_{t}(0)] - [\bar y_{t-1}(1) - \bar y_{t-1}(0)]$$

Esta última ecuación permite **interpretar** el estimador de diferencias en diferencias como **la brecha que persiste entre los grupos de tratamiento y control cuando se controla por las diferencias pre-existentes entre ambos grupos**.

## Representación Gráfica del Método

La siguiente figura presenta una representación gráfica del estimador de diferencias en diferencias. Es importante notar dos elementos a partir de esta figura: (i) existen diferencias pre-tratamiento entre los grupos de tratamiento y control, (ii) la intervención cambia la tendencia (o comportamiento) de la variable de resultado para el grupo de tratamiento, pero no la cambia para el grupo de control.

<div style="display: flex; justify-content: center; align-items: flex-start; gap: 1px;">
  <div style="text-align: center;">
    <div style="font-size: 14px; text-align: center; margin-top: 5px;">
      <strong>Figura 1.</strong> Representación Gráfica de DiD
    </div>
    <img src="images/DiD_fig.png" alt="Table1" width="50%">
  </div>
</div>

Para interpretar el estimador de diferencias en diferencias como un parámetro causal, es necesario suponer que la tendencia de la variable dependente, en ausencia del tratamiento, es igual para los grupos de tratamiento y control (**tendencias paralellas**).

## Aplicación

[Card y Krueger (1994)](https://davidcard.berkeley.edu/papers/njmin-aer.pdf) evalúan el impacto del incremento del salario mínimo en Nueva Jersey en 1992 utilizando un diseño de diferencias en diferencias. Los autores comparan cambios en empleo en restaurantes de comida rápida en Nueva Jersey (tratamiento) con los de Pensilvania (control), donde el salario mínimo no cambió.

A través de encuestas directas a los establecimientos, los autores encuentran que el aumento del salario mínimo no redujo el empleo; de hecho, reportan un leve incremento en el empleo en Nueva Jersey en comparación con Pensilvania. Esto contradijo la predicción estándar del modelo competitivo de que un salario mínimo reduce el empleo.

El estudio contribuyó de manera crucial a la literatura al mostrar evidencia empírica que apoya modelos alternativos de mercado laboral, como la competencia monopsonística, y reabrió el debate sobre los efectos del salario mínimo.

## Modelo de Regresión

El estimador diferencias en diferencias se puede obtener a partir del siguiente modelo de regresión:

$$y_{it} = \beta_0 + \beta_1 Post_{t} + \beta_2 D_i + \beta_3 Post_{t} \times D_i + \varepsilon_{it}$$

Donde 

\begin{equation*}
D_i =
    \left\{\begin{array}{lr}
    1, & \text{si } i \text{ es tratado} \\
    0, & \text{otro caso}
    \end{array}\right.
\qquad Post_t =
    \left\{\begin{array}{lr}
    1, & \text{si } t \text{ es el periodo post-tratamiento} \\
    0, & \text{otro caso}
    \end{array}\right.
\end{equation*}

Obseve que 

$$\beta_3 = \underbrace{\Bigl[E(y_{it} | Post_t = 1 , D_i = 1) -  E(y_{it} | Post_t = 1 , D_i = 0)\Bigr]}_{(\beta_0 + \beta_1 + \beta_2 + \beta_3) \hspace{5pt}-\hspace{5pt} (\beta_0 + \beta_1)} - \underbrace{\Bigl[E(y_{it} | Post_t = 0 , D_i = 1) -  E(y_{it} | Post_t = 0 , D_i = 0)\Bigr]}_{(\beta_0 + \beta_2) \hspace{5pt}-\hspace{5pt} \beta_0}$$

## Estimación 

El método de mínimos cuadrados ordinarios nos permite estimar el modelo de diferencias en diferencias. 

Observe que una ventaja de usar el modelo de regresión es que podemos **controlar por factores que cambian a través del tiempo**, $X_{it}$, y que se relacionan con la variable de resultado. En dicho caso, el modelo se puede reescribir como:

$$y_{it} = \beta_0 + \beta_1 Post_{t} + \beta_2 D_i + \beta_3 Post_{t} \times D_i + {\color{red} X_{it}'\delta} + \varepsilon_{it}$$

Incluir información adicional en el modelo aumenta la precisión de las estimaciones puntuales.

En el caso en que tenemos datos longitudinales y contamos con múltiples periodos, podemos **incluir efectos fijos de individuo (o grupo) y de tiempo**: 

$$y_{it} = \beta_0 + \beta_1 Post_{t} + \beta_2 D_i + \beta_3 Post_{t} \times D_i + X_{it}'\delta + {\color{red} \mu_i + \mu_t} + \varepsilon_{it}$$

Recordemos que $\mu_i$ controla por características del individuo que no cambian a través del tiempo (bien sea observadas o no observadas) y $\mu_t$ controla por cambios de política o factores que afectan a todos los individuos a lo largo del tiempo.

Esta última expresion se puede estimar usando los diferentes modelos de datos panel que estudiamos previamente (i.e., primeras diferencias, modelo within, y modelo con variables binarias o dummy). 