# Modelo de Cortes Transversales Repetidos

Un **corte transversal** es una “fotografía” de individuos (seleccionados aleatoriamente) en un solo punto en el tiempo. Este es el tipo de datos del que hemos hablado hasta ahora. Observe que usamos $i$ para `indexar` individuos:

$$
Salario_i = \beta_0 + \beta_1 educ_i + \beta_2 exper_i + \beta_3 mujer_i + u_i
$$

Esta regresión la podemos estimar usando datos que se ven de la siguiente manera:

| $i$ | salario | educ | exper | mujer |
|-----------|------|-----|-------|--------|
| 1         | 3.10 | 11  | 2     | 1      |
| 2         | 3.24 | 12  | 22    | 1      |
| ...       | ...  | ... | ...   | ...    |
| 100       | 5.30 | 12  | 7     | 0      |

## Estructura de Datos

Los **“cortes transversal repetidos”** son múltiples “fotografías” de diferentes grupos de individuos (seleccionados aleatoriamente) en varios puntos en el tiempo.

$$
Salario_i = \beta_0 + \beta_1 educ_i + \beta_2 exper_i + \beta_3 mujer_i + {\color{red}\mu_t} + u_i
$$

Observe que aún podemos controlar el hecho de que las observaciones provienen de distintos años utilizando variables binarias, representadas por $\mu_t$.

| $i$ | $t$ | salario | educ | exper | mujer |
|-----------|------|------|-----|-------|--------|
| 1         |1| 3.10 | 11  | 2     | 1      |
| ...       |1| ...  | ... | ...   | ...    |
| 100       |1| 5.30 | 12  | 7     | 0      |
| 101       |2| 1.20 | 9  | 1     | 0      |
| ...       |2| ...  | ... | ...   | ...    |
| 200       |2| 2.60 | 10  | 3     | 1      |

## Características Clave de los Cortes Repetidos

- **Muestra nueva en cada periodo de tiempo** ($t$)
  - Cada encuesta representa una sección transversal independiente.
  - No se siguen los mismos individuos a lo largo de las distintas oleadas.

- **Tendencias a nivel poblacional a lo largo del tiempo**
  - Permite estudiar cómo cambia la distribución de características como ingresos, actitudes o comportamientos en la población.
  - No posibilita observar trayectorias individuales.

- **Consistencia en el diseño de la muestra**
  - Para que las comparaciones entre oleadas sean válidas, se deben mantener constantes varios aspectos
    1. Métodos de muestreo. 
    2. Diseño del cuestionario.
    3. Definiciones de las variables clave. 

## Análisis de Estadísticas

Los cortes transversales repetidos nos permiten analizar el **comportamiento de estadísticas a través del tiempo**. Consideremos un conjunto de datos que agrupa $T$ cortes transversales. Suponga que usted estima el siguiente modelo (sin constante):

$$y_{i,t} = \delta_1 D_{i,1} + \delta_2 D_{i,2} + ... + \delta_T D_{i,T} + \varepsilon_{i,t}$$

$$y_{i,t} = \sum_{t = 1}^T \delta_t D_{i,t} + \varepsilon_{i,t}$$

donde $y_{it}$ es el valor de la estadística de interés para el individuo $i$ y $D_{i,t}$ es una variable variable binaria que se definen de la siguiente manera:

\begin{equation*}
D_{i,t} =
    \left\{\begin{array}{lr}
    1, & \text{ si } i  \text{ pertence al corte } t \\
    0, & \hspace{-5cm}\text{ de lo contrario }
    \end{array}\right.
\end{equation*}

Observe que para todo $t \in \{1, 2, ..., T\}$

$$E(y_{i,t} | D_{i,t} = 1) = \delta_t$$

De esta manera, el modelo anterior nos permite estimar el **promedio de la estadística de interés para todos los cortes transversales**.

Cómo interpretamos $\delta_t$ si incluimos una constante en el modelo y controles a nivel individual?

Nuestro modelo con constante se puede escribir de la siguiente manera:

$$y_{i,t} = {\color{red}\delta_1} + \delta_2 D_{i,2} + ... + \delta_T D_{i,T} + {\color{red}X_i'\gamma} + \varepsilon_{i,t}$$

En este caso, para todo $t \in \{2, ..., T\}$

$$E(y_{i,t} | D_{i,t} = 1, X_i) =  \delta_1 + \delta_t + X_i'\gamma$$

Note también que 

$$E(y_{i,t} | D_{i,2} = 0, ..., D_{i,T} = 0, X_i) = E(y_{i,t} | D_{i,1} = 1, X_i)  =  \delta_1 + X_i'\gamma$$

Luego,

$$\delta_t = E(y_{i,t} | D_{i,t} = 1, X_i) - E(y_{i,t} | D_{i,1} = 1, X_i)$$

De esta manera, $\delta_t$ es el cambio en la estadística de interés entre el año $t$ y el año base $t = 1$, independiente de las características $X_i$ de los individios.

## Aplicación: Estado Civil en Colombia 1973 - 2005

Utilizaremos información de los censos de 1973, 1985, 1993 y 2005 (descargadas de [IPUMS](https://www.ipums.org/)) para estudiar cómo ha evolucionado la probabilidad de estar casado en Colombia. La información fue previamente procesada y restringida a las personas entre 18 y 60 años.

Estimaremos los siguientes modelos:

$$\text{Modelo 1}: Casado_{i,t} = \delta_1 D_{i,1973} + \delta_2 D_{i,1985} + \delta_3 D_{i,1993} + \delta_4 D_{i,2005} + \varepsilon_{i,t}$$

$$\text{Modelo 2}: Casado_{i,t} = \delta_1 + \delta_2 D_{i,1985} + \delta_3 D_{i,1993} + \delta_4 D_{i,2005} + \varepsilon_{i,t}$$

$$\text{Modelo 3}: Casado_{i,t} = \delta_1 + \delta_2 D_{i,1985} + \delta_3 D_{i,1993} + \delta_4 D_{i,2005} + X_i'\gamma + \varepsilon_{i,t}$$

donde $X_i$ es un conjunto de características individuales que incluye: edad, género, nivel educativo

## Comparación entre Grupos

Usando cortes transversales repetidos también podemos comparar una estadística entre dos grupos. Es decir, podemos estimar la diferencia entre los grupos a través del tiempo. 

Sea $G_i$ la variable binaria que identifica los individuos que pertenecen a uno de los grupos. Para estimar la diferencia usamos el siguiente modelo (sin constante):

$$y_{it} = \sum_{t = 1}^T \beta_t D_{i,t} \times G_i + \mu_t + X_i'\gamma + \varepsilon_{i, t} \hspace{10pt}\text{donde}\hspace{10pt} \mu_t = \sum_{t = 1}^T \delta_t D_{i, t}$$

Observe que para todo $t \in \{1, 2, ..., T\}$

$$E(y_{i,t} | D_{i,t} = 1, G_i = 1, X_i) = \beta_t + \delta_t$$

$$E(y_{i,t} | D_{i,t} = 1, G_i = 0, X_i) = \delta_t$$

De esta manera, 

$$\beta_t = E(y_{i,t} | D_{i,t} = 1, G_i = 1, X_i) - E(y_{i,t} | D_{i,t} = 1, G_i = 0, X_i)$$

## Aplicación: Participación Laboral y Género 1973 - 2005

Estudiaremos cómo ha evolucionado la participación laboral de  mujeres y hombres en Colombia entre 1973 y 2005, usando información de censos.

Para ello, estimarémos los siguientes modelos

$$Modelo 1 : \text{Fuerza Laboral}_{it} = \sum_{t \in T} \beta_t D_{i,t} \times G_i + \mu_t + \varepsilon_{i, t}$$

$$Modelo 2 : \text{Fuerza Laboral}_{it} = \sum_{t \in T} \beta_t D_{i,t} \times G_i + \mu_t + X_i'\gamma + \varepsilon_{i, t}$$

donde:

$T = \{1973, 1985, 1993, 2005\}$, $\mu_t = \delta_1 D_{i,1973} + \delta_2 D_{i,1985} + \delta_3 D_{i,1993} + \delta_4 D_{i,2005}$

$\text{Fuerza Laboral}_{it}$ es una variable igual a 1 si el individuo $i$ hace parte de la fuerza laboral (es decir, si está ocupado o está buscando empleo). 

$\text{G}_{i}$ es una variable igual a 1 si el individuo $i$ es mujer. 

$X_i$ es un conjunto de características del individuo $i$: edad, educación, estado civil

## Análisis de Políticas

Los cortes transversales repetidos no solo nos permiten analizar el comportamiento de estadísticas, también pueden ser usados para estimar el **efecto de políticas que afectan a un grupo poblacional particular**. 

Suponga que una política fue implementada en el periodo $t^*$ y que usted cuenta con $S$ periodos de información. Asuma que la política focalizó a un conjunto de individuos $i$ que podemos identificar usando la variable binaria $G_i$. El siguiente modelo nos permite estudiar cómo evoluciona la diferencia entre el grupo focalizado (**tratados**) y el resto de observaciones (**controles**) antes y después de que la política se implementara:

$$y_{i,t} = \alpha + \sum_{t \in T\setminus\{t^*-1\}} \beta_t  D_{i, t} \times G_{i} + \mu_g G_i + \mu_t + X_i'\gamma + \varepsilon_{i,t}, \hspace{10pt}\text{donde}\hspace{10pt} \mu_t = \sum_{t \in T\setminus\{t^*-1\}} \delta_t D_{i,t}$$

donde $T = \{1, 2, ..., t^*-1, t^*, t^* + 1, ..., S\}$

Observe que para $t \in T\setminus\{t^*-1\}$

$$E(y_{i,t} | D_{i,t} = 1, G_i = 1, X_i) = \alpha + \beta_t + \mu_g + \delta_t + X_i'\gamma$$
$$E(y_{i,t} | D_{i,t} = 1, G_i = 0, X_i) = \alpha + \delta_t + X_i'\gamma$$

Luego, 

$$\beta_t + \mu_g = \Delta_t(G_i) = E(y_{i,t} | D_{i,t} = 1, G_i = 1, X_i) - E(y_{i,t} | D_{i,t} = 1, G_i = 0, X_i)$$

Note también que

$$E(y_{i,t} | D_{i,1} = 0, ..., D_{i,S} = 0, G_i = 1, X_i) = E(y_{i,t} | D_{i,t^*-1} = 1, G_i = 1, X_i) = \alpha + \mu_g + X_i'\gamma$$

$$E(y_{i,t} | D_{i,1} = 0, ..., D_{i,S} = 0, G_i = 0, X_i) = E(y_{i,t} | D_{i,t^*-1} = 1, G_i = 0, X_i) = \alpha + X_i'\gamma$$

Luego, 

$$\mu_g = \Delta_{t^*-1}(G_i) := E(y_{i,t} | D_{i,t^*-1} = 1, G_i = 1, X_i) - E(y_{i,t} | D_{i,t^*-1} = 1, G_i = 0, X_i)$$

De esta manera, para todo $t \in T\setminus\{t^*-1\}$

$$\beta_t = \Delta_t(G_i) - \Delta_{t^*-1}(G_i)$$


## Aplicación: Efecto de la Reforma Docente en el Saber 11

[Busso et. al (2024)](https://www.sciencedirect.com/science/article/pii/S0047272724001749) estudian el efecto que tuvo la reforma docente implementada en el 2005 en los puntajes en pruebas estandarizadas (Saber 11). Para estimar el efecto de la reforma, los autores usan los puntajes del Saber 11 entre el año 2000 y el año 2019 (es decir, los autores usan cortes transversales repetidos). 

Los autores comparan los puntajes del Saber 11 entre estudiantes publicos (**tratados**) y estudiantes de colegios privados (**controles**) antes y despúes que se implementara la reforma. Los autores usan la siguiente regresión:

$$Y_{ist} = \alpha + \sum_{\substack{\tau \hspace{1pt} \neq \hspace{1pt} 2004}}^{T} \delta_\tau \times \mathbb{1}[\tau = t] \times \text{Public}_s + \mu_s \text{Public}_s + X_i'\gamma + \mu_t + \varepsilon_{ist}$$
