# Modelos de Datos Panel

Los datos panel (o longitudinales) permiten estudiar a una población a través del tiempo, ya que se puede observar información para cada individuo en diferentes periodos de su ciclo de vida. Los datos panel toman la siguiente forma:

| $i$ | $t$ | mujer | edad  | empleado | educ |
|-----|-----|-------|-------|----------|------|
| 1   |2022 | 1     | 28    | NA       | 13   |
| 1   |2023 | 1     | 29    | 1        | 13   |
| 1   |2024 | 1     | 30    | 0        | 14   |
| 1   |2025 | 1     | 31    | NA       | 14   |
|...  |...  |...    |...    |...       | ...  |
| n |2022 | 0     | 25    | 0        | 10   |
| n |2023 | 0     | 26    | NA       | 11   |
| n |2023 | 0     | 27    | 1        | 12   |
| n |2025 | 0     | 28    | 1        | 12   |

## Beneficios de contar con Datos Panel

Existen diferentes razones por las cuales contar con este tipo de informción es ideal:

- Permite analizar cómo evolucionan características que son suceptibles de cambiar con el tiempo

- Permite estudiar cómo toman decisiones los individuos a través del tiempo y las implicaciones en su **ciclo de vida**

- Se puede usar para estimar el efecto de una intervención o choque. Es decir, podemos estudiar **efectos dinámicos**

- Permite controlar por **efectos heterogeneos no observados** (que no cambian en el tiempo)

De manera resumida, la riqueza de la información de los datos panel amplia las posibilidades del análisis empírico a través de mayor variación (en el tiempo y entre individuos) y eficiencia (o precisión) estadística.

## Clasificación de Datos Panel

Dependiendo de si es posible seguir a todos los individuos de la población durante un periodo de tiempo determinado, se puede clasificar un panel en dos categorías:

- panel balanceado 
- panel no-balanceado

En caso de ser posible hacer **seguimiento en el tiempo sin interrupciones, el panel es balanceado**.

Un **panel desbalanceado** reduce la eficiencia de los estimadores y dificulta los cálculos de la matriz de varianza-covarianza (aunque, en la mayoría de casos, los paquetes estadísticos modernos estiman dicha matriz sin mayor problema). El mayor problema de este tipo de datos, es que puede introducir sesgo por selección a las estimaciones (**attrition bias**) si quienes dejan de responder tienen características que se relacionan con las variables explicativas.

## Modelo Pooling

Suponga que usted cuenta con un conjunto de datos panel con una variable dependiente, $k$ variables explicativas, $n$ individuos y $T$ periodos. Supondremos inicialmente que dicho panel está balanceado. 

El modelo *pooling* se puede escribir de la siguiente manera:

$$y_{it} = \alpha + \beta_1 x_{1 it} + \beta_2 x_{2 it} + ... + \beta_k x_{k it} + \varepsilon_{it} \quad (1)$$

Para estimar este modelo usamos Mínimos Cuadrados Ordinarios. Es decir, 

$$\hat\beta = (X'X)^{-1} X'Y$$
$$\hat{V}(\hat\beta) = \hat\sigma^2 (X'X)^{-1} \hspace{4pt} \text{ donde } \hspace{4pt} \hat\sigma^2 = \frac{\sum_{i = 1}^N \sum_{t = 1}^T e^2_{it}}{n \cdot T}$$

Sin embargo, este método **desconoce la estructura de los datos**.

Los supuestos del modelo de regresión múltiple son muy fuertes al usar datos panel, ya que 

- **es muy probable que los errores de un mismo individuo se correlacionen a través del tiempo**, es decir, $E(\varepsilon_{i, t} \cdot \varepsilon_{i, t+1}) \neq 0$. 

- las condiciones de la economía en cada periodo hacen probable que **los errores de diferentes individuos se correlacionen en un mismo periodo de tiempo**, es decir, $E(\varepsilon_{i, t} \cdot \varepsilon_{j, t}) \neq 0.$

Para corregir estos problemas usamos **errores clusterizados**.

Ahora, el modelo *pooling* también desconoce la importancia de controlar por **heterogenidad no-observada** y por factores (no observados) que afectan a todos los individuos a través del tiempo.

Considere el siguiente modelo:

$$y_{it} = {\color{red}\alpha_i} + {\color{red}\lambda_t} + \beta_1 x_{1 it} + \beta_2 x_{2 it} + ... + \beta_k x_{k it} + u_{it} \quad (2)$$

Note que este modelo supone que cada individuo tiene un intercepto (o línea base) diferente y controla también por la tendencia de la variable dependiente a través del tiempo.  

Podemos interpretar estos nuevos parámetros de la siguiente manera: 

- $\alpha_i$ (Efectos Fijos): **captura factores que no cambian a través del tiempo para cada individuo y que no podemos observar**. Algunos de estos factores incluyen, por ejemplo, habilidades innatas del individuo o preferencias del individuo si el panel tiene alta frecuencia y cubre un periodo corto.

- $\lambda_t$ (Efectos de Tiempo): **captura factores no-observados que afectan a todos los individuos a través del tiempo**, como por ejemplo, cambios estructurales o de política

Note que en el modelo *pooling*: 

$$\varepsilon_{it} = \alpha_i - \alpha + \lambda_t + u_{it}$$ 

De esta manea, si el modelo correctamente espeficado controla por $\alpha_i$ y $\lambda_t$, entonces excluir estos factores puede generar sesgo por variable omitida. En otras palabras, $E(\varepsilon_{it} | X) \neq 0$.


A continuación explorarémos varias formas de estimar el modelo corrigiendo este posible sesgo.

## Modelo de Primeras Diferencias

Observe que a partir del modelo *pooling* podemos obtener las siguientes ecuaciones:

$$y_{i, t-1} = \alpha + \beta_1 x_{1 i,t-1} + \beta_2 x_{2 i,t-1} + ... + \beta_k x_{k i,t-1} + \varepsilon_{i,t-1} \qquad (3)$$

$$y_{i, t} = \alpha + \beta_1 x_{1 i,t} + \beta_2 x_{2 i,t} + ... + \beta_k x_{k i,t} + \varepsilon_{i,t} \qquad (4)$$

Si computamos $(4) - (3)$, obtenemos la siguiente transformación al modelo:

$$\Delta y_{i, t} = \beta_1 \Delta x_{1 i,t} + \beta_2 \Delta x_{2 i,t} + ... + \beta_k \Delta x_{k i,t} + \Delta \varepsilon_{i,t} \quad (5)$$
Donde 
$$\Delta y_{i, t} = y_{i, t} - y_{i, t-1}, \quad \Delta x_{j i,t} = x_{j i,t} - x_{j i,t-1} \text{ para } j \in \{1, ..., k\}, \hspace{5pt}\text{ y }\hspace{5pt} \Delta \varepsilon_{i,t} = \varepsilon_{i,t} - \varepsilon_{i,t-1}$$

El modelo transformado $(5)$ se conoce como el **estimador de primeras diferencias**. Es importante notar que la transformación del modelo nos deja con $n \cdot T-1$ observaciones, es decir, se pierde una observación por individuo.

El modelo de primeras diferencias nos permite corregir el posible sesgo que se genera por excluir $\alpha_i$. Esto es así porque:

$$\Delta \varepsilon_{i,t} = (\alpha_i - \alpha + \lambda_t + u_{it}) - (\alpha_i - \alpha + \lambda_{t-1} + u_{i,t-1}) =  \lambda_t -  \lambda_{t-1} + \Delta u_{i,t}$$

Sin embargo, este estimador no corrige el sesgo por excluir $\lambda_t$ y por la tanto es importante controlar por $\Delta \lambda_t = \lambda_t -  \lambda_{t-1}$. Una manera de hacerlo es incluir variables binarias:

$$\Delta y_{i, t} = \delta_2 1_{\{t = 2\}} + \delta_3 1_{\{t = 3\}} + ... + \delta_T 1_{\{t = T\}} + \beta_1 \Delta x_{1 i,t} + \beta_2 \Delta x_{2 i,t} + ... + \beta_k \Delta x_{k i,t} + \Delta \varepsilon_{i,t} \quad (5)$$

Nuevamente, podemos estimar esta última expresión usando MCO, pero debemos corregir los errores estándar clusterizando a nivel de individuo.

## Modelo de Efectos Fijos (o Within)

Otra manera de corregir el sesgo por no incluir $\alpha_i$ se obtiene de la siguiente transformación:

Primero calculamos el promedio para cada individuo (explotando la variación `within`-individuo):

$$\bar y_{i} = \alpha + \beta_1 \bar x_{1 i} + \beta_2 \bar x_{2 i} + ... + \beta_k \bar x_{k i} + \bar \varepsilon_{i} \quad (6)$$

Luego, restamos esta ecuación del modelo *pooling* $(1)$ y obtenemos la siguiente expresión:

$$\tilde y_{i, t} = \alpha + \beta_1 \tilde x_{1 i,t} + \beta_2 \tilde x_{2 i,t} + ... + \beta_k \tilde x_{k i,t} + \tilde \varepsilon_{i,t} \quad (7)$$
Donde
$$\tilde y_{i, t} = y_{i, t} - \bar y_{i}, \quad \tilde x_{j i,t} = x_{j i,t} - \bar x_{j i} \text{ para } j \in \{1, ..., k\}, \hspace{5pt}\text{ y }\hspace{5pt} \tilde \varepsilon_{i,t} = \varepsilon_{i,t} - \bar \varepsilon_{i}$$

El modelo transformado $(7)$ lo podemos estimar a través de MCO: 

$$\hat\beta = (\tilde X'\tilde X)^{-1} \tilde X' \tilde Y$$

Observe que

$$\tilde \varepsilon_{i,t} = (\alpha_i - \alpha + \lambda_t + u_{i, t}) - (\alpha_i - \alpha + \bar\lambda_i + \bar u_{i}) = \lambda_t - \bar\lambda_i + \tilde u_{i,t}$$

De esta manera, la transformación corrige el sesgo por no incluir $\alpha_i$ explicitamente en la regresión, pero no corrige el sesgo que genera no controlar por $\lambda_t$. Una ventaja de este método es que no perdemos información, como ocurre con el modelo de primeras diferencias.

## Mínimos Cuadrádos con Variables Binarias

Alternativamente podemos controlar directamente por $\alpha_i$ y $\lambda_t$ usando variable binarias. Para ello estimamos la siguiente regresión:

$$y_{it} = \alpha + \beta_1 x_{1 it} + \beta_2 x_{2 it} + ... + \beta_k x_{k it} + \alpha_i + \lambda_t + u_{it} \hspace{10pt} \text{ con } \hspace{10pt} \alpha_i = \sum_{i = 2}^N \gamma_i D_i \hspace{5pt}\text{ y }\hspace{5pt} \lambda_t = \sum_{t = 2}^T \delta_t d_t$$

Donde $D_{i}$ y $d_{t}$ son variables binarias que se definen de la siguiente manera:

\begin{equation*}
D_{i} =
    \left\{\begin{array}{lr}
    1, & \text{ para el individuo } i \\
    0, & \text{ de lo contrario }
    \end{array}\right.
\qquad    
d_{t} =
    \left\{\begin{array}{lr}
    1, & \text{ para el periodo } t \\
    0, & \text{ de lo contrario }
    \end{array}\right.    
\end{equation*}

Este modelo incluye de manera explicita los interceptos para cada individuo y los efectos de tiempo. Sin embargo, la estimación de este modelo puede ser muy demandante computancionalmente, especialmente si $N$ es grande y el panel es de alta frecuencia (es decir, si $T$ es grande). 

## Modelo de Efectos Aleatorios

Este modelo supone que los interceptos de cada individuo son aleatorios. De manera específica, se supone que $\alpha_i = \bar \alpha + \xi_i$, donde $\bar \alpha$ es el promedio de la población y $\xi_i$ es una variable iid con media 0 y varianza $\sigma_\xi$.

Reemplazando esta definición de $\alpha_i$ en la ecuación $(2)$ llegamos a la siguiente expresión:

$$y_{it} = \bar \alpha + \lambda_t + \beta_1 x_{1 it} + \beta_2 x_{2 it} + ... + \beta_k x_{k it} + \nu_{it} \quad (8)$$
$$\nu_{it} = \xi_i + u_{it}$$ 
 
El modelo supone además que:

- $E(u_{it}) = 0$ y $V(u_{it}) = \sigma^2_u$
- Independencia entre $\xi_i$ y $u_{js}$ y $x_{l, jt}$ para todo $i, j, t, s, l$

Luego podemos determinar que 

$$V(\nu_{it}) = \sigma^2_\xi + \sigma^2_u$$
$$Corr(\nu_{it}, \nu_{is}) = \frac{\sigma^2_\xi}{\sigma^2_\xi + \sigma^2_u}$$

Dado que para cada individuo los errores se correlacionan a través del tiempo, estimar $(8)$ por MCO es ineficiente.

Sin embargo, podemos transformar el modelo y estimar la siguiente expresión:

$$y^*_{it} = \bar \alpha + \lambda^*_t + \beta_1 x^*_{1 it} + \beta_2 x^*_{2 it} + ... + \beta_k x^*_{k it} + \nu^*_{it} \quad (9)$$
Donde
$$y^*_{it} = y_{i, t} - \theta \bar y_{i}, \quad x_{l i,t} = x_{l i,t} - \theta \bar x_{l i} \text{ para } l \in \{1, ..., k\}, \hspace{5pt}\text{ y }\hspace{5pt} \nu^*_{it} = \nu_{i,t} - \theta \bar \nu_{i}$$
$$\theta = 1 - \sqrt\frac{\sigma^2_u}{T\sigma^2_\xi + \sigma^2_u}$$

Esta transformación elimina la correlación serial que se desprende de la estructura de los datos panel. Es importante notar que si $T \to \infty$, $\theta = 1$ y la transformación $(9)$ es identica al modelo de efectos fijos.

## Selección de Modelo 

La **prueba LM (Multiplicador de Lagrange) de Breusch–Pagan** nos permite determinar si existen o no efectos aleatorios (EA). Observe que si $V(\alpha_i) = \sigma^2_\xi = 0$, podemos descartar la presencia de efectos aleatorios. De esta manera, la hipótesis de esta prueba esta dada por:

$$H_0 : \sigma^2_\xi  = 0 \to \text{no hay EA}$$
$$H_1 : \sigma^2_\xi  > 0 \to \text{estimar EA es preferible a \textit{pooling}}$$ 

La **prueba de Hausman** nos permite determinar si debemos estimar un modelo de efectos aletorios  o un modelo de efectos fijos (EF). La hipótesis de esta prueba esta dada por:

$$H_0 : E(\alpha_i | x_{1, it}, x_{2, it}, ..., x_{k, it}) = 0 \to \text{EA es consistente y eficiente }$$
$$H_1 : E(\alpha_i | x_{1, it}, x_{2, it}, ..., x_{k, it}) \neq 0 \to \text{EA es inconsistente, estimamos EF}$$ 

El estadístico de prueba usado es:

$$H = (\hat\beta_{EA} - \hat\beta_{EF})'[V(\hat\beta_{EA}) - V(\hat\beta_{EF})]^{-1}(\hat\beta_{EA} - \hat\beta_{EF}) \xrightarrow[]{d} \chi^2_q$$

donde $q$ es el número de parámetros del modelo.