# Datos en Panel

**Contenidos**

* [Introducción](#intro)
* [Regresión Agrupada - Pooled](#Pooled)
* [Efectos Fijos - FE](#FE)
* [Efectos Aleatorios - RE](#RE)
* [Test](#Test)
* [Panel Dinámico](#dynamic)


## Introducción

- Antes: Datos en formato de corte transversal o en series de tiempo.

- Ahora: Varias unidades de corte transversal en differentes períodos de tiempo.
  * Balanceado $\{y_{it},x_{it}\}$, para $i=1,2,...,N$ y $t=1,2,...,T$.
  * Desbalanceado $\{y_{it},x_{it}\}$, para $i=1,2,...,N$ y $t=\underline{t}_i,...,\bar{t}_i$.
  
- Ejemplos de paneles:
  * Panel Study of Income Dynamics (PSID, en EEUU)
  * National Longitudinal Survey of Labor Market Experience (NLS, en EEUU)
  * Encuesta Nacional Industrial Anual (ENIA, en Chile durante 1995-2007).


- Algunas ventajas
  * Permite considerar heterogeneidad individual no medible en datos (latent individual heterogeneity)
  * facilita reduccion de problemas asociados a colinearidad
  * mejora en eficiencia de estimadores
  
- Desafíos:
  * Obtener los datos
  * emergen dificultades cuando X's no pueden asumirse exógenas (técnicas en panel estándar son inconsistentes)
  * dificultades si errores en unidades de corte transversal son dependientes (falla inferencia, estimadores inconsistentes)

  

Organización general de la literatura (Pesaran, M.H.)
- Small N, Large T: SURE (Zellner, 1962)
- Small T, Large N: contexto "más realista" con el cual partiremos y asumiremos que las X's son exógenas
- Large T, Large N: abarca una literatura más reciente (posible gracias a acumulación actual de información).



## Regresión Agrupada - Pooled OLS

<html><div style='float:left'></div><hr color='#EB811B' size=1px width=720px></html>


### Panel con X's (estrictamente) exógenas

Panel con X's (estrictamente) exógenas

- Sea $y_{it}$ la i-th unidad de corte transversal en el periodo de tiempo $t$.
- Modelo: La especificación estándar es que hay un efecto (no observado) individual (o específico) que entra al modelo lineal,
  
  $$y_{it}=\alpha_i+x_{it}'\beta+u_{it}\hspace{0.3cm},\hspace{0.3cm}\forall\,i=1,2,...,N\,\,;\,t=1,2,...T$$
  
  donde $x_{it}$ es un vector $k\times1$; $u_{it}$ es un residuo; $\beta$ es un vector de parámetros; y, finalmente, $\alpha_i$ es un efecto individual no observado (no cambia en el tiempo).
- Dos alternativas de reescribir el modelo:

  $$\begin{eqnarray} \underbrace{y_i}_{T\times1}&=&\alpha_i\cdot i_T + x_i\beta+u_i\\ ó &\,& \\ \underbrace{y_i}_{N\times1}&=&\alpha + x_t\beta+u_t \end{eqnarray}$$

  donde $i_T$ es un vector $T\times 1$ de unos; $\alpha$ es un vector $N\times1$ con elementos $\alpha_i$.


Panel con X's (estrictamente) exógenas

- O de forma más compacta,
  
  $$\begin{eqnarray*} y &=& (\alpha\otimes i_T) + x\beta+u \end{eqnarray*}$$
  
- Supuesto: $\mathbb{E}(u_{it}|X_i)=0$, $\forall\,i,t$ (X's strictamente exógenas)


- Se asume $\alpha_i=\alpha$, $\forall\,i$. Es decir, $y_{it}=\alpha+x_{it}'\beta+u_{it}$, con $\alpha$ como una constante (escalar).
- Se usa MCO para la estimación:

  $$\begin{eqnarray*} \hat{\beta}_{OLS}=\left(\sum_i\sum_t(x_{it}-\bar{x})(x_{it}-\bar{x})'\right)^{-1}\left(\sum_i\sum_t(x_{it}-\bar{x})(y_{it}-\bar{y})'\right)\end{eqnarray*}$$
  
  donde $\bar{x}=(NT)^{-1}\sum_{i}\sum_{t}{x_{it}}$.



- Supuestos:
  * $\mathbb{E}(u_{it}|x_{it})=0$
  * $||x_{i}||<\kappa<\infty$ (deterministic bounded; $||\cdot||$: Frobenius norm)
  * $u_{it}$ independencia en unidades de corte transversal. Pero, podría existir hereoscedasticidad, $\sigma^2_i$, y/o autocoorelación temporal, 
    $\mathbb{E}(u_{it}u_{it'}) = \gamma_i(t,t')\,\,\forall\,t\neq t'$.



### Observaciones adicionales sobre Pooled OLS
- Notar que $\bar{y}=\alpha+\bar{x}'\beta+\bar{u}$
- Por ende, $(y_{it}-\bar{y})=(x_{it}-\bar{x})'\beta+(u_{it}-\bar{u})$. Así, al estimar vía MCO, $\hat{\beta}_{OLS}=\left(\sum_i\sum_t(x_{it}-\bar{x})(x_{it}-\bar{x})'\right)^{-1}\left(\sum_i\sum_t(x_{it}-\bar{x})(y_{it}-\bar{y})'\right)$
- Además,

  $\begin{eqnarray*} \hat{\beta}_{OLS}&=&\left(\sum_i\sum_t(x_{it}-\bar{x})(x_{it}-\bar{x})'\right)^{-1}\left(\sum_i\sum_t(x_{it}-\bar{x})(y_{it}-   \bar{y})'\right)\\ &=&\beta+Q_{P,NT}^{-1}\left(\frac{\sum_i\sum_t(x_{it}-\bar{x})(u_{it}-\bar{u})}{NT}\right) \end{eqnarray*}$
  
  donde, $Q_{P,NT}=(NT)^{-1}\sum_i\sum_t(x_{it}-\bar{x})(x_{it}-\bar{x})'$



### Observaciones adicionales sobre Pooled OLS (cont.)

- por ende, considerando que

  $$\begin{eqnarray}\mathbb{E}(u_{it}u_{it'})&=& \left\{ \begin{array}{ccc}0&i\neq j&\forall\,t,t' \\ \gamma_i(t,t')&i=j& t\neq t'\\ \sigma_i^2 & i=j & t=t' \\ \end{array} \right.\end{eqnarray}$$
  se obtiene que
  
  $$\mathbb{E}_x(\hat{\beta}_{OLS})=\beta$$
  


## Efectos Fijos - Fixed Effects (FE)

<html><div style='float:left'></div><hr color='#EB811B' size=1px width=720px></html>


Assumiendo,
- $\alpha_i$ son parámetros fijos (a ser estimados)
- restricción: $|\alpha_i|<\kappa<\infty\,\,,\,\,\forall\,i$ (boundedness)
- $\alpha_i$ puede (en algún grado) estar relacionado con $x_{it}$ ó $u_{it}$.
- se incluye el caso en donde $\alpha_i$ es aleatorio (realizaciones de una distribución dada)
- $x$ siguen siendo exógenas. Serán deterministicas y acotadas, satisfaciendo: $\mathbb{E}||(x_{it}-\bar{x}_{i\cdot})(x_{jt'}-\bar{x}_{j\cdot})||<\kappa<\infty$ 



### Estimación FE

- La idea general en FE es estimar $\beta$ después de "remover" $\alpha_i$. También conocido como estimador **_within_**.
- Notar que $\bar{y}_{i\bullet}=\alpha_i+\bar{x}_{i\bullet}'\beta+\bar{u}_{i\bullet}$, con $\bar{y}_{i\bullet}=T^{-1}\sum_ty_{it}$
- Por ende, 
  $$(y_{it}-\bar{y}_{i\bullet})=(x_{it}-\bar{x}_{i\bullet})'\beta+(u_{it}-\bar{u}_{i\bullet})$$
- así, se puede usar MCO para estimar el vector de parámetros

  $$\begin{eqnarray*}\hat{\beta}_{FE} = \left(\sum_i\sum_t(x_{it}-\bar{x}_{i\bullet})(x_{it}-\bar{x}_{i\bullet})'\right)^{-1}\left(\sum_i\sum_t(x_{it}-\bar{x}_{i\bullet})(y_{it}-\bar{y}_{i\bullet})'\right)\end{eqnarray*}$$
- y, en caso de ser de interés, se puede recuperar un estimado del efecto fijo mediante: $\hat{\alpha}_i=\bar{y}_{i\bullet}-\bar{x}_{i\bullet}'\hat{\beta}_{FE}$


- Se puede escribir el estimador de forma alternativa.
- La siguiente matrix $M$ facilita el computo de las a la media, y por ende remover el efecto individual en el modelo de regresión. Sea $M_T=I_T-(1/N)i_Ti_T'$, por ende,

  $$\begin{eqnarray*} y_i&=&\alpha_i\cdot i_T + x_i\beta+u_i \\ M_Ty_i&=&M_T\alpha_i\cdot i_T + M_Tx_i\beta+M_Tu_i \\ &=&M_Tx_i\beta+M_Tu_i \end{eqnarray*}$$
  
  es decir, el estimador de FE se puede escribir como
  
  $$\begin{eqnarray*} \hat{\beta}_{FE} = \left(\sum_i x_i'M_Tx_i\right)^{-1}\left(\sum_i x_i'M_Ty_i\right)= Q^{-1}_{FE,NT}\cdot\left(\frac{1}{NT}\sum_i x_i'M_Ty_i\right) \end{eqnarray*}$$


Es decir,

$$\begin{eqnarray*} \hat{\beta}_{FE} &=& \beta + Q^{-1}_{FE,NT}\cdot\left(\frac{1}{NT}\sum_i x_i'M_Tu_i\right) \end{eqnarray*}$$

Así, bajo lo supuestos del modelo, se tiene

$$\begin{eqnarray*} \mathbb{E}_x(\hat{\beta}_{FE})&=&\beta\\ &\,&\\ Var(\hat{\beta}_{FE}|X)&=&(NT)^{-1}Q^{-1}_{FE,NT}\cdot V_{FE,NT} \cdot Q^{-1}_{FE,NT} \end{eqnarray*}$$

donde,

$$\begin{eqnarray*} V_{FE,NT} = \frac{1}{NT}\sum_{i}{\left(x_{i\bullet}'M_T\Gamma_iM_Tx_{i\bullet}\right)} = \frac{1}{NT}\sum_{i,t}{\sigma^2_i(x_{it}-\bar{x}_{i\bullet})(x_{it}-\bar{x}_{i\bullet})'} + \frac{1}{NT}\sum_{i,t\neq t'}{\gamma_i(t,t')(x_{it}-\bar{x}_{i\bullet})(x_{it}-\bar{x}_{i\bullet})'} \end{eqnarray*}$$


### Estimador FE: Condiciones para consistencia

- $T$ fijo, $N\rightarrow\infty$: consistencia basada en los supuestos de $||x_{it}||$ acotado y $Q_{FE,NT}$ def. positiva, además de $\mathbb{E}_x(\hat{\beta}_{FE})=\beta$.
- $(T,N)\rightarrow\infty$: una condición sufuciente para consistencia es $(NT)^{-2}\sum_i\sum_t\sum_{t'}\gamma_i^2(t,t')\rightarrow0$, lo cual se satisface ya que $|\gamma_i^2(t,t')|<\kappa$
- $N$ fijo, $T\rightarrow\infty$: $T^{-2}\sum_t\sum_{t'}\gamma_i^2(t,t')\rightarrow0$, $\forall\,i$ (condición usual de series de tiempo: condición de ergodicidad). Se satisface si $\Gamma_i=(\gamma_i(t,t'))_{T\times T}$ tiene norma de suma fila(columna) acotada.


### Estimador FE: Distribución asintótica

- Si $u_{it}$ tiene distribución normal, bajo los supuestos del  modelo,

  $$\begin{eqnarray*} \sqrt{NT}\left( \hat{\beta}_{FE} - \beta \right)\sim \mathcal{N}(0,\Omega_{FE,NT})\end{eqnarray*}$$

  donde 
  
  $$\begin{eqnarray*}\Omega_{FE,NT}=Q^{-1}_{FE,NT}\cdot V_{FE,NT} \cdot Q^{-1}_{FE,NT}\end{eqnarray*}$$
  
- Para $T$ fijo y $N\rightarrow\infty$:

  $$\begin{eqnarray*}\sqrt{NT}\left( \hat{\beta}_{FE} - \beta \right)\rightarrow_d \mathcal{N}(0,\Omega_{FE,T})\end{eqnarray*}$$
  
  donde $\Omega_{FE,T}=Q^{-1}_{FE,T}\cdot V_{FE,T} \cdot Q^{-1}_{FE,T}$ y 
  $V_{FE,T}=plim_{N\rightarrow\infty}\left(\frac{1}{N}\sum_i\left(\frac{x_i'M_T\Gamma_iM_Tx_i}{T}\right)\right)$


### Estimador FE y estimador LSDV

- LSDV: Least Squares Dummy Variable (Estimator).
- Notar que el modelo $y_{it}=\alpha_i+x_{it}'\beta+u_{it}$ podemos representarlo mediante la incorporación de variables dummy,

$$\begin{eqnarray*} \left(\begin{array}{c} y_1 \\ y_2 \\ \vdots \\y_i \\ \vdots \\y_N \end{array}\right) = \alpha_1 \left(\begin{array}{c} i_T \\ 0_{T\times1} \\ \vdots \\0 \\ \vdots \\0 \end{array}\right) + \alpha_2 \left(\begin{array}{c} 0_{T\times1} \\ i_T \\ \vdots \\0 \\ \vdots \\0 \end{array}\right) + \ldots + \alpha_N \left(\begin{array}{c} 0_{T\times1} \\ 0_{T\times1} \\ \vdots \\0_{T\times1} \\ \vdots \\i_T \end{array}\right) + x\beta + u \end{eqnarray*}$$

ó

$$y=\sum_i\alpha_id_i+x\beta+u$$



- Es decir, LSDV incorporar variables dummy para los effectos fijos, y luego estimar el modelo por MCO para obenter un estimador de $\beta$. El resultado obtenido sería igual al estimador $\hat{\beta}_{FE}$.
- Por eso el estimador FE también se conoce como el estimador LSDV (the Least Squares Dummy Variable Estimator).
- Sin embargo, los efectos individuales generalmente no son parámetros de interés central (_nuisance parameters_).
- Además, si $N$ es grande, no es computacionalmente eficiente incorporar tantas variables dummy. Adicionalmente, los erroes estándar en LSDV están basados en supuestos más fuertes.
- En general, se recomienda usar FE y luego corregir los errores estándar mediante estimación robusta (usando, por ejemplo, la matriz HAC).


### FE: múltiples efectos fijos

**Two-way FE**

- Sean los siguientes dos efectos fijos: uno asociado a la unidad $i$ y al tiempo $t$,

  $$y_{it}=\alpha_i+\mu_t+x_{it}'\beta+u_{it}$$
  
  equivalentemente,
  
  $$y=(\alpha\otimes i_T)+(i_N\otimes\mu) + x\beta+u$$
  

**Two-way FE**

- Sea $P_j=i_j(i_j'i_j)i_j'$ para $j\in{N,T}$
- Definimos $Q$ como

  $$Q=I_N\otimes I_T - I_N\otimes P_T - P_N\otimes I_T + P_N\otimes P_T$$
  
  tal que $Q(\alpha\otimes i_T)=0$, $Q(i_N\otimes\mu)=0$

- Por ende,

  $$\begin{eqnarray*} Qy &=& Q(\alpha\otimes i_T)+Q(i_N\otimes\mu) + Qx \beta + Qu \\ Qy &=& Qx\beta+Qu \\ y^* &=& x^* \beta+ u^* \end{eqnarray*}$$
  
  al eliminar los efectos fijos, se puede proceder a usar MCO,
  
  $$\hat{\beta} = (x^{*'} x^*)^{-1}(x^{*'} y^{*})$$



**Nota: High Dimensional FE**

-Una nota (ilustrativa) en el caso de más de dos FE. Supongamos los siguientes datos

|	i	|	t	|	Industria	|	y (salario)	|	x (escolaridad)	|
|	---	|	---	|	---	|	---	|	---	|
|	1	|	1	|	1	|	100	|	10	|
|	1	|	2	|	1	|	105	|	10	|
|	2	|	1	|	1	|	80	|	5	|
|	2	|	2	|	2	|	50	|	5	|


**Nota: High Dimensional FE (cont.)**

-Al incorporar variables dummy:

|	i=1	|	i=2	|	t=1	|	t=2	|	Ind=1	|	Ind=2	|	y (salario)	|	x (escolaridad)	|
|	---	|	---	|	---	|	---	|	---	|	---	|	---	|	---	|
|	1	|	0	|	1	|	0	|	1	|	0	|	100	|	10	|
|	1	|	0	|	0	|	1	|	1	|	0	|	105	|	10	|
|	0	|	1	|	1	|	0	|	1	|	0	|	80	|	5	|
|	0	|	1	|	0	|	1	|	0	|	1	|	50	|	5	|



- Sea $D1$ la matrix que contiene las dummy de efecto individual (las dos primeras columnas), D2 la de efectos de tiempo, y D3 la de efectos asociados a la industria. 
- Sea $P_D=D(D'D)^{-1}D'$
- Por ende, ahora $Q$ esta dada por $Q=I-P_D$. Se puede premultiplicar el vector $y$ y la matrix $x$, para proceder con MCO (tal como en el caso de dos efectos fijos).
- Un potencial desafío es que $(D'D)$ no es necesariamente de rango completo. Sin embargo, se puede lograr mediante algunas normalizaciones de la matrix. Les recomiendo ver el comando de Sergio Correia basado en _'spectral graph theory'_. 


## Efectos Aleatorios - Random Effects (RE)

<html><div style='float:left'></div><hr color='#EB811B' size=1px width=720px></html>


$\alpha_i$ ya no es algo fijo (determinístico), sino que es es un término aleatorio ('no observado') a modelar.

- Supuestos: 
  * Sean $\alpha_i$ realizaciones de una función de distribución de probabilidad con un número fijo de parámetros, i.i.d.
  * Además, 
  
    $$\begin{eqnarray*}\begin{array}{ccc} \mathbb{E}(u_{it}|x_{i\bullet},\alpha_i)=0 & \, & \mathbb{E}(u_{i}u_{i}'|x_{i},\alpha_i)=\sigma^2\cdot I_T \\ \mathbb{E}(\alpha_i|x_{i\bullet})=0 & \, & \mathbb{E}(\alpha_i^2 |x_{i}) = \sigma^2_{\alpha} \,\,\,,\,\,\,\forall\,\,i \\ \end{array}\end{eqnarray*}$$


- Sea $\nu_{it}=\alpha_i+u_{it}$, tal que, 

  $$\begin{eqnarray*} \mathbb{E}(\nu_{it}^2)&=&\sigma^2_\alpha + \sigma^2 + 2Cov(\alpha_i,u_{it})=\sigma^2_\alpha + \sigma^2 \\ \mathbb{E}(\nu_{it}\nu_{is})&=&\mathbb{E}(\alpha_i+u_{it})(\alpha_i+u_{is})=\sigma^2_\alpha \end{eqnarray*}$$
  
- Por ende,

  $$\begin{eqnarray*} \Sigma_\nu = \mathbb{E}(\nu_{i}\nu_{i}') = (\sigma^2_\alpha + \sigma^2) \left[\begin{array}{cccc} 1      & \rho   & \ldots & \rho \\ \rho   & 1      & \ldots & \rho \\ \vdots & \vdots & \ddots & \vdots \\ \rho   & \rho   & \ldots & 1 \\ \end{array}\right]\end{eqnarray*}$$
  donde $\rho=\sigma^2_\alpha/(\sigma^2_\alpha+\sigma^2)$



- Estimador: GLS

  $$\hat{\beta}_{RE}=\left(\sum_i x_i'\Sigma_\nu^{-1} x_i \right)^{-1}\left(\sum_i x_i'\Sigma_\nu^{-1} y_i \right)$$
  
- Bajo el supuesto $(NT)^{-1}\left(\sum_i x_i'\Sigma_\nu^{-1} x_i \right)$ es no singular,

  $$Var(\hat{\beta}_{RE})=\left(\sum_i x_i'\Sigma_\nu^{-1} x_i \right)^{-1}$$


Considerando que $\sigma^2_\alpha$ y $\sigma^2$ son desconocidas,

1. Usando residuales del estimador within, procedimiento en dos pasos:
   
   $$\begin{eqnarray*} \hat{\sigma}^2 &=& \frac{1}{N(T-1)-1}\sum_i{(y_{i\bullet}-x_{i\bullet}\hat{\beta}_{FE})'\cdot M_T\cdot (y_{i\bullet}-x_{i\bullet}\hat{\beta}_{FE} ) } \\ \hat{\sigma}^2_\alpha &=& \frac{1}{(N-T)}\sum_i{ (\bar{y}_i - \bar{x}_i \hat{\beta}_{FE})^2 - \frac{1}{T} \hat{\sigma}^2 } \end{eqnarray*}$$
   
2. GLS.

Considerando que no hay garantía que $\hat{\sigma}^2_\alpha>0$ para T pequeño, alternativamente: $\widetilde{\sigma}^2_\alpha = \sum_i(\hat{\alpha}_i - \bar{\hat{\alpha}})^2/(N-1)$


## Evaluando (Test) FE

<html><div style='float:left'></div><hr color='#EB811B' size=1px width=720px></html>


### Test F

- Un simple test para evaluar FE podría ser evaluar la hipótesis nula $H_0:\,\alpha_1=\alpha_2=...=\alpha_N=0$ usando un test-F (Econometría 1),
  
  $$F=\frac{(RRSS-URSS)/(N-1)}{URSS/(N(T-1)-k)} \sim F_{(N-1),N(T-1)-k}$$
  
  donde $RRSS$ y $URSS$ es la suma de cuadrados de los modelos restringidos y sin restringir, respectivamente.



### Test de Hausman

- Otra alternativa más común es el **test de Hausman** (Hausman's misspecification test)). 

  - Idea general: Si hay dos estimadores disponibles, y sabemos que unoi es consistente y eficiente bajo $H_0$ e inconsistente bajo $H_1$, mientras que el otro estimador es consisitente bajo $H_0$ sin ser necesariamente eficiente, la idea es construir un test basado en la diferencia entre los dos estimadores.
  
  Sea e: eficiente, c: no eficiente pero consistente, el test es
  $$(\hat{\theta}_c - \hat{\theta}_e)[Var(\hat{\theta}_c) - Var(\hat{\theta}_e)]^{-1}(\hat{\theta}_c - \hat{\theta}_e)$$
  
  el cual es consistente si $[Var(\hat{\theta}_c) - Var(\hat{\theta}_e)]$ converge a una matrix definida positiva; $(\hat{\theta}_c - \hat{\theta}_e)$ converge a un límite no cero bajo la hipótesis alternativa.



Aplicado al modelo para datos en panel,

  - $H_0$ sería $\mathbb{E}(\alpha_i|x_i)=0$. 
  - Bajo $H_0$ RE alcanza la cota Cramer-Rao y bajo $H_1$ sería sesgado. En contraste, FE es consistente bajo $H_0$ y $H_1$, pero no es eficiente bajo $H_0$.
  - El test H se puede expresar como,
    $$H=(\hat{\beta}_{FE} - \hat{\beta}_{RE})[V(\hat{\beta}_{FE}) - V(\hat{\beta}_{RE})]^{-1}(\hat{\beta}_{FE} - \hat{\beta}_{RE})$$
  
    Para $N\rightarrow\infty$, $u_{it}$ homocedásticos y sin correlación serial,
  
    $$H\sim\chi^2_k$$
  
    Nota: si no se cumple condiciones para $u$, RE no es eficiente.


## Panel Dinámico

<html><div style='float:left'></div><hr color='#EB811B' size=1px width=720px></html>


Ahora la variable dependiente entra de forma rezagada, $y_{it-1}$, como regresor:

  $$y_{it}=\gamma y_{it-1} + \alpha_i + x_{it}'\beta + u_{it}$$

- Es (trivial) mostrar que FE - estimador within, es inconsistente (emerge un problema de endogeneidad).
- Idea general para estimación:
  1. Primero usar primera diferencia para eliminar efecto fijo.
  2. Usar variables instrumentales para problema de endogeneidad.


### Estimación de Panel Dinámico

Paso 1: Primera diferencia para eliminar $\alpha_i$,

$$\Delta y_{it}=\gamma\Delta y_{it-1}+\Delta x_{it}'\beta+\Delta u_{it}$$
  
Notar del modelo anterior que
    
$$\begin{eqnarray*} \mathbb{E}(\Delta y_{it-1}\cdot\Delta u_{it}) &=& \mathbb{E}((y_{it-1}-y_{it-2})\cdot (u_{it}-u_{it-1})) = -\sigma^2_u \neq0 \\ &\,& \\ \mathbb{E}(\Delta u_{it-s}\cdot\Delta u_{it}) &=& \left\{\begin{array}{ccc} 2\sigma^2_u & para & s=0 \\ -\sigma^2_u & para & s=1 \\ 0 & para & s>0 \end{array}\right. \end{eqnarray*}$$
    
  

Paso 1: Primera diferencia para eliminar $\alpha_i$,

$$\Delta y_{it}=\gamma\Delta y_{it-1}+\Delta x_{it}'\beta+\Delta u_{it}$$
  
Notar del modelo anterior que
    
$$\begin{eqnarray*} \mathbb{E}(\Delta y_{it-1}\cdot\Delta u_{it}) &=& \mathbb{E}((y_{it-1}-y_{it-2})\cdot (u_{it}-u_{it-1})) = -\sigma^2_u \neq0 \\ &\,& \\ \mathbb{E}(\Delta u_{it-s}\cdot\Delta u_{it}) &=& \left\{\begin{array}{ccc} 2\sigma^2_u & para & s=0 \\ -\sigma^2_u & para & s=1 \\ 0 & para & s>0 \end{array}\right. \end{eqnarray*}$$


Así, para $W$:

- Arrellano y Bond: Uso de varios rezagos. Sea $\Delta y_i = \gamma\Delta y_{i,(-1)}+\Delta x_i\beta+\Delta u_{i}$, con $\Delta y_i=(\Delta y_{i2},...,\Delta y_{iT})'$, por ende, para
 
  $$\begin{eqnarray*} W_i = \left[\begin{array}{cccc} y_{i1} & 0                & \ldots  & \rho \\ 0      & (y_{i1},y_{i2})  & \ldots  & \rho \\ \vdots & \vdots           & \ddots  & \vdots \\ 0      & 0                & \ldots  & (y_{i1},...,y_{iT-2}) \\ \end{array}\right] \end{eqnarray*}$$
  
  se tiene $$\mathbb{E}(W_i'\Delta u_i)=0$$
  
- Arellano y Bover: Para RE.
- Blundell y Bond (GMM): Inclusión de restricciones en la distribución de $y_{i0}$
- System-GMM: Variables en niveles pueden ser instrumentos débiles, por ende, se propone usar también variables en diferencias como instrumentos.
