# ***Introductory Econometrics: A modern approach***
---

# Chapter 18: Advanced Time Series Topics

> Book: 

    - WOOLDRIDGE, J. M.. Introdução à econometria: uma abordagem moderna. 3a ed. São Paulo: Pioneira Thomson Learning, 2006.

    - WOOLDRIDGE, Jeffrey M. Introductory econometrics: A modern approach. Cengage learning, 2015.

> LINK to codes correction:

http://www.upfie.net/downloads18.html

# Bibliotecas
---

In [1]:
import wooldridge as woo
import pandas as pd
import numpy as np
import statsmodels.formula.api as smf
import statsmodels.api as sm
import patsy as pt

## Observações iniciais

- Processos estocásticos de raízes unitárias: a presença de raíz unitária indica que um choque hoje tenha efeitos duradouros no tempo;

- Regressões espúrias: se as duas séries com raízes unitárias forem usadas em uma regressão de uma contra a outra, há grandes chances das estatísticas de testes mostrarem insignificância estatística equivocadamente. Quando os processos estocásticos são integrados em alguma ordem, devemos estar atentos aos procedimentos padrões de inferência;

- Com uma combinação linear de séries integradas I(0), a regressão não é espúria, mas pode dizer algo sobre a relação de longo prazo entre as séries. Para esse caso de cointegração, temos um modelo específico conhecido como modelos de correção de erro. 

# Infinite Distributed Lag Models (Modelos de Defasagens Distribuídas)
---

> Uma extensão dos modelos de defasagem distribuídas finitas vistos no capítulos 10 do livro-texto. Permite que as mudanças nos valores das variáveis explicativas afetem todos os valores futuros da variável dependente.

## Formalização

$$
y_t = \alpha + \delta_0z_t + \delta_1z_{t-1} + \delta_2z_{t-2} + .... + u_t
$$

Trata-se, de séries bivariadas, em que a definição é generalizada, mas que do ponto de vista econômico, nenhuma série se estende infinitamente no futuro.

Nesse caso, faz sentido que $\delta_j \to 0$ à medida que $t \to \infty$. Isso não significa, por exemplo, que há uma regra em que os coeficientes mais pertos do presente devem ser maiores, e sim que, ao longo do tempo, há uma tendência dos efeitos da variável independente sejam reduzidos sobre a variável dependente. Em outras palavras, o passado mais distante da variável dependente tende a ser menos relevante para explicar a variável dependente. 

Não podemos estimar um modelo com infinitos coeficientes e, ainda, não faria sentido econômico e prático, como dito anteriormente, dado que não temos séries temporais infinitas. Nesse caso, a principal restrição é **limitar o número de parâmetros a serem estimados**. 

Assim como nos modelos de defasagem finita (FDL), o impacto de um choque em $z$ é $\delta_0$ se for transitório, mas pode ser a somatória dos $\delta_j$'s caso o choque em $z$ seja permanente. 

Nesse caso, o impacto marginal de uma mundança temporária em $z$ para cada período $h \geq 0$ é dado por:

$$
E(y_h) = \alpha + \delta_h + u_h = \alpha + \delta_h
$$

Com a mesma hipótese de que o erro tem um efeito médio igual a zero. 

Com um choque temporário e t tendendo a infinito, temos então que o efeito é transitório e se dissipa ao longo do tempo, de modo que $E(y_h) = \alpha$.

Já o impacto de um choque permanente é a soma de todos os coeficientes: 

$$
LRP = \delta_0 + \delta_1 + \delta_2 + ... + \delta_n
$$

E na lógica similar ao choque transitório:

$$
E(y_h) = \alpha + \delta_0 + \delta_1 + \delta_2 + ... + \delta_h + u_h = \alpha + \delta_0 + \delta_1 + \delta_2 + ... + \delta_h
$$

Ao assumirmos essas duas formas com um efeito médio do erro igual à zero, trabalhamos também com a hipóteses de **exogeneidade estrita**. Formalmente, as mudanças em $z$ não provocariam mudanças no termo de erro e, formalmente: 

$$
E(u_y|z_{t-2}, ..., z_{t+2}) = 0
$$

De modo que o erro não depende das variáveis exógenas em nenhum período de tempo. Em aplicações, esse pode ser o caso, mas limita outros casos em que uma mudança na variável exógena hoje seja reflexo de uma mudança na variável endógena no período anterior, principalmente em aplicações relacionadas à política econômica, por exemplo. 

Para casos como esse, assumimos uma hipótese mais fraca:

$$
E(u_y|z_t, ..., z_{t-2}) = 0
$$

Ou seja, fazemos com que o termo do erro não seja correlacionado com as variáveis exógenas apenas no período corrente e nos anteriores, permitindo correlação nos períodos futuros, caso a variável exógena seja alterada em razão dos resultados anteriores da exógena. 

Vale lembrar que nenhuma das formas dessa hipótese de exogeinedade diz algo sobre a correlação serial. Na verdade, podemos esperar, em boa parte dos casos que haja correlação serial, dado que a equação a ser estimada não necessariamente está completa dinâmicamente. 

Nesse caso, a interpretação dos impactos temporários e permanentes segue a mesma.

## Defasagem geométrica distribuída - (The Geometric (or Koyck) Distributed Lag)

## Formalização

$$
\delta_j = \gamma\rho^j
$$

em que: $|\rho| < 1$ e $j = 1, 2, ...$

Lembrando que esse modelo ainda depende de um número infinito de lags.

Mas nesse caso, temos que $\delta_j \to 0$ quando $j \to \infty$ de modo que o tempo passa a ser uma espécie de restrição para a estimação em que o passado distante exerce pouco efeito ou efeito nulo sobre o presente. 

Para um choque de curto prazo, temos que o impactio é dado por:

$$
IP = \delta_0 = \gamma
$$

Para choques permanentes, temos um efeito que persiste no tempo e temos a seguinte forma:

$$
LRP = \gamma * (1 + \rho^1 + \rho^2 + ... + \rho^j) = \gamma * \frac{1}{1 - \rho} = \frac{\gamma}{1 - \rho}
$$

Substituindo na primeira equação, temos:

$$
y_t = \alpha + \gamma z_t + \gamma\rho z_{t-1} + \gamma\rho^2 z_{t-2} + .... + u_t
$$

e

$$
y_{t-1} = \alpha + \gamma z_{t-1} + \gamma\rho z_{t-2} + \gamma\rho^2 z_{t-3} + .... + u_{t-1}
$$

E com a subtração, podemos finalmente estimar um modelo:

$$
y_t - y_{t-1} = (1-\rho)\alpha + \gamma z_t + u_t -\rho u_{t-1}
$$

E manipulando 

$$
y_t = \alpha_0 + \gamma z_t + \rho y_{t-1} + u_t -\rho u_{t-1}
$$

Contudo, sem mais hipóteses há grandes chance de termos incosistência nos estimadores dado que o termo do erro composto $v_t = u_t -\rho u_{t-1}$ será correlacionado com $y_{t-1}$. Ainda, podemos ver que esse erro composto possui correlação serial pela sua forma, que o caracteriza como um processo de média móvel da primeira ordem. 

Contudo, com a hipótese de exogeneidade estrita, temos que $z$ não estará correlacionado com o termo do erro e, portanto, com um instrumento forte para estimar $y_{t-1}$ poderemos estimar a equação completa. Temos então que o instrumento forte, sob essa hipótese, e a própria defasagem de z: $z_{t-1}$. Basta então obter os erros padrões robustos para correlação serial e teremos estimado o modelo de interesse. 

Contudo, se o erro seguir um processo AR(1), teremos:

$$
u_t = \rho u_{t-1} + e_t 
$$

e, portanto:

$$
y_t = \alpha_0 + \gamma z_t + \rho y_{t-1} + e_t
$$

Sob nossa hipótese convencional: $E(u_t|z) = 0$. Assim, a estimação por MQO é consistente e assintóticamente segue normalidade, também com testes válidos de $e_t$ for homoscedástico.

Essas propriedades podem ser generalizadas para diversas variáveis exógenas $z_{t1} ... z_{tk}$ e com as hipóteses acima pode ser estimado por MQO ou, caso contrário, estimado por IV. 

## Modelos de defasagens racionais distribuídas (Rational Distributed Lag Models)

Além de restringir a distribuição de defasagens, esse modelo permite que os choques produzam efeitos com direções diferentes sobre a variável dependente. 

Consultar livro texto para mais detalhes.

## EXEMPLO 18.1: Housing Investment and Residential Price Inflation

In [2]:
# Carregando dados
hseinv = woo.data('hseinv')

# Tirando a tendência da variável dependente 
hseinv['linvpc_detrend'] = sm.tsa.detrend(hseinv['linvpc'])
hseinv['gprice_lag1'] = hseinv['gprice'].shift(1)
hseinv['linvpc_det_lag1'] = hseinv['linvpc_detrend'].shift(1)

# Koyck geometric d.l.:
reg_koyck = smf.ols(formula = 'linvpc_detrend ~ gprice + linvpc_det_lag1',
                    data = hseinv)
results_koyck = reg_koyck.fit()

# printando tabela de regressão:
table_koyck = pd.DataFrame({'b': round(results_koyck.params, 4),
                            'se': round(results_koyck.bse, 4),
                            't': round(results_koyck.tvalues, 4),
                            'pval': round(results_koyck.pvalues, 4)})
print(f'table_koyck: \n{table_koyck}\n')

# rational d.l.:
reg_rational = smf.ols(formula='linvpc_detrend ~ gprice + linvpc_det_lag1 +'
                               'gprice_lag1',
                       data=hseinv)
results_rational = reg_rational.fit()

# printando tabela de regressão:
table_rational = pd.DataFrame({'b': round(results_rational.params, 4),
                               'se': round(results_rational.bse, 4),
                               't': round(results_rational.tvalues, 4),
                               'pval': round(results_rational.pvalues, 4)})
print(f'table_rational: \n{table_rational}\n')


table_koyck: 
                      b      se       t    pval
Intercept       -0.0100  0.0179 -0.5561  0.5814
gprice           3.0948  0.9333  3.3159  0.0020
linvpc_det_lag1  0.3399  0.1316  2.5831  0.0138

table_rational: 
                      b      se       t    pval
Intercept        0.0059  0.0169  0.3466  0.7309
gprice           3.2564  0.9703  3.3559  0.0019
linvpc_det_lag1  0.5472  0.1517  3.6076  0.0009
gprice_lag1     -2.9363  0.9732 -3.0172  0.0047



In [3]:
# LRP:
lrp_koyck = results_koyck.params['gprice'] / (
        1 - results_koyck.params['linvpc_det_lag1'])
print(f'lrp_koyck: {lrp_koyck}\n')

lrp_rational = (results_rational.params['gprice'] +
                results_rational.params['gprice_lag1']) / (
                       1 - results_rational.params['linvpc_det_lag1'])
print(f'lrp_rational: {lrp_rational}\n')

lrp_koyck: 4.68843419476902

lrp_rational: 0.7066808046888258



> As diferenças entre GDL e RDL são notáveis, e esse exmplo mostram que a GDL ao ignorar uma defasagem importante na regressão, pode chegar a um resultado muito diferente do método adequado e muitas vezes incompatível com a própria teoria econômica. 

# Testando para raízes unitárias
---

Testes: 

1. Dickey-Fuller;

2. Augmented Dickey-Fuller. 

Procedimentos: regressão da primeira diferença da variável endógena com sua primeira defasagem (caso mais simples do teste DF). Ainda, podemos incluir a primeira diferença da defasagem e um número maior de defasagens, levando-nos para o teste DF em sua forma aumentada, ou seja, o teste ADF.

## Example 18.4 Unit Root in the Log of U.S. Real Gross Domestic Product

In [4]:
inven = woo.dataWoo('inven')
inven['lgdp'] = np.log(inven['gdp'])

# automated ADF:
res_ADF_aut = sm.tsa.stattools.adfuller(inven['lgdp'], maxlag=1, autolag=None,
                                        regression='ct', regresults=True)
ADF_stat_aut = res_ADF_aut[0]
ADF_pval_aut = res_ADF_aut[1]
table = pd.DataFrame({'names': res_ADF_aut[3].resols.model.exog_names,
                      'b': np.round(res_ADF_aut[3].resols.params, 4),
                      'se': np.round(res_ADF_aut[3].resols.bse, 4),
                      't': np.round(res_ADF_aut[3].resols.tvalues, 4),
                      'pval': np.round(res_ADF_aut[3].resols.pvalues, 4)})
print(f'table: \n{table}\n')
print(f'ADF_stat_aut: {ADF_stat_aut}\n')
print(f'ADF_pval_aut: {ADF_pval_aut}\n')

table: 
   names       b      se       t    pval
0     x1 -0.2096  0.0866 -2.4207  0.0215
1     x2  0.2638  0.1647  1.6010  0.1195
2  const  1.6627  0.6717  2.4752  0.0190
3     x3  0.0059  0.0027  2.1772  0.0372

ADF_stat_aut: -2.420732881476164

ADF_pval_aut: 0.36865584571357957



# Regressão espúria
---

Além da noção básica da correlação espúria, em que as variáveis y e x podem estar correlacionadas por influência de uma terceria, esse problema se estende À séries temporais.

Para STs, a regressão espúria é marcada pela regressão de uma série em outra, geralmente ambas I(1), em que, mesmo sendo séries independentes, há uma correlação identificada na regressão e com as estatísticas de teste indicando haver evidências suficientes para essa correlação. Contudo, por sererm independentes, isso jamais ocorreria. 

Nesse caso, isso ocorre porque ao utilizarmos as séries em nível, sob a hipótese nula o nosso erro seguiria um processo de passeio aleatório, violando as hipóteses básicas de Guass-Markov e nos levando ao problema da correlação espúria.

Por isso, geralmente procedemos com a primeira diferenciação da série, antes de estimar com MQO ou mesmo Variáveis instrumentais. 

# Cointegração e modelos de correção de erro
---

## Cointegração

Duas séries I(1) em que suas diferenças são um processo I(0). ***exemplo da taxa de juros de 3 e 6 meses para o tesouro, que quando subtraídas de si, dão o spread***.

Podemos testar a cointegração das séries simplesmente definindo a diferença entre elas e usarmos os testes DF ou ADF para verificar a hipótese.

Se rejeitarmos a hipótese de que a nova séries é I(1), teremos que a série originada é I(0), vinda de duas séries I(1).

Para outra séries em que o parâmetro de cointegração não é observado que incorporamos no termo de erro, podemos testar isolando o termo do erro na equação da regressão e testar com os testes DF e ADF se a séries resultante é I(1) ou I(0). Esse teste também é conhecido como Engle-Granger test.

Se as séries forem não cointegradas, a regressão entre elas é espúria e não obtemos nenhuma informação relevante sobre o problema e não há relação de longo prazo entre y e x. Contudo, podemos usar as primeiras diferenças de ambas as séries em uma regressão para tentar identificar sua relação, incluindo defasagens. Mas nesse caso, vale lembrar que essa regressão irá explicar como a diferença em y pode ser explicada por uma diferença em x, não se relacionando com os níveis das variáveis em si. 

Se a série conter um componente estático (drift), os valores esperados da série são funções lineares do tempo. Nesse caso, podemos esperar ter uma série com tendência estacionária, mas com os parâmetros tornando a série I(0).

Podemso testar a cointegração dos componentes de drift com uma regressão que incorpore seus valores no parâmetro estimado e aplicando os testes DF ou ADF sobre os resíduos. Nesse caso, podemos identificar se a nova série, originada de ambas as séries I(1) integradas, possui ou não tendência, mesmo sendo I(0).

> DICA: sempre que regredimos uma dessas séries na outra em nível e depois em diferenças e os resultados dos coeficientes e das estatísticas de teste são muito discrepantes, podemos testar para a cointegração.

Quando pensamos que as séries são cointegradas, geralmente podemos testar essa hipótese em cima do coeficiente de cointegração. Mas devemos ficar atentos aos impasses relacionados a correlação serial e ausência de exogeneidade estrita, dado que a única exigência para a verificarmos co-integração é de que os erros seja i.i.d e I(0), não havendo nenhum impedimento para esses problemas mencionados. 

Mas, felizmente esses problemas podem ser corrigidos. O problema da exogeneidade estrita quando regredimos uma dessas séires na outra pode ser corrigido, por exemplo, inserindo a diferenciação da variável dependente junto de sua forma em nível na regressão, por exemplo. Para correlação serial, basta computar os erros padrões robustos.

## Modelos de correção de erro

Com o conceito de cointegração, podemos partir para a abordagem das séries com modelos dinâmicos.

Se duas séries não são cointegradas, podemos estimar um modelo dinâmico nas primeiras diferenças e, podemosincluir também, as defasagens das primeiras diferenças.

Se as duas séries forem cointegradas, podemos então, adicionar na regressão a nova série da diferença entre ambas que é I(0) e também suas defasagens se for o caso. 

Dessa forma, um modelo de correção de erro nos permite estudar a dinâmica de curto prazo da relação entre y e x: o termo de correção e erro do modelo tende a puxar o valor de y para o seu equilíbrio a medida que seu erro se distancia da média zero no tempo. 

Do ponto de vista prático, haverão casos em que esse termo de correção será composto apenas pela diferneça entre os respectivos valores das duas séries ou devemos estimar a regressão, computar os parâmetros de cointegração e o erro, e estimar a segunda regressão com esses dados (Engle-Granger two-step procedure).



# Previsão
---