## Aula 9: Modelos autoregressivos

### Objetivos
Desenvolver a bagagem básica para prever o comportamento futuro de uma série temporal a partir do seu comportamento passado.

### Habilidades a serem desenvolvidas
Ao final da aula o aluno deve entender os conceitos de:

- ACF e PACF
- Random walk
- White noise
- Estacionaridade
- Teste Dicky-Fuller para testar normalidade
- Modelos AR, MA, ARMA e ARIMA

### Bibliotecas usadas
As seguintes bibliotecas serão usadas:
 - Numpy;
 - Pandas;
 - Datetime;
 - Pandas datareader;
 - Matplotlib.

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from datetime import datetime, timedelta
import seaborn as sns
from pandas_datareader.data import DataReader
import yfinance as yf
import warnings
warnings.filterwarnings("ignore")

%matplotlib inline

ModuleNotFoundError: No module named 'pandas_datareader'

## Fundamentos de séries temporais

https://finance.yahoo.com/

In [40]:
# 1

In [50]:
# 2

In [64]:
# 3

In [65]:
# 4

In [73]:
# 5

**AutoCorrelation Function - autocorrelação**


Medida pela correlação entre a série temporal com a cópia defasada dela mesma.  
$Corr(y_t, y_{t-1})$  
Normalmente utiliza-se a correlação de Pearson


**PACF - Autocorrelação parcial**

Ao contrário da autocorrelação, remove efeito e dados temporais intermediarios. Ou seja, os passos de tempo entre o passo atual e o passo t-q são desconsiderados na PACF.  
Para tal utilizamos a seguinte formula:   

$y_{t} = \phi_{1} * y_{t-1} + \phi_{2} * t_{t-2} + \varepsilon_{t}$  

Nesse caso podemos generalizar para uma ordem $k$ a nossa função   

$y_{t} = \phi_{1} * y_{t-1} + \phi_{2} * t_{t-2} + ... + \phi_{k} * t_{t-k} + \varepsilon_{t}$  
Para achar a PACF queremos o valor de $phi_{k}$.  

O valor de $k$ é extremamente útil para escolher a ordem da nossa função autoregressiva!

![](https://i1.wp.com/www.business-science.io/assets/lag-explanation.PNG?w=584)

In [None]:
# 6

In [None]:
# 7

In [None]:
# 8

In [74]:
# 9

In [None]:
# 10

In [None]:
# 11

Intervalos de confiança são desenhados como cones e setados por default para 95% de confiança. Ou seja, valores fora do cone são muito provavelmente correlações efetivas, e não coincidências.

## Estacionaridade

- uma série temporal é dita estacionária quando ela se desenvolve no tempo aleatoriamente ao redor de um valor constante, refletindo alguma forma de equilíbrio estável

![](https://miro.medium.com/max/2580/1*tkx0_wwQ2JT7pSlTeg4yzg.png)

## White noise

- média constante = 0
- variância constante
- autocorrelação zero em todas lags => sazonalidade inexistente

**Importância**
$$y_{t} = sinal + ruido$$

- Sinal => AR, MA...
- Ruído => Parte totalmente imprevisível

- Modelo bom => resíduo é ruído branco

**Testes**
- Visual
- Rolling window => verificar o movimento do desvio padrão e da média no tempo
- Correlações => ACF dentro do intervalo de confiança

![](https://3qeqpr26caki16dnhd19sv6by6v-wpengine.netdna-ssl.com/wp-content/uploads/2017/01/White-Noise-Series-Line-Plot.png)

In [77]:
# 12

**Random walk**

- preço de hoje = preço de ontem + ruído
$$P_t = P_{t-1} + \epsilon_t$$
- mudança de preço é ruído branco
$$P_t - P_{t-1} = \epsilon_t$$
- não é possível prever um random walk
- melhor previsão do preço de amanhã é o preço de hoje
- random walk com drift
$$P_t = \mu + P_{t-1} + \epsilon_t$$
- mudança de preço é ruído branco com média $\mu$
$$P_t - P_{t-1} = \mu + \epsilon_t$$

**teste estatístico para random walk**
- teste de regressão para random walk
$$P_t =\alpha + \beta P_{t-1} \epsilon_t$$

- equivalente com
$$P_t - P_{t-1}=\alpha + \beta P_{t-1} \epsilon_t$$

- teste de Dickey–Fuller
    - random walk
$$H_0: \beta = 0$$
    - não é random walk
$$H_1: \beta < 0$$


- random walk são exemplos de séries não estacionárias

![](https://3qeqpr26caki16dnhd19sv6by6v-wpengine.netdna-ssl.com/wp-content/uploads/2017/01/Random-Walk-Line-Plot.png)

- séries sazonais também não são estacionárias

![](https://anomaly.io/wp-content/uploads/2015/12/multiplicative-model.png)

- transformando séries não estacionárias em estacionárias

![](https://miro.medium.com/proxy/1*ipFYXnNKmw-HcF8r4Ro9Bw.png)

In [14]:
# 13

In [78]:
# 14

## Autoregressive (AR)

**Modelo AR**

- Conceito: capturar o padrão por trás da time series e prever o comportamento futuro a partir do passado
- Exemplo: sazonalidade anual de vendas

$$R_t = \mu + \phi R_{t-1} + \epsilon_t$$

$$R_t = \phi R_{t-1} + \epsilon_t$$

- $R_t$ => instante presente
- $R_{t-p}$ => passados p lags
- $\phi$ => coeficiente da PACF
- Bom modelo => lags da PACF fora do cone de confiança

- visto que há somente um valor defasado do lado direito, modelo é chamado de AR de ordem 1 ou AR(1)


- $\phi = 1$: random walk
- $\phi = 0$: white noise

- estacionaridade: $-1 < \phi < 1$
- $\phi$ negativo: mean reversion
- $\phi$ positivo: momentum

- AR(1)
$$R_t = \mu + \phi_1 R_{t-1} + \epsilon_t$$

- AR(2)
$$R_t = \mu + \phi_1 R_{t-1} + \phi_2 R_{t-2} + \epsilon_t$$

- AR(3)
$$R_t = \mu + \phi_1 R_{t-1} + \phi_2 R_{t-2} + \phi_3 R_{t-3} + \epsilon_t$$

**Identificando a ordem do modelo AR**

- partial correlation function (PACF)


In [79]:
# 15

In [80]:
# 16

In [81]:
# 17

In [82]:
# 18

In [83]:
# 19

In [10]:
# 20

In [84]:
# 21

In [85]:
# 22

In [86]:
# 23

In [87]:
# 24

In [88]:
# 25

In [12]:
# 26

In [89]:
# 27

In [90]:
# 28

In [91]:
# 29

In [92]:
# 30

In [93]:
# 31

In [94]:
# 32

In [95]:
# 33

In [None]:
# 34

In [96]:
# 35

In [97]:
# 36

In [98]:
# 37

## Moving average (MA)

**Modelo MA**

- MA(1)
$$x_t = \mu + w_t + \theta_1 w_{t-1}$$

- MA(2)
$$x_t = \mu + w_t + \theta_1 w_{t-1} + \theta_2 w_{t-2}$$

- MA(3)
$$x_t = \mu + w_t + \theta_1 w_{t-1} + \theta_2 w_{t-2} + \theta_3 w_{t-3}$$

- MA(q)
$$x_t = \mu + w_t + \theta_1 w_{t-1} + \theta_2 w_{t-2} + ... + \theta_q w_{t-q}$$

Onde, $w_t ~ N(0, \sigma^2_w)$, logo $w_t$ é iid a uma distribuição normal com média 0 e de mesma variância

Alguns livros definem o sinal negativo antes dos temors $\theta$, isso não altera as propriedades gerais do modelo. No R utiliza-se o sinal positivo!

Para M(1)

- Média:     $E(x_t) = \mu$  
- Variância: $Var(x_t) = \sigma^2_w(1+\theta^2_1)$   
- ACF:       $\rho_1 = \frac{\theta_1}{1 + \theta^2_1}$

Para M(2)
- Média:     $E(x_t) = \mu$  
- Variância: $Var(x_t) = \sigma^2_w(1+ \theta^2_1 + \theta^2_2)$   
- ACF:       $\rho_1 = \frac{\theta_1 + \theta_1\theta_2}{1 + \theta^2_1 + \theta^2_2}$, $\rho_2 = \frac{\theta_2}{1 + \theta^2_1 + \theta^2_2}$ 



In [99]:
# 38

In [100]:
# 39

In [101]:
# 40

**Previsão com modelo MA**

In [102]:
# 41

In [103]:
# 42

## Modelos ARMA

![](https://image1.slideserve.com/1710867/slide34-l.jpg)

**Modelo ARMA**

- ARMA(1, 1):
$$R_t = \mu + \phi R_{t-1} + \epsilon_t + \theta \epsilon_{t-1}$$

In [107]:
# 43

In [108]:
# 44


In [31]:
# 45

In [110]:
# 46

In [111]:
# 47

In [112]:
# 48

In [55]:
# 49

P-value de CL=F é 4.1107622390964046e-29; ou seja, é estacionária? True
P-value de GOLL4.SA é 2.716565974795641e-27; ou seja, é estacionária? True


In [113]:
# 50

In [114]:
# 51

## Akaike Information Criterion
- AIC mais baixo => melhor modelo

In [66]:
# 52

In [67]:
# 53


In [115]:
# 54

## Modelos ARIMA

- p: número de defasagens autoregressivas
- d: ordem da diferença das defasagens
- q: número de defasagens das médias móveis

Ou seja, $p$ refere-se ao (AR), $d$ ao (I), e $p$ ao (MA)

Onde:

$$ (d=0): y'_t = Y_t$$
$$ (d=1): y'_t = Y_t - Y_{t-1}$$ 
$$ (d=2): y'_t = (Y_t - Y_{t-1}) - (Y_{t-1} - Y_{t-2})$$

Logo temos:  
A parte do ARI  (autoregressivo e integrated)  
$y'_{t} = \mu + \phi_1 y'_{t-1} +  ... + \phi_p y'_{t-p} +\epsilon_t$
E para MA temos:  
$y'_{t} = \theta_1 w_{t-1} + ... + \theta_q w_{t-q}$

Juntando as duas formulas:  
$y'_{t} = \mu + \phi_1 y'_{t-1} +  ... + \phi_p y'_{t-p}
+ \theta_1 w_{t-1} + ... + \theta_q w_{t-q} +\epsilon_t$

Quando muitos componentes são combinados é mais simples utilizar a anotação de backshift. Por exemplo, a equação acima pode ser escrita como:  
$(1 - \phi_1 B + ... + \phi+_p B^p) (1-B)^dy_t = c + (1 + \theta_1B + ... + \theta_q B^q)w_t$  

 | AR(p)..................................| d diff........................|...................MA..................|

In [116]:
# 55

In [117]:
# 56

In [118]:
# 57

In [119]:
# 58