## **3.4 - Modelos AR, MA, ARMA, ARIMA, GARCH**

### **Autoregressão (AR - AutoRegressive)**

Autoregressão significa que o valor atual de uma variável depende de seus próprios valores passados. Em outras palavras, uma série temporal com comportamento autoregressivo tem memória, os valores anteriores influenciam os futuros.

Formalmente, um modelo autoregressivo de ordem $p$, chamado $AR(p)$, pode ser escrito como:
$$
  X_{t} = \phi_{1}X_{t-1}+\phi_{2}X_{t-2}+...+\phi_{p}X_{t-p} + \epsilon_{t}
$$
onde:
- $X_{t}$ é o valor da série no tempo $t$.
- $\phi_{1},\phi{2},...,\phi_{p}$ são os coeficientes do modelo (indicam a influência dos valores passados).
- $\epsilon_{t}$ é um termo de ruído aleatório (ruído branco).

Exemplo: O preço de uma ação hoje pode ser fortemente influenciado pelos preços dos últimos dias. Se os retornos de uma ação seguem um padrão de reversão à média, podemos modelar esse comportamento usando um modelo AR.

### **Média Móvel (MA - Moving Average)**

No modelo MA, o valor presente da variável não é afetado diretamente pelos valores passados da própria variável, mas sim pelos erros aleatórios passados (ou "choques"). Esses erros representam informações novas ou inesperadas que afetaram a série temporal.

Um modelo de média móvel de ordem $q$, chamado $MA(q)$, pode ser escrito como:
$$
    X_{t} = \epsilon_{t} + \theta_{1}\epsilon_{t-1} + \theta_{2}\epsilon_{t-2} + ... + \theta_{q}\epsilon_{t-q
    }
$$
onde:
- $X_{t}$ é o valor da série no tempo $t$.
- $\epsilon_{t}$ é o erro aleatório no tempo $t$.
- $\theta_{1},\theta_{2},...,\theta_{q}$ são os coeficientes do modelo.

Exemplo: Suponha que o preço do petróleo hoje seja impactado por notícias e eventos passados. Um modelo MA pode capturar esse impacto ao modelar como os choques passados influenciam os preços futuros.

#### **Modelos ARMA (AutoRegressive Moving Average)**

No ARMA, o valor presente de uma série temporal combina **memória dos próprios valores passados** (parte autorregressiva) com **impactos de choques passados** (parte de média móvel). Em outras palavras: o processo “lembra” um pouco do que aconteceu (AR) e ainda carrega resíduos dos imprevistos recentes (MA). Isso permite capturar **persistência** (efeitos que se propagam no tempo) e **efeitos transitórios** (choques que morrem rápido).

Um modelo ARMA de ordem $(p,q)$, denotado **ARMA(p,q)**, para uma série estacionária $\{X_t\}$ é:

$$
X_t \;=\; \mu
\;+\; \underbrace{\phi_{1}X_{t-1} + \cdots + \phi_{p}X_{t-p}}_{\text{parte AR}}
\;+\; \underbrace{\epsilon_t + \theta_{1}\epsilon_{t-1} + \cdots + \theta_{q}\epsilon_{t-q}}_{\text{parte MA}} \,,
$$
onde:

- $X_t$ é o valor da série no tempo $t$.
- $\mu$ é a média (intercepto) do processo.
- $\phi_1,\ldots,\phi_p$ são **coeficientes autorregressivos** (como o passado de $X$ influencia o presente).
- $\theta_1,\ldots,\theta_q$ são **coeficientes de média móvel** (como choques passados influenciam o presente).
- $\epsilon_t$ é **ruído branco**: uma sequência de erros imprevisíveis, com média $0$, variância constante $\sigma^2$ e sem autocorrelação.

**Intuição.**
- **Parte AR:** “se ontem foi acima da média, hoje tende a ser um pouco acima também”, com força dada pelos $\phi_i$.
- **Parte MA:** “se ontem sobrou um erro positivo (uma surpresa), hoje parte dessa surpresa ainda ecoa”, com força dada pelos $\theta_j$.


### **Modelos ARIMA (AutoRegressive Integrated Moving Average)**

No **ARIMA**, a ideia é a mesma do ARMA, combinar **memória dos próprios valores passados** (parte autorregressiva) com **impactos de choques passados** (parte de média móvel), **mas aplicada a uma série previamente “estacionarizada” por diferenciação**. Em outras palavras: quando a série tem **tendência ou nível não constante**, primeiro removemos essa não-estacionaridade tirando **diferenças sucessivas** (o “I” de *Integrated*), e **depois** modelamos o resultado com um ARMA.  

Isso permite capturar **persistência** (efeitos que se propagam no tempo), **efeitos transitórios** (choques que morrem rápido) **e** lidar com **tendências/níveis** de forma adequada.

Um modelo ARIMA de ordem $ (p,d,q) $, denotado **ARIMA(p,d,q)**, para uma série $ \{X_t\} $ é:

$$
\underbrace{(1 - B)^d X_t}_{\text{série diferenciada}}
\;=\; \mu
\;+\; \underbrace{\phi_{1}(1 - B)^d X_{t-1} + \cdots + \phi_{p}(1 - B)^d X_{t-p}}_{\text{parte AR aplicada à série diferenciada}}
\;+\; \underbrace{\epsilon_t + \theta_{1}\epsilon_{t-1} + \cdots + \theta_{q}\epsilon_{t-q}}_{\text{parte MA}} \,,
$$

ou, de forma compacta com operadores:

$$
\Phi(B)\,(1 - B)^d \,(X_t - \mu) \;=\; \Theta(B)\,\epsilon_t,
$$

onde:

- $B$ é o **operador de defasagem** (*backshift*), $B X_t = X_{t-1}$.  
- $(1-B)^d X_t$ representa a **diferenciação de ordem $d$** (por exemplo, $d=1$ usa $\nabla X_t = X_t - X_{t-1}$; $d=2$ aplica a diferença duas vezes).  
- $X_t$ é o valor da série no tempo $t$.  
- $\mu$ é a média/intercepto (na prática, pode aparecer como **drift** quando $d\ge 1$).  
- $\phi_1,\ldots,\phi_p$ são **coeficientes autorregressivos** aplicados à série **diferenciada**.  
- $\theta_1,\ldots,\theta_q$ são **coeficientes de média móvel** (efeitos de choques passados).  
- $\epsilon_t$ é **ruído branco** (média $0$, variância constante $\sigma^2$, sem autocorrelação).  
- $\Phi(B)=1-\phi_1B-\cdots-\phi_pB^p$ e $\Theta(B)=1+\theta_1B+\cdots+\theta_qB^q$ são os polinômios AR e MA.

### **Volatilidade condicional e Modelos GARCH (Generalized Autoregressive Conditional Heteroskedasticity)**

##### **Heterocedasticidade: o que é e por que importa**

Heterocedasticidade ocorre quando a variância dos erros, ou em séries temporais, a variância condicional do processo, não permanece constante no tempo; já homoscedasticidade significa variância constante. Em regressão “estática”, isso aparece quando a dispersão dos resíduos cresce ou diminui com o nível de uma covariável (por exemplo, observações maiores tendem a vir com erros maiores). Em séries temporais, o fenômeno é dinâmico: mesmo sem covariáveis, a incerteza de hoje depende do passado e alterna períodos turbulentos e calmos (volatility clustering).

Formalmente, escrevemos $X_t=\mu_t+\epsilon_t$ e $\epsilon_t=\sigma_t z_t$, com $z_t$ de média $0$ e variância $1$. Dizemos que há heterocedasticidade condicional quando a variância condicional
$$
\sigma_t^2=\mathbb{E}\!\left[\epsilon_t^2\mid \mathcal{F}_{t-1}\right]
$$
varia com $t$, isto é, depende da informação passada $\mathcal{F}_{t-1}$. Se $\sigma_t^2$ fosse constante, teríamos homoscedasticidade. A intuição é que choques grandes hoje aumentam a incerteza do próximo período e essa incerteza não desaparece instantaneamente; ela tem memória, formando blocos de alta ou baixa volatilidade que podem durar semanas ou meses.

Na prática, a heterocedasticidade se revela no gráfico como faixas de maior e menor amplitude, mesmo quando a média parece estável. Se estimarmos um modelo para a média e examinarmos os resíduos, é comum observar que seus quadrados $\hat\epsilon_t^2$ ou seus módulos $|\hat\epsilon_t|$ exibem autocorrelação: a variância se move de forma previsível, ao contrário do que ocorreria sob variância constante. Essa previsibilidade da variância é central em finanças, porque métricas de risco, alocação de capital e bandas de confiança dependem do nível esperado de incerteza; tratá-la como constante pode subestimar picos de risco e produzir erros padrão e intervalos mal calibrados.

Esses fatos empíricos, variância condicional que muda no tempo, memória da volatilidade e clustering, motivam modelos que descrevem explicitamente a dinâmica de $\sigma_t^2$. Na sequência, apresentaremos uma família clássica para esse fim.


#### **Modelos GARCH**

Dando continuidade à discussão, em muitas séries financeiras (retornos de ações, câmbio, commodities) observa-se **aglomeração de volatilidade** (*volatility clustering*): períodos de grandes oscilações tendem a ser seguidos por períodos igualmente voláteis, enquanto fases calmas permanecem calmas por algum tempo. Esse padrão é um sinal de **heterocedasticidade condicional**: a **variância condicional** em $t$ depende de informações passadas $\mathcal F_{t-1}$ em vez de permanecer constante.

A **volatilidade condicional** pode ser entendida como a incerteza de curto prazo sobre o próximo retorno. Na prática, notícias ou choques elevam a volatilidade e essa elevação se dissipa gradualmente, em vez de desaparecer instantaneamente. Formalmente, se $X_t$ representa o retorno e $\epsilon_t$ a inovação, escreve-se
$$
X_t=\mu_t+\epsilon_t,\qquad \epsilon_t=\sigma_t z_t,\qquad z_t\overset{iid}{\sim}(0,1),
$$
em que $\sigma_t^2=\mathbb E[\epsilon_t^2\mid\mathcal F_{t-1}]$ é a **volatilidade condicional** (isto é, a variância de $\epsilon_t$ dada a informação passada) e $z_t$ é um ruído padronizado (tipicamente Normal ou Student-$t$ para acomodar caudas pesadas).

Para modelar diretamente a dinâmica da variância condicional, os **modelos GARCH$(p,q)$** postulam que
$$
\sigma_t^2=\omega+\underbrace{\alpha_1\epsilon_{t-1}^2+\cdots+\alpha_q\epsilon_{t-q}^2}_{\text{efeitos ARCH (choques recentes)}}+\underbrace{\beta_1\sigma_{t-1}^2+\cdots+\beta_p\sigma_{t-p}^2}_{\text{persistência}},
$$
mantendo a equação da média $X_t=\mu_t+\epsilon_t$ (que pode ser tão simples quanto um intercepto ou um ARMA) e a decomposição $\epsilon_t=\sigma_t z_t$. O caso GARCH(1,1),
$$
\sigma_t^2=\omega+\alpha\,\epsilon_{t-1}^2+\beta\,\sigma_{t-1}^2,
$$
é particularmente útil e, em muitos ativos, já descreve bem a persistência da volatilidade. Nessa parametrização, $\omega>0$ controla o nível de longo prazo; $\alpha\ge 0$ quantifica a sensibilidade da volatilidade a choques recentes via $\epsilon_{t-1}^2$; e $\beta\ge 0$ mede a persistência por meio de $\sigma_{t-1}^2$. A soma $\alpha+\beta$ captura a **persistência total**: valores próximos de $1$ indicam que choques demoram a se dissipar. Sob condições usuais como $\alpha+\beta<1$ em GARCH(1,1), a variância incondicional existe e vale $\omega/(1-\alpha-\beta)$, e a distribuição de $z_t$ pode ser escolhida para refletir caudas mais pesadas que a Normal.
