## Análise de Séries Temporais


### Etapas Básicas de *forecasting* de séries temporais

- **Etapa 1: Definição do problema.**
Frequentemente, esta é a parte mais difícil da previsão. Definir o problema cuidadosamente requer uma compreensão de como as previsões serão usadas, quem requer as previsões e como a função de previsão se encaixa na organização que requer as previsões. Um previsor precisa dedicar tempo a conversar com todos os envolvidos na coleta de dados, manutenção de bancos de dados e uso das previsões para o planejamento futuro.
- **Etapa 2: Coleta de informações.**
Sempre são necessários pelo menos dois tipos de informações: (a) dados estatísticos e (b) a expertise acumulada das pessoas que coletam os dados e usam as previsões. Muitas vezes, será difícil obter dados históricos suficientes para poder ajustar um bom modelo estatístico. Nesse caso, os métodos de previsão baseados em julgamento podem ser usados. Ocasionalmente, dados antigos serão menos úteis devido a mudanças estruturais no sistema sendo previsto; então podemos optar por usar apenas os dados mais recentes. No entanto, lembre-se de que bons modelos estatísticos lidarão com mudanças evolutivas no sistema; não descarte dados bons desnecessariamente.
- **Etapa 3: Análise preliminar (exploratória).**
Comece sempre traçando os dados. Existem padrões consistentes? Existe uma tendência significativa? A sazonalidade é importante? Há evidência da presença de ciclos de negócios? Existem valores atípicos nos dados que precisam ser explicados por quem tem conhecimento especializado? Quão fortes são as relações entre as variáveis disponíveis para análise? Várias ferramentas foram desenvolvidas para ajudar nessa análise.
- **Etapa 4: Escolha e ajuste de modelos.**
O melhor modelo a ser usado depende da disponibilidade de dados históricos, da força das relações entre a variável de previsão e quaisquer variáveis explicativas e da forma como as previsões serão usadas. É comum comparar dois ou três modelos potenciais. Cada modelo é em si uma construção artificial baseada em um conjunto de suposições (explícitas e implícitas) e geralmente envolve um ou mais parâmetros que devem ser estimados usando os dados históricos conhecidos. Nisso podem ser utilizados modelos de regressão, métodos de suavização exponencial, modelos ARIMA de Box-Jenkins, modelos de regressão dinâmica, previsão hierárquica e vários métodos avançados, incluindo redes neurais e vetor autoregressão.
- **Etapa 5: Uso e avaliação de um modelo de previsão.**
Uma vez que um modelo tenha sido selecionado e seus parâmetros estimados, o modelo é usado para fazer previsões. O desempenho do modelo só pode ser avaliado adequadamente depois que os dados para o período de previsão estiverem disponíveis. Vários métodos foram desenvolvidos para ajudar na avaliação da precisão das previsões. Também existem questões organizacionais no uso e na ação com base nas previsões. Ao usar um modelo de previsão na prática, várias questões práticas surgem, como lidar com valores ausentes e valores atípicos, ou como lidar com séries temporais curtas.

### Iniciando a análise - Plots

Para dados de séries temporais, o gráfico óbvio para começar é um gráfico temporal. Ou seja, as observações são plotadas em relação ao tempo da observação, com observações consecutivas unidas por linhas retas.

![image.png](attachment:image.png)

![image-2.png](attachment:image-2.png)

#### É necessário para conhecer a "cara" do dataset, e já saber o que esperar dos dados. Nisso, já se pode começar a pensar nos termos tendência, sazonalidade e ciclos.


### Padrões em séries temporais

#### Tendência
Uma tendência existe quando há um aumento ou diminuição de longo prazo nos dados. Essa tendência não precisa ser linear. Às vezes, nos referiremos a uma tendência como "mudança de direção", quando ela pode passar de uma tendência crescente para uma tendência decrescente. Existe uma tendência nos dados de vendas de medicamentos antidiabéticos mostrados na Figura 2.2.
#### Sazonalidade
Um padrão sazonal ocorre quando uma série temporal é afetada por fatores sazonais, como a época do ano ou o dia da semana. A sazonalidade sempre possui uma frequência fixa e conhecida. As vendas mensais de medicamentos antidiabéticos acima mostram sazonalidade, que é induzida em parte pela mudança no custo dos medicamentos no final do ano civil.
#### Cíclico
Um ciclo ocorre quando os dados apresentam aumentos e quedas que não têm uma frequência fixa. Essas flutuações geralmente são devidas a condições econômicas e muitas vezes estão relacionadas ao "ciclo econômico". A duração dessas flutuações é geralmente de pelo menos 2 anos.
Muitas pessoas confundem o comportamento cíclico com o comportamento sazonal, mas eles são realmente bem diferentes. Se as flutuações **não** tiverem uma frequência fixa, então são cíclicas; se a **frequência for constante** e estiver associada a algum aspecto do calendário, então o padrão é sazonal.

![image.png](attachment:image.png)


A depender dos resultados, outras análises podem ser feitas, como Plots de sazonalidade - em que os dados são plotados em relação às "estações" individuais nas quais os dados foram observados - ou até uma decomposição das séries caso esses padrões sejam identificados
![image.png](attachment:image.png)


Já para o caso de muitas séries temporais, é interessante observar a correlação entre essas séries utilizando de *scatter plots*. 
![image-2.png](attachment:image-2.png)

![image-3.png](attachment:image-3.png)

#### Deve-se atentar tanto aos valores quanto ao visual

![image-4.png](attachment:image-4.png)

### Aprofundamento da análise - Autocorrelação

Assim como a correlação mede a extensão de uma relação linear entre duas variáveis, a autocorrelação mede a relação linear entre valores de uma série temporal e seus mesmos valores atrasados (*lags*).

Quando os dados possuem uma tendência, as autocorrelações para *lags* pequenos tendem a ser grandes e positivas, porque as observações próximas no tempo também são próximas em tamanho. Assim, a Função de Autocorrelação (FAC) de séries temporais com tendência tende a ter valores positivos que diminuem lentamente à medida que os *lags* aumentam.

Quando os dados são sazonais, as autocorrelações serão maiores para as *lags* sazonais (em múltiplos da frequência sazonal) do que para outros *lags*.

Quando os dados possuem tanto tendência quanto sazonalidade, se observa uma combinação desses efeitos.

![image.png](attachment:image.png)

![image-2.png](attachment:image-2.png)


Séries temporais que não apresentam autocorrelação são chamadas de **ruído branco**. Para séries de ruído branco, esperamos que cada autocorrelação esteja próxima de zero. Claro, elas não serão exatamente iguais a zero, pois há alguma variação aleatória.

É comum traçar esses limites em um gráfico da Função de Autocorrelação (ACF) (as linhas tracejadas azuis acima). Se um ou mais picos grandes estiverem fora desses limites, ou se substancialmente mais de 5% dos picos estiverem fora desses limites, então a série provavelmente não é um ruído branco.

![image.png](attachment:image.png)

![image-2.png](attachment:image-2.png)

### Estacionária ou não-estacionária, eis a questão

Uma série temporal estacionária é **aquela cujas propriedades não dependem do momento em que a série é observada**. Portanto, séries temporais com tendências ou sazonalidade não são estacionárias - a tendência e a sazonalidade afetarão o valor da série temporal em momentos diferentes. Por outro lado, uma série de ruído branco é estacionária - não importa quando você a observa, ela deve parecer muito semelhante em qualquer ponto no tempo.

Alguns casos podem ser confusos - uma série temporal com comportamento cíclico (mas sem tendência ou sazonalidade) é estacionária. Isso ocorre porque os ciclos não têm um comprimento fixo, então antes de observarmos a série, não podemos ter certeza de onde estarão os picos e depressões dos ciclos.

Em geral, uma série temporal estacionária não terá padrões previsíveis a longo prazo. Os gráficos temporais mostrarão a série aproximadamente horizontal (embora algum comportamento cíclico seja possível), com variância constante. Uma visão mais aprofundada sobre séries estacionárias pode ser encontrada [aqui](https://towardsdatascience.com/stationarity-in-time-series-analysis-90c94f27322)

![image.png](attachment:image.png)

Modelos de séries temporais necessitam que as séries sejam estacionárias, portanto é preciso tratar as séries para aplicar essa mudança, e isso é feito por meio da **Diferenciação**. A diferenciação é uma técnica para transformar uma série temporal não estacionária em uma estacionária. Ela envolve subtrair o valor atual da série do valor anterior, ou de um valor defasado.

![image-2.png](attachment:image-2.png)

A detecção de séries temporais estacionárias pode ser feita por meio de diversas abordagens - idealmente, uma combinação dessas. Apesar da visualização ser um método utilizado, como mostrado nos casos anteriores alguns plots podem acabar não sendo tão esclarecedores -como o a série g) nos plots anteriores, já que os ciclos fortes podem parecer torná-la não estacionária, mas o momento desses ciclos os torna imprevisíveis, devido à dinâmica subjacente que domina a população de linces, influenciada parcialmente pelo alimento disponível. Desse modo, outros métodos podem ser preferidos, como o já mencionado plot de função de autocorrelação (ACF). 

Ao traçar o valor da Função de Autocorrelação para defasagens crescentes (também chamado de correlograma), os valores tendem a decair rapidamente para séries temporais estacionárias, enquanto para dados não estacionários o decaimento ocorrerá de forma mais lenta.

![image-3.png](attachment:image-3.png)

Uma abordagem mais rigorosa é a aplicação de testes estatísticos. Esses testes são comumente chamados de **testes de raíz unitária**.

Uma **raiz unitária** é uma tendência estocástica em uma série de tempo, muitas vezes denominada de “passeio aleatório”; esse é o nome dado (raiz unitária) ao padrão aleatório, contido numa série temporal, se esta mostrar um padrão aleatório e imprevisível. Ou seja, é o movimento aleatório e imprevisível em torno da tendência da série.
    
Quanto menor for o passeio aleatório (aleatoriedade) em torno da série maior será a estabilidade ou previsibilidade e assim a série será denominada “estacionária” ou estável e sem efeito de raiz unitária.

A aplicação de testes de raiz unitária servem para averiguar se uma série é estável (Estacionária e sem presença do efeito de raiz unitária) ou se essa série é não estável (Não-estacionária ou instável e com presença do efeito raiz unitária). 
As hipóteses para a maioria dos testes de significância para a raiz unitária são:

 - H0: a série é não estacionária, ou seja, a série tem o efeito raiz unitária.
 - Ha: a série é estacionária, ou seja, a série não tem o efeito raiz unitária.

Existem diversos testes de raíz unitária dos quais os mais proeminentes são o teste de Dick-Fuller aumentado (Augmented Dick-Fuller test), o teste KPSS e o teste deZivot e Andrews. 

O **teste ADF** é usado para verificar se uma série temporal possui raiz unitária, ou seja, se ela é estacionária.Ele compara a diferença entre as observações consecutivas da série e avalia se essa diferença é estatisticamente significativa para determinar se a série é estacionária.
Se o valor-p do teste for menor que um certo limiar (geralmente 0.05), rejeita-se a hipótese nula de raiz unitária, indicando que a série é estacionária.

O **teste KPSS** verifica se uma série temporal é estacionária ao redor de uma tendência determinística. Ele avalia a média móvel das observações da série, comparando-a com uma linha horizontal para determinar se a série é estacionária ou não estacionária.
Se o valor-p for maior que um limiar (geralmente 0.05), rejeita-se a hipótese nula de estacionariedade ao redor de uma tendência, indicando que a série não é estacionária.

O **teste Zivot-Andrews** é usado para identificar pontos de ruptura estrutural em uma série temporal, onde a natureza da série muda ao longo do tempo. Ele divide a série em diferentes segmentos e avalia se há uma mudança significativa nas médias desses segmentos.
Se uma mudança significativa é detectada, isso indica que a série possui uma estrutura não estacionária devido a mudanças estruturais.

Em resumo, esses testes de raiz unitária são usados para analisar a estacionariedade de uma série temporal. O teste ADF e o teste KPSS focam em determinar se a série é estacionária ou não em geral, enquanto o teste Zivot-Andrews identifica mudanças estruturais que podem afetar a natureza da série temporal ao longo do tempo.

Os testes ADF e KPSS **não** são intercambiáveis, sendo idealmente aplicados em conjunto para relevar mais detalhes da estacionaridade das séries temporais.

Dentre os possíveis resultados das aplicações desses testes, há aos seguintes indicativos:

- Caso 1: Ambos os testes concluem que a série é não-estacionária - Série não-estacionária
- Caso 2: Ambos os testes concluem que a série é estacionária - Série estacionária
- Caso 3: KPSS indica estacionaridade e o ADF indica não-estacionaridade - A série é estacionária em torno de tendência (*trend stationary*). A tendência tem de ser removida para que a série seja estacionária, e o teste tem de ser reaplicado. 
- Caso 4: KPSS indica não-estacionaridade e ADF indica estacionaridade - Diferenciação é necessária para que a série seja estacionária (*difference stationary*) , e o teste deve ser reaplicado. 

#### Todos os três testes podem ser aplicados em python utilizando a biblioteca StatsModels.

### Os mais cobiçados: modelos

Podem ser listados alguns modelos para previsão de séries temporais
- Autoregressive (AR) model
- Moving average (MA) model
- Autoregressive moving average (ARMA) model
- Autoregressive integrated moving average (ARIMA) model
- Seasonal autoregressive integrated moving average (SARIMA) model
- Vector autoregressive (VAR) model
- Vector error correction (VECM) model

**Modelos autorregressivos (AR)** são definidos como modelos de regressão nos quais a variável dependente ou de resposta é uma função linear de valores passados da própria variável dependente/resposta. A ordem de um modelo autorregressivo é representada como ‘p’, que representa o número de defasagens usadas para prever o valor atual.

A **média móvel (MA)** é um tipo de modelo usado para previsão de séries temporais. Os modelos de média móvel são principalmente usados para dados estacionários, ou seja, dados onde não observamos tendências ou sazonalidades significativas. Existem dois tipos diferentes de modelo de média móvel: **a média móvel simples e a média móvel ponderada.**

- A Média Móvel Simples (SMA) é um tipo de modelo de média móvel que utiliza um número fixo de pontos de dados para o cálculo da média. Esse tipo de MA é frequentemente usado para previsão de séries temporais, porque é fácil de calcular e pode ser implementado em várias linguagens de programação.

- A Média Móvel Ponderada (WMA) é um tipo de modelo de média móvel que utiliza um esquema de ponderação para dar mais importância a pontos de dados mais recentes. Esse tipo de MA pode ser usado para previsão de séries temporais e pode ajudar a reduzir o impacto de pontos de dados mais antigos na média.

O **modelo de média móvel autorregressiva (ARMA)** é uma combinação dos modelos autorregressivo e de média móvel. O modelo ARMA é definido como um modelo de regressão no qual a variável dependente/resposta é uma função linear de valores passados tanto da própria variável dependente/resposta quanto do termo de erro. A ordem de um modelo ARMA é representada por ‘p’ para a parte autorregressiva e ‘q’ para a parte de média móvel.

O **modelo autorregressivo integrado de média móvel (ARIMA)** é uma generalização do modelo ARMA. O modelo ARIMA é definido como um modelo de regressão no qual a variável dependente/resposta é uma função linear de valores passados tanto da própria variável dependente/resposta quanto do termo de erro, onde o termo de erro foi diferenciado ‘d’ vezes. A ordem de um modelo ARIMA é representada por ‘p’ para a parte autorregressiva, ‘q’ para a parte de média móvel e ‘d’ para a parte de diferenciação.

**SARIMA** é um tipo de modelo de previsão de séries temporais que leva em consideração tanto a sazonalidade quanto a autocorrelação. Os modelos SARIMA são baseados em uma combinação de diferenciação, autorregressão e processos de média móvel. Esses modelos podem ser usados para prever tendências de curto ou longo prazo em dados. Geralmente, os modelos SARIMA são considerados mais precisos do que outros tipos de modelos de previsão de séries temporais, como modelos ARIMA. Além disso, os modelos SARIMA são relativamente fáceis de interpretar e utilizar.

O **modelo autorregressivo vetorial (VAR)** pode ser definido como um modelo de séries temporais multivariado que captura a interdependência linear entre múltiplas variáveis de séries temporais. Além das variáveis dependentes, o modelo VAR também inclui um ou mais valores defasados de cada variável dependente como variáveis independentes.

O **Modelo de Correção de Erro Vetorial (VECM)** é um tipo de modelo de séries temporais frequentemente usado para prever dados econômicos. O VECM é uma extensão do modelo de autorregressão vetorial (VAR) tradicional. O VECM foi introduzido pela primeira vez por Engle e Granger (1987). Os modelos VECM são semelhantes aos modelos VAR, mas incorporam um termo de "correção" que leva em consideração o fato de que erros em um período provavelmente serão corrigidos nos períodos subsequentes. Isso torna os modelos VECM mais precisos do que os modelos VAR na previsão de dados com correlação serial significativa. Além disso, os modelos VECM são relativamente fáceis de interpretar, já que os coeficientes podem ser interpretados diretamente como o impacto de uma variável sobre outra. O VECM tornou-se uma ferramenta popular em econometria e finanças devido à sua flexibilidade e facilidade de uso.