#8. Séries Temporais

## 8.1. Objetivo da análise de séries temporais


- Descrever o comportamento da série;

- Encontrar periodicidades;

- Obter possíveis explicações para o comportamento da série, geralmente através de variáveis auxiliares;

- Predizer o comportamento futuro, o que possiibilita  fazer planos a longo, médio ou curto prazo e tomar decisões apropriadas.

## 8.2. Trabalhando com datas no Pandas 

In [1]:
import pandas as pd

df=pd.read_csv('/content/monthly-beer-production-in-austr.csv')
df.head()

FileNotFoundError: [Errno 2] No such file or directory: '/content/monthly-beer-production-in-austr.csv'

### Muitas vezes lidamos com datasets onde as datas não estão no formato datetime.

### Transformando para tipo datetime

### Para poder trabalhar melhor com os dados, é importante fazer com que a coluna dos meses se transforme no Index.

Quando o índice é do tipo datetime, podemos executar facilmente filtros de datas, por exemplo.

### Podemos agrupar os dados:

Para utilizarmos as funções de decomposição, iremos também definir a frequência dos dados.

### Período dos dados:

### Gráfico dos dados:


## 8.3. Decomposição

Uma série temporal pode ser decomposta nos seguintes componentes:

- **Tendência (\\(T\\))**: indica o seu comportamento ao longo do tempo, ou seja, se é crescente, decrescente ou estável. Além disso indica a velocidade destas mudanças. 

<br>



<br>

- **Sazonalidade (\\(S\\))**: são oscilações de subida e de queda que sempre ocorrem em um determinado período do ano, do mês, da semana ou do dia. Os movimentos facilmente previsíveis, ocorrendo em intervalos regulares de tempo. A partir da sazonalidade pode-se classificar uma série temporal em aditiva ou multiplicativa. Uma **série é aditiva** se a magnitude da **sazonalidade mantem-se constante** ao longo do prazo. A série é denominada **multiplicativa** se ao longo do tempo a **amplitude da sazonalidade aumenta**.



<br>

- **Ruído Aleatório (\\(\epsilon\\))**: ou erro no período **t** são variações irregulares ou flutuações inexplicáveis, resultado de fatos fortuitos e inesperados.
<br>



Em outras palavras, uma série temporal \\(Z(t)\\) pode ser reconstruída atrvés de uma função que depende das componentes acima \\(f(T_t,S_t,\epsilon_t)\\). Uma série aditiva é representada por \\(Z(t)=T_t+C_t+\epsilon_t\\), equanto a multiplicativa é dada por \\(Z(t)=T_t \times S_t \times \epsilon_t\\)

## 8.4. Estacionariedade

Ao se desenvolver um modelo preditivo de séries temporais, uma das suposições mais frequentes a respeito de uma série temporal é a de que ela é estacionária, ou seja, que se desenvolve ao longo do tempo de forma aleatória em torno de uma média constante, refletindo estabilidade. Entretanto, a maioria das séries que encontramos no dia-a-dia apresentam alguma forma de não-estacionariedade, como no caso dos nossos dados de produção mensal de cerveja.

Como a maioria dos procedimentos de análise estatística de séries temporais supõem que estas sejam estacionárias é comum realizar transformações nos dados originais para torna-los estacionários. A transformação mais usada é a da **diferenças sucessivas**. A primeira diferença de uma série \\(Z(t)\\), em que \\(t\\) é a variável de tempo, é definida por:

\\[ \Delta Z(t) = Z(t) - Z(t-1) \\]

De modo geral, a n-ésima diferência de $Z(t)$ é

\\[ \Delta^n Z(t) =  \Delta[\Delta^{n-1} Z(t)] \\]

O pandas possui o método shift que desloca o índice pelo número desejado de períodos. No do método das diferenças sucessivas, utilizamos o parâmetro period=1.

## 8.5. Autocorrelação

No estudo de uma série temporal é importante entender a relação entre as observações atuais e as anteriores. Uma forma de realizar esta avaliação é através das funções de autocorrelação. Autocorrelação significa a correlação de valores de uma mesma variável ordenados no tempo. Em outras palavras, descreve como o valor presente da série está relacionado aos valores passados, chamados de **lags**.

Dadas as medições, $Y_1, Y_2, \cdots, Y_N$ no tempo $X_1, X_2, \cdots, X_N$, a função de autocorrelação de lag k é definida como

$$r_k = \frac{\sum_{i=1}^{N-k} (Y_i - \overline{Y})(Y_{i+k} - \overline{Y})}{\sum_{i=1}^{N} (Y_i - \overline{Y})^2}$$

N é o número de amostras da série temporal

O coeficiente de autocorrelação é um número entre -1 e 1 que descreve uma autocorrelação negativa ou positiva, respectivamente. Um valor de zero indica nenhuma correlação.

A execução do exemplo cria um gráfico 2D mostrando o valor de lag ao longo do eixo x e a correlação no eixo y entre -1 e 1. Os intervalos de confiança são desenhados como um cone. Por padrão, é definido como um intervalo de confiança de 95%, sugerindo que os valores de correlação fora desse cone são muito provavelmente uma correlação e não um acaso estatístico.

## 8.6. Modelos Preditivos

Os métodos para previsão de séries temporais baseiam-se na extrapolação de características de observações passadas e no inter-relacionamento entre essas observações, fornecendo previsões acuradas se o futuro apresentar comportamento similar ao passado. 

Uma série temporal pode ser expressada da seguinte forma
\\[ Z(t) = f(t) + a_t \\]



### 8.6.1 Modelo Autoregressivo (AR)

Em um modelo de regressão múltipla, prevemos a variável de interesse usando uma combinação linear de preditores. Em um modelo de autorregressão, prevemos a variável de interesse usando uma combinação linear de valores passados da variável. O termo autoregressão indica que é uma regressão da variável contra ela mesma.

Um **modelo autorregresivo de ordem p** AR(p) pode ser escrito da seguinte forma:

\\[ z_t = c + \phi z_{t-1} + \phi z_{t-2} + \cdots + \phi z_{t-p} + \epsilon_t \\]


### 8.6.2 Modelo Médias Móveis (MA)

Processo de média móvel (MA), um processo em que o valor presente da série é definido como uma combinação linear de **erros** passados. Assumimos que os erros sejam distribuídos independentemente com a distribuição normal. O processo MA da ordem q é definido como,

\\[z_t = c + \epsilon_t + \Theta_1 \epsilon_{t-1} + \Theta_2 \epsilon_{t-2} + \cdots + \Theta_q \epsilon_{t-q}\\]



Um modelo que junta os dois modelos visto anteriormente é o ARMA, que é implementado na biblioteca Statsmodels do Python.

Referências:

* https://pandas.pydata.org/docs/getting_started/intro_tutorials/09_timeseries.html?highlight=datetime
* [DOC Seaonal Decompose](https://www.statsmodels.org/dev/generated/statsmodels.tsa.seasonal.seasonal_decompose.html)
*[DOC plot_acf](https://www.statsmodels.org/dev/generated/statsmodels.graphics.tsaplots.plot_acf.html)
*[DOC ARIMA](https://www.statsmodels.org/devel/generated/statsmodels.tsa.arima.model.ARIMA.html)