# Pontifícia Universidade Católica do Paraná
## Disciplina: Técnicas de Machine Learning
#### Conteúdo complementar da Semana 5 - Séries Temporais

A ideia deste notebook é a de realizarmos o processo de treinamento e previsão de séries temporais.

Como comentamos nos últimos notebooks, sempre que tiver uma dúvida sobre alguma função em específico encorajamos que busque nas documentações. O exercício de sempre consultar a documentação é parte do dia-a-dia de um profissional de TI e, portanto, vale a pena colocarmos em prática quando possível.

In [1]:
from statsmodels.tsa.seasonal import seasonal_decompose # utilizado para realizar a decomposição de séries temporais

from prophet import Prophet # utilizado para séries temporais
from sklearn.model_selection import train_test_split # utilizado para o split entre treinamento e teste
from sklearn.ensemble import RandomForestRegressor # random forest para regressão
from pmdarima.arima import auto_arima # utilizado para treinar o AutoARIMA

import pandas as pd # importando o pandas para manipularmos os datasets
import numpy as np # importando o numpy para realizar manipulações de vetores
import matplotlib.pyplot as plt # utilizado para a geração de gráficos
import seaborn as sns # utilizado para a geração de gráficos

In [2]:
# o seasonal_decompose usa o tamanho padrão (quadrado) de imagem do Matplotlib, o que acaba sendo pequeno demais para o nosso caso
# logo, estamos alterando o tamanho padrão dos gráficos
plt.rc('figure', figsize=(10, 8))

## Leitura da base de dados
O dataset ```df_dolar``` contém todas as cotações do dólar entre 2021-05-12 e 2021-06-11.

In [15]:
df_dolar = pd.read_csv('dolar.tsv', sep='\t').sort_values(by='Data') # ordenando primeiro pela data mais antiga

# a coluna Data é do tipo objeto, isso é interpretado como texto
print(f"\ntipo do dataset: {df_dolar.dtypes}") 

# Convertemos a coluna Data para o tipo datetime
df_dolar['Data'] = pd.to_datetime(df_dolar['Data'])
print(f"\ntipo do dataset após conversão: {df_dolar.dtypes}\n")
df_dolar


tipo do dataset: Data        object
Cotacao    float64
dtype: object

tipo do dataset após conversão: Data       datetime64[ns]
Cotacao           float64
dtype: object



Unnamed: 0,Data,Cotacao
279,2020-05-12,5.8856
278,2020-05-13,5.8852
277,2020-05-14,5.8115
276,2020-05-15,5.8554
275,2020-05-18,5.7190
...,...,...
4,2021-06-07,5.0451
3,2021-06-08,5.0325
2,2021-06-09,5.0621
1,2021-06-10,5.0552


## Decomposição de séries temporais
Para que a decomposição dê certo, o ```seasonal_decompose``` espera que o índice seja a data e que o dataset esteja ordenado da data mais antiga para a data mais recente. Logo, faremos as devidas alterações para que isto aconteça utilizando o ```set_index``` (para que o índice passe a ser a coluna Data) e ```sort_index``` (para ordenar da maneira correta).

Depois, vamos mostrar dois exemplos de decomposição: um utilizando somente abril de 2021 e parte de maio de 2021 (que utilizamos na unidade) e outro contendo todo o histórico. Para todo o histórico, estamos informando uma periodicidade de 7 dias. Compare os resultados entre ambos. Se possível, teste diferentes valores no ```period```. O que acontecerá se você mudar para 5? 14? 30? 90?

In [None]:
df_dolar_decompose = df_dolar.copy()
# Configura a coluna Data para ser a coluna de índice, e ordena em ordem cronologica
df_dolar_decompose = df_dolar_decompose.set_index('Data').sort_index()
df_dolar_decompose

In [None]:
fig = seasonal_decompose(df_dolar_decompose[(df_dolar_decompose.index>='2021-04-01') & (df_dolar_decompose.index<='2021-05-14')]).plot()

In [None]:
fig = seasonal_decompose(df_dolar_decompose, period=7).plot()

## Regressão

Vamos criar um modelo de regressão para esta base. Como vimos que há uma sazonalidade a cada sete dias (aproximadamente), usaremos um ***sliding window*** de ```7``` dias. Faremos isto com a ajuda da função <a href="https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.shift.html">shift</a>, do Pandas.

In [None]:
df_dolar_ml = df_dolar

for lag in range(1, 8):
    col = f'Cotacao_-{lag}'
    df_dolar_ml[col] = df_dolar_ml['Cotacao'].shift(lag)

Para fins de demonstração, também incluiremos duas novas colunas: uma, utilizando a ***média móvel*** dos últimos ```7``` dias com a função <a href="https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.rolling.html">rolling</a>, do Pandas, combinado com a função <a href="https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.mean.html">mean</a>. A combinação dos dois basicamente captura os últimos ```7``` valores e calcula a média deles. O ```shift(1)``` desloca em um dia para que a cotação do dia atual não seja calculada em conjunto.

Finalmente, o <a href="https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.dt.dayofweek.html">dayofweek</a> obtém o dia da semana.

In [None]:
display('Gerando a média móvel.')
df_dolar_ml['MediaMovel7Dias'] = df_dolar_ml['Cotacao'].shift(1).rolling(7).mean()
df_dolar_ml['DiaSemana'] = df_dolar_ml['Data'].dt.dayofweek
df_dolar_ml

Precisamos remover agora as colunas com dados nulos (no caso, estes primeiros dias com esta <em>"escadinha"</em> de ```NaN```).

In [None]:
df_dolar_ml = df_dolar_ml.dropna()
df_dolar_ml

### Treinamento e teste

Agora, para o treinamento consideramos todos os dias com a exceção dos últimos 30 dias. Como a base de dados já está ordenada por data, separaremos as últimas 30 linhas para o teste com a função <a href="https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.iloc.html">iloc</a>. Vamos usar o ```RandomForestRegressor``` para o treinamento. A coluna da ```Data``` será removida já que o algoritmo poderia não ser treinado adequadamente com esta coluna. Compare as previsões.

In [None]:
X = df_dolar_ml.drop(['Cotacao', 'Data'], axis=1)
y = df_dolar_ml['Cotacao']

X_train = X.iloc[:-30]
y_train = y.iloc[:-30]

X_test = X.iloc[-30:]
y_test = y.iloc[-30:]

In [None]:
model_rf = RandomForestRegressor(random_state=0).fit(X_train, y_train)
df_previsoes_rf = pd.DataFrame(np.array([y_test.values, model_rf.predict(X_test)]).T, columns=['Real', 'Previsão (Random Forest)'])
df_previsoes_rf

## Prophet

Vamos fazer a mesma previsão, mas agora via Prophet. Da mesma forma que fizemos na regressão separaremos os últimos ```30``` dias para o backtest.

In [None]:
df_dolar_ml = df_dolar.sort_values(by='Data').rename(columns={'Data': 'ds', 'Cotacao': 'y'}) # ordenando primeiro pela data mais antiga e renomeando as colunas

df_train = df_dolar_ml.iloc[:-30]
df_test = df_dolar_ml.iloc[-30:]

Para fins de teste, criaremos dois modelos do Prophet: um contendo todo o histórico e outro contendo somente os últimos ```60``` dias da base de treinamento.

Observe também os resultados que o algoritmo forneceu - as previsões estão na coluna ```yhat```. O intervalo de confiança é representado pelas colunas ```yhat_lower``` e ```yhat_upper```.

In [None]:
model_prophet_todo_historico = Prophet().fit(df_train) # treinando o Prophet
previsoes_prophet_todo_historico = model_prophet_todo_historico.predict(df_test) # gerando as predições
previsoes_prophet_todo_historico.head()

In [None]:
model_prophet_ultimos_dois_meses = Prophet().fit(df_train.iloc[-60:]) # treinando o Prophet
previsoes_prophet_ultimos_dois_meses = model_prophet_ultimos_dois_meses.predict(df_test) # gerando as predições
previsoes_prophet_ultimos_dois_meses.head()

Observe os resultados. O que observa os últimos 60 dias aparenta começar mais próximo da realidade, mas também se perde no futuro. Já o que considera todo o histórico aparenta ser bem pessimista. Na documentação do Prophet existem algumas configurações (as quais chamamos de **hiperparâmetros**) que ajudam a melhor calibrar o modelo.

Existem casos nos quais o Prophet é melhor do que um modelo de regressão ou um ARIMA, e vice-versa. Na prática, é um trabalho de testes.

In [None]:
df_previsoes_prophet = pd.DataFrame(np.array([df_test['y'].values,
                                              previsoes_prophet_todo_historico['yhat'],
                                              previsoes_prophet_ultimos_dois_meses['yhat']]).T,
                                    columns=['Real', 'Previsão (Prophet, Todo Histórico)', 'Previsão (Prophet, Últimos 60 Dias)'])
df_previsoes_prophet

## ARIMA

Finalmente, demonstraremos um exemplo de uso do ARIMA. Para nos aproximarmos do mundo de ML ao invés de irmos para a Estatística teremos como foco o <a href="https://alkaline-ml.com/pmdarima/modules/generated/pmdarima.arima.auto_arima.html#pmdarima-arima-auto-arima">AutoARIMA</a>, ok? Por outro lado, lembre-se: o uso do ARIMA aqui serve tão somente para um propósito informacional na disciplina. Caso tenha interesse sugerimos ler a documentação do AutoARIMA com calma.

Note que o resultado do AutoARIMA para este caso foi um ```order=(1, 0, 0)```, o que também é chamado de ```AR(1)```.

In [None]:
y_train = df_dolar['Cotacao'].iloc[:-30]
y_test = df_dolar['Cotacao'].iloc[-30:]

In [None]:
model_arima = auto_arima(y_train)
model_arima

In [None]:
df_previsoes_autoarima = pd.DataFrame(np.array([y_test.values,
                                                model_arima.predict(n_periods=30)]).T,
                                      columns=['Real', 'Previsão (AutoARIMA)'])
df_previsoes_autoarima

## Mostrando os resultados

Agora, vamos mostrar os resultados de cada uma das técnicas. Analise os seguintes pontos:
 - Os modelos dão previsões mais corretas para os primeiros dias (curto prazo) ou bem no futuro (longo prazo)?
 - Existem pontos fortes e pontos fracos nas previsões dos modelos?
 - Provavelmente o modelo que ficou mais próximo da realidade foi o RandomForest, mas ele sempre possui o que aconteceu no dia anterior. Já os outros modelos possuem menos informações para gerar os próximos 30 dias. Sendo assim, como alteraríamos o nosso dataset para que o RandomForest pudesse prever dois dias à frente? Ou três dias à frente? Ou mais dias à frente?
 - Será que o ARIMA teria resultados diferentes se mudássemos os seus parâmetros?

In [None]:
df_dolar.iloc[-30:]['Data'].values

Para criar o gráfico usaremos a função <a href="https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.melt.html">melt</a>. Ela pegará todas as colunas de previsões e agrupará dentro de uma coluna única contendo todos os valores e outra coluna contendo os tipos dos valores.

In [None]:
# unindo as tabelas
df_previsoes = df_previsoes_rf.merge(df_previsoes_prophet, on='Real').merge(df_previsoes_autoarima, on='Real')
df_previsoes['Data'] = df_dolar.iloc[-30:]['Data'].values
df_previsoes

In [None]:
df_previsoes = df_previsoes.melt(id_vars='Data')
df_previsoes

In [None]:
plt.figure(figsize=(15, 5))
sns.lineplot(data=df_dolar.iloc[:-30], x='Data', y='Cotacao')
sns.lineplot(data=df_previsoes, x='Data', y='value', hue='variable')