# Modelo Preditivo de Inflação - AM

## Instalação e Importe de Pacotes

In [None]:
#!pip install python-bcb

In [2]:
#!pip install pmdarima

In [4]:
#!pip install darts

In [2]:
import darts
import sys
sys.path.insert(0, '..')
from datetime import datetime
import matplotlib as mpl
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
import pandas as pd
from bcb import sgs
from statsmodels.tsa.stattools import adfuller
from statsmodels.tsa.seasonal import seasonal_decompose
from pmdarima.arima import auto_arima
from math import sqrt
from sklearn.metrics import mean_squared_error
from sklearn import linear_model
from statsmodels.tsa.vector_ar.vecm import VECM, select_order
from statsmodels.tsa.vector_ar.vecm import *
import plotly.express as px
from pandas.io.formats import style
from statsmodels.tsa.ar_model import AutoReg
from statsmodels.tsa.arima.model import ARIMA
from statsmodels.tools.eval_measures import rmse, aic
from statsmodels.tsa.api import VAR
from statsmodels.tsa.stattools import grangercausalitytests
from statsmodels.tsa.vector_ar.vecm import coint_johansen
from statsmodels.stats.stattools import durbin_watson
from statsmodels.tsa.stattools import acf
import statsmodels.api as sm
import tensorflow as tf
from sklearn.preprocessing import MinMaxScaler
from keras.models import Sequential
from keras.layers import Conv2D
from keras.layers import MaxPooling2D
from keras.layers import Dense
from keras.layers import Flatten
%matplotlib notebook

## Coleta dos Dados

Vamos importar nosso dataset inteiro com o pacote `bcb`, que utiliza a API do BCB para coletar dados de diversas séries temporais.

In [3]:
df = sgs.get({'IPCA': 433, 'sinapi': 7495, 'Selic': 4390, 'PIB': 4380, 'EnergiaElet': 1406, 'ProdAço': 28546, 'BM': 27840, 'Cambio': 3697, 'BalComerc': 22704, 'DivSetPub': 2053}, start='2007-01-01', end='2021-12-01')
df

Unnamed: 0_level_0,IPCA,sinapi,Selic,PIB,EnergiaElet,ProdAço,BM,Cambio,BalComerc,DivSetPub
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
2007-01-01,0.44,0.27,1.08,206665.4,30700,136.42,105942665,2.1377,1656.7,735219.20
2007-02-01,0.44,0.41,0.87,201550.6,30325,138.86,105826866,2.0955,1962.9,743454.49
2007-03-01,0.37,0.62,1.05,223206.9,31313,140.10,108932806,2.0879,2184.8,756150.64
2007-04-01,0.25,0.41,0.94,218922.4,32031,140.61,118236384,2.0312,3283.8,753917.32
2007-05-01,0.28,0.90,1.03,227533.9,31383,143.84,112495027,1.9808,2571.7,772360.73
...,...,...,...,...,...,...,...,...,...,...
2021-08-01,0.87,0.99,0.43,739692.2,40629,154.51,412492332,5.2511,4098.0,3995521.56
2021-09-01,1.16,0.88,0.44,731334.1,41985,156.06,408457496,5.2791,1199.4,3969446.78
2021-10-01,1.25,1.01,0.49,739982.7,42622,142.84,395080369,5.5394,-76.4,3938553.03
2021-11-01,0.95,1.07,0.59,755731.3,41932,150.84,410584027,5.5563,-3921.5,3986579.80


Com o comando 'shape' podemos ver a dimensão de nosso dataset, onde 'n' representa o nº de observações e 'p' o nº de variáveis.

In [4]:
df.shape

(180, 10)

Ou seja, nossa base tem 180 observações e 10 variáveis.

## Tratamento dos Dados

Vamos trabalhar com 3 tipos de modelos preditivos, tendo cada um deles suas singularidades, e demandando consequentemente um tratamento especifíco da base de dados. Assim, vamos dividi-lá em 3 sub datasets, mas antes de tudo, vamos verificar as estatísticas descritivas de nossas séries.

In [5]:
df.describe()

Unnamed: 0,IPCA,sinapi,Selic,PIB,EnergiaElet,ProdAço,BM,Cambio,BalComerc,DivSetPub
count,180.0,180.0,180.0,180.0,180.0,180.0,180.0,180.0,180.0,180.0
mean,0.474,0.55,0.743556,459664.367778,37244.133333,140.124833,232122900.0,2.922323,-369.301667,1694939.0
std,0.318189,0.957413,0.267134,145395.284328,3285.633618,13.705745,80912070.0,1.208718,2678.339417,990630.7
min,-0.38,-6.15,0.13,201550.6,30325.0,83.11,105826900.0,1.5631,-7775.5,704795.4
25%,0.2575,0.27,0.54,332367.55,35150.25,137.5225,177709100.0,1.87505,-1727.725,984552.3
50%,0.44,0.44,0.795,478461.1,38020.0,142.875,228364200.0,2.36325,-247.15,1130169.0
75%,0.6475,0.6925,0.9425,569922.625,39595.25,147.52,272843100.0,3.7734,1380.3,2555428.0
max,1.35,7.8,1.22,759981.1,43416.0,160.28,434881200.0,5.6506,7567.9,4029713.0


### 1º Sub dataset

In [6]:
df1 = df['IPCA']
df1 = pd.DataFrame(df1)
df1['Date'] = df1.index
df1

Unnamed: 0_level_0,IPCA,Date
Date,Unnamed: 1_level_1,Unnamed: 2_level_1
2007-01-01,0.44,2007-01-01
2007-02-01,0.44,2007-02-01
2007-03-01,0.37,2007-03-01
2007-04-01,0.25,2007-04-01
2007-05-01,0.28,2007-05-01
...,...,...
2021-08-01,0.87,2021-08-01
2021-09-01,1.16,2021-09-01
2021-10-01,1.25,2021-10-01
2021-11-01,0.95,2021-11-01


Com esta sub base vamos utilizar os modelos univariados auto-regressivos e de médias móveis (AR, MA, ARMA e ARIMA), por isso apenas utilizaremos a nossa série do IPCA. Ainda, para realizar a previsão com o modelo ARIMA precisamos dividi-lá em bases de treinamento (train) e de teste (test).

In [7]:
train = df1[df1['Date'] <= '2020-09-01']
train = train.rename(columns={'IPCA':"train"})
del train['Date']
test = df1[df1['Date'] >= '2020-09-01']
test = test.rename(columns={'IPCA':"test"})
del test['Date']

### 2º Sub dataset

Para os modelos multivariados, vamos trabalhar com a série do IPCA e as séries da taxa Selic e da taxa de Câmbio, que serão nossos regressores:

In [8]:
df2 = df.loc[:,['IPCA', 'Selic', 'Cambio']]
df2

Unnamed: 0_level_0,IPCA,Selic,Cambio
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2007-01-01,0.44,1.08,2.1377
2007-02-01,0.44,0.87,2.0955
2007-03-01,0.37,1.05,2.0879
2007-04-01,0.25,0.94,2.0312
2007-05-01,0.28,1.03,1.9808
...,...,...,...
2021-08-01,0.87,0.43,5.2511
2021-09-01,1.16,0.44,5.2791
2021-10-01,1.25,0.49,5.5394
2021-11-01,0.95,0.59,5.5563


Ainda, vamos separar um dataset auxiliar com a 1ª diferença destas séries, caso elas não sejam estacionárias.

In [9]:
df_1ªdifference = df2.diff().dropna()

### 3º Sub dataset

Por último, montaremos um modelo que faz uso de técnicas avançadas de deep learning, então precisaremos converter nosso DataFrame principal em array:

In [10]:
df3 = df.values

E também vamos precisar separar nossa base em grupos de tratamento e de teste:

In [11]:
n = df.shape[0]
p = df.shape[1]

In [12]:
train_start = 0
train_end = int(np.floor(0.8*n))
test_start = train_end + 1
test_end = n

In [13]:
df_train = df3[np.arange(train_start, train_end), :]
df_test = df3[np.arange(test_start, test_end), :]

## Visualização dos Dados

Vamos plotar nossa série do IPCA num gráfico para ter uma identificação visual de como ela se comporta.

In [14]:
plt.figure(figsize=(9,5))
plt.plot(df.index, df['IPCA'], color='tab:blue')
plt.gca().set(title='Monthly IPCA from 2007 to 2021', xlabel='Date', ylabel='IPCA')
plt.show()

<IPython.core.display.Javascript object>

Estatísticas ricas em informações sobre nossa série são a média móvel e o desvio padrão móvel, que captam a dinâmica da média e da variação da série ao longo do tempo.

In [15]:
rolling_mean = df['IPCA'].rolling(3).mean()
rolling_std = df['IPCA'].rolling(3).std()

Podemos plota-lás em um gráfico, junto a nossa série do IPCA:

In [16]:
plt.figure(figsize=(9,5))
plt.plot(df['IPCA'], color="blue",label="Monthly IPCA from 1995 to 2021")
plt.plot(rolling_mean, color="red", label="Rolling Mean in IPCA")
plt.plot(rolling_std, color="black", label = "Rolling Standard Deviation in IPCA")
plt.title("IPCA Time Series, Rolling Mean, Rolling Standard Deviation")
plt.legend(loc="best")

<IPython.core.display.Javascript object>

<matplotlib.legend.Legend at 0x1fc613ccca0>

Outro ponto importante sobre uma série temporal diz respeito a sua decomposição.
Uma série de tempo pode ser dividida em 4 componentes:

    * Componente estacionário;
    * Tendência;
    * Sazonalidade;
    * Ruído.
    
Vamos plotar 4 gráficos representando a decomposição de nossa série do IPCA.

In [17]:
decompose = seasonal_decompose(df['IPCA'],model='additive', period=6)
decompose.plot()
plt.show()

<IPython.core.display.Javascript object>

Note o componente sazonal da inflação brasileira em passagens de um ano para o outro.

## Modelagem

### Estacionariedade

Como 1º passo para estimação dos modelos preditivos, vamos verificar se nossas séries são estacionárias.
Para isso, vamos construir uma função para realizar o teste de Dickey-Fuller aumentado para estacionariedade.

In [18]:
def adfuller_test(series, signif=0.05, name='', verbose=False):
    """Função que executa o Teste Dickey-Fuller Aumentado para verificar a estacionaridade de determinada série e
    retorna um relatório"""
    r = adfuller(series, autolag='AIC')
    output = {'test_statistic':round(r[0], 4), 'pvalue':round(r[1], 4), 'n_lags':round(r[2], 4), 'n_obs':r[3]}
    p_value = output['pvalue'] 
    def adjust(val, length= 6): return str(val).ljust(length)

    # Print Summary
    print(f'    Teste Dickey-Fuller aumentado em "{name}"', "\n   ", '-'*47)
    print(f' Hipótese Nula: A série têm raiz unitária. Não é Estacionária.')
    print(f' Nível de significância    = {signif}')
    print(f' Estatística de teste        = {output["test_statistic"]}')
    print(f' Nº de lags escolhidos       = {output["n_lags"]}')

    for key,val in r[4].items():
        print(f' Valor crítico {adjust(key)} = {round(val, 3)}')

    if p_value <= signif:
        print(f" => P-Valor = {p_value}. Rejeitando a Hipótese Nula.")
        print(f" => A série é estacionária.")
    else:
        print(f" => P-Valor = {p_value}. Evidência fraca para rejeitar a hipótese nula.")
        print(f" => A série é não estacionária.") 

Verificando então a estacionariedade das nossas séries do IPCA, da Selic e do Câmbio, que são das quais precisaremos para os modelos univariados e multivariados.

In [19]:
for name, column in df2.iteritems():
    adfuller_test(column, name=column.name)
    print('\n')

    Teste Dickey-Fuller aumentado em "IPCA" 
    -----------------------------------------------
 Hipótese Nula: A série têm raiz unitária. Não é Estacionária.
 Nível de significância    = 0.05
 Estatística de teste        = -2.4103
 Nº de lags escolhidos       = 8
 Valor crítico 1%     = -3.469
 Valor crítico 5%     = -2.879
 Valor crítico 10%    = -2.576
 => P-Valor = 0.1388. Evidência fraca para rejeitar a hipótese nula.
 => A série é não estacionária.


    Teste Dickey-Fuller aumentado em "Selic" 
    -----------------------------------------------
 Hipótese Nula: A série têm raiz unitária. Não é Estacionária.
 Nível de significância    = 0.05
 Estatística de teste        = -2.4263
 Nº de lags escolhidos       = 12
 Valor crítico 1%     = -3.47
 Valor crítico 5%     = -2.879
 Valor crítico 10%    = -2.576
 => P-Valor = 0.1345. Evidência fraca para rejeitar a hipótese nula.
 => A série é não estacionária.


    Teste Dickey-Fuller aumentado em "Cambio" 
    ------------------------

Como podemos ver acima, apenas a série do IPCA apresentou estacionáriedade em nível. Para corrigir este problema, podemos recorrer a 1ª diferença das respectivas séries. Vamos então utilizar o dataset auxiliar 'df_1ªdifference' para isso:

In [20]:
for name, column in df_1ªdifference.iteritems():
    adfuller_test(column, name=column.name)
    print('\n')

    Teste Dickey-Fuller aumentado em "IPCA" 
    -----------------------------------------------
 Hipótese Nula: A série têm raiz unitária. Não é Estacionária.
 Nível de significância    = 0.05
 Estatística de teste        = -8.2683
 Nº de lags escolhidos       = 8
 Valor crítico 1%     = -3.469
 Valor crítico 5%     = -2.879
 Valor crítico 10%    = -2.576
 => P-Valor = 0.0. Rejeitando a Hipótese Nula.
 => A série é estacionária.


    Teste Dickey-Fuller aumentado em "Selic" 
    -----------------------------------------------
 Hipótese Nula: A série têm raiz unitária. Não é Estacionária.
 Nível de significância    = 0.05
 Estatística de teste        = -2.5175
 Nº de lags escolhidos       = 11
 Valor crítico 1%     = -3.47
 Valor crítico 5%     = -2.879
 Valor crítico 10%    = -2.576
 => P-Valor = 0.1113. Evidência fraca para rejeitar a hipótese nula.
 => A série é não estacionária.


    Teste Dickey-Fuller aumentado em "Cambio" 
    -----------------------------------------------
 H

Tirando a 1ª diferença das séries da Selic e do Câmbio as tornamos estacionárias, possibilindo então utilizar o modelo multivariado VAR.

### Autocorrelação

Outra informação importante sobre nossa série de interesse diz respeito a seu grau de autocorrelação, dado que a maior parte dos modelos de séries temporais utilizam os valores passados das séries para explicar seus valores futuros.
Para verificar isto, vamos utlizar a função de autocorrelação:

In [21]:
autocorrelation_lag1 = df1['IPCA'].autocorr(lag=1)
print("Lag de 1 mês: ", autocorrelation_lag1)
autocorrelation_lag3 = df1['IPCA'].autocorr(lag=3)
print("Lag de 3 meses: ", autocorrelation_lag3)
autocorrelation_lag6 = df1['IPCA'].autocorr(lag=6)
print("Lag de 6 meses: ", autocorrelation_lag6)
autocorrelation_lag9 = df1['IPCA'].autocorr(lag=9)
print("Lag de 9 meses: ", autocorrelation_lag9)

Lag de 1 mês:  0.589959587110044
Lag de 3 meses:  0.27770398390980927
Lag de 6 meses:  -0.03931382438661931
Lag de 9 meses:  0.23337366291923387


Dos resultados acima podemos ver que a maior autocorrelação entre as observações de nossa série do IPCA se dá com lag de 1 mês.

## Previsão/Estimação utilizando modelos univariados

Começaremos nossa estimação com os modelos univariados, que consideram apenas os movimentos passados da série de interesse para estimar seus valores futuros.

### MA

Em modelos de médias móveis, temos um fator fixo, que é a média da série, e adicionalmente temos um componente residual variante com o tempo.

In [22]:
model = ARIMA(df1['IPCA'], order=(0, 0, 1), freq='MS')
model_fit = model.fit()
yhat1 = model_fit.predict(len(df1['IPCA']), len(df1['IPCA']))
print(yhat1)



2022-01-01    0.541094
Freq: MS, dtype: float64


Pela estimação de médias móveis, nosso y estimado pode ser visto acima, assumindo um valor de 0,589024.

### AR

Os processos Autorregressivos consideram única e exclusivamente os valores passados da série como regressores dos valores presente e futuro.

In [23]:
model = AutoReg(df1['IPCA'], lags=1)
model_fit = model.fit()
yhat2 = model_fit.predict(len(df1['IPCA']), len(df1['IPCA']))
print(yhat2)



2022-01-01    0.626335
Freq: MS, dtype: float64




Acima temos o valor médio estimado do IPCA com base nos valores passados em um modelo AR de ordem 1.

### ARMA

Já o modelo ARMA, intuitivamente, considera tanto os valores passados da série quanto suas médias móveis, sendo uma junção dos dois modelos vistos acima.

In [24]:
model = ARIMA(df1['IPCA'], order=(2, 0, 1), freq='MS')
model_fit = model.fit()
yhat3 = model_fit.predict(len(df1['IPCA']), len(df1['IPCA']))
print(yhat3)

  warn('Non-stationary starting autoregressive parameters'
  warn('Non-invertible starting MA parameters found.'


2022-01-01    0.612675
Freq: MS, dtype: float64


### ARIMA

Para finalizar o grupo de modelos univariados, temos o modelo ARIMA, que considera aquelas séries que são integradas, ou seja, com tendência estocástica, e que possuem erros estacionários.

In [25]:
model = ARIMA(df1['IPCA'], order=(1, 1, 1))
model_fit = model.fit()
yhat4 = model_fit.predict(len(df1['IPCA']), len(df1['IPCA']), typ='levels')
print(yhat4)



2022-01-01    0.627456
Freq: MS, dtype: float64


Novamente, acima temos o valor estimado de nossa variável de interesse.

Vamos agora tentar prever o IPCA utilizando o modelo ARIMA.

In [26]:
model = auto_arima(train, seasonal=True, trace=True, error_action='ignore', suppress_warnings=True)
model.fit(train)
forecast = model.predict(n_periods=len(test))
forecast = pd.DataFrame(forecast,index = test.index,columns=['Prediction'])

Performing stepwise search to minimize aic
 ARIMA(2,0,2)(0,0,0)[0] intercept   : AIC=5.978, Time=0.53 sec
 ARIMA(0,0,0)(0,0,0)[0] intercept   : AIC=71.232, Time=0.06 sec
 ARIMA(1,0,0)(0,0,0)[0] intercept   : AIC=2.326, Time=0.07 sec
 ARIMA(0,0,1)(0,0,0)[0] intercept   : AIC=12.450, Time=0.09 sec
 ARIMA(0,0,0)(0,0,0)[0]             : AIC=261.120, Time=0.07 sec
 ARIMA(2,0,0)(0,0,0)[0] intercept   : AIC=3.686, Time=0.15 sec
 ARIMA(1,0,1)(0,0,0)[0] intercept   : AIC=3.324, Time=0.28 sec
 ARIMA(2,0,1)(0,0,0)[0] intercept   : AIC=9.777, Time=0.52 sec
 ARIMA(1,0,0)(0,0,0)[0]             : AIC=28.855, Time=0.04 sec

Best model:  ARIMA(1,0,0)(0,0,0)[0] intercept
Total fit time: 2.157 seconds


No gráfico abaixo temos os grupos de treinamento (azul), de teste (vermelho) e a previsão (verde).

In [27]:
plt.figure(figsize=(9,5))
plt.plot(train, color="blue",label="Train")
plt.plot(test, color="red", label="Test")
plt.plot(forecast, color="green", label = "Prediction")
plt.title("IPCA Prediction")
plt.legend(loc="best")

<IPython.core.display.Javascript object>

<matplotlib.legend.Legend at 0x1fc61a43df0>

Sem considerar a sazonalidade da infração brasileira, nossa previsão fica com uma acurácia muito baixa.

In [28]:
model=sm.tsa.statespace.SARIMAX(df1['IPCA'],order=(1, 1, 1),seasonal_order=(1,1,1,12))
results=model.fit()
df1['forecast']=results.predict(start=167,end=180,dynamic=True)
df1[['IPCA','forecast']].plot(figsize=(9,5))



<IPython.core.display.Javascript object>

<AxesSubplot:xlabel='Date'>

Como se pode ver, modelos univariados tem pouca acurácia para prever a inflação no Brasil medida pelo IPCA. Outra prova disso é o alto valor do erro quadrado médio neste modelo:

In [29]:
rms = sqrt(mean_squared_error(test,forecast))
print("RMSE: ", rms)

RMSE:  0.47815422660880763


## Previsão/Estimação utilizando modelos multivariados

Começaremos com o modelo VAR (Vector AutoRegressive), que abre espaço para a possibilidade de outras séries influenciarem nossa variável de interesse, mas que não podem ser não-estacionárias. Trabalharemos com 3 séries aqui, o IPCA, a Taxa Selic e a Taxa de Câmbio. Abaixo segue uma pré-visualização delas:

In [30]:
fig, axes = plt.subplots(nrows=3, ncols=1, dpi=120, figsize=(8,5))
for i, ax in enumerate(axes.flatten()):
    data = df2[df2.columns[i]]
    ax.plot(data, color='red', linewidth=1)
    ax.set_title(df2.columns[i])
    ax.xaxis.set_ticks_position('none')
    ax.yaxis.set_ticks_position('none')
    ax.spines["top"].set_alpha(0)
    ax.tick_params(labelsize=6)
    
plt.tight_layout();

<IPython.core.display.Javascript object>

### VAR

Como já visto acima, as séries da Selic e do Câmbio não são estacionárias em nível, impossibilitando a previsão com o modelo VAR. Nossa alternativa então foi tirar a 1ª diferença de tais séries para alcançar a condição de estacionariedade. Vamos agora separar nossos datasets auxiliares das primeiras diferenças em grupos de treinamento e de teste:

In [31]:
test_obs = 12
train1 = df_1ªdifference[:-test_obs]
test1 = df_1ªdifference[-test_obs:]

Verificando a Causalidade em nossas variáveis usando o Teste de Causalidade de Granger:

In [32]:
maxlag=12
def grangers_causation_matrix(data, variables, test='ssr_chi2test', verbose=False):    
    """Função que verifica a causalidade de Granger de todas as combinações possíveis da série temporal.
    As linhas são a variável de resposta, as colunas são preditores. Os valores da tabela
    são os p-valores. P-valores menores que o nível de significância (0,05), implicam na rejeição da
    Hipótese Nula de que os coeficientes dos valores passados correspondentes são
    zero, ou seja, que X não causa Y.

    data      : Dataframe contendo as séries de interesse.
    variables : Lista contendo os nomes das variáveis.
    """
    df = pd.DataFrame(np.zeros((len(variables), len(variables))), columns=variables, index=variables)
    for c in df.columns:
        for r in df.index:
            test_result = grangercausalitytests(data[[r, c]], maxlag=maxlag, verbose=False)
            p_values = [round(test_result[i+1][0][test][1],4) for i in range(maxlag)]
            if verbose: print(f'Y = {r}, X = {c}, P-Valores = {p_values}')
            min_p_value = np.min(p_values)
            df.loc[r, c] = min_p_value
    df.columns = [var + '_x' for var in variables]
    df.index = [var + '_y' for var in variables]
    return df

In [33]:
grangers_causation_matrix(df_1ªdifference, variables = df2.columns)

Unnamed: 0,IPCA_x,Selic_x,Cambio_x
IPCA_y,1.0,0.072,0.0
Selic_y,0.0,1.0,0.4945
Cambio_y,0.0292,0.5059,1.0


Pela primeira linha da tabela é possível ver que nossos regressores Granger causam o IPCA, ou seja, temos forte evidência de que a Selic e o Câmbio apresentam uma relação de causalidade com nossa variável de interesse. 

Vamos agora para a especificação do modelo, aumentando iterativamente sua ordem de defasagem e verificando os valores dos critérios de informação.

In [34]:
model = VAR(df_1ªdifference)
for i in [1,2,3,4,5,6,7,8,9]:
    result = model.fit(i)
    print('Lag Order =', i)
    print('AIC : ', result.aic)
    print('BIC : ', result.bic)
    print('FPE : ', result.fpe)
    print('HQIC: ', result.hqic, '\n')



Lag Order = 1
AIC :  -11.841043054132594
BIC :  -11.62654079231515
FPE :  7.202946704026775e-06
HQIC:  -11.754056630078184 

Lag Order = 2
AIC :  -11.832782731642778
BIC :  -11.455951407439104
FPE :  7.263426247330371e-06
HQIC:  -11.679954582654773 

Lag Order = 3
AIC :  -11.929007154092735
BIC :  -11.388583745847598
FPE :  6.598688842254994e-06
HQIC:  -11.709814097206316 

Lag Order = 4
AIC :  -11.934417271894556
BIC :  -11.229122111991602
FPE :  6.566072647077138e-06
HQIC:  -11.648329467393754 

Lag Order = 5
AIC :  -12.05079414559961
BIC :  -11.179330614781808
FPE :  5.8490508009690394e-06
HQIC:  -11.697274983566823 

Lag Order = 6
AIC :  -12.013476929209787
BIC :  -10.974531143739421
FPE :  6.078162318379265e-06
HQIC:  -11.591982913728536 

Lag Order = 7
AIC :  -12.108549794672417
BIC :  -10.90079028612772
FPE :  5.5355310066950725e-06
HQIC:  -11.61853042562931 

Lag Order = 8
AIC :  -12.177454716478548
BIC :  -10.799532103977382
FPE :  5.1778347740375675e-06
HQIC:  -11.61835236890

A tabela acima indica que o melhor nº de defasagem para especificação do modelo é 2.
Estimando então o modelo:

In [35]:
model = VAR(train1)
model_fitted = model.fit(2)
model_fitted.summary()



  Summary of Regression Results   
Model:                         VAR
Method:                        OLS
Date:           Mon, 04, Apr, 2022
Time:                     15:01:40
--------------------------------------------------------------------
No. of Equations:         3.00000    BIC:                   -11.6663
Nobs:                     165.000    HQIC:                  -11.9012
Log likelihood:           313.711    FPE:                5.77779e-06
AIC:                     -12.0616    Det(Omega_mle):     5.10068e-06
--------------------------------------------------------------------
Results for equation IPCA
               coefficient       std. error           t-stat            prob
----------------------------------------------------------------------------
const             0.006539         0.021007            0.311           0.756
L1.IPCA          -0.172948         0.079012           -2.189           0.029
L1.Selic         -0.209516         0.286329           -0.732           0.464


Preparando o modelo para previsão:

In [36]:
forecast_input = df_1ªdifference.values[-model_fitted.k_ar:]
forecast_input

array([[-0.3   ,  0.1   ,  0.0169],
       [-0.22  ,  0.18  ,  0.0943]])

In [37]:
fc = model_fitted.forecast(y=forecast_input, steps=test_obs)
df_forecast = pd.DataFrame(fc, index=df2.index[-test_obs:], columns=df2.columns + '_2d')
df_forecast

Unnamed: 0_level_0,IPCA_2d,Selic_2d,Cambio_2d
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2021-01-01,0.109607,-0.126461,0.06884
2021-02-01,0.124131,0.0351,0.038415
2021-03-01,-0.082061,-0.011354,0.004138
2021-04-01,0.005765,-0.010277,0.017376
2021-05-01,0.024196,0.001188,0.018568
2021-06-01,-0.001262,-0.008104,0.017795
2021-07-01,0.004155,-0.004738,0.018815
2021-08-01,0.005767,-0.004582,0.018167
2021-09-01,0.005199,-0.005435,0.018203
2021-10-01,0.005117,-0.00497,0.018289


In [38]:
def invert_transformation(df_train, df_forecast, second_diff=False):
    """Função que reverte a diferenciação para obter a previsão na escala original."""
    df_fc = df_forecast.copy()
    columns = df_train.columns
    for col in columns:        
        # Roll back 2nd Diff
        if second_diff:
            df_fc[str(col)+'_1d'] = (df_train[col].iloc[-1]-df_train[col].iloc[-2]) + df_fc[str(col)+'_2d'].cumsum()
        # Roll back 1st Diff
        df_fc[str(col)+'_prev'] = df_train[col].iloc[-1] + df_fc[str(col)+'_1d'].cumsum()
    return df_fc

In [39]:
df_results = invert_transformation(train1, df_forecast, second_diff=True)
df_results.loc[:, ['IPCA_prev', 'Selic_prev', 'Cambio_prev']]

Unnamed: 0_level_0,IPCA_prev,Selic_prev,Cambio_prev
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2021-01-01,0.999607,-0.096461,-0.26776
2021-02-01,1.663345,-0.167821,-0.224805
2021-03-01,2.245022,-0.250536,-0.177713
2021-04-01,2.832464,-0.343528,-0.113244
2021-05-01,3.444101,-0.435332,-0.030207
2021-06-01,4.054477,-0.53524,0.070624
2021-07-01,4.669008,-0.639885,0.190271
2021-08-01,5.289306,-0.749113,0.328085
2021-09-01,5.914803,-0.863776,0.484101
2021-10-01,6.545416,-0.983409,0.658406


Plotando os resultados da previsão junto aos valores reais:

In [40]:
fig, axes = plt.subplots(nrows=3, ncols=1, dpi=150, figsize=(5,5))
for i, (col,ax) in enumerate(zip(df2.columns, axes.flatten())):
    df_results[col+'_prev'].plot(legend=True, ax=ax).autoscale(axis='x',tight=True)
    test1[col][-test_obs:].plot(legend=True, ax=ax);
    ax.set_title(col + ": Previsão vs Real")
    ax.xaxis.set_ticks_position('none')
    ax.yaxis.set_ticks_position('none')
    ax.spines["top"].set_alpha(0)
    ax.tick_params(labelsize=6)

plt.tight_layout();

<IPython.core.display.Javascript object>

Como visto acima, o modelo VAR também apresenta suas limitações relativas a acurácia da previsão.

Tratemos agora de um modelo mais completo, chamado modelo Vetor de Correção de Erros, ou VECM.

### VECM

O trunfo do VECM está no fato de ele corrigir um dos principais problemas do VAR. Resumidamente, se usamos um VAR com variáveis não estacionárias, mas com suas diferenças, podemos estar omitindo variáveis relevantes ao modelo.

Nosso 1º passo será realizar o Teste de Cointegração de Johansen, para verificar se nossas séries são cointegradas.
Vamos criar uma função para isto:

In [41]:
def cointegration_test(df, alpha=0.05): 
    """Função que realize o teste de cointegração de Johanson e devolve um resumo dele"""
    out = coint_johansen(df,0,2)
    d = {'0.90':0, '0.95':1, '0.99':2}
    traces = out.lr1
    cvts = out.cvt[:, d[str(1-alpha)]]
    def adjust(val, length= 6): return str(val).ljust(length)

    # Resumo
    print('Nome   ::  Test Stat > C(95%)    =>   Signif  \n', '--'*20)
    for col, trace, cvt in zip(df.columns, traces, cvts):
        print(adjust(col), ':: ', adjust(round(trace,2), 9), ">", adjust(cvt, 8), ' =>  ' , trace > cvt)

In [42]:
cointegration_test(df_1ªdifference)

Nome   ::  Test Stat > C(95%)    =>   Signif  
 ----------------------------------------
IPCA   ::  145.02    > 29.7961   =>   True
Selic  ::  72.52     > 15.4943   =>   True
Cambio ::  26.27     > 3.8415    =>   True


A um nível de significancia de 5%, temos fortes evidências de que as 3 séries são cointegradas, indicando uma correlação de longo prazo entre elas.

O próximo passo diz respeito a identificação do modelo, onde precisamos realizar o teste de verificação do rank de nossas séries.

In [43]:
rank_test = select_coint_rank(df_1ªdifference, 0, 2, method="trace",
                              signif=0.05)
rank_test.rank

3

In [44]:
rank_test.summary()

r_0,r_1,test statistic,critical value
0,3,145.0,29.8
1,3,72.52,15.49
2,3,26.27,3.841


In [45]:
print(rank_test)

Johansen cointegration test using trace test statistic with 5% significance level
r_0 r_1 test statistic critical value
-------------------------------------
  0   3          145.0          29.80
  1   3          72.52          15.49
  2   3          26.27          3.841
-------------------------------------


O valor do rank então é 3.
Assim, estamos aptos a estimar o modelo:

In [46]:
model_vecm = VECM(df_1ªdifference, deterministic="ci", seasons=4,
             k_ar_diff=model_fitted.k_ar,  # =3
             coint_rank=rank_test.rank)



In [47]:
vecm_result = model_vecm.fit()

In [48]:
vecm_result.summary()

0,1,2,3,4,5,6
,coef,std err,z,P>|z|,[0.025,0.975]
season1,0.0364,0.060,0.606,0.545,-0.082,0.154
season2,-0.0427,0.060,-0.712,0.477,-0.160,0.075
season3,0.0193,0.060,0.320,0.749,-0.099,0.137
L1.IPCA,0.2435,0.122,1.991,0.046,0.004,0.483
L1.Selic,0.4372,0.543,0.806,0.420,-0.626,1.500
L1.Cambio,-0.0632,0.200,-0.316,0.752,-0.455,0.329
L2.IPCA,0.0080,0.075,0.107,0.914,-0.139,0.155
L2.Selic,0.4460,0.296,1.509,0.131,-0.133,1.025
L2.Cambio,-0.0100,0.168,-0.059,0.953,-0.340,0.320

0,1,2,3,4,5,6
,coef,std err,z,P>|z|,[0.025,0.975]
season1,-0.0472,0.014,-3.450,0.001,-0.074,-0.020
season2,0.0168,0.014,1.229,0.219,-0.010,0.044
season3,0.0245,0.014,1.791,0.073,-0.002,0.051
L1.IPCA,-0.0043,0.028,-0.154,0.878,-0.059,0.050
L1.Selic,-0.7386,0.123,-5.985,0.000,-0.981,-0.497
L1.Cambio,0.0153,0.045,0.336,0.737,-0.074,0.104
L2.IPCA,0.0023,0.017,0.136,0.892,-0.031,0.036
L2.Selic,-0.5310,0.067,-7.895,0.000,-0.663,-0.399
L2.Cambio,0.0512,0.038,1.338,0.181,-0.024,0.126

0,1,2,3,4,5,6
,coef,std err,z,P>|z|,[0.025,0.975]
season1,-0.0382,0.027,-1.405,0.160,-0.091,0.015
season2,0.0150,0.027,0.555,0.579,-0.038,0.068
season3,0.0019,0.027,0.070,0.944,-0.051,0.055
L1.IPCA,-0.0408,0.055,-0.740,0.460,-0.149,0.067
L1.Selic,-0.4327,0.245,-1.767,0.077,-0.913,0.047
L1.Cambio,0.0985,0.090,1.091,0.275,-0.078,0.275
L2.IPCA,-0.0355,0.034,-1.051,0.293,-0.102,0.031
L2.Selic,-0.1871,0.133,-1.402,0.161,-0.449,0.074
L2.Cambio,-0.0517,0.076,-0.681,0.496,-0.201,0.097

0,1,2,3,4,5,6
,coef,std err,z,P>|z|,[0.025,0.975]
ec1,-1.5200,0.164,-9.292,0.000,-1.841,-1.199
ec2,-0.8485,0.700,-1.213,0.225,-2.220,0.522
ec3,0.1175,0.241,0.488,0.626,-0.354,0.589

0,1,2,3,4,5,6
,coef,std err,z,P>|z|,[0.025,0.975]
ec1,-0.0084,0.037,-0.226,0.821,-0.081,0.065
ec2,-0.7167,0.159,-4.504,0.000,-1.029,-0.405
ec3,-0.0505,0.055,-0.922,0.356,-0.158,0.057

0,1,2,3,4,5,6
,coef,std err,z,P>|z|,[0.025,0.975]
ec1,0.0509,0.074,0.689,0.491,-0.094,0.196
ec2,0.5369,0.316,1.700,0.089,-0.082,1.156
ec3,-0.7819,0.109,-7.196,0.000,-0.995,-0.569

0,1,2,3,4,5,6
,coef,std err,z,P>|z|,[0.025,0.975]
beta.1,1.0000,0,0,0.000,1.000,1.000
beta.2,8.262e-17,0,0,0.000,8.26e-17,8.26e-17
beta.3,2.218e-17,0,0,0.000,2.22e-17,2.22e-17
const,-0.0016,0.014,-0.114,0.909,-0.029,0.026

0,1,2,3,4,5,6
,coef,std err,z,P>|z|,[0.025,0.975]
beta.1,3.343e-19,0,0,0.000,3.34e-19,3.34e-19
beta.2,1.0000,0,0,0.000,1.000,1.000
beta.3,-3.325e-18,0,0,0.000,-3.32e-18,-3.32e-18
const,1.058e-05,0.006,0.002,0.999,-0.012,0.012

0,1,2,3,4,5,6
,coef,std err,z,P>|z|,[0.025,0.975]
beta.1,-1.967e-18,0,0,0.000,-1.97e-18,-1.97e-18
beta.2,-7.681e-17,0,0,0.000,-7.68e-17,-7.68e-17
beta.3,1.0000,0,0,0.000,1.000,1.000
const,-0.0226,0.012,-1.940,0.052,-0.046,0.000


In [49]:
vecm_result.alpha

array([[-1.51995752, -0.84854907,  0.11747669],
       [-0.00842039, -0.71673265, -0.05051822],
       [ 0.05090346,  0.536871  , -0.7818617 ]])

In [50]:
vecm_result.stderr_alpha

array([[0.16358342, 0.69952315, 0.24073994],
       [0.03721363, 0.15913467, 0.05476598],
       [0.07383428, 0.31573362, 0.1086593 ]])

In [51]:
vecm_result.predict(steps=5)

array([[ 0.04041775, -0.0474589 ,  0.11577034],
       [ 0.06398855,  0.06466632,  0.05469235],
       [-0.16881832,  0.07305251,  0.06454509],
       [ 0.04633506, -0.02165418,  0.05773946],
       [ 0.01077466,  0.05763136,  0.06398265]])

In [52]:
vecm_result.predict(steps=5, alpha=0.05)
for text, vaĺues in zip(("forecast", "lower", "upper"), vecm_result.predict(steps=5, alpha=0.05)):
    print(text+":", vaĺues, sep="\n")

forecast:
[[ 0.04041775 -0.0474589   0.11577034]
 [ 0.06398855  0.06466632  0.05469235]
 [-0.16881832  0.07305251  0.06454509]
 [ 0.04633506 -0.02165418  0.05773946]
 [ 0.01077466  0.05763136  0.06398265]]
lower:
[[-0.485091   -0.16700699 -0.12142092]
 [-0.48235247 -0.06659464 -0.19412209]
 [-0.72347113 -0.06733778 -0.18610939]
 [-0.51583786 -0.16599311 -0.19421524]
 [-0.55213821 -0.08989321 -0.18807325]]
upper:
[[0.5659265  0.0720892  0.35296161]
 [0.61032957 0.19592727 0.30350679]
 [0.38583448 0.2134428  0.31519956]
 [0.60850797 0.12268474 0.30969415]
 [0.57368752 0.20515594 0.31603854]]


Por fim, podemos plotar os resultados da estimação, como se segue abaixo:

In [53]:
vecm_plot = vecm_result.plot_forecast(steps=5, n_last_obs=12)

<IPython.core.display.Javascript object>

## Previsão/Estimação usando Deep Learning

Conforme dito no início, para este modelo usando Deep Learning, precisamos que nosso dataset seja convertido para array. Além disso, aqui estaremos trabalhando com nosso dataset principal completo, ou seja, com a série do IPCA mais 16 outras variáveis que podem ter um poder de influência sobre ela.

In [52]:
df3

array([[ 1.70000000e+00,  9.20000000e-01,  1.63000000e+00, ...,
         1.11000000e+00, -8.73700000e+02,  6.52746400e+04],
       [ 1.02000000e+00,  1.39000000e+00,  1.97000000e+00, ...,
         8.70000000e-01, -1.52720000e+03,  6.83076700e+04],
       [ 1.55000000e+00,  1.12000000e+00,  2.74000000e+00, ...,
         1.02000000e+00, -1.61460000e+03,  7.12966200e+04],
       ...,
       [ 1.25000000e+00,  6.40000000e-01,  7.70000000e-01, ...,
         2.72000000e+00, -7.64000000e+01,  3.93855303e+06],
       [ 9.50000000e-01,  2.00000000e-02,  1.08000000e+00, ...,
        -9.30000000e-01, -3.92150000e+03,  3.98657980e+06],
       [ 7.30000000e-01,  8.70000000e-01,  5.70000000e-01, ...,
         1.54000000e+00,  8.21700000e+02,  4.02971309e+06]])

In [53]:
df_train

array([[ 1.70000000e+00,  9.20000000e-01,  1.63000000e+00, ...,
         1.11000000e+00, -8.73700000e+02,  6.52746400e+04],
       [ 1.02000000e+00,  1.39000000e+00,  1.97000000e+00, ...,
         8.70000000e-01, -1.52720000e+03,  6.83076700e+04],
       [ 1.55000000e+00,  1.12000000e+00,  2.74000000e+00, ...,
         1.02000000e+00, -1.61460000e+03,  7.12966200e+04],
       ...,
       [ 7.80000000e-01,  8.20000000e-01,  6.40000000e-01, ...,
         7.10000000e-01,  3.62080000e+03,  1.58857055e+06],
       [ 3.50000000e-01,  1.69000000e+00,  2.60000000e-01, ...,
         7.10000000e-01,  2.83000000e+01,  1.74654189e+06],
       [ 5.20000000e-01,  1.80000000e-01,  3.70000000e-01, ...,
        -3.00000000e-01,  1.92930000e+03,  1.82004130e+06]])

In [54]:
df_test

array([[ 8.00000000e-02,  2.00000000e-01,  7.00000000e-02, ...,
         6.00000000e-01,  9.12500000e+02,  1.89774965e+06],
       [ 2.60000000e-01,  1.60000000e-01,  3.40000000e-01, ...,
         2.20000000e-01, -7.49700000e+02,  1.91893631e+06],
       [ 1.80000000e-01, -3.00000000e-02,  1.70000000e-01, ...,
         7.50000000e-01,  2.07300000e+03,  1.92882775e+06],
       ...,
       [ 1.25000000e+00,  6.40000000e-01,  7.70000000e-01, ...,
         2.72000000e+00, -7.64000000e+01,  3.93855303e+06],
       [ 9.50000000e-01,  2.00000000e-02,  1.08000000e+00, ...,
        -9.30000000e-01, -3.92150000e+03,  3.98657980e+06],
       [ 7.30000000e-01,  8.70000000e-01,  5.70000000e-01, ...,
         1.54000000e+00,  8.21700000e+02,  4.02971309e+06]])

### Escalonamento dos dados

Nosso modelo de Dl fará uso de técnicas de redes neurais. Desta maneira, como quase todas as redes neurais se beneficiam do reescalonamento dos inputs (e algumas vezes dos outputs), e como nossos dados não estão na mesma escala, vamos utilizar a função 'MinMaxScaler' do pacote de mesmo nome para reestrutura-los numa escala de -1 a 1. 

In [55]:
scaler = MinMaxScaler(feature_range=(-1, 1))
scaler.fit(df_train)

MinMaxScaler(feature_range=(-1, 1))

In [56]:
scaler

MinMaxScaler(feature_range=(-1, 1))

In [57]:
df_train = scaler.transform(df_train)
df_test = scaler.transform(df_test)

In [58]:
df_train

array([[ 0.25212465, -0.37964459, -0.12423625, ..., -0.43825666,
         0.11666963, -1.        ],
       [-0.13314448, -0.22778675,  0.01425662, ..., -0.49636804,
         0.01093727, -0.9965431 ],
       [ 0.16713881, -0.31502423,  0.32790224, ..., -0.46004843,
        -0.00320352, -0.99313643],
       ...,
       [-0.26912181, -0.41195477, -0.52749491, ..., -0.53510896,
         0.84385264,  0.73618059],
       [-0.51274788, -0.13085622, -0.68228106, ..., -0.53510896,
         0.2626078 ,  0.91622885],
       [-0.41643059, -0.6187399 , -0.63747454, ..., -0.77966102,
         0.57017814,  1.        ]])

Depois disso, precisaremos separar os inputs dos outputs.

In [59]:
x_train = df_train[:, 1:]
y_train = df_train[:, 0]
x_test = df_test[:, 1:]
y_test = df_test[:, 0]

In [60]:
x_train

array([[-0.37964459, -0.12423625, -0.13700108, ..., -0.43825666,
         0.11666963, -1.        ],
       [-0.22778675,  0.01425662, -0.4412082 , ..., -0.49636804,
         0.01093727, -0.9965431 ],
       [-0.31502423,  0.32790224, -0.18015102, ..., -0.46004843,
        -0.00320352, -0.99313643],
       ...,
       [-0.41195477, -0.52749491, -0.87486516, ..., -0.53510896,
         0.84385264,  0.73618059],
       [-0.13085622, -0.68228106, -0.47572816, ..., -0.53510896,
         0.2626078 ,  0.91622885],
       [-0.6187399 , -0.63747454, -0.78640777, ..., -0.77966102,
         0.57017814,  1.        ]])

In [61]:
y_train

array([ 0.25212465, -0.13314448,  0.16713881,  0.66572238,  0.80169972,
        0.5694051 ,  0.62606232, -0.15014164, -0.15014164,  0.0878187 ,
        0.12181303,  0.17280453,  0.04815864, -0.12747875, -0.51274788,
        0.00283286, -0.01983003, -0.0368272 , -0.08215297, -0.46175637,
       -0.62606232, -0.54107649, -0.52974504, -0.44475921, -0.04249292,
       -0.42776204, -0.42209632, -0.21246459, -0.47875354, -0.40509915,
       -0.58640227, -0.7223796 , -0.67705382, -0.58073654, -0.61473088,
       -0.4674221 , -0.30878187, -0.45042493, -0.5184136 , -0.57507082,
       -0.42776204, -0.69971671, -0.77903683, -1.        , -0.83569405,
       -0.69971671, -0.77903683, -0.52407932, -0.31444759, -0.11614731,
       -0.0878187 , -0.39376771, -0.54107649, -0.60339943, -0.09348442,
       -0.39376771, -0.53541076, -0.0368272 , -0.17280453, -0.37110482,
       -0.35977337, -0.63739377, -0.58640227, -0.47308782, -0.70538244,
       -0.58073654,  0.20113314,  0.03116147, -0.58073654, -0.63

In [62]:
x_test

array([[-0.61227787, -0.75967413, -0.82092772, ..., -0.56174334,
         0.40566602,  1.0885683 ],
       [-0.62520194, -0.6496945 , -0.84681769, ..., -0.65375303,
         0.13673209,  1.11271585],
       [-0.68659128, -0.71894094, -0.85760518, ..., -0.52542373,
         0.59342793,  1.12398965],
       ...,
       [-0.47011309, -0.47454175, -0.70658037, ..., -0.04842615,
         0.24566797,  3.41457942],
       [-0.67043619, -0.34826884, -0.74757282, ..., -0.93220339,
        -0.37644603,  3.46931806],
       [-0.39579968, -0.55600815, -0.81661273, ..., -0.33414044,
         0.39097513,  3.51847934]])

In [63]:
y_test

array([-0.66572238, -0.56373938, -0.60906516, -0.54107649, -0.49575071,
       -0.52407932, -0.5694051 , -0.63172805, -0.53541076, -0.84135977,
       -0.57507082, -0.60339943, -0.6203966 , -0.47308782, -0.55240793,
       -0.46175637, -0.54674221, -0.52974504, -0.66005666, -0.58640227,
       -0.48441926,  0.00283286, -0.52407932, -0.76203966, -0.43909348,
       -0.45609065, -0.83002833, -0.62606232, -0.52974504, -0.4674221 ,
       -0.28611898, -0.38810198, -0.63739377, -0.70538244, -0.60339943,
       -0.64872521, -0.73371105, -0.65439093, -0.42209632, -0.05949008,
       -0.59206799, -0.5694051 , -0.6713881 , -0.88668555, -0.92634561,
       -0.56373938, -0.50708215, -0.57507082, -0.34844193, -0.22379603,
       -0.20679887,  0.05382436, -0.5694051 , -0.22379603, -0.18413598,
       -0.53541076, -0.2407932 , -0.41076487, -0.16713881, -0.21813031,
       -0.05382436, -0.00283286, -0.17280453, -0.29745042])

### Construção do modelo

Vamos separar em um objeto o nº de variáveis em nossa base de treinamento.

In [64]:
n_vars = x_train.shape[1]
print(n_vars)

16


Um ponto importante a se notar é que iremos construir a rede neural sem utilizarmos o Keras. Inicialmente precisamos definir uma sessão:

In [65]:
net = tf.compat.v1.InteractiveSession()

In [66]:
net

<tensorflow.python.client.session.InteractiveSession at 0x22f5a6c4970>

Precisamos então construir as camadas com os neurônios e definir como os dados entrarão nelas.
Para isso, precisamos primeiro criar nossos placeholders, que serão usados para armazenar os dados dos inputs e do output. Serão dois placeholders, X e Y, com X contendo os inputs da nossa rede (as variáveis que podem ter um poder de explicação sobre o IPCA, em T = t) e Y contendo o output (o IPCA em T = t+1).
O shape dos placeholders corresponde a [None, n_vars], onde "None" significa que os inputs vem em uma matriz bi-dimensional e o output de um vetor uni-dimensional.

In [67]:
tf.compat.v1.disable_eager_execution()

X = tf.compat.v1.placeholder(dtype=tf.float32, shape=[None, n_vars])
Y = tf.compat.v1.placeholder(dtype=tf.float32, shape=[None])

In [68]:
X

<tf.Tensor 'Placeholder:0' shape=(None, 16) dtype=float32>

In [69]:
Y

<tf.Tensor 'Placeholder_1:0' shape=(None,) dtype=float32>

#### Neurônios:
O modelo irá possuir quatro camadas (hidden layers), além da camada de entrada e da camada de saída. A primeira camada vai conter 32, e as camadas seguintes possuirão como tamanho a metade das camadas anteriores, sendo 16, 8 e 4, respectivamente. A redução no número de neurônios vai comprimindo a informação identificada em cada camada anterior. 

In [70]:
n_neurons_1 = 32
n_neurons_2 = 16
n_neurons_3 = 8
n_neurons_4 = 4

#### Inicializadores:
Inicializadores são utilizados para inicializar as variáveis da rede antes do treinamento. Como as redes neurais são treinadas utilizando técnicas de otimização numérica, a condição inicial do problema de otimização é crucial para se obter boas soluções para o problema. O TensorFlow possui diferentes inicializadores, mas aqui usaremos 2, sendo eles:

**variance_scaling_initializer:** Constrói um inicializador que gera tensores sem reescalonar a variância. É sempre bom se pudermos manter a escala da variância dos inputs constante ao inicializarmos uma rede de forma que não exploda nem diminua ao chegarmos na camada final de nossa rede. 
Quando utilizamos uma distribuição normal as amostras serão obtidas da distribuição com média zero e variância,

\begin{equation}
    stddev = sqrt(scale / n)
\end{equation}

e com os seguintes parâmetros:
        
        * n:
            - Será o número de conexões no tensor de input, se mode = "fan_in";
            - Será o número de conexões no tensor de output, se mode = "fan_out";
            - Será a média de conexões no tensor de input e output, se mode = "fan_avg";
            
        * distribution: Distribuição aleatória a ser utilizada ("normal", "uniforme", etc);
        
        * scale: Fator de escalonamento (float positiva).

Será usado como inicializador dos pesos.

**zeros_initializer:** Inicializador que gera tensores inicializados em 0. Será usado como inicializador do viés.

In [71]:
sigma = 1
weight_initializer = tf.compat.v1.variance_scaling_initializer(mode="fan_avg", distribution="uniform", scale=sigma)
bias_initializer = tf.compat.v1.zeros_initializer()

In [72]:
weight_initializer

<tensorflow.python.ops.init_ops.VarianceScaling at 0x22f5a6d7f10>

In [73]:
bias_initializer

<tensorflow.python.ops.init_ops.Zeros at 0x22f5a6d79d0>

#### Variáveis:

In [74]:
# Camada 1: Variáveis para pesos e viés
W_hidden_1 = tf.compat.v1.Variable(weight_initializer([n_vars, n_neurons_1]))
bias_hidden_1 = tf.compat.v1.Variable(bias_initializer([n_neurons_1]))

# Camada 2: Variáveis para pesos e viés
W_hidden_2 = tf.compat.v1.Variable(weight_initializer([n_neurons_1, n_neurons_2]))
bias_hidden_2 = tf.compat.v1.Variable(bias_initializer([n_neurons_2]))

# Camada 3: Variáveis para pesos e viés
W_hidden_3 = tf.compat.v1.Variable(weight_initializer([n_neurons_2, n_neurons_3]))
bias_hidden_3 = tf.compat.v1.Variable(bias_initializer([n_neurons_3]))

# Camada 4: Variáveis para pesos e viés
W_hidden_4 = tf.compat.v1.Variable(weight_initializer([n_neurons_3, n_neurons_4]))
bias_hidden_4 = tf.compat.v1.Variable(bias_initializer([n_neurons_4]))

# Output weights
# Camada de Output: Variáveis para pesos e viés do output
W_out = tf.compat.v1.Variable(weight_initializer([n_neurons_4, 1]))
bias_out = tf.compat.v1.Variable(bias_initializer([1]))

### Desenhando a Arquitetura da Rede Neural

Os placeholders (dados) e as variáveis (pesos e viés) precisam ser combinados em um sistema de multiplicação matricial sequencial.
Também, as camadas de nossa rede serão transformadas por funções de ativação. Funções de ativação são elementos importantes de redes neurais uma vez que introduzem não linearidade ao sistema. Existem dezenas de funções de ativação, uma das mais comuns é a rectified linear unit (ReLU), que usaremos aqui nesta rede.
Do tensorflow, usaremos ainda as seguintes funcionalidades:
    
    * tf.nn: Encapsulador para operações com redes neurais primitivas (NN);
    * tf.matmul: Multiplica a matriz A pela matriz B, produzindo A * B.

In [75]:
hidden_1 = tf.compat.v1.nn.relu(tf.compat.v1.add(tf.compat.v1.matmul(X, W_hidden_1), bias_hidden_1))
hidden_2 = tf.compat.v1.nn.relu(tf.compat.v1.add(tf.compat.v1.matmul(hidden_1, W_hidden_2), bias_hidden_2))
hidden_3 = tf.compat.v1.nn.relu(tf.compat.v1.add(tf.compat.v1.matmul(hidden_2, W_hidden_3), bias_hidden_3))
hidden_4 = tf.compat.v1.nn.relu(tf.compat.v1.add(tf.compat.v1.matmul(hidden_3, W_hidden_4), bias_hidden_4))

#### Camada de output (transposta):

In [76]:
out = tf.compat.v1.transpose(tf.add(tf.matmul(hidden_4, W_out), bias_out))

In [77]:
out

<tf.Tensor 'transpose:0' shape=(1, None) dtype=float32>

#### Função Custo (Perda): 
A função custo ou função perda é utilizada para gerar uma medida de desvio entre a previsão da rede e o valor real observado no treinamento. Para problemas de regressão o erro quadrado médio (MSE) é bastante utilizado.

In [78]:
mse = tf.compat.v1.reduce_mean(tf.compat.v1.squared_difference(out, Y))

In [79]:
mse

<tf.Tensor 'Mean:0' shape=() dtype=float32>

#### Otimizador:
O otimizador se encarrega dos cálculos necessários para adaptar os pesos e viés da rede durante o treinamento. Esses cálculos utilizam gradientes que indicam a direção em que os pesos e viés devem ser modificados de forma a minimizar a função custo. O desenvolvimento de otimizadores estáveis e rápidos é uma area em que há grande pesquisa atualmente.
Utilizaremos aqui o otimizador ADAM (Adaptive Moment Estimation).

In [80]:
opt = tf.compat.v1.train.AdamOptimizer().minimize(mse)

In [81]:
opt

<tf.Operation 'Adam' type=NoOp>

#### Treinamento:
Após definirmos placeholders, variáveis, inicializadores, custo e otimizadores, o modelo precisa ser treinado.

In [82]:
net.run(tf.compat.v1.global_variables_initializer())

Em paralelo a isso, criaremos um gráfico interativo com nossas linhas de teste (azul) e de treinamento (laranja), deslocando esta última 1/2 de modo a visualizar seu movimento em direção ao nível do valor real.

#### Rodar o modelo:
Durante o treinamento do modelo amostras aleatórias de tamanho  𝑛=  batch_size serão retiradas da base de treinamento. Este procedimento continua até todos os batches serem apresentados a rede. Uma apresentação completa de todos os batches a rede é chamada de uma época.

In [83]:
epochs = 50
batch_size = 1
mse_train = []
mse_test = []

Como nosso nº de observações é relativamente baixo, utilizaremos uma grande quantidade de épocas (50) e o valor mínimo para o batch_size (1).

In [84]:
np.mean(y_test)

-0.483356940509915

In [85]:
plt.ion()
fig = plt.figure(figsize=(8,6))
ax1 = fig.add_subplot(111)
line1, = ax1.plot(y_test)
line2, = ax1.plot(y_test * 0.5)
fig = plt.gcf()
plt.show()

<IPython.core.display.Javascript object>

In [86]:
for e in range(epochs):
    # Shuffle training data
    shuffle_indices = np.random.permutation(np.arange(len(y_train)))
    x_train = x_train[shuffle_indices]
    y_train = y_train[shuffle_indices]
    # Minibatch training
    for i in range(0, len(y_train) // batch_size):
        start = i * batch_size
        batch_x = x_train[start:start + batch_size]
        batch_y = y_train[start:start + batch_size]
        # Run optimizer with batch
        net.run(opt, feed_dict={X: batch_x, Y: batch_y})
        # Show progress
        if np.mod(i, 10) == 0: # Return element-wise remainder of division
            # MSE train and test
            mse_train.append(net.run(mse, feed_dict={X: x_train, Y: y_train}))
            mse_test.append(net.run(mse, feed_dict={X: x_test, Y: y_test}))
            print('MSE Train: ', mse_train[-1])
            print('MSE Test: ', mse_test[-1])
            # Prediction
            pred = net.run(out, feed_dict={X: x_test})
            line2.set_ydata(pred)
            plt.title('Epoch ' + str(e) + ', Batch ' + str(i))
            fig.canvas.draw()
            plt.pause(0.05)

MSE Train:  0.34059113
MSE Test:  0.33347648
MSE Train:  0.22497955
MSE Test:  0.3081661
MSE Train:  0.2038158
MSE Test:  0.29295135
MSE Train:  0.19605932
MSE Test:  0.27996373
MSE Train:  0.18867807
MSE Test:  0.26640147
MSE Train:  0.18179235
MSE Test:  0.25505137
MSE Train:  0.17586201
MSE Test:  0.24577394
MSE Train:  0.17067653
MSE Test:  0.2384711
MSE Train:  0.16582666
MSE Test:  0.23143102
MSE Train:  0.16118273
MSE Test:  0.22382343
MSE Train:  0.15708281
MSE Test:  0.21657604
MSE Train:  0.15360764
MSE Test:  0.21120852
MSE Train:  0.14969774
MSE Test:  0.20571701
MSE Train:  0.14588185
MSE Test:  0.20035262
MSE Train:  0.14161567
MSE Test:  0.19437836
MSE Train:  0.13833328
MSE Test:  0.18953347
MSE Train:  0.13447174
MSE Test:  0.18509424
MSE Train:  0.13011959
MSE Test:  0.1799267
MSE Train:  0.12605149
MSE Test:  0.17463097
MSE Train:  0.12227427
MSE Test:  0.16951813
MSE Train:  0.11883722
MSE Test:  0.16475737
MSE Train:  0.115162745
MSE Test:  0.15946299
MSE Train:  0

MSE Train:  0.012278879
MSE Test:  0.029280711
MSE Train:  0.012789981
MSE Test:  0.030253086
MSE Train:  0.01164733
MSE Test:  0.028244432
MSE Train:  0.011659117
MSE Test:  0.027782746
MSE Train:  0.0110004395
MSE Test:  0.02684247
MSE Train:  0.012114614
MSE Test:  0.03545821
MSE Train:  0.012495826
MSE Test:  0.02556805
MSE Train:  0.012333687
MSE Test:  0.024846865
MSE Train:  0.013651801
MSE Test:  0.027535323
MSE Train:  0.0106597785
MSE Test:  0.027058665
MSE Train:  0.010722198
MSE Test:  0.024229849
MSE Train:  0.010946489
MSE Test:  0.026889622
MSE Train:  0.010475679
MSE Test:  0.023196852
MSE Train:  0.01038554
MSE Test:  0.022860479
MSE Train:  0.0116805155
MSE Test:  0.04010798
MSE Train:  0.01082563
MSE Test:  0.026851362
MSE Train:  0.011297041
MSE Test:  0.02978035
MSE Train:  0.012501943
MSE Test:  0.09105996
MSE Train:  0.01585058
MSE Test:  0.14812067
MSE Train:  0.016785009
MSE Test:  0.157909
MSE Train:  0.015374261
MSE Test:  0.14434847
MSE Train:  0.010480368
M

MSE Train:  0.006158211
MSE Test:  0.06163757
MSE Train:  0.0054641427
MSE Test:  0.07171062
MSE Train:  0.0056397226
MSE Test:  0.0635912
MSE Train:  0.0053971466
MSE Test:  0.08074634
MSE Train:  0.005058614
MSE Test:  0.108824626
MSE Train:  0.0053112535
MSE Test:  0.07777873
MSE Train:  0.006606948
MSE Test:  0.103654325
MSE Train:  0.0053729387
MSE Test:  0.08318185
MSE Train:  0.0072504324
MSE Test:  0.12209441
MSE Train:  0.009317006
MSE Test:  0.1567861
MSE Train:  0.009886303
MSE Test:  0.2085352
MSE Train:  0.008297318
MSE Test:  0.19366318
MSE Train:  0.006481052
MSE Test:  0.10462923
MSE Train:  0.004919215
MSE Test:  0.09963926
MSE Train:  0.006082402
MSE Test:  0.056666076
MSE Train:  0.0074317544
MSE Test:  0.028914003
MSE Train:  0.0048154285
MSE Test:  0.06620781
MSE Train:  0.0053099557
MSE Test:  0.10652621
MSE Train:  0.006226882
MSE Test:  0.13457124
MSE Train:  0.006481073
MSE Test:  0.065547876
MSE Train:  0.0067508793
MSE Test:  0.05113843
MSE Train:  0.00572644

MSE Train:  0.0056595597
MSE Test:  0.12022172
MSE Train:  0.0053854943
MSE Test:  0.07004284
MSE Train:  0.0051804106
MSE Test:  0.036387067
MSE Train:  0.0040889345
MSE Test:  0.04077673
MSE Train:  0.004487124
MSE Test:  0.060469434
MSE Train:  0.003951455
MSE Test:  0.03772302
MSE Train:  0.0037943309
MSE Test:  0.044896103
MSE Train:  0.004061145
MSE Test:  0.03243339
MSE Train:  0.0049959
MSE Test:  0.03710916
MSE Train:  0.0045004645
MSE Test:  0.04507905
MSE Train:  0.0035245414
MSE Test:  0.051865168
MSE Train:  0.0038093445
MSE Test:  0.06572235
MSE Train:  0.003661676
MSE Test:  0.03790679
MSE Train:  0.0039448207
MSE Test:  0.032469265
MSE Train:  0.003776393
MSE Test:  0.039736703
MSE Train:  0.0041544084
MSE Test:  0.039956868
MSE Train:  0.0048005995
MSE Test:  0.05619618
MSE Train:  0.0039096423
MSE Test:  0.037421614
MSE Train:  0.0054927627
MSE Test:  0.020665387
MSE Train:  0.007477166
MSE Test:  0.017436337
MSE Train:  0.0039663957
MSE Test:  0.027986558
MSE Train: 

MSE Test:  0.081834346
MSE Train:  0.0038860065
MSE Test:  0.089584105
MSE Train:  0.00409973
MSE Test:  0.09133714
MSE Train:  0.0028898346
MSE Test:  0.06150759
MSE Train:  0.0032973355
MSE Test:  0.07022442
MSE Train:  0.0042225625
MSE Test:  0.06400341
MSE Train:  0.0050101643
MSE Test:  0.05468987
MSE Train:  0.0036043716
MSE Test:  0.050540715
MSE Train:  0.0041360077
MSE Test:  0.053099506
MSE Train:  0.004131924
MSE Test:  0.09995728
MSE Train:  0.0034310932
MSE Test:  0.11187196
MSE Train:  0.005162798
MSE Test:  0.12334436
MSE Train:  0.00364793
MSE Test:  0.084883206
MSE Train:  0.0055522774
MSE Test:  0.06813769
MSE Train:  0.0036720892
MSE Test:  0.11302768
MSE Train:  0.0052367146
MSE Test:  0.12841748
MSE Train:  0.00395807
MSE Test:  0.08075599
MSE Train:  0.0034084236
MSE Test:  0.09495853
MSE Train:  0.0033156888
MSE Test:  0.10151996
MSE Train:  0.003449992
MSE Test:  0.0993133
MSE Train:  0.0033363625
MSE Test:  0.08451624
MSE Train:  0.0042400975
MSE Test:  0.09421

MSE Train:  0.0030445314
MSE Test:  0.038458154
MSE Train:  0.0039785905
MSE Test:  0.031672854
MSE Train:  0.0033500271
MSE Test:  0.07002266
MSE Train:  0.0026758797
MSE Test:  0.062842995
MSE Train:  0.0026851217
MSE Test:  0.06162134
MSE Train:  0.0025953145
MSE Test:  0.0836968
MSE Train:  0.0030781047
MSE Test:  0.0705968
MSE Train:  0.0024996821
MSE Test:  0.060947403
MSE Train:  0.002641626
MSE Test:  0.06163668
MSE Train:  0.003009747
MSE Test:  0.057907164
MSE Train:  0.002958751
MSE Test:  0.057242107
MSE Train:  0.0029066985
MSE Test:  0.056553625
MSE Train:  0.0037084934
MSE Test:  0.059835397
MSE Train:  0.0026301206
MSE Test:  0.048341997
MSE Train:  0.0029315667
MSE Test:  0.06109312
MSE Train:  0.0033767365
MSE Test:  0.07837369
MSE Train:  0.0033499063
MSE Test:  0.0837813
MSE Train:  0.0031349128
MSE Test:  0.053519152
MSE Train:  0.0028251596
MSE Test:  0.0525715
MSE Train:  0.0037252607
MSE Test:  0.04932833
MSE Train:  0.0038143173
MSE Test:  0.061116144
MSE Train

MSE Train:  0.0027195641
MSE Test:  0.08512076
MSE Train:  0.0028718312
MSE Test:  0.053816974
MSE Train:  0.0034393633
MSE Test:  0.060184427
MSE Train:  0.0056651044
MSE Test:  0.07513927
MSE Train:  0.003139527
MSE Test:  0.05942134
MSE Train:  0.0039025827
MSE Test:  0.08052869
MSE Train:  0.0046107676
MSE Test:  0.103174485
MSE Train:  0.0025911746
MSE Test:  0.08182104
MSE Train:  0.0027442614
MSE Test:  0.052251756
MSE Train:  0.002862254
MSE Test:  0.056311145
MSE Train:  0.0033012847
MSE Test:  0.07817342
MSE Train:  0.0026867492
MSE Test:  0.057623878
MSE Train:  0.0042889346
MSE Test:  0.045826994
MSE Train:  0.0033149894
MSE Test:  0.04559326
MSE Train:  0.0029156369
MSE Test:  0.038434334
MSE Train:  0.006230788
MSE Test:  0.11500211
MSE Train:  0.0029356626
MSE Test:  0.08006737
MSE Train:  0.002829488
MSE Test:  0.07210548
MSE Train:  0.002311512
MSE Test:  0.063058265
MSE Train:  0.002574128
MSE Test:  0.06095542
MSE Train:  0.0024771942
MSE Test:  0.050925575
MSE Train

MSE Train:  0.0023770537
MSE Test:  0.07987205
MSE Train:  0.0025397805
MSE Test:  0.06865326
MSE Train:  0.0026945295
MSE Test:  0.052056894
MSE Train:  0.002057027
MSE Test:  0.05718756
MSE Train:  0.0023885516
MSE Test:  0.05953397
MSE Train:  0.0025322349
MSE Test:  0.03934285
MSE Train:  0.0025473563
MSE Test:  0.031517148
MSE Train:  0.0026677528
MSE Test:  0.022396624
MSE Train:  0.0025875557
MSE Test:  0.023514418
MSE Train:  0.0022894577
MSE Test:  0.024581011
MSE Train:  0.00248372
MSE Test:  0.02058784
MSE Train:  0.0034091263
MSE Test:  0.025026644
MSE Train:  0.0032826439
MSE Test:  0.04104993
MSE Train:  0.0030462684
MSE Test:  0.027322352
MSE Train:  0.0026158746
MSE Test:  0.019437065
MSE Train:  0.00335824
MSE Test:  0.02129811
MSE Train:  0.0023518591
MSE Test:  0.028788432
MSE Train:  0.0027643917
MSE Test:  0.04798612
MSE Train:  0.0027437194
MSE Test:  0.026978267
MSE Train:  0.00290333
MSE Test:  0.024845663
MSE Train:  0.002227003
MSE Test:  0.02970462
MSE Train:

Podemos ver no gráfico acima que o modelo de Dl é o que melhor se ajusta aos valores reais, tendo a maior acurácia entre todos mostrados até aqui.

## Referências

* BUENO, Rodrigo De Losso da Silveira. Econometria de séries temporais. [S.l: s.n.], 2012.

* Pacheco, C. A. R., & Pereira, N. S. (2018). Deep Learning Conceitos e Utilização nas Diversas Áreas do Conhecimento. Revista Ada Lovelace, 2, 34–49. Recuperado de http://anais.unievangelica.edu.br/index.php/adalovelace/article/view/4132