In [None]:
# carregando as bibliotecas utilizadas

# Imports para manipulação de dados
import numpy as np
import pandas as pd
import itertools

# Imports para visualização de dados
import matplotlib.pyplot as plt
import matplotlib as m
import seaborn as sns
import plotly as py
import cufflinks as cf
import plotly.express as px
import plotly.graph_objs as go 
from plotly.offline import download_plotlyjs, init_notebook_mode, plot, iplot

# Imports para modelagem preditiva
import statsmodels
import statsmodels.api as sm
import statsmodels.tsa.api as smt
import statsmodels.stats as sms
import pmdarima as pm
from pandas.plotting import autocorrelation_plot
from scipy.stats import boxcox
from statsmodels.graphics import tsaplots
from statsmodels.tsa.seasonal import seasonal_decompose
from statsmodels.tsa.stattools import adfuller
from statsmodels.tsa.arima_model import ARIMA
from statsmodels.stats.stattools import jarque_bera
from statsmodels.graphics.tsaplots import plot_acf
from statsmodels.graphics.tsaplots import plot_pacf
from sklearn.metrics import mean_squared_error, mean_absolute_error

# Imports para métricas e performance do modelo
import math
from math import sqrt 
import sklearn
from sklearn.metrics import mean_squared_error 

# Filtrando os avisos
import sys
import warnings
warnings.filterwarnings("ignore")

# Configurando o estilo de gráfico utilizado
%matplotlib inline
plt.rcParams["figure.figsize"] = 20, 10
plt.style.use('fivethirtyeight')

In [None]:
# Carrega as séries históricas de preços do Boi Gordo-SP e Bezerro-MS
bg = pd.read_csv('Boi-Gordo-SP-B3.csv', header=3)
bz = pd.read_csv('Bezerro-MS.csv', header=3)

In [None]:
bg.head()

In [None]:
bz.head()

In [None]:
bg.info()

In [None]:
bz.info()

In [None]:
# Substituindo a virgulo por ponto das séries

# Boi Gordo - SP
bg['À vista R$'] = bg['À vista R$'].apply(lambda x: str(x).replace(',', '.'))
bg['À vista R$'] = bg['À vista R$'].astype('float64')

# Bezerro - MS
bz['À vista R$'] = bz['À vista R$'].apply(lambda x: str(x).replace(',', '.'))
bz['À vista R$'] = bz['À vista R$'].astype('float64')

In [None]:
# Alterando o tipo do índice

# Boi Gordo - SP
bg['Data'] = pd.to_datetime(bg['Data'], infer_datetime_format=True)

# Bezerro - MS
bz['Data'] = pd.to_datetime(bz['Data'], infer_datetime_format=True)

In [None]:
# Colocando a data como índice

# Boi Gordo - SP
bg = bg.set_index('Data')

# Bezerro - MS
bz = bz.set_index('Data')

In [None]:
# Excluindo valores em Dollar US$
bg.drop('À vista US$', axis=1, inplace=True)
bz.drop('À vista US$', axis=1, inplace=True)

In [None]:
# Evolução dos preços do Boi Gordo - SP
fig = px.line(bg, x=bg.index, y='À vista R$', title='Evolução dos Preços do Boi Gordo - SP')
fig.show()

In [None]:
bg = bg['À vista R$'].resample('M').mean()

In [None]:
# Evolução dos preços do Boi Gordo - SP
fig = px.line(bg, x=bg.index, y='À vista R$', title='Evolução dos Preços do Boi Gordo - SP (Mensal)')
fig.show()

In [None]:
from plotly.figure_factory import create_distplot

fig = create_distplot([bg], ['Distribuição dos Preços Mensais'])
fig.show()

In [None]:
from plotly.subplots import make_subplots

fig = make_subplots(rows=1, cols=2)

fig.add_trace(go.Box(y=bg), row=1, col=1)

fig.add_trace(go.Violin(y=bg, box_visible=True), row=1, col=2)

fig.show()

In [None]:
fig = px.box(bg, x=bg.index.year, y=bg)
fig.show()

In [None]:
fig = px.box(bg, x=bg.index.month, y=bg)
fig.show()

In [None]:
def series_decompose(serie):
    
    decomposition = seasonal_decompose(serie, period=12)
    
    fig = make_subplots(rows=3, cols=1)
    
    fig.append_trace(go.Scatter(x=serie.index, y=decomposition.trend, name='Tendência'), row=1, col=1)
    fig.append_trace(go.Scatter(x=serie.index, y=decomposition.seasonal, name='Sazonalidade'), row=2, col=1)
    fig.append_trace(go.Scatter(x=serie.index, y=decomposition.resid, name='Ruido'), row=3, col=1)
    
    fig.show()

In [None]:
series_decompose(bg)

In [None]:
def testa_estacionaridade(serie):
    
    # Calcula estatísticas móveis
    rolmean = serie.rolling(window = 12).mean()
    rolstd = serie.rolling(window = 12).std()

    # Plot das estatísticas móveis
    fig = go.Figure()
    fig.add_trace(go.Scatter(x=serie.index, y=serie, mode='lines', name='Preços'))
    fig.add_trace(go.Scatter(x=rolmean.index, y=rolmean, mode='lines', name='Média'))
    fig.add_trace(go.Scatter(x=rolstd.index, y=rolstd, mode='lines', name='Desvio Padrão'))
    fig.update_xaxes(rangeslider_visible=True)
    fig.show()
    
    # Teste Dickey-Fuller:
    # Print
    print('\nResultado do Teste Dickey-Fuller:\n')

    # Teste
    dfteste = adfuller(serie, autolag = 'AIC')

    # Formatando a saída
    dfsaida = pd.Series(dfteste[0:4], index = ['Estatística do Teste',
                                               'Valor-p',
                                               'Número de Lags Consideradas',
                                               'Número de Observações Usadas'])

    # Loop por cada item da saída do teste
    for key, value in dfteste[4].items():
        dfsaida['Valor Crítico (%s)'%key] = value

    # Print
    print (dfsaida)
    
    # Testa o valor-p
    print ('\nConclusão:')
    if dfsaida[1] > 0.05:
        print('\nO valor-p é maior que 0.05 e, portanto, não temos evidências para rejeitar a hipótese nula.')
        print('Essa série provavelmente não é estacionária.')
    else:
        print('\nO valor-p é menor que 0.05 e, portanto, temos evidências para rejeitar a hipótese nula.')
        print('Essa série provavelmente é estacionária.')

In [None]:
testa_estacionaridade(bg)

In [None]:
autocorrelation_plot(bg)
plt.show()

In [None]:
# Plot do gráfico ACF
plt.subplot(211)
plot_acf(bg, ax=plt.gca(), lags=50)

# Plot do gráfico PACF
plt.subplot(212)
plot_pacf(bg, ax=plt.gca(), lags=50)

# Mostra os gráficos
plt.show()

In [None]:
bg.head()

In [None]:
bg_box, lam_value = boxcox(bg)
print('Valor Ideal de Lambda: %f' % lam_value)
bg_box = pd.Series(bg_box, index=bg.index)
# Visualizando a transformação
bg_box.head()

In [None]:
testa_estacionaridade(bg_box)

In [None]:
autocorrelation_plot(bg_box)
plt.show()

In [None]:
# Plot do gráfico ACF
plt.subplot(211)
plot_acf(bg_box, ax=plt.gca(), lags=50)

# Plot do gráfico PACF
plt.subplot(212)
plot_pacf(bg_box, ax=plt.gca(), lags=50)

# Mostra os gráficos
plt.show()

In [None]:
bg_diff = bg_box - bg_box.shift()
bg_diff.dropna(inplace=True)

In [None]:
testa_estacionaridade(bg_diff)

In [None]:
autocorrelation_plot(bg_diff)
plt.show()

In [None]:
# Plot do gráfico ACF
plt.subplot(211)
plot_acf(bg_diff, ax=plt.gca(), lags=50)

# Plot do gráfico PACF
plt.subplot(212)
plot_pacf(bg_diff, ax=plt.gca(), lags=50, method='ols')

# Mostra os gráficos
plt.show()

In [None]:
# Divisão em treino e teste
X = bg_diff
train_size = int(len(X) * 0.75)
train, test = X[0:train_size], X[train_size:]

In [None]:
# Função Para o Cálculo da Acurácia
def performace(y_true, y_pred):
    mse = ((y_pred - y_true)**2).mean()
    mape = np.mean(np.abs((y_true - y_pred) / y_true)) * 100
    return (print('MSE das previsões é {}'.format(round(mse, 2))+
                  '\nRMSE das previsões é {}'.format(round(np.sqrt(mse), 2))+
                  '\nMAPE das previsões é {}'.format(round(mape, 2))))

In [None]:
model = sm.tsa.SARIMAX(train, order=(0,0,1), seasonal_order=(0,1,1,12))
model_fit = model.fit(disp=False)

In [None]:
fcast_len = len(test)
fcast = model_fit.forecast(fcast_len)

In [None]:
pred = model_fit.get_prediction(start=pd.to_datetime('2014-09-30'), 
                                end=pd.to_datetime('2020-05-31'),
                                dynamic=False)
pred_ci = pred.conf_int()

fig = go.Figure()
fig.add_trace(go.Scatter(x=bg_diff.index, 
                         y=bg_diff,
                         mode='lines',
                         fillcolor= 'rgba(0,0,0,1)',
                         name='Preços'))

fig.add_trace(go.Scatter(x=fcast.index, 
                         y=fcast, 
                         mode='lines', 
                         name='Média'))

fig.add_trace(go.Scatter(x=fcast.index, 
                         y=pred_ci.iloc[:, 0], 
                         mode='lines',
                         fill='tozeroy', 
                         fillcolor='rgba(0,176,246,0.2)',
                         line_color='rgba(255,255,255,0)',
                         name='Desvio Padrão'))

fig.add_trace(go.Scatter(x=fcast.index, 
                         y=pred_ci.iloc[:, 1], 
                         mode='lines',
                         fill='tozeroy',
                         fillcolor='rgba(0,176,246,0.2)',
                         line_color='rgba(255,255,255,0)',
                         name='Desvio Padrão'))

fig.show()

In [None]:
# Vamos definir p, d e q para que tenham valores entre 0 e 2 e testaremos as combinações.
p = d = q = range(0,2)

# Lista de combinações de p, d, q
pdq = list(itertools.product(p, d, q))

# Lista de combinações dos hiperparâmetros sazonais P, D e Q
# Estamos usando List Comprehension
seasonal_pdq = [(x[0], x[1], x[2], 12) for x in (itertools.product(p, d, q))]

In [None]:
# Grid Search
#warnings.filterwarnings("ignore")

# Menor valor possível para a estatística AIC (nosso objetivo na otimização do modelo)
lowest_aic = sys.maxsize
lowest = ''

#Loop
for param in pdq:
    for param_seasonal in seasonal_pdq:
        try:
            
            # Cria o modelo com a combinação dos hiperparâmetros
            model = sm.tsa.statespace.SARIMAX(train, 
                                              order=param, 
                                              seasonal_order=param_seasonal, 
                                              enforce_stationarity=False, 
                                              enforce_invertibility=False)
            
            # Treina o modelo
            results = model.fit()
            
            # Print
            print('SARIMA{}x{}12 - AIC:{}'.format(param, param_seasonal, results.aic))
            
            # Coleta o menor valor de AIC
            if lowest_aic > results.aic:
                lowest = 'SARIMA{}x{}12 - AIC:{}'.format(param, param_seasonal, results.aic)
                lowest_aic = results.aic
                
        except:
            continue

print ("\nModelo com Menor Valor de AIC: " + lowest)

In [None]:
# Treina o modelo com a melhor combinação de hiperparâmetros
sarima_best = sm.tsa.statespace.SARIMAX(train, 
                                        order=(1,0,1), 
                                        seasonal_order=(0,0,0,12), 
                                        enforce_stationarity=False,
                                        enforce_invertibility=False)

In [None]:
# Treinamento (Fit) do modelo
sarima_best_fit = sarima_best.fit()

In [None]:
# Sumário do modelo
sarima_best_fit.summary()

Nas próximas aulas vamos interpretar o sumário do modelo e comparar as versões dos modelos SARIMA que iremos criar. Mas perceba o valor de AIC. Conseguimos reduzí-lo de forma considerável e a única mudança foi a otimizaçã dos hiperparâmetros.

In [None]:
# Diagnóstico do modelo
sarima_best_fit.plot_diagnostics(lags=8)
plt.show()

In [None]:
# Vamos fazer previsões um passo a frente
sarima_best_pred = sarima_best_fit.get_prediction(start=('2014-09-30'), 
                                                  end=('2020-05-31'), 
                                                  dynamic=False)

In [None]:
# Intervalo de confiança
int_conf = sarima_best_pred.conf_int()
int_conf

In [None]:
# Plot dos valores observados
ax = bg_diff.plot(label='Valores Observados')

# Plot dos valores previstos
sarima_best_pred.predicted_mean.plot(ax = ax, 
                                label = 'Previsões SARIMA (0, 0, 0)x(0, 1, 1, 12)', 
                                alpha = 0.7, 
                                color = 'red')

# Plot do intervalo de confiança
ax.fill_between(int_conf.index, 
                int_conf.iloc[:, 0], # lower sales
                int_conf.iloc[:, 1], # upper sales
                color = 'k', 
                alpha = 0.1)

# Títulos e Legendas
plt.title('Previsão de Vendas com Modelo ARIMA Sazonal')
plt.xlabel('Data')
plt.ylabel('Vendas de Produtos de Tecnologia')
plt.legend()
plt.show()

In [None]:
# Calculando a performance
sarima_results = performace(test, sarima_best_pred.predicted_mean)
sarima_results

O erro do modelo aumentou um pouco, mas não podemos usar apenas uma medida para avaliar o modelo. Falaremos mais sobre isso nas aulas seguintes. Vejamos como o modelo se sai em um horizonte de previsão maior.

In [None]:
# Forecast (previsão) de 60 passos no tempo
sarima_forecast = sarima_best_fit.get_forecast(steps=80)

In [None]:
# Intervalo de confiança
forecast_conf = sarima_forecast.conf_int()
forecast_conf

In [None]:
# Plot dos valores observados
ax = bg_diff.plot(label='Valores Observados')

# Plot dos valores previstos
sarima_forecast.predicted_mean.plot(ax = ax, 
                                    label = 'SARIMA Forecast')

# Plot do intervalo de confiança
ax.fill_between(forecast_conf.index, 
                forecast_conf.iloc[:, 0], # lower sales
                forecast_conf.iloc[:, 1], # upper sales
                color = 'k', 
                alpha = 0.1)

# Títulos e Legendas
plt.title('Previsão de Vendas com Modelo ARIMA Sazonal')
plt.xlabel('Data')
plt.ylabel('Vendas de Produtos de Tecnologia')
plt.legend()
plt.show()

Por que a área cinza aumenta? Porque quanto maior o horizonte de previsão, maior a incerteza das previsões. Veja que estamos fazendo previsões de vendas para 5 anos (60 passos no tempo em nossa série), o que aumenta a incerteza a cada novo passo de tempo previsto.

In [None]:
# Teste de Ljung-Box
resultado_teste = sms.diagnostic.acorr_ljungbox(sarima_best_fit.resid, lags = [12], boxpierce = False)
print('Valor-p =', resultado_teste[1])