# O PROBLEMA

Você foi contratado(a) para uma consultoria, e seu trabalho envolve analisar os dados de preço do petróleo brent, que pode ser encontrado no site do ipea. Essa base de dados histórica envolve duas colunas: data e preço (em dólares).

Um grande cliente do segmento pediu para que a consultoria desenvolvesse um dashboard interativo e que gere insights relevantes para tomada de decisão. Além disso, solicitaram que fosse desenvovido um modelo de Machine Learning para fazer o forecasting do preço do petróleo.

Seu objetivo é:

- Criar um dashboard interativo com ferramentas de sua escolha.
- Seu dashboard deve fazer parte de um storytelling que traga insights relevantes sobre a variação do preço do petróleo, como situações geopolíticas, crises econômicas, demanda global por energia e etc. Isso pode te ajudar com seu modelo. É obrigatório que você traga pelo menos 4 insights neste desafio.
- Criar um modelo de Machine Learning que faça a previsão do preço do petróleo diariamente (lembre-se de time series). Esse modelo deve estar contemplado em seu storytelling e deve conter o código que você trabalhou, analisando as performances do modelo.
- Criar um plano para fazer o deploy em produção do modelo, com as ferramentas que são necessárias.
- Faça o MVP do seu modelo em produção usando o Streamlit.

Link para a base de dados: http://www.ipeadata.gov.br/ExibeSerie.aspx?module=m&serid=1650971490&oper=view

Referências: 

https://biblioteca.ibp.org.br/pt-BR/search/23350?exp=brent

https://www.suno.com.br/artigos/cotacao-do-petroleo/

https://www.ipea.gov.br/desafios/index.php?option=com_content&view=article&id=2083:catid=28&Itemid=23

## Metodologia

<img src = 'img/CRISP-DM.png'>

Para o desenvolvimento deste projeto, optou por seguir a metodologia CRISP-DM (CRoss Industry Standard Process for Data Mining), largamente utilizada em projetos de dados. A CRISP-DM é composta por 6 etapas, são elas: 

- Análise do negócio (business understanding): essa etapa dedica-se ao entendimento do negócio, isto é, sua produto/serviço, público alvo e quais são as estratégias do setor;

- Análise dos dados (data understanding): uma vez realizada a etapa anterior, inicia-se o entendimento dos dados, que compreende a seleção daqueles que são uteis à resolução da problemática requerida, bem como seu estado (fontes, formatos, etc);

- Preparação dos dados (data preparation): essa etapa dedica-se ao pré-processamento dos dados, em acordo com o que é solicitado pelas soluções que se pretende implementar;

- Modelagem (modeling): a modelagem é a etapa na qual se extrai informações de valor sobre os dados, possibilitando a geração de insights úteis ao negócio, capazes de solucionar a problemática;

- Avaliação (evaluation): momento de avaliação do desempenho do modelo aplicado, isto é, verifica-se se esse respondeu as questões levantadas satisfatoriamente;

- Implementação (deployment): por fim, a implementação é a etapa em que se disponibiliza os resultados e insights obtidos as partes interessadas, comumente por meio de uma ferramenta de data viz ou relatório.

## Análise do negócio

A cotação do petróleo é definida por seu preço, em um determinado momento no mercado onde está sendo negociado. Desse modo, a cotação do petróleo é o resultado da oferta e demanda da commodity no mercado internacional. Nesse caso, a unidade de medida utilizada é de dólares por barril de petróleo. O petróleo Brent é todo o petróleo extraído no Mar do Norte e comercializado na Bolsa de Londres e foi batizado assim porque era extraído de uma base da Shell chamada Brent.

O Brent Crude Oil e o West Texas Intermediate (WTI) são as duas maiores referências comerciais da commodity e a principal diferença entre ambas é originada de seus campos de extração. Enquanto petróleo Brent vem do Mar do Norte, o petróleo WTI encontra-se nos Estados Unidos, sendo negociado, historicamente, com valor menor em relação ao Brent.

A causa principal para essa divergência de valores é que eles são um retrato instantâneo dos preços do petróleo de lugares diferentes: o WTI reflete o mercado dos Estados Unidos e o Brent o do Mar do Norte e Europa. Houve um período em que os dois eram referências igualmente válidas para o preço mundial do petróleo. Contudo, à medida que a produção americana aumentou, o WTI começou a ser afetado pelo surpreendente excesso de oferta nos EUA, que se mostrou maior do que os oleodutos existentes no país podiam suportar.

O petróleo bruto é classificado como leve, médio ou pesado com relação à densidade do líquido, ou como "doce" ou "ácido" com base no conteúdo de enxofre. O petróleo leve e doce - que flutua na água e tem baixo teor de enxofre - é valorizado porque exige um processamento menor para ser convertido em derivados. O WTI e o Brent são tipos leves e doces de petróleo bruto.

Estima-se que mais da metade de todo petróleo do mundo é cotado em termos de petróleo Brent. Sua popularidade vem do fato de ser mais barato, tendo em vista que os poços de petróleo Brent se encontram no mar, o que facilita sua extração em comparação ao WTI, que precisa ser transportado por ferrovias.

O petróleo é negociado de duas formas: mercado à vista e mercado futuro. No mercado à vista, as operações de compra e venda são determinadas com base na oferta e demanda do momento. Uma vez realizada a operação, a liquidação ocorre quase que instantaneamente. Já no mercado futuro, que negocia os chamados “barris de papel”, o petróleo é negociado no “papel”, isto é, com base em um valor monetário de cotação do petróleo, sem que haja a troca física do produto. Os contratos de papel são comprados e vendidos com base nas condições de mercado esperadas em períodos futuros. Os compradores e vendedores no mercado de futuros são investidores, que não possuem qualquer intenção de tomar posse do petróleo real.

A intenção dos investidores é comprar contratos futuros de petróleo, baseados nas cotações WTI e Brent, para fins de lucratividade do capital, adivinhando corretamente se os preços dos barris irão aumentar ou diminuir no futuro. Além disso, alguns produtores utilizam o mercado futuro para se proteger da volatilidade dos preços, travando receitas, que visam cobrir custos e garantir lucros da futura produção de petróleo. As refinarias, por exemplo, compram contratos futuros para travar os custos de compra, tendo em vista uma possível queda do petróleo.

O preço do petróleo é influenciado por fatores como mudanças no valor do dólar, mudanças nas políticas da Organization of Petroleum Exporting Countries (OPEC), mudanças nos níveis de produção e estoque do petróleo, saúde da economia global e implementação ou colapso de acordos internacionais.

## Análise dos dados

Os dados utilizados neste projeto estão disponibilizados em uma tabela no site do IPEA (Instituto de Pesquisa Econômica Aplicada) e serão importados por meio da biblioteca pandas do python. A tabela disponibiliza os preços por barril do petróleo bruto tipo Brent, não incluindo despesa de frete e seguro. Os dados serão então exportados para um arquivo em formato csv e a partir do qual serão trabalhados, evitando problemas de indisponibilidade na fonte.

## Preparação dos dados

### Importando bibliotecas

In [1]:
import warnings 
warnings.filterwarnings(action = 'ignore')

In [2]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import plotly.express as px
from plotly.subplots import make_subplots
import plotly.graph_objects as go

### Importando dados

In [3]:
df = pd.read_html('http://www.ipeadata.gov.br/ExibeSerie.aspx?module=m&serid=1650971490&oper=view', skiprows=1, thousands='.', decimal=',')
df = df[0]
df.head()

Unnamed: 0,0,1
0,20/11/2023,83.25
1,17/11/2023,81.22
2,16/11/2023,77.73
3,15/11/2023,82.4
4,14/11/2023,84.2


In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 11049 entries, 0 to 11048
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   0       11049 non-null  object 
 1   1       11049 non-null  float64
dtypes: float64(1), object(1)
memory usage: 172.8+ KB


### Tratando dados

In [5]:
#verificando ocorrência de dados nulos
df.isna().sum()

0    0
1    0
dtype: int64

In [6]:
#verificando valores duplicados
df.duplicated().sum()

0

In [7]:
#verificando ocorrência de espaçamentos
espacamento_encontrado = False

for column in df.columns:
    for index, value in df[column].items():
        if isinstance(value, str) and value.isspace():
            print(f'Espaçamento encontrado na coluna "{column}", linha {index}.')
            espacamento_encontrado = True

if not espacamento_encontrado:
    print('Não há espaçamento nos dados.')

Não há espaçamento nos dados.


In [8]:
#renomeando colunas
df.rename(columns={0: 'data', 1: 'preco'}, inplace=True)
df.head()

Unnamed: 0,data,preco
0,20/11/2023,83.25
1,17/11/2023,81.22
2,16/11/2023,77.73
3,15/11/2023,82.4
4,14/11/2023,84.2


In [9]:
#alterando tipo da coluna de data
df['data'] = df['data'].str.replace('/', '-')
df['data'] = pd.to_datetime(df['data'], format='%d-%m-%Y')

In [10]:
df.head()

Unnamed: 0,data,preco
0,2023-11-20,83.25
1,2023-11-17,81.22
2,2023-11-16,77.73
3,2023-11-15,82.4
4,2023-11-14,84.2


In [11]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 11049 entries, 0 to 11048
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype         
---  ------  --------------  -----         
 0   data    11049 non-null  datetime64[ns]
 1   preco   11049 non-null  float64       
dtypes: datetime64[ns](1), float64(1)
memory usage: 172.8 KB


**Exportando dados para arquivo csv**

In [12]:
df.to_csv('dados/dados.csv', index=False)

**Importando dados do arquivo csv**

In [13]:
df = pd.read_csv('dados/dados.csv')
df.head()

Unnamed: 0,data,preco
0,2023-11-20,83.25
1,2023-11-17,81.22
2,2023-11-16,77.73
3,2023-11-15,82.4
4,2023-11-14,84.2


In [14]:
#transformando coluna data em índice
df.set_index('data', inplace=True)
df.head()

Unnamed: 0_level_0,preco
data,Unnamed: 1_level_1
2023-11-20,83.25
2023-11-17,81.22
2023-11-16,77.73
2023-11-15,82.4
2023-11-14,84.2


### EDA

In [15]:
#configurando template do plotly
template = 'ggplot2'

**Estatísticas descritivas**

In [16]:
df.describe()

Unnamed: 0,preco
count,11049.0
mean,52.695264
std,33.254749
min,9.1
25%,20.35
50%,47.76
75%,75.38
max,143.95


**Distribuição das variáveis**

In [17]:
fig = px.histogram(
    df, 
    x='preco', 
    nbins=20,
    template=template,
    color_discrete_sequence=['#00008B']
)
fig.update_layout(
    title='Histograma do Preço do Petróleo Brent',
    xaxis_title='Preço',
    yaxis_title='Frequência',
    width=1600, 
    height=600,
    margin=dict(l=100, r=20, t=80, b=80)
)
fig.show()

In [18]:
df_log = np.log(df)

fig = px.histogram(
    df_log, 
    x='preco', 
    nbins=20,
    template=template,
    color_discrete_sequence=['#00008B']
)
fig.update_layout(
    title='Histograma do Preço do Petróleo Brent',
    xaxis_title='Preço',
    yaxis_title='Frequência',
    width=1600, 
    height=600,
    margin=dict(l=100, r=20, t=80, b=80)
)
fig.show()

In [19]:
fig = px.box(
    df, 
    x = 'preco',
    template = template,
    color_discrete_sequence = ['#00008B']
)

fig.update_layout(
    title = 'Boxplot do Preço do Petróleo Brent',
    xaxis_title = 'Preço (US$)',
    yaxis_title = 'Volume',
    width = 1600, 
    height = 600,
    margin = dict(l = 80, r = 20, t = 80, b = 80),
    template = template
)

fig.show()

#### Decompondo a série

In [20]:
from statsmodels.tsa.seasonal import seasonal_decompose #lib para decompor série temporal
from statsmodels.tsa.stattools import acf, pacf #autocorrelação e autocorrelação parcial

In [21]:
resultados = seasonal_decompose(df, period = 5)

In [22]:
media_movel = resultados.trend.to_frame()
sazonalidade = resultados.seasonal.to_frame()
residuo = resultados.resid.to_frame()

fig = make_subplots(rows = 4, cols = 1)
fig.add_trace(go.Scatter(x=df.index, y=df.preco, name='Série', marker=dict(color='#00008B')), row=1, col=1)
fig.add_trace(go.Scatter(x=media_movel.index, y=media_movel.trend, name='Media móvel', marker=dict(color='#B22222')), row=2, col=1)
fig.add_trace(go.Scatter(x=sazonalidade.index, y=sazonalidade.seasonal, name='Sazonalidade', marker = dict(color='#008000')), row=3, col=1)
fig.add_trace(go.Scatter(x=residuo.index, y=residuo.resid, name='Resíduo', marker=dict(color='gold')), row=4, col=1)
fig.update_layout(
    title={
        'text' : 'Decomposição da Série de Preços do Petróleo Brent',
        'x':0.5,
        'xanchor': 'center'
    },
    width=1600, 
    height=1200,
    template=template
)
fig.show()

**Analisando sazonalidade**

In [23]:
df_temp = df.loc[df.index >= '2023-01-01']
resultados_teste = seasonal_decompose(df_temp, period=5)
sazonalidade_teste = resultados_teste.seasonal.to_frame()

fig = px.line(
    sazonalidade_teste,
    template=template,
    color_discrete_sequence=['#008000']
)
fig.update_layout(
    title='Sazonalidade da Série de Preços do Petróleo Brent',
    xaxis_title='Período',
    yaxis_title='Sazonalidade',
    showlegend=False,
    width=1600, 
    height=600,
    margin=dict(l=100, r=20, t=80, b=80)
)
fig.show()

**Visualizando médias móveis da série**

In [24]:
ma_semanal = df.rolling(5).mean().rename(columns = {'preco': 'Média móvel semanal'})
ma_anual = df.rolling(52).mean().rename(columns = {'preco': 'Média móvel anual'})

fig = px.line(
    ma_anual,
    template=template,
    color_discrete_sequence=['#B22222']
)
fig.add_scatter(
    x=ma_semanal.index, 
    y=ma_semanal['Média móvel semanal'], 
    name='Média móvel semanal',
    marker=dict(color='#00008B')
)
fig.update_layout(
    title='Média Móvel Semanal X Média Móvel Anual da Série de Preços do Petróleo Brent',
    xaxis_title='Período',
    yaxis_title='Preço (US$)',
    legend_title='Legenda',
    width=1600, 
    height=600,
    margin=dict(l=100, r=20, t=80, b=80)
)
fig.show()

**Suavizando e diferenciando a série**

In [25]:
df_log = np.log(df).rename(columns={'preco': 'Série logarítmica'})
ma_log = df_log.rolling(52).mean()

fig = px.line(
    ma_log,
    template=template,
    color_discrete_sequence=['#B22222']
)
fig.add_scatter(
    x=df_log.index, 
    y=df_log['Série logarítmica'], 
    name='Média móvel anual logarítmica',
    marker=dict(color='#00008B')
)
fig.update_layout(
    title='Série (Logarítmica) X Média Móvel Anual (Logarítmica) de Preços do Petróleo Brent',
    yaxis_title='Preço (US$)',
    xaxis_title='Período',
    legend_title='Legenda',
    width=1600, 
    height=600,
    margin=dict(l=100, r=20, t=80, b=80)
)
fig.show()

In [26]:
df_log = np.log(df)
ma_log = df_log.rolling(5).mean()

df_s = (df_log - ma_log).dropna()
ma_s = df_s.rolling(5).mean()
std_s = df_s.rolling(5).std()

fig = make_subplots(rows=1, cols=3)
fig.add_trace(go.Scatter(x=df_s.index, y=df_s.preco, name='Série logarítmica', marker = dict(color='#00008B')), row=1, col=1)
fig.add_trace(go.Scatter(x=ma_s.index, y=ma_s.preco, name='Média móvel semanal da série logarítmica', marker=dict(color='#B22222')), row=1, col=2)
fig.add_trace(go.Scatter(x=std_s.index, y=std_s.preco, name='Desvio padrão semanal da série logarítmica', marker=dict(color='#008000')), row=1, col=3)
fig.update_layout(
    title = {
        'text' : 'Série Estacionária Logarítmica de Preços do Petróleo Brent',
        'x':0.5,
        'xanchor': 'center'
    },
    yaxis_title = 'Preço (US$)',
    margin = dict(l = 100, r = 20, t = 80, b = 80),
    template = template,
)
fig.show()

In [27]:
df_diff = df_s.diff(1)
ma_diff = df_diff.rolling(5).mean()
std_diff = df_diff.rolling(5).std()

fig = make_subplots(rows = 1, cols = 3)
fig.add_trace(go.Scatter(x=df_diff.index, y=df_diff.preco, name='Série diferenciada', marker=dict(color='#00008B')), row=1, col=1)
fig.add_trace(go.Scatter(x=ma_diff.index, y=ma_diff.preco, name='Média móvel semanal da série diferenciada', marker=dict(color='#B22222')), row=1, col=2)
fig.add_trace(go.Scatter(x=std_diff.index, y=std_diff.preco, name='Desvio padrão da série diferenciada', marker=dict(color='#008000')), row=1, col=3)
fig.update_layout( 
    title={
        'text' : 'Série Estacionária Diferenciada de Preços do Petróleo Brent',
        'x':0.5,
        'xanchor': 'center'
    },
    yaxis_title='Preço (US$)',
    margin=dict(l=100, r=20, t=80, b=80),
    template=template,
)
fig.show()

#### Teste estatístico de estacionariedade para a variável target

Ao analisar os dados de uma time series é preciso garantir que estes são estacionários, ou seja, que a time series possui um comportamento ao longo do tempo e que possui uma alta probabilidade de seguir este mesmo comportamento no futuro. Em econometria, o teste de estacionariedade, também conhecido como Augmented Dickey-Fuller (ADF) é uma técnica para testar a hipóteseda estacionariedade da time series.

>H0 - Hipótese Nula (não é estacionária)

>H1 - Hipótese Alternativa (rejeita a hipótese nula)

**p-valor <= 0.05 rejeitamos H0 com um nível de confiança de 95%**

In [28]:
from statsmodels.tsa.stattools import adfuller


X = df_diff.dropna()

result = adfuller(X)

print('Teste ADF')
print(f'Teste estatístico: {result[0]}')
print(f'P-valor: {result[1]}')
print(f'Valores críticos:')

for key, value in result[4].items():
    print(f'\t{key}: {value}')

Teste ADF
Teste estatístico: -27.02107202774732
P-valor: 0.0
Valores críticos:
	1%: -3.4309443503827852
	5%: -2.861802670155822
	10%: -2.5669098141978752


#### ACF (autocorrelação) e PACF (autocorrelação parcial)

São duas técnicas estatísticas muito utilizadas na análise de séries temporais.

A ACF mede o grau de correlação entre os valores passados e presentes de uma série temporal, para diferentes defasagens ou lags. Já a PACF mede essa mesma correlação, porém removendo a influência das defasagens anteriores.

In [29]:
lag_acf = acf(df_diff.dropna(), nlags=21) #trabalhando na base mensal
lag_pacf = pacf(df_diff.dropna(), nlags=21)

In [30]:
fig = make_subplots(rows=1, cols=2, subplot_titles=('ACF', 'PACF'))

fig.add_trace(go.Scatter(y=lag_acf, marker=dict(color='#00008B')), row=1, col=1)
fig.add_trace(go.Scatter(y=lag_pacf, marker=dict(color='#B22222')), row=1, col=2)

fig.add_hline(y=-1.96 / (np.sqrt(len(df_diff) - 1)), line_width=0.7, line_dash='dash', line_color='black')
fig.add_hline(y=0, line_width = 0.7, line_dash = 'dash', line_color='black')
fig.add_hline(y=1.96/ (np.sqrt(len(df_diff) - 1)), line_width=0.7, line_dash='dash', line_color='black')

fig.update_layout(
    title='Autocorrelação e Autocorrelação Parcial da Pontuação Ibovespa',
    xaxis_title='',
    yaxis_title='',
    showlegend = False,
    width=1600, 
    height=600,
    template=template,
    margin=dict(t=80, b=80)
)

fig.show()

## Modelagem

### Statsforecast

É um pacote de modelos probabilísticos (nos dá um intervalo de valores para o que estamos tentando prever) e de ponto (estamos cravando o resultado, dando apenas o valor mais provável).
Modelo estatístico de série univariadas, ou seja, utilizamos apenas a nossa serie target (dependente) para fazer previsões.
Não fica limitado a prever uma série de cada vez, pois ela é escalável para prever múltiplas series ao mesmo tempo.

**Tratando DataFrame para a biblioteca StatsForecast**

In [31]:
df.reset_index(inplace=True)
df = df[['data', 'preco']].rename(columns={'data': 'ds', 'preco': 'y'})
df['unique_id'] = 'Preco'
df.dropna(inplace=True)
df.head()

Unnamed: 0,ds,y,unique_id
0,2023-11-20,83.25,Preco
1,2023-11-17,81.22,Preco
2,2023-11-16,77.73,Preco
3,2023-11-15,82.4,Preco
4,2023-11-14,84.2,Preco


**Separando base de treino e de teste**

In [32]:
treino = df.loc[(df['ds'] >= '2000-01-01') & (df['ds'] < '2023-11-14')] #dados de treino
teste = df.loc[(df['ds'] >= '2023-11-14') & (df['ds'] <= '2023-11-20')] #dados de validação (5 dias), quanto maior o período de predição, maior a largura de banda (maior o erro)
h = teste['ds'].nunique() #datas distintas no intervalo (5 dias)
h

5

In [33]:
teste.shape, treino.shape

((5, 3), (7844, 3))

### ARIMA

Se combinarmos a diferenciação com a autorregressão e um modelo de média móvel, obtemos um modelo ARIMA não sazonal. ARIMA é um acrônimo para Média Móvel Integrada AutoRegressiva (neste contexto, “integração” é o inverso de diferenciação). O modelo completo pode ser escrito como

### $$y'_{t} = c + \phi_{1}y'_{t-1} + \cdots + \phi_{p}y'_{t-p} + \theta_{1}\varepsilon_{t-1} + \cdots + \theta_{q}\varepsilon_{t-q} + \varepsilon_{t},$$

onde $y't$ é a série diferenciada (pode ter sido diferenciada mais de uma vez).

Os “preditores” no lado direito incluem ambos os valores defasados ​​de $yt$ e erros atrasados. Chamamos isso de modelo ARIMA($p, d, q$) modelo, onde:

- $p$ = ordem da parte autoregressiva;

- $d$ = grau de primeira diferenciação envolvido;

- $q$ = ordem da parte da média móvel.

As mesmas condições de estacionariedade e invertibilidade usadas para modelos autoregressivos e de média móvel também se aplicam a um modelo ARIMA.



In [34]:
from statsforecast import StatsForecast
from statsforecast.models import AutoARIMA

In [35]:
modelo_arima = StatsForecast(models=[AutoARIMA(season_length=5)], freq='B', n_jobs=-1)
modelo_arima.fit(treino)
forecast_arima = modelo_arima.predict(h=h, level=[90])
forecast_arima.ds = teste.ds.to_list()
forecast_arima = forecast_arima.reset_index().merge(teste, on =['ds', 'unique_id'], how='left')

In [39]:
#gerando linha contínua para banda de confiança (é preciso uma linha contínua para aplicar o preenchimento)
banda_sup_dfa = forecast_arima['AutoARIMA-hi-90'].tolist() #limite superior
banda_inf_dfa = forecast_arima['AutoARIMA-lo-90'].tolist() #limite inferior
banda_dfa = banda_sup_dfa + banda_inf_dfa[::-1] #concatenando banda superior e banda inferior invertida 
banda_dfa_x = forecast_arima.ds.tolist()
banda_dfa_x = banda_dfa_x + banda_dfa_x[::-1] #concatenando datas em ordem crescente com ordem decrescente 

In [40]:
#concatenando treino e teste
treino_px = treino.drop(columns = 'unique_id').set_index('ds') 
treino_px = treino_px[(treino_px.index >= '2023-09-01') & (treino_px.index < '2023-11-14')]
teste_px = teste.drop(columns = 'unique_id').set_index('ds')
base_px = pd.concat([teste_px, treino_px]).rename(columns = {'y': 'Preço'})

In [41]:
fig = px.line(
    base_px,
    template=template,
    color_discrete_sequence=['#00008B']
)
fig.add_scatter(
    x=banda_dfa_x, 
    y=banda_dfa,
    name='Banda de confiança',
    mode='lines',
    line_color='#B22222',
    line_width=0,
    opacity=0.5,
    fill='toself'
)
fig.add_scatter(
    x=forecast_arima.ds, 
    y=forecast_arima['AutoARIMA'], 
    name='Preço previsto',
    marker=dict(color='#B22222')
)
fig.update_layout(
    title='ARIMA',
    xaxis_title='Período',
    yaxis_title='Preço do Petróleo Brent',
    legend_title='Legenda',
    width=1600, 
    height=600,
    margin=dict(l=100, r=20, t=80, b=80)
)
fig.show()

### Prophet

O Prophet é um modelo produzido pelo Facebook com o objetivo de prever valores futuros com base em dados históricos. Ele funciona identificando padrões nos dados, como tendências que aumentam ou diminuem ao longo do tempo e combinando tendências, sazonalidades e efeitos em uma equação matemática.

### $$y_t = g(t) + s(t) + h(t) + \varepsilon_t,$$ 

onde:

- $g(t)$ = tendência linear ao longo do tempo;

- $s(t)$ = padrões sazonais;

- $h(t)$ = efeitos de feriados;

- $ε$ = termo de erro em forma de ruído.

In [50]:
from prophet import Prophet

In [51]:
treino_prophet = treino.reset_index(drop=True).drop('unique_id', axis=1)
teste_prophet = teste.drop('unique_id', axis=1).set_index('ds', drop=True)
h

5

In [53]:
modelo_prophet = Prophet()
modelo_prophet.fit(treino_prophet)

13:44:38 - cmdstanpy - INFO - Chain [1] start processing
13:44:43 - cmdstanpy - INFO - Chain [1] done processing


<prophet.forecaster.Prophet at 0x162f1cac690>

In [54]:
future = modelo_prophet.make_future_dataframe(periods=h, include_history=False)

In [55]:
forecast_prophet = modelo_prophet.predict(future)
forecast_prophet[['ds', 'yhat', 'yhat_lower', 'yhat_upper']].head()

Unnamed: 0,ds,yhat,yhat_lower,yhat_upper
0,2023-11-14,85.699175,70.71035,99.263499
1,2023-11-15,85.557396,72.711638,99.559333
2,2023-11-16,85.59296,72.38261,99.401962
3,2023-11-17,85.576823,71.589361,99.12536
4,2023-11-18,86.093106,72.683419,99.904745


In [56]:
forecast_prophet = forecast_prophet[['ds', 'yhat']].set_index('ds')
forecast_prophet.index = teste_prophet.index
forecast_prophet.head()

Unnamed: 0_level_0,yhat
ds,Unnamed: 1_level_1
2023-11-20,85.699175
2023-11-17,85.557396
2023-11-16,85.59296
2023-11-15,85.576823
2023-11-14,86.093106


In [57]:
teste_prophet_temp = teste_prophet.rename(columns={'y': 'Preço'})
teste_prophet_temp.head()

Unnamed: 0_level_0,Preço
ds,Unnamed: 1_level_1
2023-11-20,83.25
2023-11-17,81.22
2023-11-16,77.73
2023-11-15,82.4
2023-11-14,84.2


In [58]:
fig = px.line(
    teste_prophet_temp, 
    template=template,
    color_discrete_sequence=['#00008B']
)
fig.add_scatter(
    x=forecast_prophet.index, 
    y=forecast_prophet.yhat, 
    name='Preço previsto',
    marker=dict(color='#B22222')
)
fig.update_layout(
    title='Prophet',
    xaxis_title='Período',
    yaxis_title='Preço do Petróleo Brent',
    legend_title='Legenda',
    width=1600, 
    height=600,
    margin=dict(l=100, r=20, t=80, b=100)
)
fig.show()

## Avaliação

### Função de validação

Erro absoluto percentual médio (MAPE) é uma métrica para avaliar modelos de regressão em machine learning. Um valor de MAPE baixo significa que as previsões estão próximas dos valores observados, enquanto um valor alto indica que as previsões estão longe dos valores observados (o modelo precisa ser melhorado).

$$\text{MAPE}(y, \hat{y}) = \frac{1}{N} \sum_{i=0}^{n - 1} \text{|} \frac{y_i - \hat{y}_i}{y_i} \text{|}$$

O WAPE (Weighted Absolute Percentage Error) é uma variação do MAPE que faz as somas dos erros percentuais e dos valores observados antes da divisão. O WAPE é outra maneira de escapar do problema de valores zero nos dados observados. Ele é outra alternativa recomendada quando a maioria de seus produtos não vendem em todos os períodos ou são vendidos em pouca quantidade. Quando um produto tem baixo volume de vendas, qualquer erro na previsão tem um impacto significativo na porcentagem de erro calculada pelo MAPE. Mesmo que o erro absoluto seja pequeno, ele será dividido por um valor muito baixo, resultando em uma porcentagem de erro elevada. Isso pode dar a impressão que a previsão é muito pior do que realmente é. Já no caso do WAPE, como a divisão é feita pela soma de todos os valores reais absolutos de uma vez, esse efeito é menor.

$$\text{WAPE}(y, \hat{y}) = \frac{\sum_{i=1}^{n} \text{|} \hat{y}_i - {y_i} \text{|}}{\sum_{i=1}^{n} \text{|} {y}_i \text{|}}

In [59]:
#função para validação dos modelos
def wape(y_true, y_pred):
    return np.abs(y_true - y_pred).sum() / np.abs(y_true).sum()

In [60]:
wape_arima = wape(forecast_arima['y'].values, forecast_arima['AutoARIMA'].values)
print(f'WAPE: {wape_arima:.2%}')

WAPE: 2.53%


In [62]:
wape_prophet = wape(teste_prophet['y'].values, forecast_prophet['yhat'].values)
print(f'WAPE: {wape_prophet:.2%}')

WAPE: 4.82%


## Implementação