Esse arquivo **Grupo_44_Turma_4DTAT_Fase4.ipynb** tem como objetivo consolidar as informações analíticas e os indicadores relevantes da **Análise dos dados de preço do Petróleo Brent** após o ano de 2000. A discussão detalhada desses indicadores pode ser encontrada no documento PDF **Grupo 44 - Turma 4DTAT - Fase 4.pdf**.

# Análise do Negócio

## Importando bibliotecas

In [None]:
import warnings
warnings.filterwarnings(action = 'ignore')

# Importando pacotes
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import plotly.express as px
from plotly.subplots import make_subplots
import plotly.graph_objects as go

## Importando dados do IPEA


In [None]:
df = pd.read_html('http://www.ipeadata.gov.br/ExibeSerie.aspx?module=m&serid=1650971490&oper=view', skiprows=1, thousands='.', decimal=',')[0]
df.head()

Unnamed: 0,0,1
0,25/11/2024,74.27
1,22/11/2024,76.1
2,21/11/2024,75.09
3,20/11/2024,74.33
4,19/11/2024,74.32


## Tratamento de dados

In [None]:
def renomearColunas(df):
    df.rename(columns={0: 'data', 1: 'preco'}, inplace=True)
    return df

In [None]:
def tipoData(df):
    df['data'] = df['data'].str.replace('/', '-')
    df['data'] = pd.to_datetime(df['data'], format='%d-%m-%Y')
    return df

In [None]:
def excluirDadosNulos(df):
    if 0 not in df.isna().sum().values:
        print(f'{df.isna().sum().values.sum()} dados nulos excluídos')
        df = df.dropna()
    else:
        print('Sem dados nulos')
    return df

In [None]:
# Excluindo dados nulos
df = excluirDadosNulos(df)
df.head()

Sem dados nulos


Unnamed: 0,0,1
0,25/11/2024,74.27
1,22/11/2024,76.1
2,21/11/2024,75.09
3,20/11/2024,74.33
4,19/11/2024,74.32


In [None]:
# Renomear as Colunas
df = renomearColunas(df)
df.head()

Unnamed: 0,data,preco
0,25/11/2024,74.27
1,22/11/2024,76.1
2,21/11/2024,75.09
3,20/11/2024,74.33
4,19/11/2024,74.32


In [None]:
# Alterar o tipo da coluna Data
df = tipoData(df)
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 11307 entries, 0 to 11306
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype         
---  ------  --------------  -----         
 0   data    11307 non-null  datetime64[ns]
 1   preco   11307 non-null  float64       
dtypes: datetime64[ns](1), float64(1)
memory usage: 176.8 KB


## EDA

In [None]:
df_eda = df.sort_values('data', ascending=False).set_index('data')
df_eda.head()

Unnamed: 0_level_0,preco
data,Unnamed: 1_level_1
2024-11-25,74.27
2024-11-22,76.1
2024-11-21,75.09
2024-11-20,74.33
2024-11-19,74.32


In [None]:
template = 'ggplot2'

**Estatística Descritiva**

In [None]:
df_eda.describe()

Unnamed: 0,preco
count,11307.0
mean,53.33994
std,33.151598
min,9.1
25%,20.63
50%,48.96
75%,76.77
max,143.95


**Distribuição dos Dados**

In [None]:
import plotly.express as px

fig = px.histogram(
    data_frame=df_eda,
    x='preco',
    nbins=20,
    template=template,
    color_discrete_sequence=['#1E90FF']  # Azul claro
)
fig.update_traces(
    texttemplate='%{y}',  # Exibe os valores do eixo y como rótulos
    textposition='outside'  # Posição dos rótulos fora das barras
)
fig.update_layout(
    title='Histograma - Preço Petróleo Brent',
    xaxis_title='Preço',
    yaxis_title='Frequência',
    width=1000,
    height=350,
    margin=dict(l=50, r=10, t=40, b=40)
)
fig.show()


In [None]:
fig = px.box(
    data_frame=df_eda,
    x = 'preco',
    template = template,
    color_discrete_sequence = ['#6A5ACD']
)
fig.update_layout(
    title = 'Boxplot - Preço do Petróleo Brent',
    xaxis_title = 'Preço (US$)',
    yaxis_title = 'Volume',
    width = 1000,
    height = 350,
    margin=dict(l=50, r=10, t=40, b=40),
    template = template
)
fig.show()

####Análise da Série

In [None]:
from statsmodels.tsa.seasonal import seasonal_decompose # Decompor a série temporal

In [None]:
resultados = seasonal_decompose(df_eda, period=5)

In [None]:
media_movel = resultados.trend.to_frame()
sazonalidade = resultados.seasonal.to_frame()
residuo = resultados.resid.to_frame()

fig = make_subplots(rows = 4, cols = 1)
fig.add_trace(go.Scatter(x=df_eda.index, y=df.preco, name='Série', marker=dict(color='#2F4F4F')), row=1, col=1)
fig.add_trace(go.Scatter(x=media_movel.index, y=media_movel.trend, name='Media móvel', marker=dict(color='#00008B')), row=2, col=1)
fig.add_trace(go.Scatter(x=sazonalidade.index, y=sazonalidade.seasonal, name='Sazonalidade', marker = dict(color='#B300B3')), row=3, col=1)
fig.add_trace(go.Scatter(x=residuo.index, y=residuo.resid, name='Resíduo', marker=dict(color='#FFD700')), row=4, col=1)
fig.update_layout(
    title={
        'text': 'Decomposição - Série de Preços do Petróleo Brent',
        'x': 0.5,
        'xanchor': 'center'
    },
    width=1000,
    height=500,
    template=template
)
fig.show()

####Análise da Sazonalidade

In [None]:
df_eda = df_eda.loc[df_eda.index >= '2023-01-01']
resultados_teste = seasonal_decompose(df_eda, period=5)
sazonalidade_teste = resultados_teste.seasonal.to_frame()

fig = px.line(
    sazonalidade_teste,
    template=template,
    color_discrete_sequence=['#B300B3']
)
fig.update_layout(
    title='Sazonalidade - Série de Preços do Petróleo Brent',
    xaxis_title='Período',
    yaxis_title='Sazonalidade',
    showlegend=False,
    width=1000,
    height=400,
    margin=dict(l=100, r=20, t=80, b=80)
)
fig.show()

**Análise das Oscilações**

# Preparação dos dados

In [None]:
!pip install statsforecast



In [None]:
# Importando os pacotes Estatísticos
from statsforecast import StatsForecast
from statsforecast.models import AutoARIMA
from prophet import Prophet

**Tratamento do DataFrame para aplicação do ARIMA**

A biblioteca StatsForecast oferece uma interface simples para previsão de séries temporais, suportando os modelos estatísticos mais populares.

In [None]:
df_tratado = df[['data', 'preco']].rename(columns={'data': 'ds', 'preco': 'y'})
df_tratado['unique_id'] = 'Preco'
df_tratado.dropna(inplace=True)
df_tratado.head()

Unnamed: 0,ds,y,unique_id
0,2024-11-25,74.27,Preco
1,2024-11-22,76.1,Preco
2,2024-11-21,75.09,Preco
3,2024-11-20,74.33,Preco
4,2024-11-19,74.32,Preco


Separação da base de treino e teste para aplicação estatística

In [None]:
treino_arima = df_tratado.loc[(df_tratado['ds'] >= '2000-01-01') & (df_tratado['ds'] < '2024-11-19')] # Dados para treino
teste_arima = df_tratado.loc[df_tratado['ds'] >= '2024-11-19'] # Dados para validação, nesse caso, 5 dias. Quanto maior o período de predição, maior a largura de banda (provável erro)
h = teste_arima['ds'].nunique() # Quantidade de dias para prever (treino 5 dias)
h

5

In [None]:
teste_arima.shape, treino_arima.shape

((5, 3), (8102, 3))

# Modelagem

### ARIMA

O modelo ARIMA (AutoRegressive Integrated Moving Average) no StatsForecast é utilizado para previsão de séries temporais. Ele combina três componentes principais:

1. AR (AutoRegressive): Modela a dependência linear entre observações passadas.

2. I (Integrated): Torna a série estacionária ao calcular diferenças entre observações.

3. MA (Moving Average): Modela o erro como uma combinação linear de erros passados.

A implementação no StatsForecast automatiza o processo de seleção dos parâmetros ideais (p, d, q) e permite prever múltiplas séries ao mesmo tempo, sendo eficiente para lidar com grandes volumes de dados.

In [None]:
# Aplicação do Treino e Teste para Modelo Arima
modelo_arima = StatsForecast(models=[AutoARIMA(season_length=5)], freq='B', n_jobs=-1)
modelo_arima.fit(treino_arima)
previsao_arima = modelo_arima.predict(h=h, level=[90])
previsao_arima.ds = teste_arima.ds.to_list()
previsao_arima = previsao_arima.reset_index().merge(teste_arima, on =['ds', 'unique_id'], how='left')
previsao_arima

Unnamed: 0,unique_id,ds,AutoARIMA,AutoARIMA-lo-90,AutoARIMA-hi-90,y
0,Preco,2024-11-25,74.186462,71.506729,76.866203,74.27
1,Preco,2024-11-22,74.108414,70.634445,77.582382,76.1
2,Preco,2024-11-21,74.120361,70.202087,78.038635,75.09
3,Preco,2024-11-20,74.233047,69.907722,78.558372,74.33
4,Preco,2024-11-19,74.21151,69.361916,79.061104,74.32


Legenda para as colunas acima:

**unique_id (caso presente):** Identificador das séries temporais, importante em projetos com múltiplas séries.

**Datas previstas (ds):** Correspondem ao período de validação (5 dias, de teste_arima).

**Valores previstos (AutoARIMA):** As previsões de preços feitas pelo modelo ARIMA.

**Intervalo de Confiança (AutoARIMA-lo-90 e AutoARIMA-hi-90):**
Limites inferior e superior do intervalo de 90% de confiança para cada previsão.

**Valores reais (y):** Coluna adicionada após o merge, mostrando os valores reais do período de teste (caso existam).

In [None]:
# Linha contínua elaborada para banda de confiança
banda_superior_arima = previsao_arima['AutoARIMA-hi-90'].tolist() # Banda limite superior
banda_inferior_arima = previsao_arima['AutoARIMA-lo-90'].tolist() # Banda limite inferior
banda_arima_total = banda_superior_arima + banda_inferior_arima[::-1] # Concatenar banda superior e inferior invertida
indice_banda_arima = previsao_arima.ds.tolist()
indice_banda_arima = indice_banda_arima + indice_banda_arima[::-1] # Concatenar datas em ordem crescente com a decrescente

In [None]:
# Concatenar variáveis de Treino e Teste
dados_treino_px = treino_arima.drop(columns = 'unique_id').set_index('ds')
dados_treino_px = dados_treino_px[(dados_treino_px.index >= '2024-08-01') & (dados_treino_px.index < '2024-11-25')]
dados_teste_px = teste_arima.drop(columns = 'unique_id').set_index('ds')
base_total_arima_px = pd.concat([dados_teste_px, dados_treino_px]).rename(columns = {'y': 'Preço'})
base_total_arima_px.head()

Unnamed: 0_level_0,Preço
ds,Unnamed: 1_level_1
2024-11-25,74.27
2024-11-22,76.1
2024-11-21,75.09
2024-11-20,74.33
2024-11-19,74.32


In [None]:
fig = px.line(
    base_total_arima_px,  # Preço dos valores utilizados para Treino e Teste (tudo)
    template=template,
    color_discrete_sequence=['#00008B']
)
fig.add_scatter(
    x=indice_banda_arima,
    y=banda_arima_total,  # Informação das Bandas
    name='Banda de confiança',
    mode='lines',
    line_color='#B22222',
    line_width=0,
    opacity=0.5,
    fill='toself'
)
fig.add_scatter(
    x=previsao_arima.ds, # Informação do valor de Teste (Previsão)
    y=previsao_arima['AutoARIMA'],
    name='Preço previsto',
    marker=dict(color='#B22222')
)
fig.update_layout(
    title='ARIMA',
    xaxis_title='Período',
    yaxis_title='Preço do Petróleo Brent',
    legend_title='',
    legend=dict(
        orientation="h",  # Orientação horizontal
        yanchor="top",    # Âncora no topo da legenda
        y=-0.6,           # Posição vertical abaixo do gráfico
        xanchor="center", # Âncora no centro horizontal
        x=0.5             # Posição horizontal centralizada
    ),
    width=1000,
    height=300,
    margin=dict(l=100, r=20, t=80, b=80)
)
fig.show()

# Avaliação do Modelo

## Função WMAPE
O WMAPE (Weighted Mean Absolute Percentage Error) é uma métrica de avaliação para modelos de previsão que calcula o erro absoluto médio ponderado pelos valores reais. Ele é mais robusto que o MAPE, pois evita distorções quando os valores reais são pequenos ou próximos de zero. Quanto menor o WMAPE, melhor o desempenho do modelo. É amplamente usado por ser intuitivo e apresentar resultados em porcentagem, facilitando a interpretação.

In [None]:
# Validação do ARIMA
def wmape(y_true, y_pred):
    return np.abs(y_true - y_pred).sum() / np.abs(y_true).sum()

In [None]:
wmape_arima = wmape(previsao_arima['y'].values, previsao_arima['AutoARIMA'].values)
print(f'WAPE: {wmape_arima}')

WAPE: 0.008687833480261866


O WMAPE mede a proporção do erro em relação aos valores reais, sendo que valores mais próximos de zero indicam maior precisão do modelo. Com um WMAPE de 0.00868, o desempenho do modelo pode ser considerado bom.

# Exportando o Modelo



In [None]:
import joblib
from statsforecast import StatsForecast
from statsforecast.models import AutoARIMA

df_tratado = df[['data', 'preco']].rename(columns={'data': 'ds', 'preco': 'y'})
df_tratado['unique_id'] = 'Preco'
df_tratado.dropna(inplace=True)

treino = df_tratado.loc[df_tratado['ds'] >= '2000-01-01'] # Novos dados treino
h = 5

modelo_arima_brent = StatsForecast(models=[AutoARIMA(season_length=5)], freq='B', n_jobs=-1)
modelo_arima_brent.fit(treino)
joblib.dump(modelo_arima_brent, 'modelos/auto_arima_brent.joblib') # Exportação para pasta modelos
#['auto_arima_brent.joblib']

['modelos/auto_arima_brent.joblib']

In [None]:
# Visualizando os dados de previsão do Modelo
modelo = joblib.load('modelos/auto_arima_brent.joblib')
previsao_arima = modelo.predict(h=h, level=[90])
previsao_arima = previsao_arima[['ds', 'AutoARIMA']].reset_index(drop=True).rename(columns={'ds': 'data', 'AutoARIMA': 'preco_previsto_brent'})
previsao_arima['preco_previsto_brent'] = [int(n * 100) / 100 for n in previsao_arima['preco_previsto_brent']]
previsao_arima

Unnamed: 0,data,preco_previsto_brent
0,2024-11-26,74.34
1,2024-11-27,74.72
2,2024-11-28,74.89
3,2024-11-29,74.63
4,2024-12-02,74.63
