<h1 style='color: #ff4500; font-size: 34px; font-weight: bold;'>Previsão de Preços de Combustíveis: Análise e Estimativa Futura

</h1>


# <font color="#4500ff" style="font-size: 30px;">Objetivo</font>
<hr style="border: 2px solid #4500ff;">

 <p style='font-size: 23px; line-height: 2; margin: 0px 0px; text-align: justify; text-indent: 0px;'>    
<i><b>O objetivo deste projeto é desenvolver modelos de previsão de preços de combustíveis com base em dados históricos. Por meio da análise exploratória e da aplicação de técnicas de séries temporais e regressão, buscamos criar modelos que estimem com precisão os preços futuros dos combustíveis. A avaliação e ajuste desses modelos permitirão entender as tendências de mercado e melhorar a capacidade de planejamento financeiro.</b></i>     
</p>

---

# <font color="#4500ff" style="font-size: 30px;">Roteiro</font>
<hr style="border: 2px solid #4500ff;">

<h1 style='color: black; font-size:22px; font-weight: bold;'> 1. Carregamento e Pré-processamento dos Dados
</h1>

---

<h1 style='color: black; font-size: 22px; font-weight: bold;'>2. Análise Exploratória de Dados

</h1>

---

<h1 style='color: black; font-size: 22px; font-weight: bold;'> 
3. Preparação dos Dados para Previsão
</h1>

---

<h1 style='color: black; font-size: 22px; font-weight: bold;'> 
4. Divisão em Conjuntos de Treinamento e Teste
</h1>

---

<h1 style='color: black; font-size: 22px; font-weight: bold;'> 
5. Treinamento e Avaliação do Modelo
</h1>

---



# <font color="#4500ff" style="font-size: 30px;">1. Carregamento e Pré-processamento dos Dados </font>
<hr style="border: 2px solid #4500ff;">

In [86]:
# IMPORTANMDO BIBLIOTECAS

import pandas as pd
import os
from datetime import datetime
import seaborn as sns
import matplotlib.pyplot as plt
import numpy as np
import json
import plotly.graph_objects as go
import matplotlib.patches as mpatches
import plotly.express as px
import locale
from sklearn.metrics import mean_squared_error, r2_score
from statsmodels.tsa.arima.model import ARIMA

In [87]:
# Importando Dataset 

df = pd.read_csv(os.path.join("Datasets", "ca-2018-2022.csv"))
df.head(10)

Unnamed: 0,Regiao - Sigla,Estado - Sigla,Municipio,Revenda,CNPJ da Revenda,Nome da Rua,Numero Rua,Complemento,Bairro,Cep,Produto,Data da Coleta,Valor de Venda,Valor de Compra,Unidade de Medida,Bandeira
0,N,AC,RIO BRANCO,LIMA & MORAIS IMPORTAÇÃO E EXPORTAÇÃO LTDA.,07.073.586/0002-44,ESTRADA DA FLORESTA,4279,0,FLORESTA SUL,69912-443,DIESEL,2018-01-11,4.07,0.0,R$ / litro,PETROBRAS DISTRIBUIDORA S.A.
1,S,PR,CIANORTE,JACOMELI & CARMINATI LTDA,05.015.593/0001-83,AVENIDA : MARANHAO,1244,0,ZONA 07,87200-000,DIESEL,2018-04-16,3.26,0.0,R$ / litro,CIAPETRO
2,N,RO,VILHENA,AUTO POSTO PLANALTO LTDA,34.764.472/0001-32,AVENIDA CELSO MAZUTTI,6125,0,JARDIM ELDORADO,76980-002,DIESEL S10,2018-05-09,4.01,0.0,R$ / litro,PETROBRAS DISTRIBUIDORA S.A.
3,SE,ES,VILA VELHA,DIRCEU COMERCIO E REPRESENTACOES LTDA,27.732.460/0001-60,RODOVIA DO SOL,SN,KM: 25;,PONTA DA FRUTA,29129-015,ETANOL,2018-04-26,3.59,0.0,R$ / litro,RAIZEN
4,SE,RJ,NITEROI,POSTO DE GASOLINA KING KONG EIRELI,29.756.947/0001-09,RUA VISCONDE DO RIO BRANCO,756,0,CENTRO,24020-003,GASOLINA,2018-03-29,4.897,4.2964,R$ / litro,PETROBRAS DISTRIBUIDORA S.A.
5,SE,MG,SABARA,POSTO SANTA INES MINAS LTDA,21.662.242/0001-10,AVENIDA CONTAGEM,1980,0,ANA LUCIA,34710-000,ETANOL,2018-01-15,3.099,0.0,R$ / litro,ALESAT
6,SE,SP,PIRASSUNUNGA,RODOPOSTO CORAL LTDA,54.844.998/0001-30,RODOVIA ANHANGUERA,S/N,KM 210,TABOAO,13630-000,DIESEL S10,2018-04-02,3.298,0.0,R$ / litro,RAIZEN
7,CO,GO,AGUAS LINDAS DE GOIAS,AUTO POSTO JARDIM BRASILIA LTDA,02.316.635/0001-28,AVENIDA JK,SN,QD 06 LTS 18/22,JARDIM BRASILIA,72910-001,ETANOL,2018-01-31,3.09,3.0067,R$ / litro,PETROBRAS DISTRIBUIDORA S.A.
8,SE,ES,VILA VELHA,POSTO TRES COQUEIROS LTDA,36.336.386/0001-54,RODOVIA CARLOS LINDEMBERG,SN,0,ALVORADA,29123-600,DIESEL,2018-05-24,3.59,3.2471,R$ / litro,IPIRANGA
9,NE,PE,PETROLINA,AUTO POSTO GENE LTDA,03.544.644/0004-81,RUA DO TAMARINDO,S/N,LOTE 13 E 14 QUADRA B,RIO CORRENTE,56312-695,ETANOL,2018-02-15,3.595,2.7845,R$ / litro,ALE COMBUSTÍVEIS


<hr style="border: 2px solid #00cd37;">

## <font color=#00cd37 style="font-size: 30px;">Eliminando colunas e tratando dados</font>

<hr style="border: 2px solid #00cd37;">

In [88]:
df.drop(['Unidade de Medida', 'Nome da Rua', 'Numero Rua', 'Bairro', 'Cep'], axis=1, inplace=True)

In [89]:
df.columns = ['Regiao', 'Estado', 'Municipio', 'Revenda',
       'CNPJ_da_Revenda', 'Complemento', 'Produto', 'Data_da_Coleta',
       'Valor_de_Venda', 'Valor_de_Compra', 'Bandeira']

In [90]:
regioes ={
    'SE': 'SUDESTE',
    'NE': 'NORDESTE',
    'S': 'SUL',
    'CO' : 'CENTRO_OESTE',
    'N' : 'NORTE'
}

estados = {
    'AC': 'ACRE',
    'PR': 'PARANÁ',
    'RO': 'RONDÔNIA',
    'ES': 'ESPÍRITO_SANTO',
    'RJ': 'RIO_DE_JANEIRO',
    'MG': 'MINAS_GERAIS',
    'SP': 'SÃO_PAULO',
    'GO': 'GOIÁS',
    'PE': 'PERNAMBUCO',
    'RS': 'RIO_GRANDE_DO_SUL',
    'SC': 'SANTA_CATARINA',
    'RN': 'RIO_GRANDE_DO_NORTE',
    'PB': 'PARAÍBA',
    'CE': 'CEARÁ',
    'MS': 'MATO_GROSSO_DO_SUL',
    'PA': 'PARÁ',
    'MT': 'MATO_GROSSO',
    'TO': 'TOCANTINS',
    'BA': 'BAHIA',
    'DF': 'DISTRITO_FEDERAL',
    'AM': 'AMAZONAS',
    'MA': 'MARANHÃO',
    'RR': 'RORAIMA',
    'AP': 'AMAPÁ',
    'PI': 'PIAUÍ',
    'AL': 'ALAGOAS',
    'SE': 'SERGIPE'
}


df['Regiao'] = df['Regiao'].map(regioes)
df['Estado'] = df['Estado'].map(estados)

<hr style="border: 2px solid #00cd37;">

## <font color=#00cd37 style="font-size: 30px;">Verificando valores nulos</font>

<hr style="border: 2px solid #00cd37;">

In [91]:
df.info() 

#Sem valores nulos

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 250000 entries, 0 to 249999
Data columns (total 11 columns):
 #   Column           Non-Null Count   Dtype  
---  ------           --------------   -----  
 0   Regiao           250000 non-null  object 
 1   Estado           250000 non-null  object 
 2   Municipio        250000 non-null  object 
 3   Revenda          250000 non-null  object 
 4   CNPJ_da_Revenda  250000 non-null  object 
 5   Complemento      250000 non-null  object 
 6   Produto          250000 non-null  object 
 7   Data_da_Coleta   250000 non-null  object 
 8   Valor_de_Venda   250000 non-null  float64
 9   Valor_de_Compra  250000 non-null  float64
 10  Bandeira         250000 non-null  object 
dtypes: float64(2), object(9)
memory usage: 21.0+ MB


In [92]:
# a coluna "Valor_de_vendas" tem mais informações que a coluna "valor_de_compra"
df.drop(['Valor_de_Compra', 'Complemento'], axis=1, inplace = True)

In [93]:
df

Unnamed: 0,Regiao,Estado,Municipio,Revenda,CNPJ_da_Revenda,Produto,Data_da_Coleta,Valor_de_Venda,Bandeira
0,NORTE,ACRE,RIO BRANCO,LIMA & MORAIS IMPORTAÇÃO E EXPORTAÇÃO LTDA.,07.073.586/0002-44,DIESEL,2018-01-11,4.070,PETROBRAS DISTRIBUIDORA S.A.
1,SUL,PARANÁ,CIANORTE,JACOMELI & CARMINATI LTDA,05.015.593/0001-83,DIESEL,2018-04-16,3.260,CIAPETRO
2,NORTE,RONDÔNIA,VILHENA,AUTO POSTO PLANALTO LTDA,34.764.472/0001-32,DIESEL S10,2018-05-09,4.010,PETROBRAS DISTRIBUIDORA S.A.
3,SUDESTE,ESPÍRITO_SANTO,VILA VELHA,DIRCEU COMERCIO E REPRESENTACOES LTDA,27.732.460/0001-60,ETANOL,2018-04-26,3.590,RAIZEN
4,SUDESTE,RIO_DE_JANEIRO,NITEROI,POSTO DE GASOLINA KING KONG EIRELI,29.756.947/0001-09,GASOLINA,2018-03-29,4.897,PETROBRAS DISTRIBUIDORA S.A.
...,...,...,...,...,...,...,...,...,...
249995,SUDESTE,RIO_DE_JANEIRO,SAO GONCALO,LUNA I COMBUSTIVEIS SAO GONCALO LTDA,19.607.121/0001-24,ETANOL,2022-11-08,4.290,VIBRA ENERGIA
249996,SUL,PARANÁ,CURITIBA,AUTO POSTO X LTDA,32.249.798/0001-04,ETANOL,2022-07-27,4.700,BRANCA
249997,CENTRO_OESTE,MATO_GROSSO_DO_SUL,CAMPO GRANDE,POSTO IMPERIAL LTDA,12.578.360/0001-54,GASOLINA,2022-09-12,4.690,IPIRANGA
249998,SUDESTE,SÃO_PAULO,ASSIS,AUTO POSTO SANTA CECILIA DE ASSIS LTDA,02.901.560/0001-42,GASOLINA,2022-08-09,5.790,VIBRA ENERGIA
