# Combustíveis Automotivos 1° e 2° Semestres de 2023
<div style="text-align: right;">04/02/2024</div>

## Autor: Michel Santana

***

## ETL Insights

### **1. Tendências Temporais:**
* Como os preços variam ao longo do primeiro e segundo semestre de 2023?
* Existem padrões sazonais nos preços?

### **2. Desempenho do Produto:**
* Quais produtos apresentaram o maior aumento ou diminuição de preço durante esse período?
* Existem produtos cujos preços permaneceram relativamente estáveis?

### **3. Segmentação de Categoria:**
* Como os preços diferem entre diferentes categorias de produtos?
* Qual categoria teve a maior variação de preços?

### **4. Correlações com Fatores Externos:**
* Há correlações entre os preços e fatores externos, como condições climáticas, eventos econômicos ou sazonalidade?

### **5. Variações Regionais:**
* Existem diferenças significativas nos preços entre diferentes regiões geográficas?

### **6. Análise de Margem de Lucro:**
* Como as margens de lucro variam entre os produtos?
* Existem produtos com margens de lucro consistentemente altas ou baixas?

### **7. Impacto de Promoções ou Descontos:**
* Qual foi o impacto de promoções ou descontos nos preços?
* Como as estratégias de precificação afetaram as vendas?

### **8. Identificação de Outliers:**
* Existem pontos atípicos nos dados que podem indicar problemas, como erros de entrada ou comportamento incomum?

### **9. Previsões de Preços Futuros:**
* Com base nos padrões históricos, é possível fazer previsões razoáveis para os preços futuros?


***

## Fonte dos dados

> https://www.gov.br/anp/pt-br/centrais-de-conteudo/dados-abertos/arquivos/shpc/dsas/ca/ca-2023-01.zip

> https://www.gov.br/anp/pt-br/centrais-de-conteudo/dados-abertos/arquivos/shpc/dsas/ca/ca-2023-02.zip


***

## Importando as bibliotecas

In [170]:
import os
import requests
import zipfile
import pandas as pd 
import numpy as np 
import seaborn as sns

***

## Baixando os Arquivos ZIP de 2023

In [171]:
urls = [
    "https://www.gov.br/anp/pt-br/centrais-de-conteudo/dados-abertos/arquivos/shpc/dsas/ca/ca-2023-01.zip",
    "https://www.gov.br/anp/pt-br/centrais-de-conteudo/dados-abertos/arquivos/shpc/dsas/ca/ca-2023-02.zip"
]

path = "/home/michel/Documentos/Projetos_Portifolio/price_fuel_2023_brazil/data/semestre_"
nome_arquivo_local = 'ca-2023-'
subpasta = "arquivo_zip"

for i, url in enumerate(urls):
    response = requests.get(url)

    if response.status_code == 200:
        diretorio_destino = path + str(i + 1)
        print(f"diretorio = {diretorio_destino}")
        
        # Verifica se o diretório existe, se não, cria
        if not os.path.exists(diretorio_destino):
            os.makedirs(diretorio_destino)
   
        diretorio_zip = os.path.join(diretorio_destino, subpasta)
        if not os.path.exists(diretorio_zip):
            os.makedirs(diretorio_zip)
        
        # Salva o arquivo ZIP
        with open(os.path.join(diretorio_zip, f"{nome_arquivo_local}0{str(i + 1)}.zip"), 'wb') as arquivo:
            arquivo.write(response.content)
        
        # Extrai o conteúdo do arquivo ZIP
        with zipfile.ZipFile(os.path.join(diretorio_zip, f"{nome_arquivo_local}0{str(i + 1)}.zip"), 'r') as zip_ref:
            zip_ref.extractall(diretorio_destino)

        print(f"Download realizado com sucesso para {diretorio_zip}!")
    else:
        print("Falha no Download!")


diretorio = /home/michel/Documentos/Projetos_Portifolio/price_fuel_2023_brazil/data/semestre_1
Download realizado com sucesso para /home/michel/Documentos/Projetos_Portifolio/price_fuel_2023_brazil/data/semestre_1/arquivo_zip!


diretorio = /home/michel/Documentos/Projetos_Portifolio/price_fuel_2023_brazil/data/semestre_2
Download realizado com sucesso para /home/michel/Documentos/Projetos_Portifolio/price_fuel_2023_brazil/data/semestre_2/arquivo_zip!


***

## Visualizando os dados

In [172]:
df_sem_1 = pd.read_csv('/home/michel/Documentos/Projetos_Portifolio/price_fuel_2023_brazil/data/semestre_1/Preços semestrais - AUTOMOTIVOS_2023.01.csv', sep=';')
df_sem_1.head()

Unnamed: 0,Regiao - Sigla,Estado - Sigla,Municipio,Revenda,CNPJ da Revenda,Nome da Rua,Numero Rua,Complemento,Bairro,Cep,Produto,Data da Coleta,Valor de Venda,Valor de Compra,Unidade de Medida,Bandeira
0,SE,SP,SOROCABA,COMPETRO COMERCIO E DISTRIBUICAO DE DERIVADOS ...,00.003.188/0001-21,RUA HUMBERTO DE CAMPOS,306,,JARDIM ZULMIRA,18061-000,ETANOL,03/01/2023,339,,R$ / litro,BRANCA
1,SE,SP,SOROCABA,COMPETRO COMERCIO E DISTRIBUICAO DE DERIVADOS ...,00.003.188/0001-21,RUA HUMBERTO DE CAMPOS,306,,JARDIM ZULMIRA,18061-000,DIESEL S10,03/01/2023,621,,R$ / litro,BRANCA
2,SE,SP,SOROCABA,COMPETRO COMERCIO E DISTRIBUICAO DE DERIVADOS ...,00.003.188/0001-21,RUA HUMBERTO DE CAMPOS,306,,JARDIM ZULMIRA,18061-000,GASOLINA,03/01/2023,439,,R$ / litro,BRANCA
3,NE,AL,ARAPIRACA,COMERCIAL DE COMBUSTIVEIS E LUBRIFICANTES VITA...,02.817.655/0001-82,RODOVIA AL 220 - KM 06,S/N,,PLANALTO,57308-000,ETANOL,02/01/2023,389,,R$ / litro,VIBRA ENERGIA
4,NE,AL,ARAPIRACA,COMERCIAL DE COMBUSTIVEIS E LUBRIFICANTES VITA...,02.817.655/0001-82,RODOVIA AL 220 - KM 06,S/N,,PLANALTO,57308-000,DIESEL,02/01/2023,649,,R$ / litro,VIBRA ENERGIA


In [173]:
df_sem_2 = pd.read_csv('/home/michel/Documentos/Projetos_Portifolio/price_fuel_2023_brazil/data/semestre_2/Preços semestrais - AUTOMOTIVOS_2023.02.csv', sep=';')
df_sem_2.head()

Unnamed: 0,Regiao - Sigla,Estado - Sigla,Municipio,Revenda,CNPJ da Revenda,Nome da Rua,Numero Rua,Complemento,Bairro,Cep,Produto,Data da Coleta,Valor de Venda,Valor de Compra,Unidade de Medida,Bandeira
0,SE,SP,SOROCABA,COMPETRO COMERCIO E DISTRIBUICAO DE DERIVADOS ...,00.003.188/0001-21,RUA HUMBERTO DE CAMPOS,306,,JARDIM ZULMIRA,18061-000,GASOLINA,03/07/2023,487,,R$ / litro,BRANCA
1,SE,SP,SOROCABA,COMPETRO COMERCIO E DISTRIBUICAO DE DERIVADOS ...,00.003.188/0001-21,RUA HUMBERTO DE CAMPOS,306,,JARDIM ZULMIRA,18061-000,DIESEL S10,03/07/2023,488,,R$ / litro,BRANCA
2,SE,SP,SOROCABA,COMPETRO COMERCIO E DISTRIBUICAO DE DERIVADOS ...,00.003.188/0001-21,RUA HUMBERTO DE CAMPOS,306,,JARDIM ZULMIRA,18061-000,ETANOL,03/07/2023,327,,R$ / litro,BRANCA
3,N,AC,CRUZEIRO DO SUL,CARDINAL E OLIVEIRA LTDA,03.608.766/0006-56,AVENIDA 25 DE AGOSTO,1350,,25 DE AGOSTO,69980-000,GASOLINA,03/07/2023,695,,R$ / litro,VIBRA ENERGIA
4,N,AC,CRUZEIRO DO SUL,CARDINAL E OLIVEIRA LTDA,03.608.766/0006-56,AVENIDA 25 DE AGOSTO,1350,,25 DE AGOSTO,69980-000,DIESEL S10,03/07/2023,685,,R$ / litro,VIBRA ENERGIA


***

## Compreensão do Negócio (Business Understanding)
* Objetivo: Entender os objetivos e requisitos do negócio.
* Atividades:
    * Identificar os objetivos comerciais.
    * Avaliar a situação atual.
    * Definir critérios de sucesso.

O entendimento do negócio é crucial para direcionar análises e insights relevantes a partir dos dados apresentados. 

### Contextualização do Negócio:

1. **Atuação da Empresa:**
   - A empresa parece estar envolvida no comércio e distribuição de derivados de petróleo, como gasolina, diesel S10 e etanol.

2. **Localização Geográfica:**
   - As operações abrangem diversas regiões, estados e municípios do Brasil.

3. **Revendas e Bandeiras:**
   - Existem diferentes revendas e bandeiras associadas, indicando possíveis parcerias ou franquias.

### Principais Variáveis nos Dados:

1. **Informações sobre os Produtos:**
   - Tipos de produtos: Gasolina, Diesel S10, Etanol, etc.
   - Unidade de Medida: Preços geralmente são fornecidos em R$/litro.

2. **Informações Temporais:**
   - Data da coleta dos preços, indicando periodicidade.
   
3. **Informações de Preços:**
   - Valor de Venda e Valor de Compra, fundamentais para análises de margem de lucro e variações nos preços.

4. **Informações de Localização:**
   - Região, Estado, Município, Bairro, CEP, Nome da Rua, Número, Complemento.

5. **Informações sobre a Revenda:**
   - CNPJ, Nome da Revenda, Bandeira.

### Possíveis Análises e Perguntas de Negócio:

1. **Variações de Preços:**
   - Como os preços variam ao longo do tempo para diferentes produtos e regiões?
   - Quais fatores impactam as variações nos preços de compra e venda?

2. **Desempenho da Empresa:**
   - Qual é o desempenho financeiro da empresa em termos de margem de lucro?
   - Como os preços de venda se comparam aos preços de compra?

3. **Segmentação Geográfica:**
   - Existem padrões regionais nas tendências de preços?
   - Quais são as áreas mais e menos lucrativas?

4. **Análise de Competidores:**
   - Como os preços praticados pela empresa se comparam aos preços da concorrência?

5. **Impacto de Bandeiras:**
   - Qual é o impacto da associação com diferentes bandeiras nos preços e nas vendas?

6. **Sazonalidade:**
   - Existem padrões sazonais nos preços ou na demanda por determinados produtos?

7. **Estratégias de Preços:**
   - A empresa ajusta os preços em resposta a eventos externos ou mudanças no mercado?

8. **Perfil do Consumidor:**
   - Existe uma correlação entre os preços praticados e o perfil demográfico dos consumidores em determinadas regiões?

### Próximos Passos:

1. **Limpeza e Preparação de Dados:**
   - Identificar e tratar dados ausentes ou inconsistentes.
   - Converter tipos de dados conforme necessário.

2. **Análise Exploratória de Dados (EDA):**
   - Visualizar distribuições de preços, identificar outliers e padrões.
   - Realizar análises estatísticas descritivas.

3. **Modelagem e Previsão:**
   - Desenvolver modelos para prever tendências futuras de preços.

4. **Visualizações Gráficas:**
   - Criar visualizações gráficas claras para comunicar insights.

5. **Comunicação de Resultados:**
   - Preparar relatórios e apresentações para compartilhar insights com as partes interessadas.

Esta abordagem inicial pode ser ajustada conforme você explora mais os dados e identifica questões específicas do seu negócio. O entendimento profundo do contexto é a chave para extrair valor significativo dos dados disponíveis.

***

## Compreensão dos Dados (Data Understanding)
* Objetivo: Obter uma visão inicial dos dados disponíveis.
* Atividades:
    * Coletar dados iniciais.
    * Explorar os dados para entender sua natureza.
    * Identificar problemas de qualidade e relevância dos dados.

### Semestre 1

In [174]:
df_sem_1.shape

(431576, 16)

In [175]:
df_sem_1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 431576 entries, 0 to 431575
Data columns (total 16 columns):
 #   Column             Non-Null Count   Dtype  
---  ------             --------------   -----  
 0   Regiao - Sigla     431576 non-null  object 
 1   Estado - Sigla     431576 non-null  object 
 2   Municipio          431576 non-null  object 
 3   Revenda            431576 non-null  object 
 4   CNPJ da Revenda    431576 non-null  object 
 5   Nome da Rua        431576 non-null  object 
 6   Numero Rua         431469 non-null  object 
 7   Complemento        98576 non-null   object 
 8   Bairro             430748 non-null  object 
 9   Cep                431576 non-null  object 
 10  Produto            431576 non-null  object 
 11  Data da Coleta     431576 non-null  object 
 12  Valor de Venda     431576 non-null  object 
 13  Valor de Compra    0 non-null       float64
 14  Unidade de Medida  431576 non-null  object 
 15  Bandeira           431576 non-null  object 
dtypes:

**OBS:** Aqui se percebe que a tipagem de dados precisa ser ajustada para melhor atender ao modelo

In [176]:
df_sem_1.isnull().sum()

Regiao - Sigla            0
Estado - Sigla            0
Municipio                 0
Revenda                   0
CNPJ da Revenda           0
Nome da Rua               0
Numero Rua              107
Complemento          333000
Bairro                  828
Cep                       0
Produto                   0
Data da Coleta            0
Valor de Venda            0
Valor de Compra      431576
Unidade de Medida         0
Bandeira                  0
dtype: int64

**OBS:** A coluna "Valor de Compra" possui sua totalidade com dados "null" o que a torna dispensável para a analise, da mesma forma  a coluna "Complemento " se faz dispensável pela quantia de nullos e pela irrelevancia dos dados contidos.

### Semestre 2

In [177]:
df_sem_2.shape

(472424, 16)

In [178]:
df_sem_2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 472424 entries, 0 to 472423
Data columns (total 16 columns):
 #   Column             Non-Null Count   Dtype  
---  ------             --------------   -----  
 0   Regiao - Sigla     472424 non-null  object 
 1   Estado - Sigla     472424 non-null  object 
 2   Municipio          472424 non-null  object 
 3   Revenda            472424 non-null  object 
 4   CNPJ da Revenda    472424 non-null  object 
 5   Nome da Rua        472424 non-null  object 
 6   Numero Rua         472284 non-null  object 
 7   Complemento        109845 non-null  object 
 8   Bairro             471570 non-null  object 
 9   Cep                472424 non-null  object 
 10  Produto            472424 non-null  object 
 11  Data da Coleta     472424 non-null  object 
 12  Valor de Venda     472424 non-null  object 
 13  Valor de Compra    0 non-null       float64
 14  Unidade de Medida  472424 non-null  object 
 15  Bandeira           472424 non-null  object 
dtypes:

**OBS:** Aqui se percebe que a tipagem de dados precisa ser ajustada para melhor atender ao modelo

In [179]:
df_sem_2.isnull().sum()

Regiao - Sigla            0
Estado - Sigla            0
Municipio                 0
Revenda                   0
CNPJ da Revenda           0
Nome da Rua               0
Numero Rua              140
Complemento          362579
Bairro                  854
Cep                       0
Produto                   0
Data da Coleta            0
Valor de Venda            0
Valor de Compra      472424
Unidade de Medida         0
Bandeira                  0
dtype: int64

**OBS:** A coluna "Valor de Compra" possui sua totalidade com dados "null" o que a torna dispensável para a analise, da mesma forma  a coluna "Complemento " se faz dispensável pela quantia de nullos e pela irrelevancia dos dados contidos.

##### Para uma melhor análie, a partir desse ponto estarei concatenando o semestre 1 ao semestre 2 tomando como range de análise todo o anos de 2023.

In [180]:
df_concat = pd.concat([df_sem_1, df_sem_2], ignore_index=True)
df_concat.head()

Unnamed: 0,Regiao - Sigla,Estado - Sigla,Municipio,Revenda,CNPJ da Revenda,Nome da Rua,Numero Rua,Complemento,Bairro,Cep,Produto,Data da Coleta,Valor de Venda,Valor de Compra,Unidade de Medida,Bandeira
0,SE,SP,SOROCABA,COMPETRO COMERCIO E DISTRIBUICAO DE DERIVADOS ...,00.003.188/0001-21,RUA HUMBERTO DE CAMPOS,306,,JARDIM ZULMIRA,18061-000,ETANOL,03/01/2023,339,,R$ / litro,BRANCA
1,SE,SP,SOROCABA,COMPETRO COMERCIO E DISTRIBUICAO DE DERIVADOS ...,00.003.188/0001-21,RUA HUMBERTO DE CAMPOS,306,,JARDIM ZULMIRA,18061-000,DIESEL S10,03/01/2023,621,,R$ / litro,BRANCA
2,SE,SP,SOROCABA,COMPETRO COMERCIO E DISTRIBUICAO DE DERIVADOS ...,00.003.188/0001-21,RUA HUMBERTO DE CAMPOS,306,,JARDIM ZULMIRA,18061-000,GASOLINA,03/01/2023,439,,R$ / litro,BRANCA
3,NE,AL,ARAPIRACA,COMERCIAL DE COMBUSTIVEIS E LUBRIFICANTES VITA...,02.817.655/0001-82,RODOVIA AL 220 - KM 06,S/N,,PLANALTO,57308-000,ETANOL,02/01/2023,389,,R$ / litro,VIBRA ENERGIA
4,NE,AL,ARAPIRACA,COMERCIAL DE COMBUSTIVEIS E LUBRIFICANTES VITA...,02.817.655/0001-82,RODOVIA AL 220 - KM 06,S/N,,PLANALTO,57308-000,DIESEL,02/01/2023,649,,R$ / litro,VIBRA ENERGIA


* Conferindo o total de linhas após concatenar

In [181]:
a = df_sem_1.shape 
b = df_sem_2.shape
a[0] + b[0]

904000

In [182]:
df_concat.shape

(904000, 16)

***

## Preparação dos Dados (Data Preparation)
* Objetivo: Preparar os dados para análise.
* Atividades:
    * Limpar dados ausentes ou inconsistentes.
    * Selecionar e transformar variáveis relevantes.
    * Criar conjuntos de dados de treino e teste.

### Eliminando colunas dispensáveis

In [183]:
df_concat.drop(columns=["Complemento", "Valor de Compra"], inplace=True)
df_concat.head()

Unnamed: 0,Regiao - Sigla,Estado - Sigla,Municipio,Revenda,CNPJ da Revenda,Nome da Rua,Numero Rua,Bairro,Cep,Produto,Data da Coleta,Valor de Venda,Unidade de Medida,Bandeira
0,SE,SP,SOROCABA,COMPETRO COMERCIO E DISTRIBUICAO DE DERIVADOS ...,00.003.188/0001-21,RUA HUMBERTO DE CAMPOS,306,JARDIM ZULMIRA,18061-000,ETANOL,03/01/2023,339,R$ / litro,BRANCA
1,SE,SP,SOROCABA,COMPETRO COMERCIO E DISTRIBUICAO DE DERIVADOS ...,00.003.188/0001-21,RUA HUMBERTO DE CAMPOS,306,JARDIM ZULMIRA,18061-000,DIESEL S10,03/01/2023,621,R$ / litro,BRANCA
2,SE,SP,SOROCABA,COMPETRO COMERCIO E DISTRIBUICAO DE DERIVADOS ...,00.003.188/0001-21,RUA HUMBERTO DE CAMPOS,306,JARDIM ZULMIRA,18061-000,GASOLINA,03/01/2023,439,R$ / litro,BRANCA
3,NE,AL,ARAPIRACA,COMERCIAL DE COMBUSTIVEIS E LUBRIFICANTES VITA...,02.817.655/0001-82,RODOVIA AL 220 - KM 06,S/N,PLANALTO,57308-000,ETANOL,02/01/2023,389,R$ / litro,VIBRA ENERGIA
4,NE,AL,ARAPIRACA,COMERCIAL DE COMBUSTIVEIS E LUBRIFICANTES VITA...,02.817.655/0001-82,RODOVIA AL 220 - KM 06,S/N,PLANALTO,57308-000,DIESEL,02/01/2023,649,R$ / litro,VIBRA ENERGIA


In [184]:
df_concat.shape

(904000, 14)

In [185]:
df_concat.dtypes

Regiao - Sigla       object
Estado - Sigla       object
Municipio            object
Revenda              object
CNPJ da Revenda      object
Nome da Rua          object
Numero Rua           object
Bairro               object
Cep                  object
Produto              object
Data da Coleta       object
Valor de Venda       object
Unidade de Medida    object
Bandeira             object
dtype: object

In [186]:
df_concat['Bandeira'].unique()

array(['BRANCA', 'VIBRA ENERGIA', 'IPIRANGA', 'RAIZEN', 'ALESAT',
       'ATLÂNTICA', 'SABBÁ', 'CIAPETRO', 'TAURUS', 'DISLUB',
       'TDC DISTRIBUIDORA', 'SETTA DISTRIBUIDORA', 'RODOIL', 'CHARRUA',
       'RAIZEN MIME', 'REJAILE', 'IDAZA', 'D`MAIS', 'TOTALENERGIES',
       'PETROBRASIL', 'EQUADOR', "ATEM' S", 'SP', 'FAN', 'STANG',
       'MAXSUL', 'POTENCIAL', 'DIBRAPE', 'MASUT DISTRIBUIDORA',
       'ON PETRO', 'AMERICANOIL', 'RIO BRANCO', 'PELIKANO',
       'PETROX DISTRIBUIDORA', 'SIMARELLI', 'ROYAL FIC', 'UNI',
       'PETROBAHIA', 'LARCO', 'SUL COMBUSTÍVEIS', 'FEDERAL ENERGIA',
       'ESTRADA', 'TEMAPE', 'WALENDOWSKY', 'TORRAO', 'AIR BP', 'VIBRA',
       'RZD DISTRIBUIDORA'], dtype=object)

In [187]:
df_concat["Produto"].unique()

array(['ETANOL', 'DIESEL S10', 'GASOLINA', 'DIESEL', 'GASOLINA ADITIVADA',
       'GNV'], dtype=object)

In [188]:
df_concat['Data da Coleta'] = pd.to_datetime(df_concat['Data da Coleta'], errors='coerce')
df_concat['Valor de Venda'] = df_concat['Valor de Venda'].str.replace(',', '.').astype("float64")

In [189]:
df_concat.dtypes

Regiao - Sigla               object
Estado - Sigla               object
Municipio                    object
Revenda                      object
CNPJ da Revenda              object
Nome da Rua                  object
Numero Rua                   object
Bairro                       object
Cep                          object
Produto                      object
Data da Coleta       datetime64[ns]
Valor de Venda              float64
Unidade de Medida            object
Bandeira                     object
dtype: object

In [190]:
df_concat.sort_values(by=['Estado - Sigla', 'Municipio', 'Data da Coleta'], ascending=False, inplace=True)

In [191]:
df_concat.head()

Unnamed: 0,Regiao - Sigla,Estado - Sigla,Municipio,Revenda,CNPJ da Revenda,Nome da Rua,Numero Rua,Bairro,Cep,Produto,Data da Coleta,Valor de Venda,Unidade de Medida,Bandeira
621055,N,TO,PORTO NACIONAL,BATISTA PEREIRA & RODRIGUES LTDA,33.210.337/0001-82,ANEL VIARIO KM 01,S/N,PARQUE DO TREVO,77500-000,GASOLINA,2023-12-09,6.59,R$ / litro,RAIZEN
621056,N,TO,PORTO NACIONAL,BATISTA PEREIRA & RODRIGUES LTDA,33.210.337/0001-82,ANEL VIARIO KM 01,S/N,PARQUE DO TREVO,77500-000,GASOLINA ADITIVADA,2023-12-09,6.99,R$ / litro,RAIZEN
621057,N,TO,PORTO NACIONAL,BATISTA PEREIRA & RODRIGUES LTDA,33.210.337/0001-82,ANEL VIARIO KM 01,S/N,PARQUE DO TREVO,77500-000,DIESEL,2023-12-09,5.99,R$ / litro,RAIZEN
621058,N,TO,PORTO NACIONAL,BATISTA PEREIRA & RODRIGUES LTDA,33.210.337/0001-82,ANEL VIARIO KM 01,S/N,PARQUE DO TREVO,77500-000,DIESEL S10,2023-12-09,6.29,R$ / litro,RAIZEN
621059,N,TO,PORTO NACIONAL,BATISTA PEREIRA & RODRIGUES LTDA,33.210.337/0001-82,ANEL VIARIO KM 01,S/N,PARQUE DO TREVO,77500-000,ETANOL,2023-12-09,5.19,R$ / litro,RAIZEN


In [192]:
df_sc = df_concat[df_concat['Estado - Sigla'] == "SC"]
df_sc.head()

Unnamed: 0,Regiao - Sigla,Estado - Sigla,Municipio,Revenda,CNPJ da Revenda,Nome da Rua,Numero Rua,Bairro,Cep,Produto,Data da Coleta,Valor de Venda,Unidade de Medida,Bandeira
224922,S,SC,XANXERE,STANG & STANG LTDA,08.033.253/0005-05,RUA RUI BARBOSA,370,CENTRO,89820-000,ETANOL,2023-12-04,4.49,R$ / litro,STANG
224923,S,SC,XANXERE,STANG & STANG LTDA,08.033.253/0005-05,RUA RUI BARBOSA,370,CENTRO,89820-000,DIESEL S10,2023-12-04,5.65,R$ / litro,STANG
224924,S,SC,XANXERE,STANG & STANG LTDA,08.033.253/0005-05,RUA RUI BARBOSA,370,CENTRO,89820-000,GASOLINA ADITIVADA,2023-12-04,5.45,R$ / litro,STANG
224925,S,SC,XANXERE,STANG & STANG LTDA,08.033.253/0005-05,RUA RUI BARBOSA,370,CENTRO,89820-000,GASOLINA,2023-12-04,5.45,R$ / litro,STANG
224926,S,SC,XANXERE,VÔ ALDO - AUTO POSTO LTDA.,05.776.611/0001-40,RUA RUI BARBOSA,1568,VISTA ALEGRE,89820-000,DIESEL S10,2023-12-04,5.79,R$ / litro,ALESAT


In [193]:
df_sc.shape

(37307, 14)

*** 

# **9. Previsões de Preços Futuros:**

## Modelagem (Modeling)
* Objetivo: Desenvolver modelos preditivos ou descritivos.
* Atividades:
    * Escolher técnicas/modelos de mineração de dados.
    * Construir e validar modelos.
    * Ajustar parâmetros para otimização do desempenho.

#### 1. Importar bibliotecas:

In [194]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error
from sklearn.preprocessing import LabelEncoder

#### 2. Carregar dados:

In [195]:
# Supondo que os dados estejam em um DataFrame chamado df_sc
# Certifique-se de ajustar o caminho do seu DataFrame conforme necessário

# Converter 'Data da Coleta' para datetime
df_sc['Data da Coleta'] = pd.to_datetime(df_sc['Data da Coleta'])

# Codificar variáveis categóricas usando LabelEncoder
le = LabelEncoder()
df_sc['Produto'] = le.fit_transform(df_sc['Produto'])
df_sc['Bandeira'] = le.fit_transform(df_sc['Bandeira'])

# Selecionar features e target
features = ['Produto', 'Data da Coleta', 'Bandeira']
target = 'Valor de Venda'

X = df_sc[features]
y = df_sc[target]


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_sc['Data da Coleta'] = pd.to_datetime(df_sc['Data da Coleta'])
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_sc['Produto'] = le.fit_transform(df_sc['Produto'])
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_sc['Bandeira'] = le.fit_transform(df_sc['Bandeira'])


#### 3. Dividir dados em conjunto de treino e teste:

In [196]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

#### 4. Criar e treinar o modelo:

In [197]:
import numpy as np

# Supondo que 'Data da Coleta' seja a coluna de datas
data_referencia = X_train['Data da Coleta'].min()  # Escolha uma data de referência adequada

# Criar uma nova coluna numérica representando a diferença em dias a partir da data de referência
X_train['DiasDesdeReferencia'] = (X_train['Data da Coleta'] - data_referencia).dt.days
X_test['DiasDesdeReferencia'] = (X_test['Data da Coleta'] - data_referencia).dt.days

# Remover a coluna original 'Data da Coleta'
X_train = X_train.drop(columns=['Data da Coleta'])
X_test = X_test.drop(columns=['Data da Coleta'])

# Agora, os dados estão prontos para serem usados no modelo
model = RandomForestRegressor(random_state=42)
model.fit(X_train, y_train)


#### 5. Fazer previsões:

In [198]:
y_pred = model.predict(X_test)
y_pred

array([5.81629209, 5.460914  , 5.4679839 , ..., 5.20910925, 5.20910925,
       5.7980651 ])

In [203]:
print(X_test.columns)

Index(['Produto', 'Bandeira', 'DiasDesdeReferencia'], dtype='object')


In [206]:
# Criar DataFrame com previsões
df_predictions = pd.DataFrame({'Previsao': y_pred})

# Adicionar features correspondentes do conjunto de teste
df_predictions[['Produto', 'DiasDesdeReferencia', 'Bandeira']] = X_test.reset_index()[['Produto', 'DiasDesdeReferencia', 'Bandeira']]

# Exibir o DataFrame com as previsões
print(df_predictions.head())


   Previsao  Produto  DiasDesdeReferencia  Bandeira
0  5.816292        0                  NaN        13
1  5.460914        4                  NaN         2
2  5.467984        3                  NaN         6
3  5.201504        2                  NaN        14
4  5.487826        4                  NaN         5


#### 6. Avaliar o modelo:

In [None]:
mse = mean_squared_error(y_test, y_pred)
print(f'Mean Squared Error: {mse}')


Mean Squared Error: 0.22538922471956943


***

## Avaliação (Evaluation)
* Objetivo: Avaliar a qualidade do modelo em termos dos objetivos do negócio.
* Atividades:
    * Avaliar o desempenho do modelo usando métricas específicas.
    * Validar se o modelo atende aos critérios de sucesso.

***

## Implantação (Deployment):
* Objetivo: Implementar o modelo em ambientes de produção.
* Atividades:
    * Planejar a implementação.
    * Integrar o modelo aos processos de negócios.
    * Monitorar o desempenho do modelo em produção.