## Análise de Negócios
### Preços dos combustíveis ofertados nos postos

<img src = 'img\preco_combustivel.jpeg'>

### Análise de negócios: Entendendo a dinâmica de preços ofertada pelos postos

1 - Dados serão coletados da ANP <br/>
link: https://www.gov.br/anp/pt-br/centrais-de-conteudo/dados-abertos/serie-historica-de-precos-de-combustiveis <br/>

<img src = 'img\anp.png' ><br/>

Para melhor análise, serão considerados os dados dos últimos 5 anos.<br/>
<img src = 'img\tabela_base_dados.png'><br/>



2 - Armazenar esses dados em um banco de dados <br/>

<img src = 'img\PostgreSQL-logo.png'><br/>
<img src = 'img\postgre1.png'><br/>

Para armazenamento do **banco de dados** será utilizado o PostgreSQL: open source, free e robusto. Abaixo, a _query_ inserida para criação da tabela preco_combustivel, com colunas e tipos de dados.<br/>

In [1]:
"""
CREATE TABLE anp.preco_combustivel(
		regiao 				varchar(255)
		,estado				varchar(255)
		,municipio			varchar(255)
		,revenda			varchar(255)
		,cnpj				varchar(255)
		,nome_rua			varchar(255)	
		,numero_rua			varchar(255)
		,complemento		varchar(255)
		,bairro				varchar(255)
		,cep				varchar(255)
		,produto			varchar(255)
		,data_coleta		date
		,valor_venda		float
		,unidade_medida		varchar(255)
		,bandeira			varchar(255)

)
"""

'\nCREATE TABLE anp.preco_combustivel(\n\t\tregiao \t\t\t\tvarchar(255)\n\t\t,estado\t\t\t\tvarchar(255)\n\t\t,municipio\t\t\tvarchar(255)\n\t\t,revenda\t\t\tvarchar(255)\n\t\t,cnpj\t\t\t\tvarchar(255)\n\t\t,nome_rua\t\t\tvarchar(255)\t\n\t\t,numero_rua\t\t\tvarchar(255)\n\t\t,complemento\t\tvarchar(255)\n\t\t,bairro\t\t\t\tvarchar(255)\n\t\t,cep\t\t\t\tvarchar(255)\n\t\t,produto\t\t\tvarchar(255)\n\t\t,data_coleta\t\tdate\n\t\t,valor_venda\t\tfloat\n\t\t,unidade_medida\t\tvarchar(255)\n\t\t,bandeira\t\t\tvarchar(255)\n\n)\n'

Para carregarmos os dados dentro do PostgreSQL, utilizaremos o Knime para concatenação das 10 tabelas. Após concatenação das 10 tabela, poderemos fazer a inserção conectando o Knime com o PostgreSQL.

<img src = 'img\knime.png'><br/>
<img src = 'img\knime2.png'><br/>
Para atender as nossas necessidades vamos construir desta forma.<br/>
<img src = 'img\knime3.png'><br/>

3 - Utilizar esses dados para as nossas análises <br/>

Instalando as bibliotecas

In [2]:
import pandas as pd
import pandas.io.sql as sqlio
import psycopg2 as ps

import warnings
warnings.filterwarnings('ignore')

In [3]:
conn = ps.connect(dbname = 'ANP',
                    user ='postgres',
                    password = 'cami1510',
                    host = 'localhost',
                    port = '5432' )

# Usa a biblioteca `psycopg2` para estabelecer uma conexão com o BD PostegreSQL.
# dbname = 'ANP': espeifica o nome do banco de dados que será conectado
# user = 'postegres': nome do usuário usado para autenticação no BD.
# password = 'cami1510': senha do usuário.
# host = 'localhost': nome do host onde o servidor de banco de dados está sendo executado.
# port = '5432': número da porta onde o servidor de banco de dados está escutando.

# o resultado da chamada `ps.connect()`, é uma conexão ao banco de dados, que é armazenada na variável `conn`. Esta conexão pode ser usada para executar consultas  SQL e interagir com o banco de dados.

In [4]:
sql = """
SELECT * FROM anp.preco_combustivel
"""

# Instrução SQL que está sendo armazenada em uma variável Python chamada `sql`. Esta instrução SQL é uma consulta que seleciona todas as linhas e colunas da tabela `anp.preco_combustivel`.

In [5]:
df = sqlio.read_sql_query(sql, conn)

# Utiliza biblioteca pandas em conjunto com psycopg2 para executar uma consulta SQL em um banco de dados do PostgreSQL e carrega o resultado diretamente em um DataFrame Pandas:

# df: é a variável onde o DataFrame resultante da consulta será armazenado
# sqlio.read_sql_query(): função parte do módulo pandas.io.sql que executa a consulta SQL fornecida no primeiro argumento (sql) usando a conexão ao banco de dados especificada no segundo argumento (conn).

# O resultado da execução da consulta SQL é automaticamente convertido em um DataFrame Pandas, permitindo manipulação de dados fácil e eficiente em Python.

In [6]:
df.head(10)

Unnamed: 0,regiao,estado,municipio,revenda,cnpj,nome_rua,numero_rua,complemento,bairro,cep,produto,data_coleta,valor_venda,unidade_medida,bandeira
0,SE,SP,GUARULHOS,AUTO POSTO SAKAMOTO LTDA,49.051.667/0001-02,RODOVIA PRESIDENTE DUTRA,S/N,"KM 210,5-SENT SP/RJ",BONSUCESSO,07178-580,GASOLINA,2019-01-03,4.199,R$ / litro,PETROBRAS DISTRIBUIDORA S.A.
1,SE,SP,GUARULHOS,AUTO POSTO SAKAMOTO LTDA,49.051.667/0001-02,RODOVIA PRESIDENTE DUTRA,S/N,"KM 210,5-SENT SP/RJ",BONSUCESSO,07178-580,ETANOL,2019-01-03,2.899,R$ / litro,PETROBRAS DISTRIBUIDORA S.A.
2,SE,SP,GUARULHOS,AUTO POSTO SAKAMOTO LTDA,49.051.667/0001-02,RODOVIA PRESIDENTE DUTRA,S/N,"KM 210,5-SENT SP/RJ",BONSUCESSO,07178-580,DIESEL S10,2019-01-03,3.349,R$ / litro,PETROBRAS DISTRIBUIDORA S.A.
3,SE,SP,GUARULHOS,AUTO POSTO SAKAMOTO LTDA,49.051.667/0001-02,RODOVIA PRESIDENTE DUTRA,S/N,"KM 210,5-SENT SP/RJ",BONSUCESSO,07178-580,GNV,2019-01-03,2.439,R$ / m³,PETROBRAS DISTRIBUIDORA S.A.
4,S,RS,CANOAS,METROPOLITANO COMERCIO DE COMBUSTIVEIS LTDA,88.587.589/0001-17,AVENIDA GUILHERME SCHELL,6340,,CENTRO,92310-000,GASOLINA,2019-01-02,4.399,R$ / litro,BRANCA
5,S,RS,CANOAS,METROPOLITANO COMERCIO DE COMBUSTIVEIS LTDA,88.587.589/0001-17,AVENIDA GUILHERME SCHELL,6340,,CENTRO,92310-000,ETANOL,2019-01-02,3.989,R$ / litro,BRANCA
6,S,RS,CANOAS,METROPOLITANO COMERCIO DE COMBUSTIVEIS LTDA,88.587.589/0001-17,AVENIDA GUILHERME SCHELL,6340,,CENTRO,92310-000,GNV,2019-01-02,3.449,R$ / m³,BRANCA
7,NE,BA,ITABUNA,LOPES LEMOS COMERCIO DE COMBUSTIVEIS LTDA,00.231.792/0001-05,RODOVIA BR 101,SN,KM 503 5,MANOEL LEAO,45601-402,GASOLINA,2019-01-02,4.49,R$ / litro,BRANCA
8,NE,BA,ITABUNA,LOPES LEMOS COMERCIO DE COMBUSTIVEIS LTDA,00.231.792/0001-05,RODOVIA BR 101,SN,KM 503 5,MANOEL LEAO,45601-402,ETANOL,2019-01-02,3.33,R$ / litro,BRANCA
9,NE,BA,ITABUNA,LOPES LEMOS COMERCIO DE COMBUSTIVEIS LTDA,00.231.792/0001-05,RODOVIA BR 101,SN,KM 503 5,MANOEL LEAO,45601-402,DIESEL,2019-01-02,3.3,R$ / litro,BRANCA


In [7]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4342368 entries, 0 to 4342367
Data columns (total 15 columns):
 #   Column          Dtype  
---  ------          -----  
 0   regiao          object 
 1   estado          object 
 2   municipio       object 
 3   revenda         object 
 4   cnpj            object 
 5   nome_rua        object 
 6   numero_rua      object 
 7   complemento     object 
 8   bairro          object 
 9   cep             object 
 10  produto         object 
 11  data_coleta     object 
 12  valor_venda     float64
 13  unidade_medida  object 
 14  bandeira        object 
dtypes: float64(1), object(14)
memory usage: 496.9+ MB


In [8]:
print(f'Quantidade de linhas e colunas: {df.shape}')

Quantidade de linhas e colunas: (4342368, 15)


In [9]:
# transformar o data_coleta de object (string) para data
df['data_coleta'] = pd.to_datetime(df['data_coleta'])

In [10]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4342368 entries, 0 to 4342367
Data columns (total 15 columns):
 #   Column          Dtype         
---  ------          -----         
 0   regiao          object        
 1   estado          object        
 2   municipio       object        
 3   revenda         object        
 4   cnpj            object        
 5   nome_rua        object        
 6   numero_rua      object        
 7   complemento     object        
 8   bairro          object        
 9   cep             object        
 10  produto         object        
 11  data_coleta     datetime64[ns]
 12  valor_venda     float64       
 13  unidade_medida  object        
 14  bandeira        object        
dtypes: datetime64[ns](1), float64(1), object(13)
memory usage: 496.9+ MB


In [11]:
# verifica se há nulos nas colunas
df.isnull().sum()

regiao                  0
estado                  0
municipio               0
revenda                 0
cnpj                    0
nome_rua                0
numero_rua           2201
complemento       3336352
bairro              12140
cep                     0
produto                 0
data_coleta             0
valor_venda             0
unidade_medida          0
bandeira                0
dtype: int64

In [12]:
# cria DF com as colunas que serão utilizadas
df_anp = df[['data_coleta', 'regiao', 'estado', 'municipio', 'bandeira', 'produto', 'valor_venda']]

# Cria um novo DataFrame, à partir do DataFrame original. É feito à partir da seleção de colunas específicas: data_coleta, regiao, estado, municipio, bandeira, produto e valor_venda.

In [13]:
df_anp.head()

Unnamed: 0,data_coleta,regiao,estado,municipio,bandeira,produto,valor_venda
0,2019-01-03,SE,SP,GUARULHOS,PETROBRAS DISTRIBUIDORA S.A.,GASOLINA,4.199
1,2019-01-03,SE,SP,GUARULHOS,PETROBRAS DISTRIBUIDORA S.A.,ETANOL,2.899
2,2019-01-03,SE,SP,GUARULHOS,PETROBRAS DISTRIBUIDORA S.A.,DIESEL S10,3.349
3,2019-01-03,SE,SP,GUARULHOS,PETROBRAS DISTRIBUIDORA S.A.,GNV,2.439
4,2019-01-02,S,RS,CANOAS,BRANCA,GASOLINA,4.399


In [14]:
# separa colunas de ano e mes
df_anp['ano'] = df_anp['data_coleta'].dt.year
df_anp['mes'] = df_anp['data_coleta'].dt.month

# Manipula o DataFrame df_anp, criando duas novas colunas dentro do DataFrame: ano e mês. Para isso, o código executa, basicamente, duas operações:

# 1. Cria uma nova coluna chamada ano, que armazena o ano da data_coleta. Para isso, utiliza a função dt.year do Pandas, que extrai o ano de uma data.

# 2. Cria uma nova coluna chamada mês, que armazena o mês da data_coleta. Para isso, utiliza a função dt.month do Pandas, que extrai o mês de uma data.

# Para realizar essas operações, o código utiliza .dt.year e .dt.month, que são acessadores de tempo do pandas, permitindo extrair facilmente o ano e o mês de uma série de datas

In [15]:
df_anp.head()

Unnamed: 0,data_coleta,regiao,estado,municipio,bandeira,produto,valor_venda,ano,mes
0,2019-01-03,SE,SP,GUARULHOS,PETROBRAS DISTRIBUIDORA S.A.,GASOLINA,4.199,2019,1
1,2019-01-03,SE,SP,GUARULHOS,PETROBRAS DISTRIBUIDORA S.A.,ETANOL,2.899,2019,1
2,2019-01-03,SE,SP,GUARULHOS,PETROBRAS DISTRIBUIDORA S.A.,DIESEL S10,3.349,2019,1
3,2019-01-03,SE,SP,GUARULHOS,PETROBRAS DISTRIBUIDORA S.A.,GNV,2.439,2019,1
4,2019-01-02,S,RS,CANOAS,BRANCA,GASOLINA,4.399,2019,1


In [16]:
df_anp.describe().round(2)

Unnamed: 0,data_coleta,valor_venda,ano,mes
count,4342368,4342368.0,4342368.0,4342368.0
mean,2021-06-23 23:38:56.880153344,4.83,2021.0,6.3
min,2019-01-02 00:00:00,1.8,2019.0,1.0
25%,2020-01-29 00:00:00,3.77,2020.0,3.0
50%,2021-08-17 00:00:00,4.69,2021.0,6.0
75%,2022-09-01 00:00:00,5.79,2022.0,9.0
max,2023-12-29 00:00:00,9.79,2023.0,12.0
std,,1.29,1.46,3.36


In [17]:
# Quais são os tipos de produtos que são comercializados
print(f'Os produtos comercializados são: {df_anp["produto"].unique()}')

Os produtos comercializados são: ['GASOLINA' 'ETANOL' 'DIESEL S10' 'GNV' 'DIESEL' 'GASOLINA ADITIVADA']


In [18]:
# Quais anos estão na base de dados?
print(f'Os anos presentes na base de dados são: {df_anp["ano"].unique()}')

Os anos presentes na base de dados são: [2019 2020 2021 2022 2023]


In [23]:
# Descobrindo os valores mínimos, máximos e médios dos produtos por ano
df_anp_valor = df_anp[['ano', 'produto', 'valor_venda']].groupby(['produto', 'ano']).agg(['min', 'max', 'mean']).round(2)
df_anp_valor

Unnamed: 0_level_0,Unnamed: 1_level_0,valor_venda,valor_venda,valor_venda
Unnamed: 0_level_1,Unnamed: 1_level_1,min,max,mean
produto,ano,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
DIESEL,2019,2.87,4.99,3.6
DIESEL,2020,2.45,5.09,3.42
DIESEL,2021,3.1,6.99,4.69
DIESEL,2022,3.14,9.0,6.63
DIESEL,2023,3.97,7.99,5.76
DIESEL S10,2019,2.79,5.09,3.69
DIESEL S10,2020,2.46,5.38,3.51
DIESEL S10,2021,2.8,6.96,4.74
DIESEL S10,2022,3.59,9.65,6.73
DIESEL S10,2023,4.19,9.0,5.86


In [24]:
# Descobrindo os valores mínimos, máximos e médios dos produtos por ano - recorte por Estado
df_anp_valor_estado = df_anp[['ano', 'estado', 'produto', 'valor_venda']].groupby(['produto', 'ano', 'estado']).agg(['min', 'max', 'mean']).round(2)
df_anp_valor_estado

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,valor_venda,valor_venda,valor_venda
Unnamed: 0_level_1,Unnamed: 1_level_1,Unnamed: 2_level_1,min,max,mean
produto,ano,estado,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
DIESEL,2019,AC,4.04,4.99,4.44
DIESEL,2019,AL,3.39,4.31,3.78
DIESEL,2019,AM,3.36,4.47,3.81
DIESEL,2019,AP,3.62,4.99,4.17
DIESEL,2019,BA,3.11,4.65,3.62
...,...,...,...,...,...
GNV,2023,RR,4.99,4.99,4.99
GNV,2023,RS,3.24,6.59,5.06
GNV,2023,SC,4.44,6.19,5.27
GNV,2023,SE,4.47,5.19,4.90


In [26]:
# descobrir a quantidade de bandeiras por produto / ano
df_anp_bandeira = df_anp[['ano', 'bandeira', 'produto']].groupby(['ano','produto']).bandeira.nunique()
df_anp_bandeira

ano   produto           
2019  DIESEL                59
      DIESEL S10            61
      ETANOL                63
      GASOLINA              64
      GNV                   22
2020  DIESEL                52
      DIESEL S10            57
      ETANOL                58
      GASOLINA              58
      GASOLINA ADITIVADA    43
      GNV                   23
2021  DIESEL                54
      DIESEL S10            54
      ETANOL                55
      GASOLINA              55
      GASOLINA ADITIVADA    54
      GNV                   22
2022  DIESEL                51
      DIESEL S10            60
      ETANOL                60
      GASOLINA              60
      GASOLINA ADITIVADA    58
      GNV                   24
2023  DIESEL                43
      DIESEL S10            46
      ETANOL                47
      GASOLINA              48
      GASOLINA ADITIVADA    47
      GNV                   22
Name: bandeira, dtype: int64

In [27]:
# descobrir a quantidade de bandeiras por produto / ano - quebra por Estado
df_anp_bandeira_estado = df_anp[['ano', 'bandeira', 'produto', 'estado',]].groupby(['ano','produto', 'estado']).bandeira.nunique()
df_anp_bandeira_estado

ano   produto  estado
2019  DIESEL   AC        7
               AL        6
               AM        9
               AP        3
               BA        9
                        ..
2023  GNV      RR        1
               RS        6
               SC        8
               SE        4
               SP        6
Name: bandeira, Length: 754, dtype: int64