## Análise de Negócios
### Preços dos combustíveis ofertados nos postos

<img src = 'img\preco_combustivel.jpeg'>

### Análise de negócios: Entendendo a dinâmica de preços ofertada pelos postos

1 - Dados serão coletados da ANP <br/>
link: https://www.gov.br/anp/pt-br/centrais-de-conteudo/dados-abertos/serie-historica-de-precos-de-combustiveis <br/>

<img src = 'img\anp.png' ><br/>

Para melhor análise, serão considerados os dados dos últimos 5 anos.<br/>
<img src = 'img\tabela_base_dados.png'><br/>



2 - Armazenar esses dados em um banco de dados <br/>

<img src = 'img\PostgreSQL-logo.png'><br/>
<img src = 'img\postgre1.png'><br/>

Para armazenamento do **banco de dados** será utilizado o PostgreSQL: open source, free e robusto. Abaixo, a _query_ inserida para criação da tabela preco_combustivel, com colunas e tipos de dados.<br/>

In [1]:
"""
CREATE TABLE anp.preco_combustivel(
		regiao 				varchar(255)
		,estado				varchar(255)
		,municipio			varchar(255)
		,revenda			varchar(255)
		,cnpj				varchar(255)
		,nome_rua			varchar(255)	
		,numero_rua			varchar(255)
		,complemento		varchar(255)
		,bairro				varchar(255)
		,cep				varchar(255)
		,produto			varchar(255)
		,data_coleta		date
		,valor_venda		float
		,unidade_medida		varchar(255)
		,bandeira			varchar(255)

)
"""

'\nCREATE TABLE anp.preco_combustivel(\n\t\tregiao \t\t\t\tvarchar(255)\n\t\t,estado\t\t\t\tvarchar(255)\n\t\t,municipio\t\t\tvarchar(255)\n\t\t,revenda\t\t\tvarchar(255)\n\t\t,cnpj\t\t\t\tvarchar(255)\n\t\t,nome_rua\t\t\tvarchar(255)\t\n\t\t,numero_rua\t\t\tvarchar(255)\n\t\t,complemento\t\tvarchar(255)\n\t\t,bairro\t\t\t\tvarchar(255)\n\t\t,cep\t\t\t\tvarchar(255)\n\t\t,produto\t\t\tvarchar(255)\n\t\t,data_coleta\t\tdate\n\t\t,valor_venda\t\tfloat\n\t\t,unidade_medida\t\tvarchar(255)\n\t\t,bandeira\t\t\tvarchar(255)\n\n)\n'

Para carregarmos os dados dentro do PostgreSQL, utilizaremos o Knime para concatenação das 10 tabelas. Após concatenação das 10 tabela, poderemos fazer a inserção conectando o Knime com o PostgreSQL.

<img src = 'img\knime.png'><br/>
<img src = 'img\knime2.png'><br/>
Para atender as nossas necessidades vamos construir desta forma.<br/>
<img src = 'img\knime3.png'><br/>

3 - Utilizar esses dados para as nossas análises <br/>

Instalando as bibliotecas

In [1]:
import pandas as pd
import pandas.io.sql as sqlio
import psycopg2 as ps

In [4]:
conn = ps.connect(dbname = 'ANP',
                    user ='postgres',
                    password = 'cami1510',
                    host = 'localhost',
                    port = '5432' )

# Usa a biblioteca `psycopg2` para estabelecer uma conexão com o BD PostegreSQL.
# dbname = 'ANP': espeifica o nome do banco de dados que será conectado
# user = 'postegres': nome do usuário usado para autenticação no BD.
# password = 'cami1510': senha do usuário.
# host = 'localhost': nome do host onde o servidor de banco de dados está sendo executado.
# port = '5432': número da porta onde o servidor de banco de dados está escutando.

# o resultado da chamada `ps.connect()`, é uma conexão ao banco de dados, que é armazenada na variável `conn`. Esta conexão pode ser usada para executar consultas  SQL e interagir com o banco de dados.

In [5]:
sql = """
SELECT * FROM anp.preco_combustivel
"""

# Instrução SQL que está sendo armazenada em uma variável Python chamada `sql`. Esta instrução SQL é uma consulta que seleciona todas as linhas e colunas da tabela `anp.preco_combustivel`.

In [7]:
df = sqlio.read_sql_query(sql, conn)

# Utiliza biblioteca pandas em conjunto com psycopg2 para executar uma consulta SQL em um banco de dados do PostgreSQL e carrega o resultado diretamente em um DataFrame Pandas:

# df: é a variável onde o DataFrame resultante da consulta será armazenado
# sqlio.read_sql_query(): função parte do módulo pandas.io.sql que executa a consulta SQL fornecida no primeiro argumento (sql) usando a conexão ao banco de dados especificada no segundo argumento (conn).

# O resultado da execução da consulta SQL é automaticamente convertido em um DataFrame Pandas, permitindo manipulação de dados fácil e eficiente em Python.

  df = sqlio.read_sql_query(sql, conn)


In [8]:
df.head()

Unnamed: 0,regiao,estado,municipio,revenda,cnpj,nome_rua,numero_rua,complemento,bairro,cep,produto,data_coleta,valor_venda,unidade_medida,bandeira
0,SE,SP,GUARULHOS,AUTO POSTO SAKAMOTO LTDA,49.051.667/0001-02,RODOVIA PRESIDENTE DUTRA,S/N,"KM 210,5-SENT SP/RJ",BONSUCESSO,07178-580,GASOLINA,2019-01-03,4.199,R$ / litro,PETROBRAS DISTRIBUIDORA S.A.
1,SE,SP,GUARULHOS,AUTO POSTO SAKAMOTO LTDA,49.051.667/0001-02,RODOVIA PRESIDENTE DUTRA,S/N,"KM 210,5-SENT SP/RJ",BONSUCESSO,07178-580,ETANOL,2019-01-03,2.899,R$ / litro,PETROBRAS DISTRIBUIDORA S.A.
2,SE,SP,GUARULHOS,AUTO POSTO SAKAMOTO LTDA,49.051.667/0001-02,RODOVIA PRESIDENTE DUTRA,S/N,"KM 210,5-SENT SP/RJ",BONSUCESSO,07178-580,DIESEL S10,2019-01-03,3.349,R$ / litro,PETROBRAS DISTRIBUIDORA S.A.
3,SE,SP,GUARULHOS,AUTO POSTO SAKAMOTO LTDA,49.051.667/0001-02,RODOVIA PRESIDENTE DUTRA,S/N,"KM 210,5-SENT SP/RJ",BONSUCESSO,07178-580,GNV,2019-01-03,2.439,R$ / m³,PETROBRAS DISTRIBUIDORA S.A.
4,S,RS,CANOAS,METROPOLITANO COMERCIO DE COMBUSTIVEIS LTDA,88.587.589/0001-17,AVENIDA GUILHERME SCHELL,6340,,CENTRO,92310-000,GASOLINA,2019-01-02,4.399,R$ / litro,BRANCA


In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4401370 entries, 0 to 4401369
Data columns (total 15 columns):
 #   Column          Dtype  
---  ------          -----  
 0   regiao          object 
 1   estado          object 
 2   municipio       object 
 3   revenda         object 
 4   cnpj            object 
 5   nome_rua        object 
 6   numero_rua      object 
 7   complemento     object 
 8   bairro          object 
 9   cep             object 
 10  produto         object 
 11  data_coleta     object 
 12  valor_venda     float64
 13  unidade_medida  object 
 14  bandeira        object 
dtypes: float64(1), object(14)
memory usage: 503.7+ MB


In [None]:
df.shape

(4401370, 15)