# ETL ANP PREÇO MÉDIOS DE COMBUSTIVEIS

[FONTE DOS DADOS ANP](https://www.gov.br/anp/pt-br/assuntos/precos-e-defesa-da-concorrencia/precos/levantamento-de-precos-de-combustiveis-ultimas-semanas-pesquisadas)

### Import libs

In [386]:
import pandas as pd
import requests as re
import sqlite3

import seaborn as sns
import matplotlib.pyplot as plt
from ipywidgets import interact, widget

## Get RAW DATA

In [387]:
# 30/09/2023
#response  = re.get('https://www.gov.br/anp/pt-br/assuntos/precos-e-defesa-da-concorrencia/precos/arquivos-lpc/2023/resumo_semanal_lpc_2023-09-24_2023-09-30.xlsx')

# 17/09/2023
#response  = re.get('https://www.gov.br/anp/pt-br/assuntos/precos-e-defesa-da-concorrencia/precos/arquivos-lpc/2023/resumo_semanal_lpc_2023-09-17_2023-09-23.xlsx')

# 10/09/2023
#response  = re.get('https://www.gov.br/anp/pt-br/assuntos/precos-e-defesa-da-concorrencia/precos/arquivos-lpc/2023/resumo_semanal_lpc_2023-09-10_2023-09-16.xlsx')

# 03/09/2023
response  = re.get('https://www.gov.br/anp/pt-br/assuntos/precos-e-defesa-da-concorrencia/precos/arquivos-lpc/2023/resumo_semanal_lpc_2023-09-03_2023-09-09.xlsx')

In [388]:
if response.status_code == 200:
    print('Dados obtidos da API com sucesso')
else:
    print('Falha na obtenção dos dados')

Dados obtidos da API com sucesso


In [389]:
# Write xlsx file from API
output = open('test.xls', 'wb')
output.write(response.content)
output.close()

# Read xlsx file in Pandas DataFrame 
df = pd.read_excel('test.xls',header=None)

# Set name columns
df.columns = df.iloc[9]

# Drop null values from xlsx raw
df = df[10:]

# Reset index
df.reset_index(drop=True, inplace=True)

In [390]:
# Show rawdata
df.head()

9,DATA INICIAL,DATA FINAL,ESTADO,MUNICÍPIO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,PREÇO MÍNIMO REVENDA,PREÇO MÁXIMO REVENDA,COEF DE VARIAÇÃO REVENDA
0,2023-09-03 00:00:00,2023-09-09 00:00:00,SERGIPE,ARACAJU,ETANOL HIDRATADO,17,R$/l,4.81,0.101297,4.57,4.89,0.021
1,2023-09-03 00:00:00,2023-09-09 00:00:00,PARA,BELEM,ETANOL HIDRATADO,7,R$/l,4.61,0.313072,4.29,5.19,0.068
2,2023-09-03 00:00:00,2023-09-09 00:00:00,MINAS GERAIS,BELO HORIZONTE,ETANOL HIDRATADO,39,R$/l,3.5,0.114659,3.27,3.79,0.033
3,2023-09-03 00:00:00,2023-09-09 00:00:00,RORAIMA,BOA VISTA,ETANOL HIDRATADO,3,R$/l,4.96,0.161658,4.87,5.15,0.033
4,2023-09-03 00:00:00,2023-09-09 00:00:00,DISTRITO FEDERAL,BRASILIA,ETANOL HIDRATADO,43,R$/l,3.81,0.133084,3.58,4.19,0.035


## Combustiveis

In [391]:
# Create combustivel dataframe
combustivel = pd.DataFrame(df['PRODUTO'].unique())

# Add id for dataframe 
combustivel['id_combustivel'] = range(1, len(combustivel)+1)

# Rename columns
combustivel.rename({0: 'PRODUTO'}, axis = 1, inplace=True)

In [392]:
combustivel

Unnamed: 0,PRODUTO,id_combustivel
0,ETANOL HIDRATADO,1
1,GASOLINA ADITIVADA,2
2,GASOLINA COMUM,3
3,GLP,4
4,GNV,5
5,OLEO DIESEL,6
6,OLEO DIESEL S10,7


## Estados

In [393]:
# Create estado dataframe
estados = pd.DataFrame(df.ESTADO.unique())

# Add id for dataframe
estados['id_estado'] = range(1, len(estados)+1)

# Rename columns 
estados.rename({0: 'ESTADO'}, axis = 1, inplace=True)

In [394]:
estados

Unnamed: 0,ESTADO,id_estado
0,SERGIPE,1
1,PARA,2
2,MINAS GERAIS,3
3,RORAIMA,4
4,DISTRITO FEDERAL,5
5,MATO GROSSO DO SUL,6
6,MATO GROSSO,7
7,PARANA,8
8,SANTA CATARINA,9
9,CEARA,10


## Municípios

In [395]:
# Create municipio dataframe
municipio = df[['MUNICÍPIO' , 'ESTADO']].drop_duplicates()

# Add id for dataframe
municipio['id_municipio'] = range(1, len(municipio) +1)


In [396]:
# Relacionando 
municipio = municipio.merge(estados, on = 'ESTADO', how = 'left')\
                     .drop('ESTADO', axis = 1)

In [397]:
municipio

Unnamed: 0,MUNICÍPIO,id_municipio,id_estado
0,ARACAJU,1,1
1,BELEM,2,2
2,BELO HORIZONTE,3,3
3,BOA VISTA,4,4
4,BRASILIA,5,5
5,CAMPO GRANDE,6,6
6,CUIABA,7,7
7,CURITIBA,8,8
8,FLORIANOPOLIS,9,9
9,FORTALEZA,10,10


## Unidade de medida

In [398]:
# Create unidade dataframe
unidade = pd.DataFrame(df["UNIDADE DE MEDIDA"].unique())

# Add id for dataframe
unidade['id_unidade'] = range(1, len(unidade) + 1)

# Rename columns
unidade.rename({0: 'UNIDADE DE MEDIDA'}, axis = 1, inplace = True)



## Relacionando tabelas

In [399]:
df2 = df.merge(unidade, on = 'UNIDADE DE MEDIDA', how = 'left')\
        .merge(municipio.drop('id_estado', axis = 1), on = 'MUNICÍPIO', how = 'left')\
        .merge(estados, on = 'ESTADO', how = 'left')\
        .merge(combustivel, on = 'PRODUTO', how = 'left')

In [400]:
df2 = df2.drop(['ESTADO','MUNICÍPIO','PRODUTO','UNIDADE DE MEDIDA'], axis=1)

In [401]:
df2['id_preco'] = range(1, len(df2) +1)

In [402]:
df2

Unnamed: 0,DATA INICIAL,DATA FINAL,NÚMERO DE POSTOS PESQUISADOS,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,PREÇO MÍNIMO REVENDA,PREÇO MÁXIMO REVENDA,COEF DE VARIAÇÃO REVENDA,id_unidade,id_municipio,id_estado,id_combustivel,id_preco
0,2023-09-03 00:00:00,2023-09-09 00:00:00,17,4.81,0.101297,4.57,4.89,0.021,1,1,1,1,1
1,2023-09-03 00:00:00,2023-09-09 00:00:00,7,4.61,0.313072,4.29,5.19,0.068,1,2,2,1,2
2,2023-09-03 00:00:00,2023-09-09 00:00:00,39,3.5,0.114659,3.27,3.79,0.033,1,3,3,1,3
3,2023-09-03 00:00:00,2023-09-09 00:00:00,3,4.96,0.161658,4.87,5.15,0.033,1,4,4,1,4
4,2023-09-03 00:00:00,2023-09-09 00:00:00,43,3.81,0.133084,3.58,4.19,0.035,1,5,5,1,5
...,...,...,...,...,...,...,...,...,...,...,...,...,...
166,2023-09-03 00:00:00,2023-09-09 00:00:00,20,6.07,0.224511,5.82,6.47,0.037,1,23,23,7,167
167,2023-09-03 00:00:00,2023-09-09 00:00:00,20,6.17,0.282286,5.92,7.29,0.046,1,24,24,7,168
168,2023-09-03 00:00:00,2023-09-09 00:00:00,116,6.12,0.452294,5.49,8.49,0.074,1,25,25,7,169
169,2023-09-03 00:00:00,2023-09-09 00:00:00,19,6.31,0.147923,5.99,6.49,0.023,1,26,26,7,170


# Modeling database

### Rename cols

In [403]:
df2 = df2.rename({
            'DATA INICIAL':'data_inicial',
            'DATA FINAL':'data_final',
            'NÚMERO DE POSTOS PESQUISADOS':'num_postos',
            'PREÇO MÉDIO REVENDA' : 'preco_medio',
            'DESVIO PADRÃO REVENDA': 'preco_std',
            'PREÇO MÍNIMO REVENDA' : 'preco_min',
            'PREÇO MÁXIMO REVENDA' : 'preco_max',
            'COEF DE VARIAÇÃO REVENDA' : 'preco_var'   
                }, axis = 1)

In [404]:
estados.rename({"ESTADO" : 'estado'}, axis = 1, inplace= True)

municipio.rename({'MUNICÍPIO' : 'municipio'}, axis = 1, inplace = True)

combustivel.rename({'PRODUTO' : 'combustivel'}, axis = 1, inplace=True)

unidade.rename({'UNIDADE DE MEDIDA' : 'unidade' }, axis = 1, inplace= True)

### Criate Database

In [405]:
conn = sqlite3.connect('combustiveis.db')
cursor = conn.cursor()

### CRIATE TABLES

In [406]:
# CRIANDO A TABELA ESTADO
cursor.execute('''
    CREATE TABLE IF NOT EXISTS estados (
               id_estado INTEGER NOT NULL PRIMARY KEY,
               estado VARCHAR(27)
    )
''')


# CRIANDO A TABELA MUNICIPIOS
cursor.execute('''
    CREATE TABLE IF NOT EXISTS municipios (
               id_municipio INT NOT NULL PRIMARY KEY,
               municipio VARCHAR(35),
               id_estado INT REFERENCES estados(id_estado)
    )
''')

# CRIANDO A TABELA COMBUSTIVEIS
cursor.execute('''
    CREATE TABLE IF NOT EXISTS combustiveis (
               id_combustivel INT NOT NULL PRIMARY KEY,
               combustivel VARCHAR(35)
    )
''')


# CRIANDO A TABELA UNIDADE_medida
cursor.execute('''
    CREATE TABLE IF NOT EXISTS unidade_medida (
               id_unidade INT NOT NULL PRIMARY KEY,
               unidade VARCHAR(35)
    )
''')

# CRIANDO A TABELA PREÇOS MÉDIOS
cursor.execute('''
    CREATE TABLE IF NOT EXISTS precos_medios (
               id_preco INT PRIMARY KEY,
               data_inicial DATE NOT NULL,
               data_final DATE NOT NULL,
               num_postos INT,
               preco_medio NUMERIC(10,2),
               preco_std NUMERIC(2,8),
               preco_min NUMERIC(10,2),
               preco_max NUMERIC(10,2),
               preco_var NUMERIC(2,8),
               id_unidade INT REFERENCES unidade_medida(id_unidade),
               id_municipio INT REFERENCES municipios(id_municipio), 
               id_estado INT REFERENCES estados(id_estado), 
               id_combustivel INT REFERENCES combustiveis(id_combustivel),
               PRIMARY KEY(id_preco)     
    )
''')

# Commit (salvar) as alterações no banco de dados
conn.commit()

### INGESTÃO DE DADOS

In [407]:
df2.to_sql('precos_medios', conn, if_exists = 'append', index=False)

171

In [408]:
estados.to_sql('estados', conn, if_exists = 'replace', index=False)

municipio.to_sql('municipios', conn, if_exists = 'replace', index=False)

combustivel.to_sql('combustiveis', conn, if_exists = 'replace', index=False)

unidade.to_sql('unidade_medida', conn, if_exists = 'replace', index=False)

3

In [438]:
# Consulta SQL para carregar os dados da tabela concursos
query = '''
    SELECT data_inicial,preco_medio, combustivel, municipio, estado, unidade FROM precos_medios AS precos
    JOIN combustiveis as combustiveis ON precos.id_combustivel = combustiveis.id_combustivel
    JOIN estados as estados on precos.id_estado = estados.id_estado
    JOIN municipios as municipios on precos.id_municipio = municipios.id_municipio
    JOIN unidade_medida as unidade on precos.id_unidade = unidade.id_unidade;
'''

# Carregar os dados da tabela concursos em um DataFrame
sql_query = pd.read_sql_query(query, conn)
sql_query

Unnamed: 0,data_inicial,preco_medio,combustivel,municipio,estado,unidade
0,2023-09-17 00:00:00,4.73,ETANOL HIDRATADO,ARACAJU,SERGIPE,R$/l
1,2023-09-17 00:00:00,4.46,ETANOL HIDRATADO,BELEM,PARA,R$/l
2,2023-09-17 00:00:00,3.49,ETANOL HIDRATADO,BELO HORIZONTE,MINAS GERAIS,R$/l
3,2023-09-17 00:00:00,4.96,ETANOL HIDRATADO,BOA VISTA,RORAIMA,R$/l
4,2023-09-17 00:00:00,3.79,ETANOL HIDRATADO,BRASILIA,DISTRITO FEDERAL,R$/l
...,...,...,...,...,...,...
670,2023-09-03 00:00:00,6.07,OLEO DIESEL S10,SALVADOR,BAHIA,R$/l
671,2023-09-03 00:00:00,6.17,OLEO DIESEL S10,SAO LUIS,MARANHAO,R$/l
672,2023-09-03 00:00:00,6.12,OLEO DIESEL S10,SAO PAULO,SAO PAULO,R$/l
673,2023-09-03 00:00:00,6.31,OLEO DIESEL S10,TERESINA,PIAUI,R$/l


## Data viz

In [439]:
dadoss = sql_query[sql_query['combustivel'] == 'OLEO DIESEL'].groupby(['estado','data_inicial'])[['preco_medio']].min().reset_index()

In [None]:
@interact(estados = list(dadoss.estado.unique()))
def plot_line(estados):
    
    plt.figure(figsize=(8,6))
    ax = sns.lineplot(data = dadoss[dadoss['estado'] == estados],
             x = 'data_inicial',
             y =  'preco_medio',
             hue = 'estado')
