In [16]:
import pandas as pd
from os import path
from IPython.display import display

In [17]:
gas_df = pd.read_csv(
    path.join('Arquivos', 'importacao-gas-natural-2000-2022.csv'),
    sep=';',
    usecols=['ANO','MÊS','PRODUTO','IMPORTADO','DISPÊNDIO'],
    dtype={'ANO':int, 'IMPORTADO':float, 'DISPÊNDIO':float},
    decimal=',',)
gas_df.replace({'GÁS NATURAL': 'GNV'}, inplace=True)
gas_df['IMPORTADO'] *= 1000 # 1000m3 para m3

gas_df

Unnamed: 0,ANO,MÊS,PRODUTO,IMPORTADO,DISPÊNDIO
0,2000,ABR,GNV,1.312168e+08,9.577647e+06
1,2000,AGO,GNV,2.390547e+08,1.937640e+07
2,2000,DEZ,GNV,2.525287e+08,2.166046e+07
3,2000,FEV,GNV,1.187054e+08,9.460135e+06
4,2000,JAN,GNV,1.019424e+08,8.888168e+06
...,...,...,...,...,...
263,2021,SET,GNV,1.759775e+09,7.251836e+08
264,2022,ABR,GNV,5.332778e+08,1.687910e+08
265,2022,FEV,GNV,1.118872e+09,6.068984e+08
266,2022,JAN,GNV,1.375833e+09,9.601502e+08


In [18]:
derivados_df = pd.read_csv(
    path.join('Arquivos', 'importacoes-exportacoes-derivados-2000-2022.csv'), 
    sep=';',
    usecols=['ANO','MÊS','PRODUTO','OPERAÇÃO COMERCIAL','IMPORTADO / EXPORTADO','DISPÊNDIO / RECEITA'],
    dtype={'ANO':int, 'IMPORTADO': float, 'DISPÊNDIO': float}, 
    decimal=',',)
derivados_df.drop(derivados_df[derivados_df['OPERAÇÃO COMERCIAL'] == 'EXPORTAÇÃO'].index, inplace=True)
derivados_df.drop('OPERAÇÃO COMERCIAL', axis=1, inplace=True)
derivados_df.rename(columns={'IMPORTADO / EXPORTADO': 'IMPORTADO', 'DISPÊNDIO / RECEITA' : 'DISPÊNDIO'}, inplace=True)
derivados_df.drop(derivados_df[~derivados_df['PRODUTO'].isin(['GASOLINA A', 'ÓLEO DIESEL'])].index, inplace=True)
derivados_df['IMPORTADO'] *= 1000 # m3 para L

derivados_df

Unnamed: 0,ANO,MÊS,PRODUTO,IMPORTADO,DISPÊNDIO
84,2000,ABR,GASOLINA A,4.142247e+07,9291315
85,2000,AGO,GASOLINA A,9.220833e+03,11071
86,2000,DEZ,GASOLINA A,1.388889e+00,621
87,2000,FEV,GASOLINA A,0.000000e+00,0
88,2000,JAN,GASOLINA A,4.222222e+03,7418
...,...,...,...,...,...
7936,2022,MAR,GASOLINA A,1.620042e+08,108449938
8021,2022,ABR,ÓLEO DIESEL,1.557087e+09,1426975922
8022,2022,FEV,ÓLEO DIESEL,5.620350e+08,342948252
8023,2022,JAN,ÓLEO DIESEL,1.395099e+09,807009263


In [19]:
etanol_df = pd.read_csv(
    path.join('Arquivos', 'importacoes-exportacoes-etanol-2012-2022.csv'), 
    sep=';',
    usecols=['ANO','MÊS','PRODUTO','OPERAÇÃO COMERCIAL','IMPORTADO / EXPORTADO','DISPÊNDIO / RECEITA'],
    dtype={'ANO':int, 'IMPORTADO': float, 'DISPÊNDIO': float}, 
    decimal=',',)
etanol_df.drop(etanol_df[etanol_df['OPERAÇÃO COMERCIAL'] == 'EXPORTAÇÃO'].index, inplace=True)
etanol_df.drop('OPERAÇÃO COMERCIAL', axis=1, inplace=True)
etanol_df.rename(columns={'IMPORTADO / EXPORTADO': 'IMPORTADO', 'DISPÊNDIO / RECEITA' : 'DISPÊNDIO'}, inplace=True)
etanol_df.drop(etanol_df[etanol_df['PRODUTO'] != 'ETANOL HIDRATADO'].index, inplace=True)
etanol_df['IMPORTADO'] *= 1000 # m3 para L

etanol_df

Unnamed: 0,ANO,MÊS,PRODUTO,IMPORTADO,DISPÊNDIO
36,2012,ABR,ETANOL HIDRATADO,64435.0,179240
37,2012,AGO,ETANOL HIDRATADO,70626.0,167042
38,2012,DEZ,ETANOL HIDRATADO,24168.0,27691
39,2012,FEV,ETANOL HIDRATADO,19964.0,51772
40,2012,JAN,ETANOL HIDRATADO,86727.0,261499
...,...,...,...,...,...
479,2021,SET,ETANOL HIDRATADO,3721.0,10799
492,2022,ABR,ETANOL HIDRATADO,528.0,2650
493,2022,FEV,ETANOL HIDRATADO,771.0,4691
494,2022,JAN,ETANOL HIDRATADO,266234.0,65581


In [20]:
importacao_df = pd.concat([gas_df, derivados_df, etanol_df])
importacao_df.replace({'JAN': 1, 'FEV': 2, 'MAR': 3, 'ABR': 4, 'MAI': 5, 'JUN': 6, 'JUL': 7, 'AGO': 8, 'SET': 9, 'OUT': 10, 'NOV': 11, 'DEZ': 12}, inplace=True)
importacao_df['MÊS'] = importacao_df['MÊS'].astype(int)
importacao_df.sort_values(by=['ANO', 'MÊS'], inplace=True)
importacao_df.reset_index(drop=True, inplace=True)

display(importacao_df['PRODUTO'].unique())
display(importacao_df.info())
importacao_df

array(['GNV', 'GASOLINA A', 'ÓLEO DIESEL', 'ETANOL HIDRATADO'],
      dtype=object)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 926 entries, 0 to 925
Data columns (total 5 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   ANO        926 non-null    int64  
 1   MÊS        926 non-null    int64  
 2   PRODUTO    926 non-null    object 
 3   IMPORTADO  926 non-null    float64
 4   DISPÊNDIO  926 non-null    float64
dtypes: float64(2), int64(2), object(1)
memory usage: 36.3+ KB


None

Unnamed: 0,ANO,MÊS,PRODUTO,IMPORTADO,DISPÊNDIO
0,2000,1,GNV,1.019424e+08,8.888168e+06
1,2000,1,GASOLINA A,4.222222e+03,7.418000e+03
2,2000,1,ÓLEO DIESEL,2.551474e+08,4.307232e+07
3,2000,2,GNV,1.187054e+08,9.460135e+06
4,2000,2,GASOLINA A,0.000000e+00,0.000000e+00
...,...,...,...,...,...
921,2022,3,ETANOL HIDRATADO,2.732000e+03,2.926900e+04
922,2022,4,GNV,5.332778e+08,1.687910e+08
923,2022,4,GASOLINA A,1.359280e+08,9.995725e+07
924,2022,4,ÓLEO DIESEL,1.557087e+09,1.426976e+09


In [21]:
unidade_medida_df = pd.DataFrame.from_dict({'PRODUTO':['GNV', 'GASOLINA A', 'ÓLEO DIESEL', 'ETANOL HIDRATADO'], 'UNID. MEDIDA':['m3', 'L', 'L', 'L']})
unidade_medida_df

Unnamed: 0,PRODUTO,UNID. MEDIDA
0,GNV,m3
1,GASOLINA A,L
2,ÓLEO DIESEL,L
3,ETANOL HIDRATADO,L


In [22]:
cotacao_df = pd.read_csv(
    path.join('Arquivos', 'USD_BRL Historical Data.csv'),
    usecols=['Date', 'Price'],
    dtype={'Price':float},
    parse_dates=['Date'],)
cotacao_df[['MÊS', 'ANO']] = cotacao_df['Date'].str.split(expand=True)
cotacao_df.rename({'Price':'PREÇO'}, axis=1, inplace=True)
cotacao_df = cotacao_df[['ANO', 'MÊS', 'PREÇO']]
cotacao_df['ANO'] = '20'+cotacao_df['ANO']
cotacao_df['ANO'] = cotacao_df['ANO'].astype(int)
cotacao_df.replace({'Jan': 1, 'Feb': 2, 'Mar': 3, 'Apr': 4, 'May': 5, 'Jun': 6, 'Jul': 7, 'Aug': 8, 'Sep': 9, 'Oct': 10, 'Nov': 11, 'Dec': 12}, inplace=True)
cotacao_df['MÊS'] = cotacao_df['MÊS'].astype(int)

cotacao_df

Unnamed: 0,ANO,MÊS,PREÇO
0,2021,12,5.5713
1,2021,11,5.6244
2,2021,10,5.6388
3,2021,9,5.4433
4,2021,8,5.1508
...,...,...,...
211,2004,5,3.1890
212,2004,4,2.9310
213,2004,3,2.8960
214,2004,2,2.9060


In [23]:
df = pd.merge(importacao_df, cotacao_df, how='inner', on=['ANO', 'MÊS'])
df['DISPÊNDIO'] *= df['PREÇO'] # Ajuste para o preço do dólar
df.drop('PREÇO', axis=1, inplace=True)
df['R$/UNIDADE'] = df['DISPÊNDIO'] / df['IMPORTADO']

df

Unnamed: 0,ANO,MÊS,PRODUTO,IMPORTADO,DISPÊNDIO,R$/UNIDADE
0,2004,1,GNV,5.551847e+08,1.594206e+08,0.287149
1,2004,1,GASOLINA A,1.706469e+07,1.119166e+07,0.655837
2,2004,1,ÓLEO DIESEL,1.933203e+08,1.238996e+08,0.640903
3,2004,2,GNV,5.978186e+08,1.690714e+08,0.282814
4,2004,2,GASOLINA A,4.049686e+06,2.478153e+06,0.611937
...,...,...,...,...,...,...
761,2021,11,ETANOL HIDRATADO,1.254050e+05,2.158757e+05,1.721428
762,2021,12,GNV,1.361495e+09,5.492950e+09,4.034500
763,2021,12,GASOLINA A,1.397221e+08,4.359043e+08,3.119795
764,2021,12,ÓLEO DIESEL,1.150303e+09,3.729896e+09,3.242534


In [24]:
precos_df = pd.read_csv(
    path.join('Arquivos', 'preços-combustiveis-2004-2021.tsv'), 
    sep='\t', 
    usecols=['DATA INICIAL','REGIÃO','ESTADO','PRODUTO','PREÇO MÉDIO REVENDA','DESVIO PADRÃO REVENDA','PREÇO MÍNIMO REVENDA','PREÇO MÁXIMO REVENDA','MARGEM MÉDIA REVENDA','COEF DE VARIAÇÃO REVENDA','PREÇO MÉDIO DISTRIBUIÇÃO','DESVIO PADRÃO DISTRIBUIÇÃO','PREÇO MÍNIMO DISTRIBUIÇÃO','PREÇO MÁXIMO DISTRIBUIÇÃO','COEF DE VARIAÇÃO DISTRIBUIÇÃO'],
    #dtype={'PREÇO MÉDIO REVENDA':float,'DESVIO PADRÃO REVENDA':float,'PREÇO MÍNIMO REVENDA':float,'PREÇO MÁXIMO REVENDA':float,'MARGEM MÉDIA REVENDA':float,'COEF DE VARIAÇÃO REVENDA':float,'PREÇO MÉDIO DISTRIBUIÇÃO':float,'DESVIO PADRÃO DISTRIBUIÇÃO':float,'PREÇO MÍNIMO DISTRIBUIÇÃO':float,'PREÇO MÁXIMO DISTRIBUIÇÃO':float,'COEF DE VARIAÇÃO DISTRIBUIÇÃO':float},
    parse_dates=['DATA INICIAL'],
    na_values='-99999.0',)
precos_df.replace(regex={'OLEO': 'ÓLEO', 'ADITIVADA': 'A'}, inplace=True)
precos_df.drop(precos_df[precos_df['PRODUTO'] == 'GLP'].index, inplace=True)
precos_df['ANO'] = pd.DatetimeIndex(precos_df['DATA INICIAL']).year
precos_df['MÊS'] = pd.DatetimeIndex(precos_df['DATA INICIAL']).month
#precos_df['DIA'] = pd.DatetimeIndex(precos_df['DATA INICIAL']).day
cols = precos_df.columns.to_list()
cols = cols[-3:] + cols[3:5] + cols[6:-8]
precos_df = precos_df[cols]
precos_df.replace({'R$/l': 'R$/L'}, inplace=True)

display(precos_df['PRODUTO'].unique())
precos_df

array(['ETANOL HIDRATADO', 'GASOLINA COMUM', 'GNV', 'ÓLEO DIESEL',
       'ÓLEO DIESEL S10', 'GASOLINA A'], dtype=object)

Unnamed: 0,COEF DE VARIAÇÃO DISTRIBUIÇÃO,ANO,MÊS,PRODUTO,PREÇO MÉDIO REVENDA,PREÇO MÍNIMO REVENDA,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA
0,0.133,2004,5,ETANOL HIDRATADO,1.288,1.190,1.350,0.463
1,0.115,2004,5,ETANOL HIDRATADO,1.162,0.890,1.449,0.399
2,0.098,2004,5,ETANOL HIDRATADO,1.389,1.180,1.760,0.419
3,0.143,2004,5,ETANOL HIDRATADO,1.262,1.090,1.509,0.432
4,0.082,2004,5,ETANOL HIDRATADO,1.181,1.050,1.400,0.24
...,...,...,...,...,...,...,...,...
120818,,2021,4,ÓLEO DIESEL S10,4.582,4.510,4.690,
120819,,2021,4,ÓLEO DIESEL S10,4.141,3.838,4.739,
120820,,2021,4,ÓLEO DIESEL S10,4.246,3.769,5.199,
120821,,2021,4,ÓLEO DIESEL S10,4.464,4.190,4.699,


In [25]:
from data_generator import generate_year_month_map,map_year_month, hash

#function to delete columns
def delete_column_from_dataframe(dataframe, column):
    del dataframe[column]
    return dataframe

# function to get the date pk
def transform_dates(dataframe):
    ano_mes = zip(dataframe['ANO'],dataframe['MÊS'])
    new_column = list(map(map_year_month,ano_mes))
    dataframe = dataframe.assign(datapk=new_column)
    dataframe = delete_column_from_dataframe(dataframe,'ANO')
    dataframe = delete_column_from_dataframe(dataframe,'MÊS')
    return dataframe

generate_year_month_map()


In [26]:
#we get the datapk for the prices table

precos_df = transform_dates(precos_df)
precos_df

Unnamed: 0,COEF DE VARIAÇÃO DISTRIBUIÇÃO,PRODUTO,PREÇO MÉDIO REVENDA,PREÇO MÍNIMO REVENDA,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,datapk
0,0.133,ETANOL HIDRATADO,1.288,1.190,1.350,0.463,53
1,0.115,ETANOL HIDRATADO,1.162,0.890,1.449,0.399,53
2,0.098,ETANOL HIDRATADO,1.389,1.180,1.760,0.419,53
3,0.143,ETANOL HIDRATADO,1.262,1.090,1.509,0.432,53
4,0.082,ETANOL HIDRATADO,1.181,1.050,1.400,0.24,53
...,...,...,...,...,...,...,...
120818,,ÓLEO DIESEL S10,4.582,4.510,4.690,,256
120819,,ÓLEO DIESEL S10,4.141,3.838,4.739,,256
120820,,ÓLEO DIESEL S10,4.246,3.769,5.199,,256
120821,,ÓLEO DIESEL S10,4.464,4.190,4.699,,256


In [27]:
#we get the datapk for the imports table
df = transform_dates(df)
df

Unnamed: 0,PRODUTO,IMPORTADO,DISPÊNDIO,R$/UNIDADE,datapk
0,GNV,5.551847e+08,1.594206e+08,0.287149,49
1,GASOLINA A,1.706469e+07,1.119166e+07,0.655837,49
2,ÓLEO DIESEL,1.933203e+08,1.238996e+08,0.640903,49
3,GNV,5.978186e+08,1.690714e+08,0.282814,50
4,GASOLINA A,4.049686e+06,2.478153e+06,0.611937,50
...,...,...,...,...,...
761,ETANOL HIDRATADO,1.254050e+05,2.158757e+05,1.721428,263
762,GNV,1.361495e+09,5.492950e+09,4.034500,264
763,GASOLINA A,1.397221e+08,4.359043e+08,3.119795,264
764,ÓLEO DIESEL,1.150303e+09,3.729896e+09,3.242534,264


In [28]:
#we get the products table
products = set(list(df['PRODUTO'].unique())+list(precos_df['PRODUTO'].unique()))

products_list = list(enumerate(products,start=1))

produto_df = pd.DataFrame(products_list, columns =['produtopk', 'name'])
producto_hash = dict(products_list)
producto_hash = dict(zip(producto_hash.values(), producto_hash.keys()))

print(producto_hash)
produto_df

{'ÓLEO DIESEL S10': 1, 'GASOLINA COMUM': 2, 'ETANOL HIDRATADO': 3, 'ÓLEO DIESEL': 4, 'GASOLINA A': 5, 'GNV': 6}


Unnamed: 0,produtopk,name
0,1,ÓLEO DIESEL S10
1,2,GASOLINA COMUM
2,3,ETANOL HIDRATADO
3,4,ÓLEO DIESEL
4,5,GASOLINA A
5,6,GNV


In [29]:
# function to map produtopk to tables
def transform_produto(dataframe):
    ano_mes = dataframe['PRODUTO']
    new_column = list(map(lambda x: producto_hash[x],ano_mes))
    dataframe = dataframe.assign(produtopk=new_column)
    dataframe = delete_column_from_dataframe(dataframe,'PRODUTO')
    return dataframe

In [30]:
#we get the produtopk for the prices table

precos_df = transform_produto(precos_df)
precos_df

Unnamed: 0,COEF DE VARIAÇÃO DISTRIBUIÇÃO,PREÇO MÉDIO REVENDA,PREÇO MÍNIMO REVENDA,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,datapk,produtopk
0,0.133,1.288,1.190,1.350,0.463,53,3
1,0.115,1.162,0.890,1.449,0.399,53,3
2,0.098,1.389,1.180,1.760,0.419,53,3
3,0.143,1.262,1.090,1.509,0.432,53,3
4,0.082,1.181,1.050,1.400,0.24,53,3
...,...,...,...,...,...,...,...
120818,,4.582,4.510,4.690,,256,1
120819,,4.141,3.838,4.739,,256,1
120820,,4.246,3.769,5.199,,256,1
120821,,4.464,4.190,4.699,,256,1


In [31]:
#we get the produtopk for the imports table

df = transform_produto(df)
df

Unnamed: 0,IMPORTADO,DISPÊNDIO,R$/UNIDADE,datapk,produtopk
0,5.551847e+08,1.594206e+08,0.287149,49,6
1,1.706469e+07,1.119166e+07,0.655837,49,5
2,1.933203e+08,1.238996e+08,0.640903,49,4
3,5.978186e+08,1.690714e+08,0.282814,50,6
4,4.049686e+06,2.478153e+06,0.611937,50,5
...,...,...,...,...,...
761,1.254050e+05,2.158757e+05,1.721428,263,3
762,1.361495e+09,5.492950e+09,4.034500,264,6
763,1.397221e+08,4.359043e+08,3.119795,264,5
764,1.150303e+09,3.729896e+09,3.242534,264,4
