In [1]:
import pandas as pd
import xlrd
import re
from datetime import datetime

In [2]:
def stack_dataframe(df, dim_cols, del_cols):
    """
    Função retorna lista de dataframes após processo de unpivot
    :Params:
    df: DataFrame original
    dim_cols: colunas de dimensão
    del_cols: colunas a serem desconsideradas
    """
    dfs = []
    month_mapper = {'Jan': '1',
                    'Fev': '2',
                    'Mar': '3',
                    'Abr': '4',
                    'Mai': '5',
                    'Jun': '6',
                    'Jul': '7',
                    'Ago': '8',
                    'Set': '9',
                    'Out': '10',
                    'Nov': '11',
                    'Dez': '12'}
    for col in [el for el in df.columns if el not in (dim_cols + del_cols)]:
        tmp_df = df[dim_cols[:] + [col]]
        tmp_df['volume'] = tmp_df[col]
        tmp_df['mes'] = tmp_df.apply(lambda row: f'{row["ANO"]}-{month_mapper[col]}', axis=1)
        del tmp_df[col]
        del tmp_df['ANO']
        dfs.append(tmp_df)
    return dfs

In [3]:
def get_unit(value, regex_exp=r'\(([^\)]+)\)', del_chars=['(', ')']):
    """
    Função retorna a unidade de medida do combustível via regex
    :Params:
    value: string do nome do combustível
    regex_exp: expressão regex para captura da medida, padrão é entre parenteses
    del_chars: lista de caracteres a serem retirados do valor de unidade
    """
    res = re.search(regex_exp, value)
    if res:
        unit = res[0]
        for char in del_chars:
            unit = unit.replace(char, '')
        return unit
    return None

## Stacking DataFrames
A célula abaixo parte das planilhas, realizando o processo de unpivot dos dois DataFrames e os concatena ao final

In [4]:
df_fuels = pd.read_excel('vendas-combustiveis-m3.xls', sheet_name=1)
df_diesel = pd.read_excel('vendas-combustiveis-m3.xls', sheet_name=2)

stacked_diesel_df = pd.concat(stack_dataframe(df_diesel, ['COMBUSTÍVEL', 'ANO', 'ESTADO', 'REGIÃO'], ['TOTAL']))
stacked_fuels_df = pd.concat(stack_dataframe(df_fuels, ['COMBUSTÍVEL', 'ANO', 'ESTADO', 'REGIÃO'], ['TOTAL']))

df = pd.concat([stacked_diesel_df, stacked_fuels_df])

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  tmp_df['volume'] = tmp_df[col]
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  tmp_df['mes'] = tmp_df.apply(lambda row: f'{row["ANO"]}-{month_mapper[col]}', axis=1)


## Shaping DataFrame
A célula abaixo formata os dados no padrão requisitados, realizando processos de:
* Renomeação de colunas
* Ajuste de tipo de dados
* Extração de features

In [5]:
df['unit'] = df.apply(lambda row: get_unit(row['COMBUSTÍVEL']), axis=1)
df['year_month'] = df.apply(lambda row: datetime.strptime(row['mes'], '%Y-%m'), axis=1)

agg_df = df.groupby(['year_month', 'ESTADO', 'COMBUSTÍVEL', 'unit']).sum('volume').reset_index()

agg_df = agg_df.rename(columns={'ESTADO': 'uf', 'COMBUSTÍVEL': 'product'})

agg_df['year'] = agg_df['year_month'].dt.year
agg_df['created_at'] = datetime.now()

## Integrity Check
A célula abaixo compara os valores de totais do combustíveis das planilhas originais com o valores no DataFrame resultante do processo de transformação

In [6]:
df_raw = pd.concat([df_diesel, df_fuels])
agg_raw_df = df_raw[['COMBUSTÍVEL', 'TOTAL']].groupby(['COMBUSTÍVEL']).sum('TOTAL')

check_df = agg_df[['product', 'volume']].groupby(['product']).sum('volume')
check_df = check_df.merge(agg_raw_df, left_index=True, right_index=True)
check_df

Unnamed: 0_level_0,volume,TOTAL
product,Unnamed: 1_level_1,Unnamed: 2_level_1
ETANOL HIDRATADO (m3),429887700.0,34061940.0
GASOLINA C (m3),1209812000.0,102249700.0
GASOLINA DE AVIAÇÃO (m3),2365254.0,189323.4
GLP (m3),482779700.0,42016620.0
QUEROSENE DE AVIAÇÃO (m3),221064700.0,16742940.0
QUEROSENE ILUMINANTE (m3),1986087.0,236080.2
ÓLEO COMBUSTÍVEL (m3),194220700.0,16304060.0
ÓLEO DIESEL (OUTROS ) (m3),392783.9,29319.39
ÓLEO DIESEL (m3),1829433000.0,155103700.0
ÓLEO DIESEL MARÍTIMO (m3),10569710.0,1041511.0


## Persisting Data
A célula abaixo persiste o DataFrame em formato Parquet, particionando sobre o produto e ano da informação

In [7]:
agg_df.to_parquet('anp-dataset', partition_cols=['product', 'year'])