In [124]:
import pandas as pd
import os
import numpy as np

In [None]:
# Caminhos padrões para os arquivos e pastas
caminho_raw = "../dados/raw"
caminho_processed = "../dados/processed"
caminho_gold = "../dados/gold"

In [None]:
# Visualização das colunas de dados 'float' para somente 2 casas decimais
pd.set_option('display.float_format', '{:,.2f}'.format)

In [None]:
# leitura dos dados do dre
df_dre = pd.read_parquet(os.path.join(caminho_raw,'dre_raw.parquet'))

# Renomeação das colunas para facilitar visualização e direcionamentos das melhores práticos python
colunas_renomeadas = {
    'Instituição': 'instituicao',
    'Código': 'codigo_bacen',
    'Conglomerado Prudencial': 'conglomerado',
    'TCB': 'tcb',
    'TC': 'tc',
    'TI': 'ti',
    'Cidade': 'cidade',
    'UF': 'uf',
    'Data': 'data_base',
    'Resultado de Intermediação Financeira': 'resultado_intermediacao',
    'Resultado com Transações de Pagamento': 'resultado_pagamentos',
    'Outras Receitas / Despesas': 'outras_receitas_despesas',
    'Resultado antes da Tributação e Participações (x) = (k) + (l) + (w)': 'resultado_antes_impostos', # LAIR
    'Imposto de Renda e Contribuição Social (y)': 'impostos_ir_csll',
    'Participações no Lucro (z)': 'participacoes_lucro',
    'Lucro Líquido (aa) = (x) + (y) + (z)': 'lucro_liquido'
}

df_dre = df_dre.rename(columns=colunas_renomeadas)

# Transformação dos tipos de dados (float, categoria, string, integer, date_time). Além de tranformar valores não informados (NI) para zero (0), para deixar no formato adequado.
colunas_para_float = [
    'resultado_intermediacao',
    'resultado_pagamentos',
    'outras_receitas_despesas',
    'impostos_ir_csll',
    'participacoes_lucro',
    'resultado_antes_impostos',
    'lucro_liquido'
]

cols_id = ['codigo_bacen', 'tc', 'ti']

cols_categoria = ['uf', 'tcb','conglomerado']

cols_str = ['instituicao','cidade']

for col in colunas_para_float:
    df_dre[col] = df_dre[col].astype(str).str.replace('.', '', regex=False)
    df_dre[col] = pd.to_numeric(df_dre[col], errors='coerce')

for col in cols_id:
    df_dre[col] = pd.to_numeric(df_dre[col], errors='coerce').astype('Int64')

for col in cols_categoria:
    df_dre[col] = df_dre[col].astype('category')

for col in cols_str:
    df_dre[col] = df_dre[col].astype('string')

df_dre['data_base'] = pd.to_datetime(df_dre['data_base'], format='%m/%Y', errors='coerce')

df_dre = df_dre.replace(['NI', 'Ni', 'ni'], np.nan)

# Salvar arquivo DRE transformado
df_dre.to_parquet(os.path.join(caminho_processed,"dre_processed.parquet"))

df_dre.info()
df_dre.head()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 17165 entries, 0 to 17164
Data columns (total 16 columns):
 #   Column                    Non-Null Count  Dtype         
---  ------                    --------------  -----         
 0   instituicao               17165 non-null  string        
 1   codigo_bacen              17165 non-null  Int64         
 2   conglomerado              8361 non-null   category      
 3   tcb                       17165 non-null  category      
 4   tc                        17165 non-null  Int64         
 5   ti                        17165 non-null  Int64         
 6   cidade                    17165 non-null  string        
 7   uf                        17165 non-null  category      
 8   data_base                 17165 non-null  datetime64[ns]
 9   resultado_intermediacao   15476 non-null  float64       
 10  resultado_pagamentos      17081 non-null  float64       
 11  outras_receitas_despesas  15476 non-null  float64       
 12  resultado_antes_im

Unnamed: 0,instituicao,codigo_bacen,conglomerado,tcb,tc,ti,cidade,uf,data_base,resultado_intermediacao,resultado_pagamentos,outras_receitas_despesas,resultado_antes_impostos,impostos_ir_csll,participacoes_lucro,lucro_liquido
0,BANCO DO BRASIL S.A.,0,BB - PRUDENCIAL,b1,1,1,BRASILIA,DF,2022-12-01,58297195.0,0.0,6287062.0,21753526.0,-2982566.0,-2132589.0,16638371.0
1,CAIXA ECONOMICA FEDERAL,360305,CAIXA ECONÔMICA FEDERAL - PRUDENCIAL,b1,1,6,BRASILIA,DF,2022-12-01,56235680.0,0.0,8480850.0,5582178.0,971396.0,-1060139.0,5493435.0
2,ITAÚ UNIBANCO S.A.,60701190,ITAU - PRUDENCIAL,b1,2,8,SAO PAULO,SP,2022-12-01,36162795.0,0.0,4631069.0,18299359.0,1334900.0,-3690333.0,15943927.0
3,BANCO BRADESCO S.A.,60746948,BRADESCO - PRUDENCIAL,b1,2,8,OSASCO,SP,2022-12-01,44706379.0,0.0,6034638.0,2897870.0,3749785.0,0.0,6647656.0
4,BANCO SANTANDER (BRASIL) S.A.,90400888,SANTANDER - PRUDENCIAL,b1,3,8,SAO PAULO,SP,2022-12-01,26385861.0,0.0,5637941.0,2602071.0,2970185.0,-990117.0,4582139.0


In [None]:
# leitura dos dados do RESUMO
df_resumo = pd.read_parquet(os.path.join(caminho_raw, "resumo_raw.parquet"))

# Renomeação das colunas para facilitar visualização e direcionamentos das melhores práticos python
colunas_para_renomear = {
    'Instituição': 'instituicao',
    'Código': 'codigo_bacen',
    'Conglomerado Prudencial': 'conglomerado',
    'TCB': 'tcb',
    'TC': 'tc',
    'TI': 'ti',
    'Cidade': 'cidade',
    'UF': 'uf',
    'Data': 'data_base',
    'Ativo Total' : 'ativo_total',
    'Captações' : 'captacoes',
    'Patrimônio Líquido' : 'patrimonio_liquido',
    'Lucro Líquido' : 'lucro_liquido',
    'Número de Agências' : 'numero_agencias',
    'Número de Postos de Atendimento' : 'numero_postos_atendimento',
    'Carteira de Crédito' : 'carteira_credito',
    'Passivo Exigível' : 'passivel_exigivel'
}

df_resumo = df_resumo.rename(columns=colunas_para_renomear)

# Transformação dos tipos de dados (float, categoria, string, integer, date_time). Além de tranformar valores não informados (NI) para zero (0), para deixar no formato adequado.
colunas_float = [
    'ativo_total',
    'captacoes',
    'patrimonio_liquido',
    'lucro_liquido',
    'numero_agencias',
    'numero_postos_atendimento',
    'carteira_credito',
    'passivel_exigivel'
]

cols_id = ['codigo_bacen', 'tc', 'ti']

cols_categoria = ['uf', 'tcb','conglomerado']

cols_str = ['instituicao','cidade']

for col in colunas_float:
    df_resumo[col] = df_resumo[col].astype(str).str.replace('.', '', regex=False)
    df_resumo[col] = pd.to_numeric(df_resumo[col], errors='coerce')

for col in cols_id:
    df_resumo[col] = pd.to_numeric(df_resumo[col], errors='coerce').astype('Int64')

for col in cols_categoria:
    df_resumo[col] = df_resumo[col].astype('category')

for col in cols_str:
    df_resumo[col] = df_resumo[col].astype('string')

df_resumo['data_base'] = pd.to_datetime(df_resumo['data_base'], format='%m/%Y', errors='coerce')

df_resumo = df_resumo.replace(['NI', 'Ni', 'ni'], np.nan)

# Salvar arquivo DRE transformado
df_resumo.to_parquet(os.path.join(caminho_processed, "resumo_processed.parquet"))

df_resumo.info()
df_resumo.head()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 17170 entries, 0 to 17169
Data columns (total 17 columns):
 #   Column                     Non-Null Count  Dtype         
---  ------                     --------------  -----         
 0   instituicao                17170 non-null  string        
 1   codigo_bacen               17170 non-null  Int64         
 2   conglomerado               8373 non-null   category      
 3   tcb                        17170 non-null  category      
 4   tc                         17170 non-null  Int64         
 5   ti                         17170 non-null  Int64         
 6   cidade                     17170 non-null  string        
 7   uf                         17170 non-null  category      
 8   data_base                  17170 non-null  datetime64[ns]
 9   ativo_total                17042 non-null  float64       
 10  captacoes                  17042 non-null  float64       
 11  patrimonio_liquido         17042 non-null  float64       
 12  lucr

Unnamed: 0,instituicao,codigo_bacen,conglomerado,tcb,tc,ti,cidade,uf,data_base,ativo_total,captacoes,patrimonio_liquido,lucro_liquido,numero_agencias,numero_postos_atendimento,carteira_credito,passivel_exigivel
0,BANCO DO BRASIL S.A.,0,BB - PRUDENCIAL,b1,1,1,BRASILIA,DF,2022-12-01,1927604248.0,1551106608.0,153546924.0,16638371.0,3985,604,853636272.0,1774057324.0
1,ITAÚ UNIBANCO S.A.,60701190,ITAU - PRUDENCIAL,b1,2,8,SAO PAULO,SP,2022-12-01,1621520167.0,1323163687.0,129564325.0,15943927.0,2584,1003,406186786.0,1491955842.0
2,CAIXA ECONOMICA FEDERAL,360305,CAIXA ECONÔMICA FEDERAL - PRUDENCIAL,b1,1,6,BRASILIA,DF,2022-12-01,1585795602.0,1315128052.0,84813538.0,5493435.0,3373,937,1012344567.0,1500982064.0
3,BANCO BRADESCO S.A.,60746948,BRADESCO - PRUDENCIAL,b1,2,8,OSASCO,SP,2022-12-01,1489174462.0,1147488387.0,154263223.0,6647656.0,2865,1277,543700762.0,1334911238.0
4,BANCO SANTANDER (BRASIL) S.A.,90400888,SANTANDER - PRUDENCIAL,b1,3,8,SAO PAULO,SP,2022-12-01,986299576.0,722481108.0,81076905.0,4582139.0,2573,1557,341933356.0,905222672.0


In [None]:
# Criação de um novo dataframe 'analitico', com a junção de resumo e dre, facilitando visualização, análise e correlação.
df_analitico = pd.merge(
    df_resumo, 
    df_dre, 
    on=['codigo_bacen', 'data_base'], 
    how='inner',
    suffixes=('', '_dre') # indicar as colunas que estão em ambos dataframes, colocando o sufixo do df_dre
)

# Removendo colunas que ficaram duplicadas.
colunas_remover = [c for c in df_analitico.columns if '_dre' in c]
df_analitico = df_analitico.drop(columns=colunas_remover)

# Salvar dataframe gold, no qual utilizaremos para análises e novas features.
df_analitico.to_parquet(os.path.join(caminho_gold, "df_gold.parquet"))