# <center><h1>Companhia Aberta Demonstrativo Financeiro</h1></center>

## <h2>Load Libraries</h2>

In [69]:
import pandas as pd
import numpy as np

## <h2>Import Data</h2>

### <h3>Load .csv</h3>

In [70]:
cia_aberta_df = pd.read_csv(r'dfp_cia_aberta_BPA_con_2020.csv', encoding = 'ISO-8859-1', sep=";")

### <h3>Select Company</h3>

In [71]:
df = cia_aberta_df[cia_aberta_df['CNPJ_CIA'] == '97.837.181/0001-47'].copy()    # (seleciono somente as linhas relativas a uma comp de interesse)

In [72]:
df = df[['ORDEM_EXERC','CD_CONTA','DS_CONTA','VL_CONTA']]

In [73]:
df = df[df['ORDEM_EXERC'] == 'ÚLTIMO']                                         # seleciono somente o último ou penúltimo exercício

In [74]:
df.reset_index(inplace=True, drop=True)

In [75]:
df

Unnamed: 0,ORDEM_EXERC,CD_CONTA,DS_CONTA,VL_CONTA
0,ÚLTIMO,1,Ativo Total,11498520.0
1,ÚLTIMO,1.01,Ativo Circulante,4220022.0
2,ÚLTIMO,1.01.01,Caixa e Equivalentes de Caixa,1728413.0
3,ÚLTIMO,1.01.02,Aplicações Financeiras,0.0
4,ÚLTIMO,1.01.02.01,Aplicações Financeiras Avaliadas a Valor Justo...,0.0
...,...,...,...,...
71,ÚLTIMO,1.02.04.02.07,Goodwill na aquisição da Caetex Florestal,8767.0
72,ÚLTIMO,1.02.04.02.08,Goodwill na aquisição da Cerâmica Urussanga em...,92944.0
73,ÚLTIMO,1.02.04.02.09,Goodwill na aquisição da Massima Revestimentos...,6110.0
74,ÚLTIMO,1.02.04.02.10,Goodwill na aquisição da Cecrisa Revestimentos...,168430.0


<h4>Subset DataFrame (only for testing purposes)</h4>

In [76]:
df = df.iloc[np.r_[0:7, 24:31],:]

In [77]:
df

Unnamed: 0,ORDEM_EXERC,CD_CONTA,DS_CONTA,VL_CONTA
0,ÚLTIMO,1,Ativo Total,11498520.0
1,ÚLTIMO,1.01,Ativo Circulante,4220022.0
2,ÚLTIMO,1.01.01,Caixa e Equivalentes de Caixa,1728413.0
3,ÚLTIMO,1.01.02,Aplicações Financeiras,0.0
4,ÚLTIMO,1.01.02.01,Aplicações Financeiras Avaliadas a Valor Justo...,0.0
5,ÚLTIMO,1.01.02.01.01,Títulos para Negociação,0.0
6,ÚLTIMO,1.01.02.01.02,Títulos Designados a Valor Justo,0.0
24,ÚLTIMO,1.02,Ativo Não Circulante,7278498.0
25,ÚLTIMO,1.02.01,Ativo Realizável a Longo Prazo,2071636.0
26,ÚLTIMO,1.02.01.01,Aplicações Financeiras Avaliadas a Valor Justo...,0.0


## <h2>Wrangling</h2>

### <h3>Number of Steps</h3>

In [78]:
cd_conta_split = pd.Series([string.split('.') for string in df['CD_CONTA']])

In [79]:
cd_conta_len = [len(lst) for lst in cd_conta_split]

In [80]:
num_steps = max(cd_conta_len)

In [81]:
num_steps

5

### <h3>ROUND 1</h3>

In [82]:
round=1

In [83]:
df

Unnamed: 0,ORDEM_EXERC,CD_CONTA,DS_CONTA,VL_CONTA
0,ÚLTIMO,1,Ativo Total,11498520.0
1,ÚLTIMO,1.01,Ativo Circulante,4220022.0
2,ÚLTIMO,1.01.01,Caixa e Equivalentes de Caixa,1728413.0
3,ÚLTIMO,1.01.02,Aplicações Financeiras,0.0
4,ÚLTIMO,1.01.02.01,Aplicações Financeiras Avaliadas a Valor Justo...,0.0
5,ÚLTIMO,1.01.02.01.01,Títulos para Negociação,0.0
6,ÚLTIMO,1.01.02.01.02,Títulos Designados a Valor Justo,0.0
24,ÚLTIMO,1.02,Ativo Não Circulante,7278498.0
25,ÚLTIMO,1.02.01,Ativo Realizável a Longo Prazo,2071636.0
26,ÚLTIMO,1.02.01.01,Aplicações Financeiras Avaliadas a Valor Justo...,0.0


<h4>Join</h4>

In [85]:
cd_conta_split = pd.Series([string.split('.') for string in df['CD_CONTA']])

In [86]:
cd_conta_col1 = [row[0] for row in cd_conta_split]

Select rows with minimum length

In [87]:
len_key = [len(row) for row in cd_conta_split]  # len(row) = number of elements separated by '.' in CD_CONTA

In [88]:
min_len = np.array(len_key).min()  # min_len = minimum length
min_len

np.int64(1)

In [89]:
ind_min_len = np.where(len_key==min_len)  # ind_min_len = index of key 'CD_CONTA' with minimum length

In [90]:
ind_min_len = [ind for ind, element in enumerate(len_key) if element == min_len]        # round = 1

In [91]:
df.iloc[ind_min_len]

Unnamed: 0,ORDEM_EXERC,CD_CONTA,DS_CONTA,VL_CONTA
0,ÚLTIMO,1,Ativo Total,11498520.0


In [99]:
keys = [cd_conta_col1[idx] for idx in ind_min_len]

In [100]:
key_idx_dict = {key: idx for key, idx in zip(keys, ind_min_len)}

In [56]:
ds_conta_1 = [df.DS_CONTA[key_idx_dict[key]]
              for row in cd_conta_split
              for key in key_idx_dict
              if row[0] == key ]
# Não faz muito sentido escrever for row in cd_conta_split if row[0] == key quando eu já tenho cd_conta_col_1

In [101]:
ds_conta_1 = [df.DS_CONTA[key_idx_dict[key]]
              for key in key_idx_dict
              for cd in cd_conta_col1
              if key == cd]

In [102]:
df.insert(2, column='DS_CONTA_1', value=ds_conta_1)

In [103]:
df

Unnamed: 0,ORDEM_EXERC,CD_CONTA,DS_CONTA_1,DS_CONTA,VL_CONTA
0,ÚLTIMO,1,Ativo Total,Ativo Total,11498520.0
1,ÚLTIMO,1.01,Ativo Total,Ativo Circulante,4220022.0
2,ÚLTIMO,1.01.01,Ativo Total,Caixa e Equivalentes de Caixa,1728413.0
3,ÚLTIMO,1.01.02,Ativo Total,Aplicações Financeiras,0.0
4,ÚLTIMO,1.01.02.01,Ativo Total,Aplicações Financeiras Avaliadas a Valor Justo...,0.0
5,ÚLTIMO,1.01.02.01.01,Ativo Total,Títulos para Negociação,0.0
6,ÚLTIMO,1.01.02.01.02,Ativo Total,Títulos Designados a Valor Justo,0.0
24,ÚLTIMO,1.02,Ativo Total,Ativo Não Circulante,7278498.0
25,ÚLTIMO,1.02.01,Ativo Total,Ativo Realizável a Longo Prazo,2071636.0
26,ÚLTIMO,1.02.01.01,Ativo Total,Aplicações Financeiras Avaliadas a Valor Justo...,0.0


<h4>Drop rows</h4>

Select rows with minimum length

In [104]:
df.iloc[ind_min_len]

Unnamed: 0,ORDEM_EXERC,CD_CONTA,DS_CONTA_1,DS_CONTA,VL_CONTA
0,ÚLTIMO,1,Ativo Total,Ativo Total,11498520.0


Check if there is at least another CD_CONTA starting with '1'

In [105]:
mask = [False if len==min_len else True for len in len_key]

In [106]:
any(row[0] == '1' for row in cd_conta_split[mask])

True

In [107]:
df.drop(df.index[ind_min_len])

Unnamed: 0,ORDEM_EXERC,CD_CONTA,DS_CONTA_1,DS_CONTA,VL_CONTA
1,ÚLTIMO,1.01,Ativo Total,Ativo Circulante,4220022.0
2,ÚLTIMO,1.01.01,Ativo Total,Caixa e Equivalentes de Caixa,1728413.0
3,ÚLTIMO,1.01.02,Ativo Total,Aplicações Financeiras,0.0
4,ÚLTIMO,1.01.02.01,Ativo Total,Aplicações Financeiras Avaliadas a Valor Justo...,0.0
5,ÚLTIMO,1.01.02.01.01,Ativo Total,Títulos para Negociação,0.0
6,ÚLTIMO,1.01.02.01.02,Ativo Total,Títulos Designados a Valor Justo,0.0
24,ÚLTIMO,1.02,Ativo Total,Ativo Não Circulante,7278498.0
25,ÚLTIMO,1.02.01,Ativo Total,Ativo Realizável a Longo Prazo,2071636.0
26,ÚLTIMO,1.02.01.01,Ativo Total,Aplicações Financeiras Avaliadas a Valor Justo...,0.0
27,ÚLTIMO,1.02.01.01.01,Ativo Total,Títulos Designados a Valor Justo,0.0


In [108]:
df = df.drop(df.index[ind_min_len])

### <h3>ROUND 2</h3>

In [109]:
round=2

In [110]:
df

Unnamed: 0,ORDEM_EXERC,CD_CONTA,DS_CONTA_1,DS_CONTA,VL_CONTA
1,ÚLTIMO,1.01,Ativo Total,Ativo Circulante,4220022.0
2,ÚLTIMO,1.01.01,Ativo Total,Caixa e Equivalentes de Caixa,1728413.0
3,ÚLTIMO,1.01.02,Ativo Total,Aplicações Financeiras,0.0
4,ÚLTIMO,1.01.02.01,Ativo Total,Aplicações Financeiras Avaliadas a Valor Justo...,0.0
5,ÚLTIMO,1.01.02.01.01,Ativo Total,Títulos para Negociação,0.0
6,ÚLTIMO,1.01.02.01.02,Ativo Total,Títulos Designados a Valor Justo,0.0
24,ÚLTIMO,1.02,Ativo Total,Ativo Não Circulante,7278498.0
25,ÚLTIMO,1.02.01,Ativo Total,Ativo Realizável a Longo Prazo,2071636.0
26,ÚLTIMO,1.02.01.01,Ativo Total,Aplicações Financeiras Avaliadas a Valor Justo...,0.0
27,ÚLTIMO,1.02.01.01.01,Ativo Total,Títulos Designados a Valor Justo,0.0


<h4>Join</h4>

In [116]:
cd_conta_split = pd.Series([string.split('.') for string in df['CD_CONTA']])

In [117]:
cd_conta_col2 = [row[:round] for row in cd_conta_split]

Select rows with min number of elements:

In [119]:
cd_conta_len = [len(lst) for lst in cd_conta_split]

In [120]:
min_len = np.array(cd_conta_len).min()  # min_len = minimum length
ind_min_len = np.where(cd_conta_len==min_len)  # ind_min_len = index of key with minimum length

In [121]:
df.iloc[ind_min_len]

Unnamed: 0,ORDEM_EXERC,CD_CONTA,DS_CONTA_1,DS_CONTA,VL_CONTA
1,ÚLTIMO,1.01,Ativo Total,Ativo Circulante,4220022.0
24,ÚLTIMO,1.02,Ativo Total,Ativo Não Circulante,7278498.0


In [122]:
df.drop(df.index[ind_min_len])

Unnamed: 0,ORDEM_EXERC,CD_CONTA,DS_CONTA_1,DS_CONTA,VL_CONTA
2,ÚLTIMO,1.01.01,Ativo Total,Caixa e Equivalentes de Caixa,1728413.0
3,ÚLTIMO,1.01.02,Ativo Total,Aplicações Financeiras,0.0
4,ÚLTIMO,1.01.02.01,Ativo Total,Aplicações Financeiras Avaliadas a Valor Justo...,0.0
5,ÚLTIMO,1.01.02.01.01,Ativo Total,Títulos para Negociação,0.0
6,ÚLTIMO,1.01.02.01.02,Ativo Total,Títulos Designados a Valor Justo,0.0
25,ÚLTIMO,1.02.01,Ativo Total,Ativo Realizável a Longo Prazo,2071636.0
26,ÚLTIMO,1.02.01.01,Ativo Total,Aplicações Financeiras Avaliadas a Valor Justo...,0.0
27,ÚLTIMO,1.02.01.01.01,Ativo Total,Títulos Designados a Valor Justo,0.0
28,ÚLTIMO,1.02.01.02,Ativo Total,Aplicações Financeiras Avaliadas a Valor Justo...,0.0
29,ÚLTIMO,1.02.01.03,Ativo Total,Aplicações Financeiras Avaliadas ao Custo Amor...,0.0
