# <center><h1>Companhia Aberta Demonstrativo Financeiro</h1></center>

# <h2>Load Libraries</h2>

In [684]:
import pandas as pd
import numpy as np

# <h2>Import Data</h2>

## <h3>Load .csv</h3>

In [685]:
cia_aberta_df = pd.read_csv(r'dfp_cia_aberta_BPA_con_2020.csv', encoding='ISO-8859-1', sep=";")    # leio o .csv com os dados de todas as companhias abertas

## <h3>Select Company</h3>

In [686]:
df = cia_aberta_df[cia_aberta_df['CNPJ_CIA'] == '97.837.181/0001-47'].copy()    # dataframe = linhas do dataframe onde ('CNPJ_CIA' == '97.837.181/0001-47') == True
                                                                                    # (seleciono somente as linhas relativas a uma companhia de interesse)

In [687]:
df = df[['ORDEM_EXERC','CD_CONTA','DS_CONTA','VL_CONTA']]

In [688]:
df = df[df['ORDEM_EXERC'] == 'ÚLTIMO']                                         # seleciono somente o último ou penúltimo exercício

In [689]:
df.reset_index(inplace=True, drop=True)

In [690]:
df

Unnamed: 0,ORDEM_EXERC,CD_CONTA,DS_CONTA,VL_CONTA
0,ÚLTIMO,1,Ativo Total,11498520.0
1,ÚLTIMO,1.01,Ativo Circulante,4220022.0
2,ÚLTIMO,1.01.01,Caixa e Equivalentes de Caixa,1728413.0
3,ÚLTIMO,1.01.02,Aplicações Financeiras,0.0
4,ÚLTIMO,1.01.02.01,Aplicações Financeiras Avaliadas a Valor Justo...,0.0
...,...,...,...,...
71,ÚLTIMO,1.02.04.02.07,Goodwill na aquisição da Caetex Florestal,8767.0
72,ÚLTIMO,1.02.04.02.08,Goodwill na aquisição da Cerâmica Urussanga em...,92944.0
73,ÚLTIMO,1.02.04.02.09,Goodwill na aquisição da Massima Revestimentos...,6110.0
74,ÚLTIMO,1.02.04.02.10,Goodwill na aquisição da Cecrisa Revestimentos...,168430.0


<h4>Subset DataFrame (only for testing purposes)</h4>

In [691]:
df = df.iloc[np.r_[0:7, 24:31],:]

In [692]:
df

Unnamed: 0,ORDEM_EXERC,CD_CONTA,DS_CONTA,VL_CONTA
0,ÚLTIMO,1,Ativo Total,11498520.0
1,ÚLTIMO,1.01,Ativo Circulante,4220022.0
2,ÚLTIMO,1.01.01,Caixa e Equivalentes de Caixa,1728413.0
3,ÚLTIMO,1.01.02,Aplicações Financeiras,0.0
4,ÚLTIMO,1.01.02.01,Aplicações Financeiras Avaliadas a Valor Justo...,0.0
5,ÚLTIMO,1.01.02.01.01,Títulos para Negociação,0.0
6,ÚLTIMO,1.01.02.01.02,Títulos Designados a Valor Justo,0.0
24,ÚLTIMO,1.02,Ativo Não Circulante,7278498.0
25,ÚLTIMO,1.02.01,Ativo Realizável a Longo Prazo,2071636.0
26,ÚLTIMO,1.02.01.01,Aplicações Financeiras Avaliadas a Valor Justo...,0.0


# <h2>Wrangling</h2>

## <h3>Number of Steps</h3>

In [693]:
cd_conta_split = pd.Series([string.split('.') for string in df['CD_CONTA']])

In [694]:
cd_conta_len = [len(lst) for lst in cd_conta_split]

In [695]:
num_levels = max(cd_conta_len)

In [696]:
num_levels

5

## <h3>ROUND 1</h3>

In [697]:
round=1

In [698]:
df

Unnamed: 0,ORDEM_EXERC,CD_CONTA,DS_CONTA,VL_CONTA
0,ÚLTIMO,1,Ativo Total,11498520.0
1,ÚLTIMO,1.01,Ativo Circulante,4220022.0
2,ÚLTIMO,1.01.01,Caixa e Equivalentes de Caixa,1728413.0
3,ÚLTIMO,1.01.02,Aplicações Financeiras,0.0
4,ÚLTIMO,1.01.02.01,Aplicações Financeiras Avaliadas a Valor Justo...,0.0
5,ÚLTIMO,1.01.02.01.01,Títulos para Negociação,0.0
6,ÚLTIMO,1.01.02.01.02,Títulos Designados a Valor Justo,0.0
24,ÚLTIMO,1.02,Ativo Não Circulante,7278498.0
25,ÚLTIMO,1.02.01,Ativo Realizável a Longo Prazo,2071636.0
26,ÚLTIMO,1.02.01.01,Aplicações Financeiras Avaliadas a Valor Justo...,0.0


### <h4>Join</h4>

In [699]:
cd_conta_split = pd.Series([string.split('.') for string in df['CD_CONTA']])

In [700]:
cd_conta_joincol = [row[:round] for row in cd_conta_split]

Select rows with only one element:

In [701]:
cd_conta_len = [len(row) for row in cd_conta_split]

In [702]:
idx_list = [idx for idx, element in enumerate(cd_conta_len) if element == round]        # round = 1

In [703]:
keys = [cd_conta_joincol[idx] for idx in idx_list]

In [704]:
key_idx_dict = {".".join(key): idx for key, idx in zip(keys, idx_list)}

In [705]:
df.iloc[idx_list]

Unnamed: 0,ORDEM_EXERC,CD_CONTA,DS_CONTA,VL_CONTA
0,ÚLTIMO,1,Ativo Total,11498520.0


Join:

In [706]:
ds_conta_1 = [df.DS_CONTA[key_idx_dict[key]]
              for key in key_idx_dict
              for row in cd_conta_joincol
              if ".".join(row) == key]

In [707]:
ds_conta_1 = [df.DS_CONTA[key_idx_dict[key]]
              for row in cd_conta_split
              for key in key_idx_dict
              if ".".join(row[:round]) == key]

In [708]:
df.insert(2, column='DS_CONTA_1', value=ds_conta_1)

In [709]:
df

Unnamed: 0,ORDEM_EXERC,CD_CONTA,DS_CONTA_1,DS_CONTA,VL_CONTA
0,ÚLTIMO,1,Ativo Total,Ativo Total,11498520.0
1,ÚLTIMO,1.01,Ativo Total,Ativo Circulante,4220022.0
2,ÚLTIMO,1.01.01,Ativo Total,Caixa e Equivalentes de Caixa,1728413.0
3,ÚLTIMO,1.01.02,Ativo Total,Aplicações Financeiras,0.0
4,ÚLTIMO,1.01.02.01,Ativo Total,Aplicações Financeiras Avaliadas a Valor Justo...,0.0
5,ÚLTIMO,1.01.02.01.01,Ativo Total,Títulos para Negociação,0.0
6,ÚLTIMO,1.01.02.01.02,Ativo Total,Títulos Designados a Valor Justo,0.0
24,ÚLTIMO,1.02,Ativo Total,Ativo Não Circulante,7278498.0
25,ÚLTIMO,1.02.01,Ativo Total,Ativo Realizável a Longo Prazo,2071636.0
26,ÚLTIMO,1.02.01.01,Ativo Total,Aplicações Financeiras Avaliadas a Valor Justo...,0.0


### <h4>Drop rows</h4>

Select rows with only one element:

In [710]:
df.iloc[idx_list]

Unnamed: 0,ORDEM_EXERC,CD_CONTA,DS_CONTA_1,DS_CONTA,VL_CONTA
0,ÚLTIMO,1,Ativo Total,Ativo Total,11498520.0


Check if there is at least another CD_CONTA starting with '1'

In [711]:
mask = [False if len == round else True for len in cd_conta_len]

In [712]:
any(row[0] == '1' for row in cd_conta_split[mask])

True

In [713]:
# cd_conta_split = cd_conta_split[mask]

In [714]:
df = df[mask]

In [715]:
df.reset_index(inplace=True, drop=True)

In [716]:
df

Unnamed: 0,ORDEM_EXERC,CD_CONTA,DS_CONTA_1,DS_CONTA,VL_CONTA
0,ÚLTIMO,1.01,Ativo Total,Ativo Circulante,4220022.0
1,ÚLTIMO,1.01.01,Ativo Total,Caixa e Equivalentes de Caixa,1728413.0
2,ÚLTIMO,1.01.02,Ativo Total,Aplicações Financeiras,0.0
3,ÚLTIMO,1.01.02.01,Ativo Total,Aplicações Financeiras Avaliadas a Valor Justo...,0.0
4,ÚLTIMO,1.01.02.01.01,Ativo Total,Títulos para Negociação,0.0
5,ÚLTIMO,1.01.02.01.02,Ativo Total,Títulos Designados a Valor Justo,0.0
6,ÚLTIMO,1.02,Ativo Total,Ativo Não Circulante,7278498.0
7,ÚLTIMO,1.02.01,Ativo Total,Ativo Realizável a Longo Prazo,2071636.0
8,ÚLTIMO,1.02.01.01,Ativo Total,Aplicações Financeiras Avaliadas a Valor Justo...,0.0
9,ÚLTIMO,1.02.01.01.01,Ativo Total,Títulos Designados a Valor Justo,0.0


## <h3>ROUND 2</h3>

In [717]:
round=2

In [718]:
df

Unnamed: 0,ORDEM_EXERC,CD_CONTA,DS_CONTA_1,DS_CONTA,VL_CONTA
0,ÚLTIMO,1.01,Ativo Total,Ativo Circulante,4220022.0
1,ÚLTIMO,1.01.01,Ativo Total,Caixa e Equivalentes de Caixa,1728413.0
2,ÚLTIMO,1.01.02,Ativo Total,Aplicações Financeiras,0.0
3,ÚLTIMO,1.01.02.01,Ativo Total,Aplicações Financeiras Avaliadas a Valor Justo...,0.0
4,ÚLTIMO,1.01.02.01.01,Ativo Total,Títulos para Negociação,0.0
5,ÚLTIMO,1.01.02.01.02,Ativo Total,Títulos Designados a Valor Justo,0.0
6,ÚLTIMO,1.02,Ativo Total,Ativo Não Circulante,7278498.0
7,ÚLTIMO,1.02.01,Ativo Total,Ativo Realizável a Longo Prazo,2071636.0
8,ÚLTIMO,1.02.01.01,Ativo Total,Aplicações Financeiras Avaliadas a Valor Justo...,0.0
9,ÚLTIMO,1.02.01.01.01,Ativo Total,Títulos Designados a Valor Justo,0.0


### <h4>Join</h4>

In [719]:
cd_conta_split = pd.Series([string.split('.') for string in df['CD_CONTA']])

In [720]:
cd_conta_joincol = [row[:round] for row in cd_conta_split]

Select rows with only 2 elements:

In [721]:
cd_conta_len = [len(lst) for lst in cd_conta_split]

In [722]:
idx_list = [idx for idx, element in enumerate(cd_conta_len) if element == round]

In [723]:
df.iloc[idx_keys]

Unnamed: 0,ORDEM_EXERC,CD_CONTA,DS_CONTA_1,DS_CONTA,VL_CONTA
0,ÚLTIMO,1.01,Ativo Total,Ativo Circulante,4220022.0
6,ÚLTIMO,1.02,Ativo Total,Ativo Não Circulante,7278498.0


In [724]:
keys = [cd_conta_joincol[idx] for idx in idx_keys]

In [725]:
key_idx_dict = {".".join(key): idx for key, idx in zip(keys, idx_keys)}

In [726]:
ds_conta_2 = [df.DS_CONTA[key_idx_dict[key]]
              for key in key_idx_dict
              for row in cd_conta_joincol
              if ".".join(row) == key]

In [727]:
ds_conta_2 = [df.DS_CONTA[key_idx_dict[key]]
              for row in cd_conta_split
              for key in key_idx_dict
              if ".".join(row[:round]) == key]

In [728]:
# ds_conta_2 = [df['DS_CONTA'][key_idx_dict[key]] for row in cd_conta_split for key in key_idx_dict if ".".join(row[:round]) == key]

In [729]:
df.insert(3, column='DS_CONTA_2', value=ds_conta_2)

In [730]:
df

Unnamed: 0,ORDEM_EXERC,CD_CONTA,DS_CONTA_1,DS_CONTA_2,DS_CONTA,VL_CONTA
0,ÚLTIMO,1.01,Ativo Total,Ativo Circulante,Ativo Circulante,4220022.0
1,ÚLTIMO,1.01.01,Ativo Total,Ativo Circulante,Caixa e Equivalentes de Caixa,1728413.0
2,ÚLTIMO,1.01.02,Ativo Total,Ativo Circulante,Aplicações Financeiras,0.0
3,ÚLTIMO,1.01.02.01,Ativo Total,Ativo Circulante,Aplicações Financeiras Avaliadas a Valor Justo...,0.0
4,ÚLTIMO,1.01.02.01.01,Ativo Total,Ativo Circulante,Títulos para Negociação,0.0
5,ÚLTIMO,1.01.02.01.02,Ativo Total,Ativo Circulante,Títulos Designados a Valor Justo,0.0
6,ÚLTIMO,1.02,Ativo Total,Ativo Não Circulante,Ativo Não Circulante,7278498.0
7,ÚLTIMO,1.02.01,Ativo Total,Ativo Não Circulante,Ativo Realizável a Longo Prazo,2071636.0
8,ÚLTIMO,1.02.01.01,Ativo Total,Ativo Não Circulante,Aplicações Financeiras Avaliadas a Valor Justo...,0.0
9,ÚLTIMO,1.02.01.01.01,Ativo Total,Ativo Não Circulante,Títulos Designados a Valor Justo,0.0


### <h4>Drop rows</h4>

Select rows with only 2 elements:

In [731]:
df.iloc[idx_list]

Unnamed: 0,ORDEM_EXERC,CD_CONTA,DS_CONTA_1,DS_CONTA_2,DS_CONTA,VL_CONTA
0,ÚLTIMO,1.01,Ativo Total,Ativo Circulante,Ativo Circulante,4220022.0
6,ÚLTIMO,1.02,Ativo Total,Ativo Não Circulante,Ativo Não Circulante,7278498.0


Check if there is at least another CD_CONTA starting with '1.01' or '1.02':

In [732]:
for idx in idx_list:
    mask = [True]*len(ds_conta_2)
    mask[idx] = False
    if any(row[:round] == cd_conta_joincol[idx] for row in cd_conta_split[mask]):
        df = df.drop(idx)

In [733]:
df.reset_index(inplace=True, drop=True)

In [734]:
df

Unnamed: 0,ORDEM_EXERC,CD_CONTA,DS_CONTA_1,DS_CONTA_2,DS_CONTA,VL_CONTA
0,ÚLTIMO,1.01.01,Ativo Total,Ativo Circulante,Caixa e Equivalentes de Caixa,1728413.0
1,ÚLTIMO,1.01.02,Ativo Total,Ativo Circulante,Aplicações Financeiras,0.0
2,ÚLTIMO,1.01.02.01,Ativo Total,Ativo Circulante,Aplicações Financeiras Avaliadas a Valor Justo...,0.0
3,ÚLTIMO,1.01.02.01.01,Ativo Total,Ativo Circulante,Títulos para Negociação,0.0
4,ÚLTIMO,1.01.02.01.02,Ativo Total,Ativo Circulante,Títulos Designados a Valor Justo,0.0
5,ÚLTIMO,1.02.01,Ativo Total,Ativo Não Circulante,Ativo Realizável a Longo Prazo,2071636.0
6,ÚLTIMO,1.02.01.01,Ativo Total,Ativo Não Circulante,Aplicações Financeiras Avaliadas a Valor Justo...,0.0
7,ÚLTIMO,1.02.01.01.01,Ativo Total,Ativo Não Circulante,Títulos Designados a Valor Justo,0.0
8,ÚLTIMO,1.02.01.02,Ativo Total,Ativo Não Circulante,Aplicações Financeiras Avaliadas a Valor Justo...,0.0
9,ÚLTIMO,1.02.01.03,Ativo Total,Ativo Não Circulante,Aplicações Financeiras Avaliadas ao Custo Amor...,0.0


## <h3>ROUND 3</h3>

In [735]:
round=3

In [736]:
df

Unnamed: 0,ORDEM_EXERC,CD_CONTA,DS_CONTA_1,DS_CONTA_2,DS_CONTA,VL_CONTA
0,ÚLTIMO,1.01.01,Ativo Total,Ativo Circulante,Caixa e Equivalentes de Caixa,1728413.0
1,ÚLTIMO,1.01.02,Ativo Total,Ativo Circulante,Aplicações Financeiras,0.0
2,ÚLTIMO,1.01.02.01,Ativo Total,Ativo Circulante,Aplicações Financeiras Avaliadas a Valor Justo...,0.0
3,ÚLTIMO,1.01.02.01.01,Ativo Total,Ativo Circulante,Títulos para Negociação,0.0
4,ÚLTIMO,1.01.02.01.02,Ativo Total,Ativo Circulante,Títulos Designados a Valor Justo,0.0
5,ÚLTIMO,1.02.01,Ativo Total,Ativo Não Circulante,Ativo Realizável a Longo Prazo,2071636.0
6,ÚLTIMO,1.02.01.01,Ativo Total,Ativo Não Circulante,Aplicações Financeiras Avaliadas a Valor Justo...,0.0
7,ÚLTIMO,1.02.01.01.01,Ativo Total,Ativo Não Circulante,Títulos Designados a Valor Justo,0.0
8,ÚLTIMO,1.02.01.02,Ativo Total,Ativo Não Circulante,Aplicações Financeiras Avaliadas a Valor Justo...,0.0
9,ÚLTIMO,1.02.01.03,Ativo Total,Ativo Não Circulante,Aplicações Financeiras Avaliadas ao Custo Amor...,0.0


### <h4>Join</h4>

In [737]:
cd_conta_split = pd.Series([string.split('.') for string in df['CD_CONTA']])

In [738]:
cd_conta_joincol = [row[:round] for row in cd_conta_split]

Select rows with only 3 elements:

In [739]:
cd_conta_len = [len(lst) for lst in cd_conta_split]

In [740]:
idx_list = [idx for idx, element in enumerate(cd_conta_len) if element == round]

In [741]:
df.iloc[idx_list]

Unnamed: 0,ORDEM_EXERC,CD_CONTA,DS_CONTA_1,DS_CONTA_2,DS_CONTA,VL_CONTA
0,ÚLTIMO,1.01.01,Ativo Total,Ativo Circulante,Caixa e Equivalentes de Caixa,1728413.0
1,ÚLTIMO,1.01.02,Ativo Total,Ativo Circulante,Aplicações Financeiras,0.0
5,ÚLTIMO,1.02.01,Ativo Total,Ativo Não Circulante,Ativo Realizável a Longo Prazo,2071636.0


In [742]:
keys = [cd_conta_joincol[idx] for idx in idx_list]

In [743]:
key_idx_dict = {".".join(key): idx for key, idx in zip(keys, idx_list)}

In [744]:
ds_conta_3 = [df.DS_CONTA[key_idx_dict[key]]
              for row in cd_conta_split
              for key in key_idx_dict
              if ".".join(row[:round]) == key]

In [745]:
df.insert(4, column='DS_CONTA_3', value=ds_conta_3)

In [746]:
df

Unnamed: 0,ORDEM_EXERC,CD_CONTA,DS_CONTA_1,DS_CONTA_2,DS_CONTA_3,DS_CONTA,VL_CONTA
0,ÚLTIMO,1.01.01,Ativo Total,Ativo Circulante,Caixa e Equivalentes de Caixa,Caixa e Equivalentes de Caixa,1728413.0
1,ÚLTIMO,1.01.02,Ativo Total,Ativo Circulante,Aplicações Financeiras,Aplicações Financeiras,0.0
2,ÚLTIMO,1.01.02.01,Ativo Total,Ativo Circulante,Aplicações Financeiras,Aplicações Financeiras Avaliadas a Valor Justo...,0.0
3,ÚLTIMO,1.01.02.01.01,Ativo Total,Ativo Circulante,Aplicações Financeiras,Títulos para Negociação,0.0
4,ÚLTIMO,1.01.02.01.02,Ativo Total,Ativo Circulante,Aplicações Financeiras,Títulos Designados a Valor Justo,0.0
5,ÚLTIMO,1.02.01,Ativo Total,Ativo Não Circulante,Ativo Realizável a Longo Prazo,Ativo Realizável a Longo Prazo,2071636.0
6,ÚLTIMO,1.02.01.01,Ativo Total,Ativo Não Circulante,Ativo Realizável a Longo Prazo,Aplicações Financeiras Avaliadas a Valor Justo...,0.0
7,ÚLTIMO,1.02.01.01.01,Ativo Total,Ativo Não Circulante,Ativo Realizável a Longo Prazo,Títulos Designados a Valor Justo,0.0
8,ÚLTIMO,1.02.01.02,Ativo Total,Ativo Não Circulante,Ativo Realizável a Longo Prazo,Aplicações Financeiras Avaliadas a Valor Justo...,0.0
9,ÚLTIMO,1.02.01.03,Ativo Total,Ativo Não Circulante,Ativo Realizável a Longo Prazo,Aplicações Financeiras Avaliadas ao Custo Amor...,0.0


### <h4>Drop rows</h4>

Select rows with only 3 elements:

In [747]:
df.iloc[idx_list]

Unnamed: 0,ORDEM_EXERC,CD_CONTA,DS_CONTA_1,DS_CONTA_2,DS_CONTA_3,DS_CONTA,VL_CONTA
0,ÚLTIMO,1.01.01,Ativo Total,Ativo Circulante,Caixa e Equivalentes de Caixa,Caixa e Equivalentes de Caixa,1728413.0
1,ÚLTIMO,1.01.02,Ativo Total,Ativo Circulante,Aplicações Financeiras,Aplicações Financeiras,0.0
5,ÚLTIMO,1.02.01,Ativo Total,Ativo Não Circulante,Ativo Realizável a Longo Prazo,Ativo Realizável a Longo Prazo,2071636.0


Check if there is at least another row starting with '1.01.01', '1.01.02' or '1.02.01':

In [748]:
for idx in idx_list:
    mask = [True]*len(ds_conta_3)
    mask[idx] = False
    if any(row[:round] == cd_conta_joincol[idx] for row in cd_conta_split[mask]):
        df = df.drop(idx)

In [749]:
df.reset_index(inplace=True, drop=True)

In [750]:
df

Unnamed: 0,ORDEM_EXERC,CD_CONTA,DS_CONTA_1,DS_CONTA_2,DS_CONTA_3,DS_CONTA,VL_CONTA
0,ÚLTIMO,1.01.01,Ativo Total,Ativo Circulante,Caixa e Equivalentes de Caixa,Caixa e Equivalentes de Caixa,1728413.0
1,ÚLTIMO,1.01.02.01,Ativo Total,Ativo Circulante,Aplicações Financeiras,Aplicações Financeiras Avaliadas a Valor Justo...,0.0
2,ÚLTIMO,1.01.02.01.01,Ativo Total,Ativo Circulante,Aplicações Financeiras,Títulos para Negociação,0.0
3,ÚLTIMO,1.01.02.01.02,Ativo Total,Ativo Circulante,Aplicações Financeiras,Títulos Designados a Valor Justo,0.0
4,ÚLTIMO,1.02.01.01,Ativo Total,Ativo Não Circulante,Ativo Realizável a Longo Prazo,Aplicações Financeiras Avaliadas a Valor Justo...,0.0
5,ÚLTIMO,1.02.01.01.01,Ativo Total,Ativo Não Circulante,Ativo Realizável a Longo Prazo,Títulos Designados a Valor Justo,0.0
6,ÚLTIMO,1.02.01.02,Ativo Total,Ativo Não Circulante,Ativo Realizável a Longo Prazo,Aplicações Financeiras Avaliadas a Valor Justo...,0.0
7,ÚLTIMO,1.02.01.03,Ativo Total,Ativo Não Circulante,Ativo Realizável a Longo Prazo,Aplicações Financeiras Avaliadas ao Custo Amor...,0.0
8,ÚLTIMO,1.02.01.04,Ativo Total,Ativo Não Circulante,Ativo Realizável a Longo Prazo,Contas a Receber,124569.0
