# <center><h1>Companhia Aberta Demonstrativo Financeiro</h1></center>

# <h2>Load Libraries</h2>

In [1776]:
import pandas as pd
import numpy as np

import sys

# <h2>Import Data</h2>

## <h3>Load .csv</h3>

In [1777]:
cia_aberta_df = pd.read_csv(r'dfp_cia_aberta_BPA_con_2020.csv', encoding='ISO-8859-1', sep=";")    # leio o .csv com os dados de todas as companhias abertas

## <h3>Select Company</h3>

In [1778]:
df = cia_aberta_df[cia_aberta_df['CNPJ_CIA'] == '97.837.181/0001-47'].copy()    # dataframe = linhas do dataframe onde ('CNPJ_CIA' == '97.837.181/0001-47') == True
                                                                                    # (seleciono somente as linhas relativas a uma companhia de interesse)

In [1779]:
df = df[df['ORDEM_EXERC'] == 'ÚLTIMO']                                         # seleciono somente o último ou penúltimo exercício

In [1780]:
df = df[['CD_CONTA','DS_CONTA','VL_CONTA']]

In [1781]:
df.reset_index(inplace=True, drop=True)

In [1782]:
df

Unnamed: 0,CD_CONTA,DS_CONTA,VL_CONTA
0,1,Ativo Total,11498520.0
1,1.01,Ativo Circulante,4220022.0
2,1.01.01,Caixa e Equivalentes de Caixa,1728413.0
3,1.01.02,Aplicações Financeiras,0.0
4,1.01.02.01,Aplicações Financeiras Avaliadas a Valor Justo...,0.0
...,...,...,...
71,1.02.04.02.07,Goodwill na aquisição da Caetex Florestal,8767.0
72,1.02.04.02.08,Goodwill na aquisição da Cerâmica Urussanga em...,92944.0
73,1.02.04.02.09,Goodwill na aquisição da Massima Revestimentos...,6110.0
74,1.02.04.02.10,Goodwill na aquisição da Cecrisa Revestimentos...,168430.0


### <h4>Subset DataFrame (only for testing purposes)</h4>

In [1783]:
df = df.iloc[np.r_[0:7, 24:31],:]

In [1784]:
df

Unnamed: 0,CD_CONTA,DS_CONTA,VL_CONTA
0,1,Ativo Total,11498520.0
1,1.01,Ativo Circulante,4220022.0
2,1.01.01,Caixa e Equivalentes de Caixa,1728413.0
3,1.01.02,Aplicações Financeiras,0.0
4,1.01.02.01,Aplicações Financeiras Avaliadas a Valor Justo...,0.0
5,1.01.02.01.01,Títulos para Negociação,0.0
6,1.01.02.01.02,Títulos Designados a Valor Justo,0.0
24,1.02,Ativo Não Circulante,7278498.0
25,1.02.01,Ativo Realizável a Longo Prazo,2071636.0
26,1.02.01.01,Aplicações Financeiras Avaliadas a Valor Justo...,0.0


# <h2>Wrangling</h2>

## <h3>Number of Steps</h3>

In [1785]:
cd_conta_split = pd.Series([string.split('.') for string in df['CD_CONTA']])

In [1786]:
cd_conta_len = [len(lst) for lst in cd_conta_split]

In [1787]:
num_levels = max(cd_conta_len)

In [1788]:
num_levels

5

## <h3>ROUND 1</h3>

In [1789]:
round=1

In [1790]:
df

Unnamed: 0,CD_CONTA,DS_CONTA,VL_CONTA
0,1,Ativo Total,11498520.0
1,1.01,Ativo Circulante,4220022.0
2,1.01.01,Caixa e Equivalentes de Caixa,1728413.0
3,1.01.02,Aplicações Financeiras,0.0
4,1.01.02.01,Aplicações Financeiras Avaliadas a Valor Justo...,0.0
5,1.01.02.01.01,Títulos para Negociação,0.0
6,1.01.02.01.02,Títulos Designados a Valor Justo,0.0
24,1.02,Ativo Não Circulante,7278498.0
25,1.02.01,Ativo Realizável a Longo Prazo,2071636.0
26,1.02.01.01,Aplicações Financeiras Avaliadas a Valor Justo...,0.0


### <h4>Join</h4>

In [1791]:
cd_conta_split = pd.Series([string.split('.') for string in df['CD_CONTA']])

In [1792]:
cd_conta_joincol = [row[:round] for row in cd_conta_split]

Select rows with only one element:

In [1793]:
cd_conta_len = [len(row) for row in cd_conta_split]

In [1794]:
idx_list = [idx for idx, element in enumerate(cd_conta_len) if element == round]        # round = 1

In [1795]:
keys = [cd_conta_joincol[idx] for idx in idx_list]

In [1796]:
key_idx_dict = {".".join(key): idx for key, idx in zip(keys, idx_list)}

In [1797]:
df.iloc[idx_list]

Unnamed: 0,CD_CONTA,DS_CONTA,VL_CONTA
0,1,Ativo Total,11498520.0


Join:

In [1798]:
ds_conta_1 = [df.DS_CONTA[key_idx_dict[key]]
              for key in key_idx_dict
              for row in cd_conta_joincol
              if ".".join(row) == key]

In [1799]:
ds_conta_1 = [df.DS_CONTA[key_idx_dict[key]]
              for row in cd_conta_split
              for key in key_idx_dict
              if ".".join(row[:round]) == key]

In [1800]:
'''
if pd.Series(ds_conta_1).equals(df.DS_CONTA):
    df.to_csv("output.csv", index=False)
    sys.exit()
else:
    df.insert(round, column='DS_CONTA_1', value=ds_conta_1)
'''

"\nif pd.Series(ds_conta_1).equals(df.DS_CONTA):\n    df.to_csv()\nelse:\n    df.insert(round, column='DS_CONTA_1', value=ds_conta_1)\n"

In [1801]:
df.insert(round, column='DS_CONTA_1', value=ds_conta_1)

In [1802]:
df

Unnamed: 0,CD_CONTA,DS_CONTA_1,DS_CONTA,VL_CONTA
0,1,Ativo Total,Ativo Total,11498520.0
1,1.01,Ativo Total,Ativo Circulante,4220022.0
2,1.01.01,Ativo Total,Caixa e Equivalentes de Caixa,1728413.0
3,1.01.02,Ativo Total,Aplicações Financeiras,0.0
4,1.01.02.01,Ativo Total,Aplicações Financeiras Avaliadas a Valor Justo...,0.0
5,1.01.02.01.01,Ativo Total,Títulos para Negociação,0.0
6,1.01.02.01.02,Ativo Total,Títulos Designados a Valor Justo,0.0
24,1.02,Ativo Total,Ativo Não Circulante,7278498.0
25,1.02.01,Ativo Total,Ativo Realizável a Longo Prazo,2071636.0
26,1.02.01.01,Ativo Total,Aplicações Financeiras Avaliadas a Valor Justo...,0.0


### <h4>Drop rows</h4>

Select rows with only one element:

In [1803]:
df.iloc[idx_list]

Unnamed: 0,CD_CONTA,DS_CONTA_1,DS_CONTA,VL_CONTA
0,1,Ativo Total,Ativo Total,11498520.0


Check if there is at least another CD_CONTA starting with '1'

In [1804]:
mask = [False if len == round else True for len in cd_conta_len]

In [1805]:
any(row[0] == '1' for row in cd_conta_split[mask])

True

In [1806]:
# cd_conta_split = cd_conta_split[mask]

In [1807]:
df = df[mask]

In [1808]:
df.reset_index(inplace=True, drop=True)

In [1809]:
df

Unnamed: 0,CD_CONTA,DS_CONTA_1,DS_CONTA,VL_CONTA
0,1.01,Ativo Total,Ativo Circulante,4220022.0
1,1.01.01,Ativo Total,Caixa e Equivalentes de Caixa,1728413.0
2,1.01.02,Ativo Total,Aplicações Financeiras,0.0
3,1.01.02.01,Ativo Total,Aplicações Financeiras Avaliadas a Valor Justo...,0.0
4,1.01.02.01.01,Ativo Total,Títulos para Negociação,0.0
5,1.01.02.01.02,Ativo Total,Títulos Designados a Valor Justo,0.0
6,1.02,Ativo Total,Ativo Não Circulante,7278498.0
7,1.02.01,Ativo Total,Ativo Realizável a Longo Prazo,2071636.0
8,1.02.01.01,Ativo Total,Aplicações Financeiras Avaliadas a Valor Justo...,0.0
9,1.02.01.01.01,Ativo Total,Títulos Designados a Valor Justo,0.0


## <h3>ROUND 2</h3>

In [1810]:
round=2

In [1811]:
df

Unnamed: 0,CD_CONTA,DS_CONTA_1,DS_CONTA,VL_CONTA
0,1.01,Ativo Total,Ativo Circulante,4220022.0
1,1.01.01,Ativo Total,Caixa e Equivalentes de Caixa,1728413.0
2,1.01.02,Ativo Total,Aplicações Financeiras,0.0
3,1.01.02.01,Ativo Total,Aplicações Financeiras Avaliadas a Valor Justo...,0.0
4,1.01.02.01.01,Ativo Total,Títulos para Negociação,0.0
5,1.01.02.01.02,Ativo Total,Títulos Designados a Valor Justo,0.0
6,1.02,Ativo Total,Ativo Não Circulante,7278498.0
7,1.02.01,Ativo Total,Ativo Realizável a Longo Prazo,2071636.0
8,1.02.01.01,Ativo Total,Aplicações Financeiras Avaliadas a Valor Justo...,0.0
9,1.02.01.01.01,Ativo Total,Títulos Designados a Valor Justo,0.0


### <h4>Join</h4>

In [1812]:
cd_conta_split = pd.Series([string.split('.') for string in df['CD_CONTA']])

In [1813]:
cd_conta_joincol = [row[:round] for row in cd_conta_split]

Select rows with only 2 elements:

In [1814]:
cd_conta_len = [len(lst) for lst in cd_conta_split]

In [1815]:
idx_list = [idx for idx, element in enumerate(cd_conta_len) if element == round]

In [1816]:
df.iloc[idx_list]

Unnamed: 0,CD_CONTA,DS_CONTA_1,DS_CONTA,VL_CONTA
0,1.01,Ativo Total,Ativo Circulante,4220022.0
6,1.02,Ativo Total,Ativo Não Circulante,7278498.0


In [1817]:
keys = [cd_conta_joincol[idx] for idx in idx_list]

In [1818]:
key_idx_dict = {".".join(key): idx for key, idx in zip(keys, idx_list)}

Join:

In [1819]:
ds_conta_2 = [df.DS_CONTA[key_idx_dict[key]]
              for key in key_idx_dict
              for row in cd_conta_joincol
              if ".".join(row) == key]

In [1820]:
ds_conta_2 = [df.DS_CONTA[key_idx_dict[key]]
              for row in cd_conta_split
              for key in key_idx_dict
              if ".".join(row[:round]) == key]

In [1821]:
# ds_conta_2 = [df['DS_CONTA'][key_idx_dict[key]] for row in cd_conta_split for key in key_idx_dict if ".".join(row[:round]) == key]

In [1822]:
'''
if pd.Series(ds_conta_2).equals(df.DS_CONTA):
    df.to_csv("output.csv", index=False)
    sys.exit()
else:
    df.insert(round, column='DS_CONTA_2', value=ds_conta_2)
'''

"\nif pd.Series(ds_conta_2).equals(df.DS_CONTA):\n    df.to_csv()\nelse:\n    df.insert(round, column='DS_CONTA_2', value=ds_conta_2)\n"

In [1823]:
df.insert(round, column='DS_CONTA_2', value=ds_conta_2)

In [1824]:
df

Unnamed: 0,CD_CONTA,DS_CONTA_1,DS_CONTA_2,DS_CONTA,VL_CONTA
0,1.01,Ativo Total,Ativo Circulante,Ativo Circulante,4220022.0
1,1.01.01,Ativo Total,Ativo Circulante,Caixa e Equivalentes de Caixa,1728413.0
2,1.01.02,Ativo Total,Ativo Circulante,Aplicações Financeiras,0.0
3,1.01.02.01,Ativo Total,Ativo Circulante,Aplicações Financeiras Avaliadas a Valor Justo...,0.0
4,1.01.02.01.01,Ativo Total,Ativo Circulante,Títulos para Negociação,0.0
5,1.01.02.01.02,Ativo Total,Ativo Circulante,Títulos Designados a Valor Justo,0.0
6,1.02,Ativo Total,Ativo Não Circulante,Ativo Não Circulante,7278498.0
7,1.02.01,Ativo Total,Ativo Não Circulante,Ativo Realizável a Longo Prazo,2071636.0
8,1.02.01.01,Ativo Total,Ativo Não Circulante,Aplicações Financeiras Avaliadas a Valor Justo...,0.0
9,1.02.01.01.01,Ativo Total,Ativo Não Circulante,Títulos Designados a Valor Justo,0.0


### <h4>Drop rows</h4>

Select rows with only 2 elements:

In [1825]:
df.iloc[idx_list]

Unnamed: 0,CD_CONTA,DS_CONTA_1,DS_CONTA_2,DS_CONTA,VL_CONTA
0,1.01,Ativo Total,Ativo Circulante,Ativo Circulante,4220022.0
6,1.02,Ativo Total,Ativo Não Circulante,Ativo Não Circulante,7278498.0


Check if there is at least another CD_CONTA starting with '1.01' or '1.02':

In [1826]:
for idx in idx_list:
    mask = [True]*len(ds_conta_2)
    mask[idx] = False
    if any(row[:round] == cd_conta_joincol[idx] for row in cd_conta_split[mask]):
        df = df.drop(idx)
    else:
        df.loc[idx, 'CD_CONTA'] = df.loc[idx, 'CD_CONTA'] + '.00'

In [1827]:
df.reset_index(inplace=True, drop=True)

In [1828]:
df

Unnamed: 0,CD_CONTA,DS_CONTA_1,DS_CONTA_2,DS_CONTA,VL_CONTA
0,1.01.01,Ativo Total,Ativo Circulante,Caixa e Equivalentes de Caixa,1728413.0
1,1.01.02,Ativo Total,Ativo Circulante,Aplicações Financeiras,0.0
2,1.01.02.01,Ativo Total,Ativo Circulante,Aplicações Financeiras Avaliadas a Valor Justo...,0.0
3,1.01.02.01.01,Ativo Total,Ativo Circulante,Títulos para Negociação,0.0
4,1.01.02.01.02,Ativo Total,Ativo Circulante,Títulos Designados a Valor Justo,0.0
5,1.02.01,Ativo Total,Ativo Não Circulante,Ativo Realizável a Longo Prazo,2071636.0
6,1.02.01.01,Ativo Total,Ativo Não Circulante,Aplicações Financeiras Avaliadas a Valor Justo...,0.0
7,1.02.01.01.01,Ativo Total,Ativo Não Circulante,Títulos Designados a Valor Justo,0.0
8,1.02.01.02,Ativo Total,Ativo Não Circulante,Aplicações Financeiras Avaliadas a Valor Justo...,0.0
9,1.02.01.03,Ativo Total,Ativo Não Circulante,Aplicações Financeiras Avaliadas ao Custo Amor...,0.0


## <h3>ROUND 3</h3>

In [1829]:
round=3

In [1830]:
df

Unnamed: 0,CD_CONTA,DS_CONTA_1,DS_CONTA_2,DS_CONTA,VL_CONTA
0,1.01.01,Ativo Total,Ativo Circulante,Caixa e Equivalentes de Caixa,1728413.0
1,1.01.02,Ativo Total,Ativo Circulante,Aplicações Financeiras,0.0
2,1.01.02.01,Ativo Total,Ativo Circulante,Aplicações Financeiras Avaliadas a Valor Justo...,0.0
3,1.01.02.01.01,Ativo Total,Ativo Circulante,Títulos para Negociação,0.0
4,1.01.02.01.02,Ativo Total,Ativo Circulante,Títulos Designados a Valor Justo,0.0
5,1.02.01,Ativo Total,Ativo Não Circulante,Ativo Realizável a Longo Prazo,2071636.0
6,1.02.01.01,Ativo Total,Ativo Não Circulante,Aplicações Financeiras Avaliadas a Valor Justo...,0.0
7,1.02.01.01.01,Ativo Total,Ativo Não Circulante,Títulos Designados a Valor Justo,0.0
8,1.02.01.02,Ativo Total,Ativo Não Circulante,Aplicações Financeiras Avaliadas a Valor Justo...,0.0
9,1.02.01.03,Ativo Total,Ativo Não Circulante,Aplicações Financeiras Avaliadas ao Custo Amor...,0.0


### <h4>Join</h4>

In [1831]:
cd_conta_split = pd.Series([string.split('.') for string in df['CD_CONTA']])

In [1832]:
cd_conta_joincol = [row[:round] for row in cd_conta_split]

Select rows with only 3 elements:

In [1833]:
cd_conta_len = [len(lst) for lst in cd_conta_split]

In [1834]:
idx_list = [idx for idx, element in enumerate(cd_conta_len) if element == round]

In [1835]:
df.iloc[idx_list]

Unnamed: 0,CD_CONTA,DS_CONTA_1,DS_CONTA_2,DS_CONTA,VL_CONTA
0,1.01.01,Ativo Total,Ativo Circulante,Caixa e Equivalentes de Caixa,1728413.0
1,1.01.02,Ativo Total,Ativo Circulante,Aplicações Financeiras,0.0
5,1.02.01,Ativo Total,Ativo Não Circulante,Ativo Realizável a Longo Prazo,2071636.0


In [1836]:
keys = [cd_conta_joincol[idx] for idx in idx_list]

In [1837]:
key_idx_dict = {".".join(key): idx for key, idx in zip(keys, idx_list)}

Join:

In [1838]:
ds_conta_3 = [df.DS_CONTA[key_idx_dict[key]]
              for key in key_idx_dict
              for row in cd_conta_joincol
              if ".".join(row) == key]

In [1839]:
ds_conta_3 = [df.DS_CONTA[key_idx_dict[key]]
              for row in cd_conta_split
              for key in key_idx_dict
              if ".".join(row[:round]) == key]

In [1840]:
'''
if pd.Series(ds_conta_3).equals(df.DS_CONTA):
    df.to_csv("output.csv", index=False)
    sys.exit()
else:
    df.insert(round, column='DS_CONTA_3', value=ds_conta_3)
'''

"\nif pd.Series(ds_conta_3).equals(df.DS_CONTA):\n    df.to_csv()\nelse:\n    df.insert(round, column='DS_CONTA_3', value=ds_conta_3)\n"

In [1841]:
df.insert(round, column='DS_CONTA_3', value=ds_conta_3)

In [1842]:
df

Unnamed: 0,CD_CONTA,DS_CONTA_1,DS_CONTA_2,DS_CONTA_3,DS_CONTA,VL_CONTA
0,1.01.01,Ativo Total,Ativo Circulante,Caixa e Equivalentes de Caixa,Caixa e Equivalentes de Caixa,1728413.0
1,1.01.02,Ativo Total,Ativo Circulante,Aplicações Financeiras,Aplicações Financeiras,0.0
2,1.01.02.01,Ativo Total,Ativo Circulante,Aplicações Financeiras,Aplicações Financeiras Avaliadas a Valor Justo...,0.0
3,1.01.02.01.01,Ativo Total,Ativo Circulante,Aplicações Financeiras,Títulos para Negociação,0.0
4,1.01.02.01.02,Ativo Total,Ativo Circulante,Aplicações Financeiras,Títulos Designados a Valor Justo,0.0
5,1.02.01,Ativo Total,Ativo Não Circulante,Ativo Realizável a Longo Prazo,Ativo Realizável a Longo Prazo,2071636.0
6,1.02.01.01,Ativo Total,Ativo Não Circulante,Ativo Realizável a Longo Prazo,Aplicações Financeiras Avaliadas a Valor Justo...,0.0
7,1.02.01.01.01,Ativo Total,Ativo Não Circulante,Ativo Realizável a Longo Prazo,Títulos Designados a Valor Justo,0.0
8,1.02.01.02,Ativo Total,Ativo Não Circulante,Ativo Realizável a Longo Prazo,Aplicações Financeiras Avaliadas a Valor Justo...,0.0
9,1.02.01.03,Ativo Total,Ativo Não Circulante,Ativo Realizável a Longo Prazo,Aplicações Financeiras Avaliadas ao Custo Amor...,0.0


### <h4>Drop rows</h4>

Select rows with only 3 elements:

In [1843]:
df.iloc[idx_list]

Unnamed: 0,CD_CONTA,DS_CONTA_1,DS_CONTA_2,DS_CONTA_3,DS_CONTA,VL_CONTA
0,1.01.01,Ativo Total,Ativo Circulante,Caixa e Equivalentes de Caixa,Caixa e Equivalentes de Caixa,1728413.0
1,1.01.02,Ativo Total,Ativo Circulante,Aplicações Financeiras,Aplicações Financeiras,0.0
5,1.02.01,Ativo Total,Ativo Não Circulante,Ativo Realizável a Longo Prazo,Ativo Realizável a Longo Prazo,2071636.0


Check if there is at least another row starting with '1.01.01', '1.01.02' or '1.02.01':

In [1844]:
for idx in idx_list:
    mask = [True]*len(ds_conta_3)
    mask[idx] = False
    if any(row[:round] == cd_conta_joincol[idx] for row in cd_conta_split[mask]):
        df = df.drop(idx)
    else:
        df.loc[idx, 'CD_CONTA'] = df.loc[idx, 'CD_CONTA'] + '.00'

In [1845]:
df.reset_index(inplace=True, drop=True)

In [1846]:
df

Unnamed: 0,CD_CONTA,DS_CONTA_1,DS_CONTA_2,DS_CONTA_3,DS_CONTA,VL_CONTA
0,1.01.01.00,Ativo Total,Ativo Circulante,Caixa e Equivalentes de Caixa,Caixa e Equivalentes de Caixa,1728413.0
1,1.01.02.01,Ativo Total,Ativo Circulante,Aplicações Financeiras,Aplicações Financeiras Avaliadas a Valor Justo...,0.0
2,1.01.02.01.01,Ativo Total,Ativo Circulante,Aplicações Financeiras,Títulos para Negociação,0.0
3,1.01.02.01.02,Ativo Total,Ativo Circulante,Aplicações Financeiras,Títulos Designados a Valor Justo,0.0
4,1.02.01.01,Ativo Total,Ativo Não Circulante,Ativo Realizável a Longo Prazo,Aplicações Financeiras Avaliadas a Valor Justo...,0.0
5,1.02.01.01.01,Ativo Total,Ativo Não Circulante,Ativo Realizável a Longo Prazo,Títulos Designados a Valor Justo,0.0
6,1.02.01.02,Ativo Total,Ativo Não Circulante,Ativo Realizável a Longo Prazo,Aplicações Financeiras Avaliadas a Valor Justo...,0.0
7,1.02.01.03,Ativo Total,Ativo Não Circulante,Ativo Realizável a Longo Prazo,Aplicações Financeiras Avaliadas ao Custo Amor...,0.0
8,1.02.01.04,Ativo Total,Ativo Não Circulante,Ativo Realizável a Longo Prazo,Contas a Receber,124569.0


## <h3>ROUND 4</h3>

In [1847]:
round=4

In [1848]:
df

Unnamed: 0,CD_CONTA,DS_CONTA_1,DS_CONTA_2,DS_CONTA_3,DS_CONTA,VL_CONTA
0,1.01.01.00,Ativo Total,Ativo Circulante,Caixa e Equivalentes de Caixa,Caixa e Equivalentes de Caixa,1728413.0
1,1.01.02.01,Ativo Total,Ativo Circulante,Aplicações Financeiras,Aplicações Financeiras Avaliadas a Valor Justo...,0.0
2,1.01.02.01.01,Ativo Total,Ativo Circulante,Aplicações Financeiras,Títulos para Negociação,0.0
3,1.01.02.01.02,Ativo Total,Ativo Circulante,Aplicações Financeiras,Títulos Designados a Valor Justo,0.0
4,1.02.01.01,Ativo Total,Ativo Não Circulante,Ativo Realizável a Longo Prazo,Aplicações Financeiras Avaliadas a Valor Justo...,0.0
5,1.02.01.01.01,Ativo Total,Ativo Não Circulante,Ativo Realizável a Longo Prazo,Títulos Designados a Valor Justo,0.0
6,1.02.01.02,Ativo Total,Ativo Não Circulante,Ativo Realizável a Longo Prazo,Aplicações Financeiras Avaliadas a Valor Justo...,0.0
7,1.02.01.03,Ativo Total,Ativo Não Circulante,Ativo Realizável a Longo Prazo,Aplicações Financeiras Avaliadas ao Custo Amor...,0.0
8,1.02.01.04,Ativo Total,Ativo Não Circulante,Ativo Realizável a Longo Prazo,Contas a Receber,124569.0


### <h4>Join</h4>

In [1849]:
cd_conta_split = pd.Series([string.split('.') for string in df['CD_CONTA']])

In [1850]:
cd_conta_joincol = [row[:round] for row in cd_conta_split]

Select rows with only 4 elements:

In [1851]:
cd_conta_len = [len(lst) for lst in cd_conta_split]

In [1852]:
idx_list = [idx for idx, element in enumerate(cd_conta_len) if element == round]

In [1853]:
df.iloc[idx_list]

Unnamed: 0,CD_CONTA,DS_CONTA_1,DS_CONTA_2,DS_CONTA_3,DS_CONTA,VL_CONTA
0,1.01.01.00,Ativo Total,Ativo Circulante,Caixa e Equivalentes de Caixa,Caixa e Equivalentes de Caixa,1728413.0
1,1.01.02.01,Ativo Total,Ativo Circulante,Aplicações Financeiras,Aplicações Financeiras Avaliadas a Valor Justo...,0.0
4,1.02.01.01,Ativo Total,Ativo Não Circulante,Ativo Realizável a Longo Prazo,Aplicações Financeiras Avaliadas a Valor Justo...,0.0
6,1.02.01.02,Ativo Total,Ativo Não Circulante,Ativo Realizável a Longo Prazo,Aplicações Financeiras Avaliadas a Valor Justo...,0.0
7,1.02.01.03,Ativo Total,Ativo Não Circulante,Ativo Realizável a Longo Prazo,Aplicações Financeiras Avaliadas ao Custo Amor...,0.0
8,1.02.01.04,Ativo Total,Ativo Não Circulante,Ativo Realizável a Longo Prazo,Contas a Receber,124569.0


In [1854]:
keys = [cd_conta_joincol[idx] for idx in idx_list]

In [1855]:
key_idx_dict = {".".join(key): idx for key, idx in zip(keys, idx_list)}

Join:

In [1856]:
ds_conta_4 = [df.DS_CONTA[key_idx_dict[key]]
              for key in key_idx_dict
              for row in cd_conta_joincol
              if ".".join(row) == key]

In [1857]:
ds_conta_4 = [df.DS_CONTA[key_idx_dict[key]]
              for row in cd_conta_split
              for key in key_idx_dict
              if ".".join(row[:round]) == key]

In [1858]:
'''
if pd.Series(ds_conta_3).equals(df.DS_CONTA):
    df.to_csv("output.csv", index=False)
    sys.exit()
else:
    df.insert(round, column='DS_CONTA_3', value=ds_conta_3)
'''

"\nif pd.Series(ds_conta_3).equals(df.DS_CONTA):\n    df.to_csv()\nelse:\n    df.insert(round, column='DS_CONTA_3', value=ds_conta_3)\n"

In [1859]:
df.insert(round, column='DS_CONTA_4', value=ds_conta_4)

In [1860]:
df

Unnamed: 0,CD_CONTA,DS_CONTA_1,DS_CONTA_2,DS_CONTA_3,DS_CONTA_4,DS_CONTA,VL_CONTA
0,1.01.01.00,Ativo Total,Ativo Circulante,Caixa e Equivalentes de Caixa,Caixa e Equivalentes de Caixa,Caixa e Equivalentes de Caixa,1728413.0
1,1.01.02.01,Ativo Total,Ativo Circulante,Aplicações Financeiras,Aplicações Financeiras Avaliadas a Valor Justo...,Aplicações Financeiras Avaliadas a Valor Justo...,0.0
2,1.01.02.01.01,Ativo Total,Ativo Circulante,Aplicações Financeiras,Aplicações Financeiras Avaliadas a Valor Justo...,Títulos para Negociação,0.0
3,1.01.02.01.02,Ativo Total,Ativo Circulante,Aplicações Financeiras,Aplicações Financeiras Avaliadas a Valor Justo...,Títulos Designados a Valor Justo,0.0
4,1.02.01.01,Ativo Total,Ativo Não Circulante,Ativo Realizável a Longo Prazo,Aplicações Financeiras Avaliadas a Valor Justo...,Aplicações Financeiras Avaliadas a Valor Justo...,0.0
5,1.02.01.01.01,Ativo Total,Ativo Não Circulante,Ativo Realizável a Longo Prazo,Aplicações Financeiras Avaliadas a Valor Justo...,Títulos Designados a Valor Justo,0.0
6,1.02.01.02,Ativo Total,Ativo Não Circulante,Ativo Realizável a Longo Prazo,Aplicações Financeiras Avaliadas a Valor Justo...,Aplicações Financeiras Avaliadas a Valor Justo...,0.0
7,1.02.01.03,Ativo Total,Ativo Não Circulante,Ativo Realizável a Longo Prazo,Aplicações Financeiras Avaliadas ao Custo Amor...,Aplicações Financeiras Avaliadas ao Custo Amor...,0.0
8,1.02.01.04,Ativo Total,Ativo Não Circulante,Ativo Realizável a Longo Prazo,Contas a Receber,Contas a Receber,124569.0


### <h4>Drop rows</h4>

Select rows with 4 elements:

In [1861]:
df.iloc[idx_list]

Unnamed: 0,CD_CONTA,DS_CONTA_1,DS_CONTA_2,DS_CONTA_3,DS_CONTA_4,DS_CONTA,VL_CONTA
0,1.01.01.00,Ativo Total,Ativo Circulante,Caixa e Equivalentes de Caixa,Caixa e Equivalentes de Caixa,Caixa e Equivalentes de Caixa,1728413.0
1,1.01.02.01,Ativo Total,Ativo Circulante,Aplicações Financeiras,Aplicações Financeiras Avaliadas a Valor Justo...,Aplicações Financeiras Avaliadas a Valor Justo...,0.0
4,1.02.01.01,Ativo Total,Ativo Não Circulante,Ativo Realizável a Longo Prazo,Aplicações Financeiras Avaliadas a Valor Justo...,Aplicações Financeiras Avaliadas a Valor Justo...,0.0
6,1.02.01.02,Ativo Total,Ativo Não Circulante,Ativo Realizável a Longo Prazo,Aplicações Financeiras Avaliadas a Valor Justo...,Aplicações Financeiras Avaliadas a Valor Justo...,0.0
7,1.02.01.03,Ativo Total,Ativo Não Circulante,Ativo Realizável a Longo Prazo,Aplicações Financeiras Avaliadas ao Custo Amor...,Aplicações Financeiras Avaliadas ao Custo Amor...,0.0
8,1.02.01.04,Ativo Total,Ativo Não Circulante,Ativo Realizável a Longo Prazo,Contas a Receber,Contas a Receber,124569.0


Check if there is at least another row starting with '1.01.02.01.01', '1.01.02.01.02' or '1.02.01.01.01':

In [1862]:
for idx in idx_list:
    mask = [True]*len(ds_conta_4)
    mask[idx] = False
    if any(row[:round] == cd_conta_joincol[idx] for row in cd_conta_split[mask]):
        df = df.drop(idx)
    else:
        df.loc[idx, 'CD_CONTA'] = df.loc[idx, 'CD_CONTA'] + '.00'

In [1863]:
df.reset_index(inplace=True, drop=True)

In [1864]:
df

Unnamed: 0,CD_CONTA,DS_CONTA_1,DS_CONTA_2,DS_CONTA_3,DS_CONTA_4,DS_CONTA,VL_CONTA
0,1.01.01.00.00,Ativo Total,Ativo Circulante,Caixa e Equivalentes de Caixa,Caixa e Equivalentes de Caixa,Caixa e Equivalentes de Caixa,1728413.0
1,1.01.02.01.01,Ativo Total,Ativo Circulante,Aplicações Financeiras,Aplicações Financeiras Avaliadas a Valor Justo...,Títulos para Negociação,0.0
2,1.01.02.01.02,Ativo Total,Ativo Circulante,Aplicações Financeiras,Aplicações Financeiras Avaliadas a Valor Justo...,Títulos Designados a Valor Justo,0.0
3,1.02.01.01.01,Ativo Total,Ativo Não Circulante,Ativo Realizável a Longo Prazo,Aplicações Financeiras Avaliadas a Valor Justo...,Títulos Designados a Valor Justo,0.0
4,1.02.01.02.00,Ativo Total,Ativo Não Circulante,Ativo Realizável a Longo Prazo,Aplicações Financeiras Avaliadas a Valor Justo...,Aplicações Financeiras Avaliadas a Valor Justo...,0.0
5,1.02.01.03.00,Ativo Total,Ativo Não Circulante,Ativo Realizável a Longo Prazo,Aplicações Financeiras Avaliadas ao Custo Amor...,Aplicações Financeiras Avaliadas ao Custo Amor...,0.0
6,1.02.01.04.00,Ativo Total,Ativo Não Circulante,Ativo Realizável a Longo Prazo,Contas a Receber,Contas a Receber,124569.0


## <h3>ROUND 5</h3>

In [1865]:
round=5

In [1866]:
df

Unnamed: 0,CD_CONTA,DS_CONTA_1,DS_CONTA_2,DS_CONTA_3,DS_CONTA_4,DS_CONTA,VL_CONTA
0,1.01.01.00.00,Ativo Total,Ativo Circulante,Caixa e Equivalentes de Caixa,Caixa e Equivalentes de Caixa,Caixa e Equivalentes de Caixa,1728413.0
1,1.01.02.01.01,Ativo Total,Ativo Circulante,Aplicações Financeiras,Aplicações Financeiras Avaliadas a Valor Justo...,Títulos para Negociação,0.0
2,1.01.02.01.02,Ativo Total,Ativo Circulante,Aplicações Financeiras,Aplicações Financeiras Avaliadas a Valor Justo...,Títulos Designados a Valor Justo,0.0
3,1.02.01.01.01,Ativo Total,Ativo Não Circulante,Ativo Realizável a Longo Prazo,Aplicações Financeiras Avaliadas a Valor Justo...,Títulos Designados a Valor Justo,0.0
4,1.02.01.02.00,Ativo Total,Ativo Não Circulante,Ativo Realizável a Longo Prazo,Aplicações Financeiras Avaliadas a Valor Justo...,Aplicações Financeiras Avaliadas a Valor Justo...,0.0
5,1.02.01.03.00,Ativo Total,Ativo Não Circulante,Ativo Realizável a Longo Prazo,Aplicações Financeiras Avaliadas ao Custo Amor...,Aplicações Financeiras Avaliadas ao Custo Amor...,0.0
6,1.02.01.04.00,Ativo Total,Ativo Não Circulante,Ativo Realizável a Longo Prazo,Contas a Receber,Contas a Receber,124569.0


### <h4>Join</h4>

In [1867]:
cd_conta_split = pd.Series([string.split('.') for string in df['CD_CONTA']])

In [1868]:
cd_conta_joincol = [row[:round] for row in cd_conta_split]

Select rows with 5 elements:

In [1869]:
cd_conta_len = [len(lst) for lst in cd_conta_split]

In [1870]:
idx_list = [idx for idx, element in enumerate(cd_conta_len) if element == round]

In [1871]:
df.iloc[idx_list]

Unnamed: 0,CD_CONTA,DS_CONTA_1,DS_CONTA_2,DS_CONTA_3,DS_CONTA_4,DS_CONTA,VL_CONTA
0,1.01.01.00.00,Ativo Total,Ativo Circulante,Caixa e Equivalentes de Caixa,Caixa e Equivalentes de Caixa,Caixa e Equivalentes de Caixa,1728413.0
1,1.01.02.01.01,Ativo Total,Ativo Circulante,Aplicações Financeiras,Aplicações Financeiras Avaliadas a Valor Justo...,Títulos para Negociação,0.0
2,1.01.02.01.02,Ativo Total,Ativo Circulante,Aplicações Financeiras,Aplicações Financeiras Avaliadas a Valor Justo...,Títulos Designados a Valor Justo,0.0
3,1.02.01.01.01,Ativo Total,Ativo Não Circulante,Ativo Realizável a Longo Prazo,Aplicações Financeiras Avaliadas a Valor Justo...,Títulos Designados a Valor Justo,0.0
4,1.02.01.02.00,Ativo Total,Ativo Não Circulante,Ativo Realizável a Longo Prazo,Aplicações Financeiras Avaliadas a Valor Justo...,Aplicações Financeiras Avaliadas a Valor Justo...,0.0
5,1.02.01.03.00,Ativo Total,Ativo Não Circulante,Ativo Realizável a Longo Prazo,Aplicações Financeiras Avaliadas ao Custo Amor...,Aplicações Financeiras Avaliadas ao Custo Amor...,0.0
6,1.02.01.04.00,Ativo Total,Ativo Não Circulante,Ativo Realizável a Longo Prazo,Contas a Receber,Contas a Receber,124569.0


In [1872]:
keys = [cd_conta_joincol[idx] for idx in idx_list]

In [1873]:
key_idx_dict = {".".join(key): idx for key, idx in zip(keys, idx_list)}

In [1874]:
ds_conta_5 = [df.DS_CONTA[key_idx_dict[key]]
              for row in cd_conta_split
              for key in key_idx_dict
              if ".".join(row[:round]) == key]

In [1875]:
if pd.Series(ds_conta_5).equals(df.DS_CONTA):
    df.to_csv("output.csv", index=False)
    sys.exit()
else:
    df.insert(round, column='DS_CONTA_5', value=ds_conta_5)