# <center><h1>Companhia Aberta Demonstrativo Financeiro</h1></center>

# <h2>Load Libraries</h2>

In [1947]:
import pandas as pd
import numpy as np

import sys

# <h2>Import Data</h2>

## <h3>Load .csv</h3>

In [1948]:
cia_aberta_df = pd.read_csv(r'dfp_cia_aberta_BPA_con_2020.csv', encoding='ISO-8859-1', sep=";")    # leio o .csv com os dados de todas as companhias abertas

## <h3>Select Company</h3>

In [1949]:
df = cia_aberta_df[cia_aberta_df['CNPJ_CIA'] == '97.837.181/0001-47'].copy()    # dataframe = linhas do dataframe onde ('CNPJ_CIA' == '97.837.181/0001-47') == True
                                                                                    # (seleciono somente as linhas relativas a uma companhia de interesse)

In [1950]:
df = df[df['ORDEM_EXERC'] == 'ÚLTIMO']                                         # seleciono somente o último ou penúltimo exercício

In [1951]:
df = df[['CD_CONTA','DS_CONTA','VL_CONTA']]

In [1952]:
df.reset_index(inplace=True, drop=True)

In [1953]:
df

Unnamed: 0,CD_CONTA,DS_CONTA,VL_CONTA
0,1,Ativo Total,11498520.0
1,1.01,Ativo Circulante,4220022.0
2,1.01.01,Caixa e Equivalentes de Caixa,1728413.0
3,1.01.02,Aplicações Financeiras,0.0
4,1.01.02.01,Aplicações Financeiras Avaliadas a Valor Justo...,0.0
...,...,...,...
71,1.02.04.02.07,Goodwill na aquisição da Caetex Florestal,8767.0
72,1.02.04.02.08,Goodwill na aquisição da Cerâmica Urussanga em...,92944.0
73,1.02.04.02.09,Goodwill na aquisição da Massima Revestimentos...,6110.0
74,1.02.04.02.10,Goodwill na aquisição da Cecrisa Revestimentos...,168430.0


### <h4>Subset DataFrame (only for testing purposes)</h4>

In [1954]:
df = df.iloc[np.r_[0:7, 24:31],:]

In [1955]:
df

Unnamed: 0,CD_CONTA,DS_CONTA,VL_CONTA
0,1,Ativo Total,11498520.0
1,1.01,Ativo Circulante,4220022.0
2,1.01.01,Caixa e Equivalentes de Caixa,1728413.0
3,1.01.02,Aplicações Financeiras,0.0
4,1.01.02.01,Aplicações Financeiras Avaliadas a Valor Justo...,0.0
5,1.01.02.01.01,Títulos para Negociação,0.0
6,1.01.02.01.02,Títulos Designados a Valor Justo,0.0
24,1.02,Ativo Não Circulante,7278498.0
25,1.02.01,Ativo Realizável a Longo Prazo,2071636.0
26,1.02.01.01,Aplicações Financeiras Avaliadas a Valor Justo...,0.0


# <h2>Wrangling</h2>

## <h3>Number of Steps</h3>

In [1956]:
cd_conta_split = pd.Series([string.split('.') for string in df['CD_CONTA']])

In [1957]:
cd_conta_len = [len(lst) for lst in cd_conta_split]

In [1958]:
num_levels = max(cd_conta_len)

In [1959]:
num_levels

5

## <h3>ROUND 1</h3>

In [1960]:
round=1

In [1961]:
df

Unnamed: 0,CD_CONTA,DS_CONTA,VL_CONTA
0,1,Ativo Total,11498520.0
1,1.01,Ativo Circulante,4220022.0
2,1.01.01,Caixa e Equivalentes de Caixa,1728413.0
3,1.01.02,Aplicações Financeiras,0.0
4,1.01.02.01,Aplicações Financeiras Avaliadas a Valor Justo...,0.0
5,1.01.02.01.01,Títulos para Negociação,0.0
6,1.01.02.01.02,Títulos Designados a Valor Justo,0.0
24,1.02,Ativo Não Circulante,7278498.0
25,1.02.01,Ativo Realizável a Longo Prazo,2071636.0
26,1.02.01.01,Aplicações Financeiras Avaliadas a Valor Justo...,0.0


### <h4>Join</h4>

In [1962]:
cd_conta_split = pd.Series([string.split('.') for string in df['CD_CONTA']])

In [1963]:
cd_conta_joincol = [row[:round] for row in cd_conta_split]

Select rows with only one element:

In [1964]:
cd_conta_len = [len(row) for row in cd_conta_split]

In [1965]:
idx_list = [idx for idx, element in enumerate(cd_conta_len) if element == round]        # round = 1

In [1966]:
keys = [cd_conta_joincol[idx] for idx in idx_list]

In [1967]:
key_idx_dict = {".".join(key): idx for key, idx in zip(keys, idx_list)}

In [1968]:
df.iloc[idx_list]

Unnamed: 0,CD_CONTA,DS_CONTA,VL_CONTA
0,1,Ativo Total,11498520.0


Join:

In [1969]:
ds_conta_1 = [df.DS_CONTA[key_idx_dict[key]]
              for key in key_idx_dict
              for row in cd_conta_joincol
              if ".".join(row) == key]

In [1970]:
ds_conta_1 = [df.DS_CONTA[key_idx_dict[key]]
              for row in cd_conta_split
              for key in key_idx_dict
              if ".".join(row[:round]) == key]

In [1971]:
if pd.Series(ds_conta_1).equals(df.DS_CONTA):
    df.to_csv("output.csv", index=False)
    sys.exit()
else:
    df.insert(round, column='DS_CONTA_1', value=ds_conta_1)

In [1972]:
# df.insert(round, column='DS_CONTA_1', value=ds_conta_1)

In [1973]:
df

Unnamed: 0,CD_CONTA,DS_CONTA_1,DS_CONTA,VL_CONTA
0,1,Ativo Total,Ativo Total,11498520.0
1,1.01,Ativo Total,Ativo Circulante,4220022.0
2,1.01.01,Ativo Total,Caixa e Equivalentes de Caixa,1728413.0
3,1.01.02,Ativo Total,Aplicações Financeiras,0.0
4,1.01.02.01,Ativo Total,Aplicações Financeiras Avaliadas a Valor Justo...,0.0
5,1.01.02.01.01,Ativo Total,Títulos para Negociação,0.0
6,1.01.02.01.02,Ativo Total,Títulos Designados a Valor Justo,0.0
24,1.02,Ativo Total,Ativo Não Circulante,7278498.0
25,1.02.01,Ativo Total,Ativo Realizável a Longo Prazo,2071636.0
26,1.02.01.01,Ativo Total,Aplicações Financeiras Avaliadas a Valor Justo...,0.0


### <h4>Drop rows</h4>

Select rows with only one element:

In [1974]:
df.iloc[idx_list]

Unnamed: 0,CD_CONTA,DS_CONTA_1,DS_CONTA,VL_CONTA
0,1,Ativo Total,Ativo Total,11498520.0


Check if there is at least another CD_CONTA starting with '1'

In [1975]:
for idx in idx_list:
    mask = [True]*len(ds_conta_1)
    mask[idx] = False
    if any(row[:round] == cd_conta_joincol[idx] for row in cd_conta_split[mask]):
        df = df.drop(idx)
    else:
        df.loc[idx, 'CD_CONTA'] = df.loc[idx, 'CD_CONTA'] + '.00'

In [1976]:
df.reset_index(inplace=True, drop=True)

In [1977]:
df

Unnamed: 0,CD_CONTA,DS_CONTA_1,DS_CONTA,VL_CONTA
0,1.01,Ativo Total,Ativo Circulante,4220022.0
1,1.01.01,Ativo Total,Caixa e Equivalentes de Caixa,1728413.0
2,1.01.02,Ativo Total,Aplicações Financeiras,0.0
3,1.01.02.01,Ativo Total,Aplicações Financeiras Avaliadas a Valor Justo...,0.0
4,1.01.02.01.01,Ativo Total,Títulos para Negociação,0.0
5,1.01.02.01.02,Ativo Total,Títulos Designados a Valor Justo,0.0
6,1.02,Ativo Total,Ativo Não Circulante,7278498.0
7,1.02.01,Ativo Total,Ativo Realizável a Longo Prazo,2071636.0
8,1.02.01.01,Ativo Total,Aplicações Financeiras Avaliadas a Valor Justo...,0.0
9,1.02.01.01.01,Ativo Total,Títulos Designados a Valor Justo,0.0


## <h3>ROUND 2</h3>

In [1978]:
round=2

In [1979]:
df

Unnamed: 0,CD_CONTA,DS_CONTA_1,DS_CONTA,VL_CONTA
0,1.01,Ativo Total,Ativo Circulante,4220022.0
1,1.01.01,Ativo Total,Caixa e Equivalentes de Caixa,1728413.0
2,1.01.02,Ativo Total,Aplicações Financeiras,0.0
3,1.01.02.01,Ativo Total,Aplicações Financeiras Avaliadas a Valor Justo...,0.0
4,1.01.02.01.01,Ativo Total,Títulos para Negociação,0.0
5,1.01.02.01.02,Ativo Total,Títulos Designados a Valor Justo,0.0
6,1.02,Ativo Total,Ativo Não Circulante,7278498.0
7,1.02.01,Ativo Total,Ativo Realizável a Longo Prazo,2071636.0
8,1.02.01.01,Ativo Total,Aplicações Financeiras Avaliadas a Valor Justo...,0.0
9,1.02.01.01.01,Ativo Total,Títulos Designados a Valor Justo,0.0


### <h4>Join</h4>

In [1980]:
cd_conta_split = pd.Series([string.split('.') for string in df['CD_CONTA']])

In [1981]:
cd_conta_joincol = [row[:round] for row in cd_conta_split]

Select rows with only 2 elements:

In [1982]:
cd_conta_len = [len(lst) for lst in cd_conta_split]

In [1983]:
idx_list = [idx for idx, element in enumerate(cd_conta_len) if element == round]

In [1984]:
df.iloc[idx_list]

Unnamed: 0,CD_CONTA,DS_CONTA_1,DS_CONTA,VL_CONTA
0,1.01,Ativo Total,Ativo Circulante,4220022.0
6,1.02,Ativo Total,Ativo Não Circulante,7278498.0


In [1985]:
keys = [cd_conta_joincol[idx] for idx in idx_list]

In [1986]:
key_idx_dict = {".".join(key): idx for key, idx in zip(keys, idx_list)}

Join:

In [1987]:
ds_conta_2 = [df.DS_CONTA[key_idx_dict[key]]
              for key in key_idx_dict
              for row in cd_conta_joincol
              if ".".join(row) == key]

In [1988]:
ds_conta_2 = [df.DS_CONTA[key_idx_dict[key]]
              for row in cd_conta_split
              for key in key_idx_dict
              if ".".join(row[:round]) == key]

In [1989]:
if pd.Series(ds_conta_2).equals(df.DS_CONTA):
    df.to_csv("output.csv", index=False)
    sys.exit()
else:
    df.insert(round, column='DS_CONTA_2', value=ds_conta_2)

In [1990]:
# df.insert(round, column='DS_CONTA_2', value=ds_conta_2)

In [1991]:
df

Unnamed: 0,CD_CONTA,DS_CONTA_1,DS_CONTA_2,DS_CONTA,VL_CONTA
0,1.01,Ativo Total,Ativo Circulante,Ativo Circulante,4220022.0
1,1.01.01,Ativo Total,Ativo Circulante,Caixa e Equivalentes de Caixa,1728413.0
2,1.01.02,Ativo Total,Ativo Circulante,Aplicações Financeiras,0.0
3,1.01.02.01,Ativo Total,Ativo Circulante,Aplicações Financeiras Avaliadas a Valor Justo...,0.0
4,1.01.02.01.01,Ativo Total,Ativo Circulante,Títulos para Negociação,0.0
5,1.01.02.01.02,Ativo Total,Ativo Circulante,Títulos Designados a Valor Justo,0.0
6,1.02,Ativo Total,Ativo Não Circulante,Ativo Não Circulante,7278498.0
7,1.02.01,Ativo Total,Ativo Não Circulante,Ativo Realizável a Longo Prazo,2071636.0
8,1.02.01.01,Ativo Total,Ativo Não Circulante,Aplicações Financeiras Avaliadas a Valor Justo...,0.0
9,1.02.01.01.01,Ativo Total,Ativo Não Circulante,Títulos Designados a Valor Justo,0.0


### <h4>Drop rows</h4>

Select rows with only 2 elements:

In [1992]:
df.iloc[idx_list]

Unnamed: 0,CD_CONTA,DS_CONTA_1,DS_CONTA_2,DS_CONTA,VL_CONTA
0,1.01,Ativo Total,Ativo Circulante,Ativo Circulante,4220022.0
6,1.02,Ativo Total,Ativo Não Circulante,Ativo Não Circulante,7278498.0


Check if there is at least another CD_CONTA starting with '1.01' or '1.02':

In [1993]:
for idx in idx_list:
    mask = [True]*len(ds_conta_2)
    mask[idx] = False
    if any(row[:round] == cd_conta_joincol[idx] for row in cd_conta_split[mask]):
        df = df.drop(idx)
    else:
        df.loc[idx, 'CD_CONTA'] = df.loc[idx, 'CD_CONTA'] + '.00'

In [1994]:
df.reset_index(inplace=True, drop=True)

In [1995]:
df

Unnamed: 0,CD_CONTA,DS_CONTA_1,DS_CONTA_2,DS_CONTA,VL_CONTA
0,1.01.01,Ativo Total,Ativo Circulante,Caixa e Equivalentes de Caixa,1728413.0
1,1.01.02,Ativo Total,Ativo Circulante,Aplicações Financeiras,0.0
2,1.01.02.01,Ativo Total,Ativo Circulante,Aplicações Financeiras Avaliadas a Valor Justo...,0.0
3,1.01.02.01.01,Ativo Total,Ativo Circulante,Títulos para Negociação,0.0
4,1.01.02.01.02,Ativo Total,Ativo Circulante,Títulos Designados a Valor Justo,0.0
5,1.02.01,Ativo Total,Ativo Não Circulante,Ativo Realizável a Longo Prazo,2071636.0
6,1.02.01.01,Ativo Total,Ativo Não Circulante,Aplicações Financeiras Avaliadas a Valor Justo...,0.0
7,1.02.01.01.01,Ativo Total,Ativo Não Circulante,Títulos Designados a Valor Justo,0.0
8,1.02.01.02,Ativo Total,Ativo Não Circulante,Aplicações Financeiras Avaliadas a Valor Justo...,0.0
9,1.02.01.03,Ativo Total,Ativo Não Circulante,Aplicações Financeiras Avaliadas ao Custo Amor...,0.0


## <h3>ROUND 3</h3>

In [1996]:
round=3

In [1997]:
df

Unnamed: 0,CD_CONTA,DS_CONTA_1,DS_CONTA_2,DS_CONTA,VL_CONTA
0,1.01.01,Ativo Total,Ativo Circulante,Caixa e Equivalentes de Caixa,1728413.0
1,1.01.02,Ativo Total,Ativo Circulante,Aplicações Financeiras,0.0
2,1.01.02.01,Ativo Total,Ativo Circulante,Aplicações Financeiras Avaliadas a Valor Justo...,0.0
3,1.01.02.01.01,Ativo Total,Ativo Circulante,Títulos para Negociação,0.0
4,1.01.02.01.02,Ativo Total,Ativo Circulante,Títulos Designados a Valor Justo,0.0
5,1.02.01,Ativo Total,Ativo Não Circulante,Ativo Realizável a Longo Prazo,2071636.0
6,1.02.01.01,Ativo Total,Ativo Não Circulante,Aplicações Financeiras Avaliadas a Valor Justo...,0.0
7,1.02.01.01.01,Ativo Total,Ativo Não Circulante,Títulos Designados a Valor Justo,0.0
8,1.02.01.02,Ativo Total,Ativo Não Circulante,Aplicações Financeiras Avaliadas a Valor Justo...,0.0
9,1.02.01.03,Ativo Total,Ativo Não Circulante,Aplicações Financeiras Avaliadas ao Custo Amor...,0.0


### <h4>Join</h4>

In [1998]:
cd_conta_split = pd.Series([string.split('.') for string in df['CD_CONTA']])

In [1999]:
cd_conta_joincol = [row[:round] for row in cd_conta_split]

Select rows with only 3 elements:

In [2000]:
cd_conta_len = [len(lst) for lst in cd_conta_split]

In [2001]:
idx_list = [idx for idx, element in enumerate(cd_conta_len) if element == round]

In [2002]:
df.iloc[idx_list]

Unnamed: 0,CD_CONTA,DS_CONTA_1,DS_CONTA_2,DS_CONTA,VL_CONTA
0,1.01.01,Ativo Total,Ativo Circulante,Caixa e Equivalentes de Caixa,1728413.0
1,1.01.02,Ativo Total,Ativo Circulante,Aplicações Financeiras,0.0
5,1.02.01,Ativo Total,Ativo Não Circulante,Ativo Realizável a Longo Prazo,2071636.0


In [2003]:
keys = [cd_conta_joincol[idx] for idx in idx_list]

In [2004]:
key_idx_dict = {".".join(key): idx for key, idx in zip(keys, idx_list)}

Join:

In [2005]:
ds_conta_3 = [df.DS_CONTA[key_idx_dict[key]]
              for key in key_idx_dict
              for row in cd_conta_joincol
              if ".".join(row) == key]

In [2006]:
ds_conta_3 = [df.DS_CONTA[key_idx_dict[key]]
              for row in cd_conta_split
              for key in key_idx_dict
              if ".".join(row[:round]) == key]

In [2007]:
'''
if pd.Series(ds_conta_3).equals(df.DS_CONTA):
    df.to_csv("output.csv", index=False)
    sys.exit()
else:
    df.insert(round, column='DS_CONTA_3', value=ds_conta_3)
'''

'\nif pd.Series(ds_conta_3).equals(df.DS_CONTA):\n    df.to_csv("output.csv", index=False)\n    sys.exit()\nelse:\n    df.insert(round, column=\'DS_CONTA_3\', value=ds_conta_3)\n'

In [2008]:
df.insert(round, column='DS_CONTA_3', value=ds_conta_3)

In [2009]:
df

Unnamed: 0,CD_CONTA,DS_CONTA_1,DS_CONTA_2,DS_CONTA_3,DS_CONTA,VL_CONTA
0,1.01.01,Ativo Total,Ativo Circulante,Caixa e Equivalentes de Caixa,Caixa e Equivalentes de Caixa,1728413.0
1,1.01.02,Ativo Total,Ativo Circulante,Aplicações Financeiras,Aplicações Financeiras,0.0
2,1.01.02.01,Ativo Total,Ativo Circulante,Aplicações Financeiras,Aplicações Financeiras Avaliadas a Valor Justo...,0.0
3,1.01.02.01.01,Ativo Total,Ativo Circulante,Aplicações Financeiras,Títulos para Negociação,0.0
4,1.01.02.01.02,Ativo Total,Ativo Circulante,Aplicações Financeiras,Títulos Designados a Valor Justo,0.0
5,1.02.01,Ativo Total,Ativo Não Circulante,Ativo Realizável a Longo Prazo,Ativo Realizável a Longo Prazo,2071636.0
6,1.02.01.01,Ativo Total,Ativo Não Circulante,Ativo Realizável a Longo Prazo,Aplicações Financeiras Avaliadas a Valor Justo...,0.0
7,1.02.01.01.01,Ativo Total,Ativo Não Circulante,Ativo Realizável a Longo Prazo,Títulos Designados a Valor Justo,0.0
8,1.02.01.02,Ativo Total,Ativo Não Circulante,Ativo Realizável a Longo Prazo,Aplicações Financeiras Avaliadas a Valor Justo...,0.0
9,1.02.01.03,Ativo Total,Ativo Não Circulante,Ativo Realizável a Longo Prazo,Aplicações Financeiras Avaliadas ao Custo Amor...,0.0


### <h4>Drop rows</h4>

Select rows with only 3 elements:

In [2010]:
df.iloc[idx_list]

Unnamed: 0,CD_CONTA,DS_CONTA_1,DS_CONTA_2,DS_CONTA_3,DS_CONTA,VL_CONTA
0,1.01.01,Ativo Total,Ativo Circulante,Caixa e Equivalentes de Caixa,Caixa e Equivalentes de Caixa,1728413.0
1,1.01.02,Ativo Total,Ativo Circulante,Aplicações Financeiras,Aplicações Financeiras,0.0
5,1.02.01,Ativo Total,Ativo Não Circulante,Ativo Realizável a Longo Prazo,Ativo Realizável a Longo Prazo,2071636.0


Check if there is at least another row starting with '1.01.01', '1.01.02' or '1.02.01':

In [2011]:
for idx in idx_list:
    mask = [True]*len(ds_conta_3)
    mask[idx] = False
    if any(row[:round] == cd_conta_joincol[idx] for row in cd_conta_split[mask]):
        df = df.drop(idx)
    else:
        df.loc[idx, 'CD_CONTA'] = df.loc[idx, 'CD_CONTA'] + '.00'

In [2012]:
df.reset_index(inplace=True, drop=True)

In [2013]:
df

Unnamed: 0,CD_CONTA,DS_CONTA_1,DS_CONTA_2,DS_CONTA_3,DS_CONTA,VL_CONTA
0,1.01.01.00,Ativo Total,Ativo Circulante,Caixa e Equivalentes de Caixa,Caixa e Equivalentes de Caixa,1728413.0
1,1.01.02.01,Ativo Total,Ativo Circulante,Aplicações Financeiras,Aplicações Financeiras Avaliadas a Valor Justo...,0.0
2,1.01.02.01.01,Ativo Total,Ativo Circulante,Aplicações Financeiras,Títulos para Negociação,0.0
3,1.01.02.01.02,Ativo Total,Ativo Circulante,Aplicações Financeiras,Títulos Designados a Valor Justo,0.0
4,1.02.01.01,Ativo Total,Ativo Não Circulante,Ativo Realizável a Longo Prazo,Aplicações Financeiras Avaliadas a Valor Justo...,0.0
5,1.02.01.01.01,Ativo Total,Ativo Não Circulante,Ativo Realizável a Longo Prazo,Títulos Designados a Valor Justo,0.0
6,1.02.01.02,Ativo Total,Ativo Não Circulante,Ativo Realizável a Longo Prazo,Aplicações Financeiras Avaliadas a Valor Justo...,0.0
7,1.02.01.03,Ativo Total,Ativo Não Circulante,Ativo Realizável a Longo Prazo,Aplicações Financeiras Avaliadas ao Custo Amor...,0.0
8,1.02.01.04,Ativo Total,Ativo Não Circulante,Ativo Realizável a Longo Prazo,Contas a Receber,124569.0


## <h3>ROUND 4</h3>

In [2014]:
round=4

In [2015]:
df

Unnamed: 0,CD_CONTA,DS_CONTA_1,DS_CONTA_2,DS_CONTA_3,DS_CONTA,VL_CONTA
0,1.01.01.00,Ativo Total,Ativo Circulante,Caixa e Equivalentes de Caixa,Caixa e Equivalentes de Caixa,1728413.0
1,1.01.02.01,Ativo Total,Ativo Circulante,Aplicações Financeiras,Aplicações Financeiras Avaliadas a Valor Justo...,0.0
2,1.01.02.01.01,Ativo Total,Ativo Circulante,Aplicações Financeiras,Títulos para Negociação,0.0
3,1.01.02.01.02,Ativo Total,Ativo Circulante,Aplicações Financeiras,Títulos Designados a Valor Justo,0.0
4,1.02.01.01,Ativo Total,Ativo Não Circulante,Ativo Realizável a Longo Prazo,Aplicações Financeiras Avaliadas a Valor Justo...,0.0
5,1.02.01.01.01,Ativo Total,Ativo Não Circulante,Ativo Realizável a Longo Prazo,Títulos Designados a Valor Justo,0.0
6,1.02.01.02,Ativo Total,Ativo Não Circulante,Ativo Realizável a Longo Prazo,Aplicações Financeiras Avaliadas a Valor Justo...,0.0
7,1.02.01.03,Ativo Total,Ativo Não Circulante,Ativo Realizável a Longo Prazo,Aplicações Financeiras Avaliadas ao Custo Amor...,0.0
8,1.02.01.04,Ativo Total,Ativo Não Circulante,Ativo Realizável a Longo Prazo,Contas a Receber,124569.0


### <h4>Join</h4>

In [2016]:
cd_conta_split = pd.Series([string.split('.') for string in df['CD_CONTA']])

In [2017]:
cd_conta_joincol = [row[:round] for row in cd_conta_split]

Select rows with only 4 elements:

In [2018]:
cd_conta_len = [len(lst) for lst in cd_conta_split]

In [2019]:
idx_list = [idx for idx, element in enumerate(cd_conta_len) if element == round]

In [2020]:
df.iloc[idx_list]

Unnamed: 0,CD_CONTA,DS_CONTA_1,DS_CONTA_2,DS_CONTA_3,DS_CONTA,VL_CONTA
0,1.01.01.00,Ativo Total,Ativo Circulante,Caixa e Equivalentes de Caixa,Caixa e Equivalentes de Caixa,1728413.0
1,1.01.02.01,Ativo Total,Ativo Circulante,Aplicações Financeiras,Aplicações Financeiras Avaliadas a Valor Justo...,0.0
4,1.02.01.01,Ativo Total,Ativo Não Circulante,Ativo Realizável a Longo Prazo,Aplicações Financeiras Avaliadas a Valor Justo...,0.0
6,1.02.01.02,Ativo Total,Ativo Não Circulante,Ativo Realizável a Longo Prazo,Aplicações Financeiras Avaliadas a Valor Justo...,0.0
7,1.02.01.03,Ativo Total,Ativo Não Circulante,Ativo Realizável a Longo Prazo,Aplicações Financeiras Avaliadas ao Custo Amor...,0.0
8,1.02.01.04,Ativo Total,Ativo Não Circulante,Ativo Realizável a Longo Prazo,Contas a Receber,124569.0


In [2021]:
keys = [cd_conta_joincol[idx] for idx in idx_list]

In [2022]:
key_idx_dict = {".".join(key): idx for key, idx in zip(keys, idx_list)}

Join:

In [2023]:
ds_conta_4 = [df.DS_CONTA[key_idx_dict[key]]
              for key in key_idx_dict
              for row in cd_conta_joincol
              if ".".join(row) == key]

In [2024]:
ds_conta_4 = [df.DS_CONTA[key_idx_dict[key]]
              for row in cd_conta_split
              for key in key_idx_dict
              if ".".join(row[:round]) == key]

In [2025]:
'''
if pd.Series(ds_conta_3).equals(df.DS_CONTA):
    df.to_csv("output.csv", index=False)
    sys.exit()
else:
    df.insert(round, column='DS_CONTA_3', value=ds_conta_3)
'''

'\nif pd.Series(ds_conta_3).equals(df.DS_CONTA):\n    df.to_csv("output.csv", index=False)\n    sys.exit()\nelse:\n    df.insert(round, column=\'DS_CONTA_3\', value=ds_conta_3)\n'

In [2026]:
df.insert(round, column='DS_CONTA_4', value=ds_conta_4)

In [2027]:
df

Unnamed: 0,CD_CONTA,DS_CONTA_1,DS_CONTA_2,DS_CONTA_3,DS_CONTA_4,DS_CONTA,VL_CONTA
0,1.01.01.00,Ativo Total,Ativo Circulante,Caixa e Equivalentes de Caixa,Caixa e Equivalentes de Caixa,Caixa e Equivalentes de Caixa,1728413.0
1,1.01.02.01,Ativo Total,Ativo Circulante,Aplicações Financeiras,Aplicações Financeiras Avaliadas a Valor Justo...,Aplicações Financeiras Avaliadas a Valor Justo...,0.0
2,1.01.02.01.01,Ativo Total,Ativo Circulante,Aplicações Financeiras,Aplicações Financeiras Avaliadas a Valor Justo...,Títulos para Negociação,0.0
3,1.01.02.01.02,Ativo Total,Ativo Circulante,Aplicações Financeiras,Aplicações Financeiras Avaliadas a Valor Justo...,Títulos Designados a Valor Justo,0.0
4,1.02.01.01,Ativo Total,Ativo Não Circulante,Ativo Realizável a Longo Prazo,Aplicações Financeiras Avaliadas a Valor Justo...,Aplicações Financeiras Avaliadas a Valor Justo...,0.0
5,1.02.01.01.01,Ativo Total,Ativo Não Circulante,Ativo Realizável a Longo Prazo,Aplicações Financeiras Avaliadas a Valor Justo...,Títulos Designados a Valor Justo,0.0
6,1.02.01.02,Ativo Total,Ativo Não Circulante,Ativo Realizável a Longo Prazo,Aplicações Financeiras Avaliadas a Valor Justo...,Aplicações Financeiras Avaliadas a Valor Justo...,0.0
7,1.02.01.03,Ativo Total,Ativo Não Circulante,Ativo Realizável a Longo Prazo,Aplicações Financeiras Avaliadas ao Custo Amor...,Aplicações Financeiras Avaliadas ao Custo Amor...,0.0
8,1.02.01.04,Ativo Total,Ativo Não Circulante,Ativo Realizável a Longo Prazo,Contas a Receber,Contas a Receber,124569.0


### <h4>Drop rows</h4>

Select rows with 4 elements:

In [2028]:
df.iloc[idx_list]

Unnamed: 0,CD_CONTA,DS_CONTA_1,DS_CONTA_2,DS_CONTA_3,DS_CONTA_4,DS_CONTA,VL_CONTA
0,1.01.01.00,Ativo Total,Ativo Circulante,Caixa e Equivalentes de Caixa,Caixa e Equivalentes de Caixa,Caixa e Equivalentes de Caixa,1728413.0
1,1.01.02.01,Ativo Total,Ativo Circulante,Aplicações Financeiras,Aplicações Financeiras Avaliadas a Valor Justo...,Aplicações Financeiras Avaliadas a Valor Justo...,0.0
4,1.02.01.01,Ativo Total,Ativo Não Circulante,Ativo Realizável a Longo Prazo,Aplicações Financeiras Avaliadas a Valor Justo...,Aplicações Financeiras Avaliadas a Valor Justo...,0.0
6,1.02.01.02,Ativo Total,Ativo Não Circulante,Ativo Realizável a Longo Prazo,Aplicações Financeiras Avaliadas a Valor Justo...,Aplicações Financeiras Avaliadas a Valor Justo...,0.0
7,1.02.01.03,Ativo Total,Ativo Não Circulante,Ativo Realizável a Longo Prazo,Aplicações Financeiras Avaliadas ao Custo Amor...,Aplicações Financeiras Avaliadas ao Custo Amor...,0.0
8,1.02.01.04,Ativo Total,Ativo Não Circulante,Ativo Realizável a Longo Prazo,Contas a Receber,Contas a Receber,124569.0


Check if there is at least another row starting with '1.01.02.01.01', '1.01.02.01.02' or '1.02.01.01.01':

In [2029]:
for idx in idx_list:
    mask = [True]*len(ds_conta_4)
    mask[idx] = False
    if any(row[:round] == cd_conta_joincol[idx] for row in cd_conta_split[mask]):
        df = df.drop(idx)
    else:
        df.loc[idx, 'CD_CONTA'] = df.loc[idx, 'CD_CONTA'] + '.00'

In [2030]:
df.reset_index(inplace=True, drop=True)

In [2031]:
df

Unnamed: 0,CD_CONTA,DS_CONTA_1,DS_CONTA_2,DS_CONTA_3,DS_CONTA_4,DS_CONTA,VL_CONTA
0,1.01.01.00.00,Ativo Total,Ativo Circulante,Caixa e Equivalentes de Caixa,Caixa e Equivalentes de Caixa,Caixa e Equivalentes de Caixa,1728413.0
1,1.01.02.01.01,Ativo Total,Ativo Circulante,Aplicações Financeiras,Aplicações Financeiras Avaliadas a Valor Justo...,Títulos para Negociação,0.0
2,1.01.02.01.02,Ativo Total,Ativo Circulante,Aplicações Financeiras,Aplicações Financeiras Avaliadas a Valor Justo...,Títulos Designados a Valor Justo,0.0
3,1.02.01.01.01,Ativo Total,Ativo Não Circulante,Ativo Realizável a Longo Prazo,Aplicações Financeiras Avaliadas a Valor Justo...,Títulos Designados a Valor Justo,0.0
4,1.02.01.02.00,Ativo Total,Ativo Não Circulante,Ativo Realizável a Longo Prazo,Aplicações Financeiras Avaliadas a Valor Justo...,Aplicações Financeiras Avaliadas a Valor Justo...,0.0
5,1.02.01.03.00,Ativo Total,Ativo Não Circulante,Ativo Realizável a Longo Prazo,Aplicações Financeiras Avaliadas ao Custo Amor...,Aplicações Financeiras Avaliadas ao Custo Amor...,0.0
6,1.02.01.04.00,Ativo Total,Ativo Não Circulante,Ativo Realizável a Longo Prazo,Contas a Receber,Contas a Receber,124569.0


## <h3>ROUND 5</h3>

In [2032]:
round=5

In [2033]:
df

Unnamed: 0,CD_CONTA,DS_CONTA_1,DS_CONTA_2,DS_CONTA_3,DS_CONTA_4,DS_CONTA,VL_CONTA
0,1.01.01.00.00,Ativo Total,Ativo Circulante,Caixa e Equivalentes de Caixa,Caixa e Equivalentes de Caixa,Caixa e Equivalentes de Caixa,1728413.0
1,1.01.02.01.01,Ativo Total,Ativo Circulante,Aplicações Financeiras,Aplicações Financeiras Avaliadas a Valor Justo...,Títulos para Negociação,0.0
2,1.01.02.01.02,Ativo Total,Ativo Circulante,Aplicações Financeiras,Aplicações Financeiras Avaliadas a Valor Justo...,Títulos Designados a Valor Justo,0.0
3,1.02.01.01.01,Ativo Total,Ativo Não Circulante,Ativo Realizável a Longo Prazo,Aplicações Financeiras Avaliadas a Valor Justo...,Títulos Designados a Valor Justo,0.0
4,1.02.01.02.00,Ativo Total,Ativo Não Circulante,Ativo Realizável a Longo Prazo,Aplicações Financeiras Avaliadas a Valor Justo...,Aplicações Financeiras Avaliadas a Valor Justo...,0.0
5,1.02.01.03.00,Ativo Total,Ativo Não Circulante,Ativo Realizável a Longo Prazo,Aplicações Financeiras Avaliadas ao Custo Amor...,Aplicações Financeiras Avaliadas ao Custo Amor...,0.0
6,1.02.01.04.00,Ativo Total,Ativo Não Circulante,Ativo Realizável a Longo Prazo,Contas a Receber,Contas a Receber,124569.0


### <h4>Join</h4>

In [2034]:
cd_conta_split = pd.Series([string.split('.') for string in df['CD_CONTA']])

In [2035]:
cd_conta_joincol = [row[:round] for row in cd_conta_split]

Select rows with 5 elements:

In [2036]:
cd_conta_len = [len(lst) for lst in cd_conta_split]

In [2037]:
idx_list = [idx for idx, element in enumerate(cd_conta_len) if element == round]

In [2038]:
df.iloc[idx_list]

Unnamed: 0,CD_CONTA,DS_CONTA_1,DS_CONTA_2,DS_CONTA_3,DS_CONTA_4,DS_CONTA,VL_CONTA
0,1.01.01.00.00,Ativo Total,Ativo Circulante,Caixa e Equivalentes de Caixa,Caixa e Equivalentes de Caixa,Caixa e Equivalentes de Caixa,1728413.0
1,1.01.02.01.01,Ativo Total,Ativo Circulante,Aplicações Financeiras,Aplicações Financeiras Avaliadas a Valor Justo...,Títulos para Negociação,0.0
2,1.01.02.01.02,Ativo Total,Ativo Circulante,Aplicações Financeiras,Aplicações Financeiras Avaliadas a Valor Justo...,Títulos Designados a Valor Justo,0.0
3,1.02.01.01.01,Ativo Total,Ativo Não Circulante,Ativo Realizável a Longo Prazo,Aplicações Financeiras Avaliadas a Valor Justo...,Títulos Designados a Valor Justo,0.0
4,1.02.01.02.00,Ativo Total,Ativo Não Circulante,Ativo Realizável a Longo Prazo,Aplicações Financeiras Avaliadas a Valor Justo...,Aplicações Financeiras Avaliadas a Valor Justo...,0.0
5,1.02.01.03.00,Ativo Total,Ativo Não Circulante,Ativo Realizável a Longo Prazo,Aplicações Financeiras Avaliadas ao Custo Amor...,Aplicações Financeiras Avaliadas ao Custo Amor...,0.0
6,1.02.01.04.00,Ativo Total,Ativo Não Circulante,Ativo Realizável a Longo Prazo,Contas a Receber,Contas a Receber,124569.0


In [2039]:
keys = [cd_conta_joincol[idx] for idx in idx_list]

In [2040]:
key_idx_dict = {".".join(key): idx for key, idx in zip(keys, idx_list)}

In [2041]:
ds_conta_5 = [df.DS_CONTA[key_idx_dict[key]]
              for row in cd_conta_split
              for key in key_idx_dict
              if ".".join(row[:round]) == key]

In [2042]:
if pd.Series(ds_conta_5).equals(df.DS_CONTA):
    df.to_csv("output.csv", index=False)
    sys.exit()
else:
    df.insert(round, column='DS_CONTA_5', value=ds_conta_5)

SystemExit: 

  warn("To exit: use 'exit', 'quit', or Ctrl-D.", stacklevel=1)
