# <h2>Load Libraries</h2>

In [1]:
import pandas as pd
import numpy as np

#<h2>Import Data</h2>

<h3>Load .csv</h3>

In [27]:
df = pd.read_csv(r'dfp_cia_aberta_BPA_con_2020.csv', encoding = 'ISO-8859-1', sep=";")

<h3>Select Company</h3>

In [28]:
df = df[df['CNPJ_CIA'] == '97.837.181/0001-47']    # (seleciono somente as linhas relativas a uma comp de interesse)

In [29]:
df = df[['ORDEM_EXERC','CD_CONTA','DS_CONTA','VL_CONTA']].copy()

In [None]:
df

In [30]:
df = df[df['ORDEM_EXERC'] == 'ÚLTIMO']                                         # seleciono somente o último ou penúltimo exercício

In [31]:
df

Unnamed: 0,ORDEM_EXERC,CD_CONTA,DS_CONTA,VL_CONTA
56646,ÚLTIMO,1,Ativo Total,11498520.0
56648,ÚLTIMO,1.01,Ativo Circulante,4220022.0
56650,ÚLTIMO,1.01.01,Caixa e Equivalentes de Caixa,1728413.0
56652,ÚLTIMO,1.01.02,Aplicações Financeiras,0.0
56654,ÚLTIMO,1.01.02.01,Aplicações Financeiras Avaliadas a Valor Justo...,0.0
...,...,...,...,...
56788,ÚLTIMO,1.02.04.02.07,Goodwill na aquisição da Caetex Florestal,8767.0
56790,ÚLTIMO,1.02.04.02.08,Goodwill na aquisição da Cerâmica Urussanga em...,92944.0
56792,ÚLTIMO,1.02.04.02.09,Goodwill na aquisição da Massima Revestimentos...,6110.0
56794,ÚLTIMO,1.02.04.02.10,Goodwill na aquisição da Cecrisa Revestimentos...,168430.0


#<h2>Wrangling</h2>

In [33]:
CD_DS_CONTA_dict = {cd: ds for cd, ds in zip(df['CD_CONTA'], df['DS_CONTA'])}    # crio um dicionário chamado "CD_DS_CONTA_dict" com os elementos de 'CD_CONTA' como keys e os elementos de 'DS_CONTA'como values

In [None]:
def filter(code, len_min_code):
    higher_tier = CD_DS_CONTA_dict[code[:len_min_code]]
    return higher_tier

In [None]:
min_len_key = 1
df.insert(loc=2, column='1º Classificação', value=df['CD_CONTA'].map(lambda x: filter(x, min_len_key)))   # df.insert(loc, column, value)

In [None]:
df

Unnamed: 0,ORDEM_EXERC,CD_CONTA,1º Classificação,DS_CONTA,VL_CONTA
56645,PENÚLTIMO,1,Ativo Total,Ativo Total,10714688.0
56647,PENÚLTIMO,1.01,Ativo Total,Ativo Circulante,3514047.0
56649,PENÚLTIMO,1.01.01,Ativo Total,Caixa e Equivalentes de Caixa,1243223.0
56651,PENÚLTIMO,1.01.02,Ativo Total,Aplicações Financeiras,0.0
56653,PENÚLTIMO,1.01.02.01,Ativo Total,Aplicações Financeiras Avaliadas a Valor Justo...,0.0
...,...,...,...,...,...
56787,PENÚLTIMO,1.02.04.02.07,Ativo Total,Goodwill na aquisição da Caetex Florestal,8767.0
56789,PENÚLTIMO,1.02.04.02.08,Ativo Total,Goodwill na aquisição da Cerâmica Urussanga em...,92944.0
56791,PENÚLTIMO,1.02.04.02.09,Ativo Total,Goodwill na aquisição da Massima Revestimentos...,6110.0
56793,PENÚLTIMO,1.02.04.02.10,Ativo Total,Goodwill na aquisição da Cecrisa Revestimentos...,163000.0


In [None]:
df['CD_CONTA']

56645                1
56647             1.01
56649          1.01.01
56651          1.01.02
56653       1.01.02.01
             ...      
56787    1.02.04.02.07
56789    1.02.04.02.08
56791    1.02.04.02.09
56793    1.02.04.02.10
56795    1.02.04.02.11
Name: CD_CONTA, Length: 76, dtype: object

In [None]:
len_key = [len(key) for key in df['CD_CONTA']]  # len_key = length of key

In [None]:
# index = len_key.index(np.array(len_key).min())
# index

In [None]:
min_len = np.array(len_key).min()  # min_len = minimum length
min_len

1

In [None]:
ind_min_len = np.where(len_key==min_len)  # ind_min_len = index of key 'CD_CONTA' with minimum length

In [None]:
df.iloc[ind_min_len]

Unnamed: 0,ORDEM_EXERC,CD_CONTA,1º Classificação,DS_CONTA,VL_CONTA
56645,PENÚLTIMO,1,Ativo Total,Ativo Total,10714688.0


In [None]:
df.drop(df.index[ind_min_len])

Unnamed: 0,ORDEM_EXERC,CD_CONTA,1º Classificação,DS_CONTA,VL_CONTA
56647,PENÚLTIMO,1.01,Ativo Total,Ativo Circulante,3514047.0
56649,PENÚLTIMO,1.01.01,Ativo Total,Caixa e Equivalentes de Caixa,1243223.0
56651,PENÚLTIMO,1.01.02,Ativo Total,Aplicações Financeiras,0.0
56653,PENÚLTIMO,1.01.02.01,Ativo Total,Aplicações Financeiras Avaliadas a Valor Justo...,0.0
56655,PENÚLTIMO,1.01.02.01.01,Ativo Total,Títulos para Negociação,0.0
...,...,...,...,...,...
56787,PENÚLTIMO,1.02.04.02.07,Ativo Total,Goodwill na aquisição da Caetex Florestal,8767.0
56789,PENÚLTIMO,1.02.04.02.08,Ativo Total,Goodwill na aquisição da Cerâmica Urussanga em...,92944.0
56791,PENÚLTIMO,1.02.04.02.09,Ativo Total,Goodwill na aquisição da Massima Revestimentos...,6110.0
56793,PENÚLTIMO,1.02.04.02.10,Ativo Total,Goodwill na aquisição da Cecrisa Revestimentos...,163000.0


In [None]:
df = df.drop(df.index[ind_min_len])

In [None]:
df

Unnamed: 0,ORDEM_EXERC,CD_CONTA,1º Classificação,DS_CONTA,VL_CONTA
56647,PENÚLTIMO,1.01,Ativo Total,Ativo Circulante,3514047.0
56649,PENÚLTIMO,1.01.01,Ativo Total,Caixa e Equivalentes de Caixa,1243223.0
56651,PENÚLTIMO,1.01.02,Ativo Total,Aplicações Financeiras,0.0
56653,PENÚLTIMO,1.01.02.01,Ativo Total,Aplicações Financeiras Avaliadas a Valor Justo...,0.0
56655,PENÚLTIMO,1.01.02.01.01,Ativo Total,Títulos para Negociação,0.0
...,...,...,...,...,...
56787,PENÚLTIMO,1.02.04.02.07,Ativo Total,Goodwill na aquisição da Caetex Florestal,8767.0
56789,PENÚLTIMO,1.02.04.02.08,Ativo Total,Goodwill na aquisição da Cerâmica Urussanga em...,92944.0
56791,PENÚLTIMO,1.02.04.02.09,Ativo Total,Goodwill na aquisição da Massima Revestimentos...,6110.0
56793,PENÚLTIMO,1.02.04.02.10,Ativo Total,Goodwill na aquisição da Cecrisa Revestimentos...,163000.0


In [None]:
min_len_key = 4
df.insert(loc=3, column='2º Classificação', value=df['CD_CONTA'].map(lambda x: filter(x, min_len_key)))   # df.insert(loc, column, value)

In [None]:
pd.set_option('display.max_rows', None)
df

Unnamed: 0,ORDEM_EXERC,CD_CONTA,1º Classificação,2º Classificação,DS_CONTA,VL_CONTA
56647,PENÚLTIMO,1.01,Ativo Total,Ativo Circulante,Ativo Circulante,3514047.0
56649,PENÚLTIMO,1.01.01,Ativo Total,Ativo Circulante,Caixa e Equivalentes de Caixa,1243223.0
56651,PENÚLTIMO,1.01.02,Ativo Total,Ativo Circulante,Aplicações Financeiras,0.0
56653,PENÚLTIMO,1.01.02.01,Ativo Total,Ativo Circulante,Aplicações Financeiras Avaliadas a Valor Justo...,0.0
56655,PENÚLTIMO,1.01.02.01.01,Ativo Total,Ativo Circulante,Títulos para Negociação,0.0
56657,PENÚLTIMO,1.01.02.01.02,Ativo Total,Ativo Circulante,Títulos Designados a Valor Justo,0.0
56659,PENÚLTIMO,1.01.02.02,Ativo Total,Ativo Circulante,Aplicações Financeiras Avaliadas a Valor Justo...,0.0
56661,PENÚLTIMO,1.01.02.03,Ativo Total,Ativo Circulante,Aplicações Financeiras Avaliadas ao Custo Amor...,0.0
56663,PENÚLTIMO,1.01.03,Ativo Total,Ativo Circulante,Contas a Receber,1167269.0
56665,PENÚLTIMO,1.01.03.01,Ativo Total,Ativo Circulante,Clientes,1135209.0


In [None]:
df['CD_CONTA']

56647             1.01
56649          1.01.01
56651          1.01.02
56653       1.01.02.01
56655    1.01.02.01.01
56657    1.01.02.01.02
56659       1.01.02.02
56661       1.01.02.03
56663          1.01.03
56665       1.01.03.01
56667    1.01.03.01.01
56669    1.01.03.01.02
56671       1.01.03.02
56673    1.01.03.02.01
56675          1.01.04
56677          1.01.05
56679          1.01.06
56681       1.01.06.01
56683          1.01.07
56685          1.01.08
56687       1.01.08.01
56689       1.01.08.02
56691       1.01.08.03
56693             1.02
56695          1.02.01
56697       1.02.01.01
56699    1.02.01.01.01
56701       1.02.01.02
56703       1.02.01.03
56705       1.02.01.04
56707    1.02.01.04.01
56709    1.02.01.04.02
56711       1.02.01.05
56713       1.02.01.06
56715       1.02.01.07
56717    1.02.01.07.01
56719       1.02.01.08
56721       1.02.01.09
56723    1.02.01.09.01
56725    1.02.01.09.03
56727    1.02.01.09.04
56729       1.02.01.10
56731    1.02.01.10.01
56733    1.

In [None]:
len_key = [len(key) for key in df['CD_CONTA']]  # len_key = length of keys

In [None]:
min_len = np.array(len_key).min()  # min_len = minimum length
ind_min_len = np.where(len_key==min_len)  # ind_min_len = index of key with minimum length

In [None]:
df.iloc[ind_min_len]

Unnamed: 0,ORDEM_EXERC,CD_CONTA,1º Classificação,2º Classificação,DS_CONTA,VL_CONTA
56647,PENÚLTIMO,1.01,Ativo Total,Ativo Circulante,Ativo Circulante,3514047.0
56693,PENÚLTIMO,1.02,Ativo Total,Ativo Não Circulante,Ativo Não Circulante,7200641.0


In [None]:
df.drop(df.index[ind_min_len])

Unnamed: 0,ORDEM_EXERC,CD_CONTA,1º Classificação,2º Classificação,DS_CONTA,VL_CONTA
56649,PENÚLTIMO,1.01.01,Ativo Total,Ativo Circulante,Caixa e Equivalentes de Caixa,1243223.0
56651,PENÚLTIMO,1.01.02,Ativo Total,Ativo Circulante,Aplicações Financeiras,0.0
56653,PENÚLTIMO,1.01.02.01,Ativo Total,Ativo Circulante,Aplicações Financeiras Avaliadas a Valor Justo...,0.0
56655,PENÚLTIMO,1.01.02.01.01,Ativo Total,Ativo Circulante,Títulos para Negociação,0.0
56657,PENÚLTIMO,1.01.02.01.02,Ativo Total,Ativo Circulante,Títulos Designados a Valor Justo,0.0
56659,PENÚLTIMO,1.01.02.02,Ativo Total,Ativo Circulante,Aplicações Financeiras Avaliadas a Valor Justo...,0.0
56661,PENÚLTIMO,1.01.02.03,Ativo Total,Ativo Circulante,Aplicações Financeiras Avaliadas ao Custo Amor...,0.0
56663,PENÚLTIMO,1.01.03,Ativo Total,Ativo Circulante,Contas a Receber,1167269.0
56665,PENÚLTIMO,1.01.03.01,Ativo Total,Ativo Circulante,Clientes,1135209.0
56667,PENÚLTIMO,1.01.03.01.01,Ativo Total,Ativo Circulante,Contas a receber de clientes,1102800.0


In [None]:
df = df.drop(df.index[ind_min_len])

In [None]:
pd.set_option('display.max_rows', None)
df

Unnamed: 0,ORDEM_EXERC,CD_CONTA,1º Classificação,2º Classificação,DS_CONTA,VL_CONTA
56649,PENÚLTIMO,1.01.01,Ativo Total,Ativo Circulante,Caixa e Equivalentes de Caixa,1243223.0
56651,PENÚLTIMO,1.01.02,Ativo Total,Ativo Circulante,Aplicações Financeiras,0.0
56653,PENÚLTIMO,1.01.02.01,Ativo Total,Ativo Circulante,Aplicações Financeiras Avaliadas a Valor Justo...,0.0
56655,PENÚLTIMO,1.01.02.01.01,Ativo Total,Ativo Circulante,Títulos para Negociação,0.0
56657,PENÚLTIMO,1.01.02.01.02,Ativo Total,Ativo Circulante,Títulos Designados a Valor Justo,0.0
56659,PENÚLTIMO,1.01.02.02,Ativo Total,Ativo Circulante,Aplicações Financeiras Avaliadas a Valor Justo...,0.0
56661,PENÚLTIMO,1.01.02.03,Ativo Total,Ativo Circulante,Aplicações Financeiras Avaliadas ao Custo Amor...,0.0
56663,PENÚLTIMO,1.01.03,Ativo Total,Ativo Circulante,Contas a Receber,1167269.0
56665,PENÚLTIMO,1.01.03.01,Ativo Total,Ativo Circulante,Clientes,1135209.0
56667,PENÚLTIMO,1.01.03.01.01,Ativo Total,Ativo Circulante,Contas a receber de clientes,1102800.0


In [None]:
min_len_key = 7
df.insert(loc=4, column='3º Classificação', value=df['CD_CONTA'].map(lambda x: filter(x, min_len_key)))   # df.insert(loc, column, value)

In [None]:
df

Unnamed: 0,ORDEM_EXERC,CD_CONTA,1º Classificação,2º Classificação,3º Classificação,DS_CONTA,VL_CONTA
56649,PENÚLTIMO,1.01.01,Ativo Total,Ativo Circulante,Caixa e Equivalentes de Caixa,Caixa e Equivalentes de Caixa,1243223.0
56651,PENÚLTIMO,1.01.02,Ativo Total,Ativo Circulante,Aplicações Financeiras,Aplicações Financeiras,0.0
56653,PENÚLTIMO,1.01.02.01,Ativo Total,Ativo Circulante,Aplicações Financeiras,Aplicações Financeiras Avaliadas a Valor Justo...,0.0
56655,PENÚLTIMO,1.01.02.01.01,Ativo Total,Ativo Circulante,Aplicações Financeiras,Títulos para Negociação,0.0
56657,PENÚLTIMO,1.01.02.01.02,Ativo Total,Ativo Circulante,Aplicações Financeiras,Títulos Designados a Valor Justo,0.0
56659,PENÚLTIMO,1.01.02.02,Ativo Total,Ativo Circulante,Aplicações Financeiras,Aplicações Financeiras Avaliadas a Valor Justo...,0.0
56661,PENÚLTIMO,1.01.02.03,Ativo Total,Ativo Circulante,Aplicações Financeiras,Aplicações Financeiras Avaliadas ao Custo Amor...,0.0
56663,PENÚLTIMO,1.01.03,Ativo Total,Ativo Circulante,Contas a Receber,Contas a Receber,1167269.0
56665,PENÚLTIMO,1.01.03.01,Ativo Total,Ativo Circulante,Contas a Receber,Clientes,1135209.0
56667,PENÚLTIMO,1.01.03.01.01,Ativo Total,Ativo Circulante,Contas a Receber,Contas a receber de clientes,1102800.0


In [None]:
df['CD_CONTA']

56649          1.01.01
56651          1.01.02
56653       1.01.02.01
56655    1.01.02.01.01
56657    1.01.02.01.02
56659       1.01.02.02
56661       1.01.02.03
56663          1.01.03
56665       1.01.03.01
56667    1.01.03.01.01
56669    1.01.03.01.02
56671       1.01.03.02
56673    1.01.03.02.01
56675          1.01.04
56677          1.01.05
56679          1.01.06
56681       1.01.06.01
56683          1.01.07
56685          1.01.08
56687       1.01.08.01
56689       1.01.08.02
56691       1.01.08.03
56695          1.02.01
56697       1.02.01.01
56699    1.02.01.01.01
56701       1.02.01.02
56703       1.02.01.03
56705       1.02.01.04
56707    1.02.01.04.01
56709    1.02.01.04.02
56711       1.02.01.05
56713       1.02.01.06
56715       1.02.01.07
56717    1.02.01.07.01
56719       1.02.01.08
56721       1.02.01.09
56723    1.02.01.09.01
56725    1.02.01.09.03
56727    1.02.01.09.04
56729       1.02.01.10
56731    1.02.01.10.01
56733    1.02.01.10.02
56735    1.02.01.10.03
56737    1.

In [None]:
len_key = [len(key) for key in df['CD_CONTA']]    # CD_DS_CONTA_dict.keys() to list

In [None]:
min_len = np.array(len_key).min()  # min_len = minimum length
ind_min_len = np.where(len_key==min_len)  # ind_min_len = index of key 'CD_CONTA' with minimum length

In [None]:
df.iloc[ind_min_len]

Unnamed: 0,ORDEM_EXERC,CD_CONTA,1º Classificação,2º Classificação,3º Classificação,DS_CONTA,VL_CONTA
56649,PENÚLTIMO,1.01.01,Ativo Total,Ativo Circulante,Caixa e Equivalentes de Caixa,Caixa e Equivalentes de Caixa,1243223.0
56651,PENÚLTIMO,1.01.02,Ativo Total,Ativo Circulante,Aplicações Financeiras,Aplicações Financeiras,0.0
56663,PENÚLTIMO,1.01.03,Ativo Total,Ativo Circulante,Contas a Receber,Contas a Receber,1167269.0
56675,PENÚLTIMO,1.01.04,Ativo Total,Ativo Circulante,Estoques,Estoques,853293.0
56677,PENÚLTIMO,1.01.05,Ativo Total,Ativo Circulante,Ativos Biológicos,Ativos Biológicos,0.0
56679,PENÚLTIMO,1.01.06,Ativo Total,Ativo Circulante,Tributos a Recuperar,Tributos a Recuperar,186222.0
56683,PENÚLTIMO,1.01.07,Ativo Total,Ativo Circulante,Despesas Antecipadas,Despesas Antecipadas,0.0
56685,PENÚLTIMO,1.01.08,Ativo Total,Ativo Circulante,Outros Ativos Circulantes,Outros Ativos Circulantes,64040.0
56695,PENÚLTIMO,1.02.01,Ativo Total,Ativo Não Circulante,Ativo Realizável a Longo Prazo,Ativo Realizável a Longo Prazo,2787462.0
56743,PENÚLTIMO,1.02.02,Ativo Total,Ativo Não Circulante,Investimentos,Investimentos,127010.0
