In [76]:
# Import de bibliotecas
import pandas as pd
import requests
import os
import zipfile

In [77]:
# Dicionário de dados
# https://dados.cvm.gov.br/dados/CIA_ABERTA/DOC/DFP/META/meta_dfp_cia_aberta_txt.zip

# Histórico desde 2010 - Documentos: Formulário de Demonstrações Financeiras Padronizadas (DFP)
# https://dados.cvm.gov.br/dados/CIA_ABERTA/DOC/DFP/DADOS/

# Definir o dataset
dataset = os.getcwd() + '\dataset'

# Verificar se o diretório existe, se não, criá-lo
if not os.path.exists(dataset):
    os.makedirs(dataset)

# Download dos arquivos
year_range = range(2010,2024)
url_base = 'https://dados.cvm.gov.br/dados/CIA_ABERTA/DOC/DFP/DADOS/'

# Baixando os arquivos
# os.path - Usado para construir o caminho do arquivo. Garantindo que o caminho do arquivo seja construído corretamente, independentemente do sistema operacional.
for year in year_range:
    download = requests.get(url_base + f'dfp_cia_aberta_{year}.zip')
    file_path = os.path.join(dataset, f'dfp_cia_aberta_{year}.zip')
    open(file_path, 'wb').write(download.content)

In [78]:
# Lista de arquivos zip

list_2010_2023 = []

for zip_file in os.listdir(dataset):

    # Ignorar arquivos ocultos criado pelo Jupyter Notebook
    if zip_file == '.ipynb_checkpoints':
        pass
    else:
        #print(f'{dataset}\{zip_file}')
        zip = zipfile.ZipFile(f'{dataset}\{zip_file}')
        for csv_file in zip.namelist():

            # Ler o arquivo CSV
            csv = pd.read_csv(zip.open(csv_file), sep=';', encoding='ISO-8859-1', dtype={'ORDEM_EXERC':'category'})

            # Inserindo informações dentro da lista
            list_2010_2023.append(csv)


In [79]:
# Concatenar todos os dados
database = pd.concat(list_2010_2023)
database

  database = pd.concat(list_2010_2023)


Unnamed: 0,CNPJ_CIA,DT_REFER,VERSAO,DENOM_CIA,CD_CVM,CATEG_DOC,ID_DOC,DT_RECEB,LINK_DOC,GRUPO_DFP,MOEDA,ESCALA_MOEDA,ORDEM_EXERC,DT_FIM_EXERC,CD_CONTA,DS_CONTA,VL_CONTA,ST_CONTA_FIXA,DT_INI_EXERC,COLUNA_DF
0,00.000.000/0001-91,2010-12-31,1,BCO BRASIL S.A.,1023,DFP,4822.0,2011-02-17,http://www.rad.cvm.gov.br/ENETCONSULTA/frmDown...,,,,,,,,,,,
1,00.000.000/0001-91,2010-12-31,2,BCO BRASIL S.A.,1023,DFP,4823.0,2011-02-17,http://www.rad.cvm.gov.br/ENETCONSULTA/frmDown...,,,,,,,,,,,
2,00.000.000/0001-91,2010-12-31,3,BCO BRASIL S.A.,1023,DFP,6945.0,2011-04-30,http://www.rad.cvm.gov.br/ENETCONSULTA/frmDown...,,,,,,,,,,,
3,00.000.208/0001-00,2010-12-31,1,BRB BCO DE BRASILIA S.A.,14206,DFP,5436.0,2011-03-22,http://www.rad.cvm.gov.br/ENETCONSULTA/frmDown...,,,,,,,,,,,
4,00.000.208/0001-00,2010-12-31,2,BRB BCO DE BRASILIA S.A.,14206,DFP,6775.0,2011-04-29,http://www.rad.cvm.gov.br/ENETCONSULTA/frmDown...,,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1031,88.613.658/0001-10,2023-06-30,1,PETTENATI S.A. INDUSTRIA TEXTIL,9539,,,,,DF Individual - Demonstração de Valor Adicionado,REAL,UNIDADE,ÚLTIMO,2023-06-30,7.08.04.02,Dividendos,10200000.0,S,2022-07-01,
1032,88.613.658/0001-10,2023-06-30,1,PETTENATI S.A. INDUSTRIA TEXTIL,9539,,,,,DF Individual - Demonstração de Valor Adicionado,REAL,UNIDADE,PENÚLTIMO,2022-06-30,7.08.04.03,Lucros Retidos / Prejuízo do Período,52193175.0,S,2021-07-01,
1033,88.613.658/0001-10,2023-06-30,1,PETTENATI S.A. INDUSTRIA TEXTIL,9539,,,,,DF Individual - Demonstração de Valor Adicionado,REAL,UNIDADE,ÚLTIMO,2023-06-30,7.08.04.03,Lucros Retidos / Prejuízo do Período,38797920.0,S,2022-07-01,
1034,88.613.658/0001-10,2023-06-30,1,PETTENATI S.A. INDUSTRIA TEXTIL,9539,,,,,DF Individual - Demonstração de Valor Adicionado,REAL,UNIDADE,PENÚLTIMO,2022-06-30,7.08.05,Outros,0.0,S,2021-07-01,


In [80]:
# Trantando a base de dados
# Devemos separar o nome da demostração financeira (tipo_dem) e se ela é do tipo consolidada ou individual (con_ind)

# Criando duas colunas para aplicar o filtro
database[['tipo_dem','con_ind']] = database['GRUPO_DFP'].str.split('-', expand = True)

# Aplicar a função strip para remover os espaços vazios
database['tipo_dem'] = database['tipo_dem'].str.strip()
database['con_ind'] = database['con_ind'].str.strip()

# Filtrando apenas o último balanço
database = database[database['ORDEM_EXERC'] != 'PENÚLTIMO']

In [81]:
# Obtendo a lista de Demostrações Financeiras através da coluna 'tipo_dem'
list_tipo_dem = database['tipo_dem'].unique()
list_tipo_dem

array([nan, 'DF Consolidado', 'DF Individual'], dtype=object)

In [82]:
# Obtendo a lista de Empresas através da coluna 'DENOM_CIA'
list_empresas = database['DENOM_CIA'].unique()
list_empresas

array(['BCO BRASIL S.A.', 'BRB BCO DE BRASILIA S.A.',
       'CENTRAIS ELET BRAS S.A. - ELETROBRAS', ...,
       'ÁGUAS DO SERTÃO S.A.', 'NOVA SOCIEDADE DE NAVEGAÇÃO S.A.',
       'GRANJA FARIA S.A.'], dtype=object)

In [83]:
# PETROLEO BRASILEIRO S.A. PETROBRAS
petrobras_dre = database[(database['DENOM_CIA'] == 'PETROLEO BRASILEIRO S.A. PETROBRAS') & 
                         (database['tipo_dem'] == 'DF Consolidado') ]
petrobras_dre

Unnamed: 0,CNPJ_CIA,DT_REFER,VERSAO,DENOM_CIA,CD_CVM,CATEG_DOC,ID_DOC,DT_RECEB,LINK_DOC,GRUPO_DFP,...,ORDEM_EXERC,DT_FIM_EXERC,CD_CONTA,DS_CONTA,VL_CONTA,ST_CONTA_FIXA,DT_INI_EXERC,COLUNA_DF,tipo_dem,con_ind
26865,33.000.167/0001-01,2010-12-31,3,PETROLEO BRASILEIRO S.A. PETROBRAS,9512,,,,,DF Consolidado - Balanço Patrimonial Ativo,...,ÚLTIMO,2010-12-31,1,Ativo Total,519970003.0,S,,,DF Consolidado,Balanço Patrimonial Ativo
26867,33.000.167/0001-01,2010-12-31,3,PETROLEO BRASILEIRO S.A. PETROBRAS,9512,,,,,DF Consolidado - Balanço Patrimonial Ativo,...,ÚLTIMO,2010-12-31,1.01,Ativo Circulante,106685162.0,S,,,DF Consolidado,Balanço Patrimonial Ativo
26869,33.000.167/0001-01,2010-12-31,3,PETROLEO BRASILEIRO S.A. PETROBRAS,9512,,,,,DF Consolidado - Balanço Patrimonial Ativo,...,ÚLTIMO,2010-12-31,1.01.01,Caixa e Equivalentes de Caixa,30323259.0,S,,,DF Consolidado,Balanço Patrimonial Ativo
26871,33.000.167/0001-01,2010-12-31,3,PETROLEO BRASILEIRO S.A. PETROBRAS,9512,,,,,DF Consolidado - Balanço Patrimonial Ativo,...,ÚLTIMO,2010-12-31,1.01.01.01,Caixa e Bancos,3434380.0,N,,,DF Consolidado,Balanço Patrimonial Ativo
26873,33.000.167/0001-01,2010-12-31,3,PETROLEO BRASILEIRO S.A. PETROBRAS,9512,,,,,DF Consolidado - Balanço Patrimonial Ativo,...,ÚLTIMO,2010-12-31,1.01.01.02,Aplicações Financeiras,26888879.0,N,,,DF Consolidado,Balanço Patrimonial Ativo
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
25369,33.000.167/0001-01,2022-12-31,1,PETROLEO BRASILEIRO S.A. PETROBRAS,9512,,,,,DF Consolidado - Demonstração de Valor Adicionado,...,ÚLTIMO,2022-12-31,7.08.04.02,Dividendos,155965000.0,S,2022-01-01,,DF Consolidado,Demonstração de Valor Adicionado
25371,33.000.167/0001-01,2022-12-31,1,PETROLEO BRASILEIRO S.A. PETROBRAS,9512,,,,,DF Consolidado - Demonstração de Valor Adicionado,...,ÚLTIMO,2022-12-31,7.08.04.03,Lucros Retidos / Prejuízo do Período,12774000.0,S,2022-01-01,,DF Consolidado,Demonstração de Valor Adicionado
25373,33.000.167/0001-01,2022-12-31,1,PETROLEO BRASILEIRO S.A. PETROBRAS,9512,,,,,DF Consolidado - Demonstração de Valor Adicionado,...,ÚLTIMO,2022-12-31,7.08.04.04,Part. Não Controladores nos Lucros Retidos,677000.0,S,2022-01-01,,DF Consolidado,Demonstração de Valor Adicionado
25375,33.000.167/0001-01,2022-12-31,1,PETROLEO BRASILEIRO S.A. PETROBRAS,9512,,,,,DF Consolidado - Demonstração de Valor Adicionado,...,ÚLTIMO,2022-12-31,7.08.05,Outros,0.0,S,2022-01-01,,DF Consolidado,Demonstração de Valor Adicionado


In [84]:
print('...')

...
