# <font color='darkblue'>Pegando Balanços (Zip) na CVM e Extraindo Dados com Python

https://dados.cvm.gov.br/
    
https://dados.cvm.gov.br/dataset/?groups=companhias

https://dados.cvm.gov.br/dataset/cia_aberta-doc-dfp


### <font color='darkblue'> Documentação Pandas, Requests, OS e ZipFile
https://pypi.org/project/pandas/

https://requests.readthedocs.io/projects/pt/pt-br/latest/user/quickstart.html   

https://docs.python.org/pt-br/3/library/os.html
    
https://docs.python.org/pt-br/3/library/zipfile.html

### <font color='darkblue'>Link da Aula, Para Acompanhamento
https://www.youtube.com/watch?v=nYFH4tjWpoU&list=PLQkgHGk8rux6L42KC9l6R25AD7iimkLi_&index=7

In [1]:
# Instalar as bibliotecas abaixo:
# !pip install pandas as pd
# !pip install requests
# Para olhar se a biblioteca já está instalada, deve-se ir no Prompet do Anaconda e digitar: pip freeze
# Obs.: Você não precisa instalar o módulo (os e zipfile) no Python, pois ele faz parte da biblioteca padrão do Python 

In [1]:
# Importar as bibliotecas

# Pandas é biblioteca open-source e de uso gratuito, que fornece ferramentas para análise e manipulação de dados em Python.
import pandas as pd 

# A biblioteca Requests facilita o envio e recebimento de informações pela internet. 
import requests

# O módulo (os) em Python é uma biblioteca padrão muito útil quando se trata de interagir com o sistema operacional. 
# Ele nos fornece uma série de funcionalidades para executar ações específicas, como navegar por diretórios, 
# criar novos diretórios, executar comandos no terminal e obter informações do sistema.
import os 

# Este módulo fornece ferramentas para criar, ler, escrever, adicionar, e listar um arquivo ZIP. 
import zipfile

# O código abaixo serve para obter o diretório de trabalho atual
diretorio_atual = os.getcwd()

# O código abaixo serve para alterar o diretório de trabalho atual do programa, onde nós vamos baixor os arquivos.
# É uma função do módulo (os) que permite alterar o diretório de trabalho atual p/o caminho especificado como argumento.

os.chdir(f"{diretorio_atual}/dados_cvm")

# <font color='darkblue'>Baixando os Arquivos

In [2]:
# Vamos criar um "Range" de anos para baixar os arquivos de 2010 até 2023
anos = range(2010, 2023)

# Vamos acessar a URL da CVM para pegar os arquivos
url_base = "https://dados.cvm.gov.br/dados/CIA_ABERTA/DOC/DFP/DADOS/"

for ano in anos:
    download = requests.get(url_base + f"dfp_cia_aberta_{ano}.zip")
    open (f"dfp_cia_aberta_{ano}.zip", "wb").write(download.content)

In [4]:
lista_demonstracoes_2010_2022 = []
diretorio_atual = os.getcwd()

for arquivo in os.listdir(diretorio_atual):
    if arquivo == ".ipynb_checkpoints":
        pass
    else:
        arquivo_zip = zipfile.ZipFile(arquivo)
        
        for planilha in arquivo_zip.namelist(): 
            
            demonstracao = pd.read_csv(arquivo_zip.open(planilha), sep = ";", encoding = 'ISO-8859-1', 
                                       dtype = {"ORDEM_EXERC": "category"})
            
            lista_demonstracoes_2010_2022.append(demonstracao)

In [5]:
base_dados = pd.concat(lista_demonstracoes_2010_2022)
base_dados 

Unnamed: 0,CNPJ_CIA,DT_REFER,VERSAO,DENOM_CIA,CD_CVM,CATEG_DOC,ID_DOC,DT_RECEB,LINK_DOC,GRUPO_DFP,MOEDA,ESCALA_MOEDA,ORDEM_EXERC,DT_FIM_EXERC,CD_CONTA,DS_CONTA,VL_CONTA,ST_CONTA_FIXA,DT_INI_EXERC,COLUNA_DF
0,00.000.000/0001-91,2010-12-31,1,BCO BRASIL S.A.,1023,DFP,4822.0,2011-02-17,http://www.rad.cvm.gov.br/ENETCONSULTA/frmDown...,,,,,,,,,,,
1,00.000.000/0001-91,2010-12-31,2,BCO BRASIL S.A.,1023,DFP,4823.0,2011-02-17,http://www.rad.cvm.gov.br/ENETCONSULTA/frmDown...,,,,,,,,,,,
2,00.000.000/0001-91,2010-12-31,3,BCO BRASIL S.A.,1023,DFP,6945.0,2011-04-30,http://www.rad.cvm.gov.br/ENETCONSULTA/frmDown...,,,,,,,,,,,
3,00.000.208/0001-00,2010-12-31,1,BRB BCO DE BRASILIA S.A.,14206,DFP,5436.0,2011-03-22,http://www.rad.cvm.gov.br/ENETCONSULTA/frmDown...,,,,,,,,,,,
4,00.000.208/0001-00,2010-12-31,2,BRB BCO DE BRASILIA S.A.,14206,DFP,6775.0,2011-04-29,http://www.rad.cvm.gov.br/ENETCONSULTA/frmDown...,,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
60634,97.837.181/0001-47,2022-12-31,1,DEXCO S.A.,21091,,,,,DF Individual - Demonstração de Valor Adicionado,REAL,MIL,ÚLTIMO,2022-12-31,7.08.04.02,Dividendos,0.0,S,2022-01-01,
60635,97.837.181/0001-47,2022-12-31,1,DEXCO S.A.,21091,,,,,DF Individual - Demonstração de Valor Adicionado,REAL,MIL,PENÚLTIMO,2021-12-31,7.08.04.03,Lucros Retidos / Prejuízo do Período,847006.0,S,2021-01-01,
60636,97.837.181/0001-47,2022-12-31,1,DEXCO S.A.,21091,,,,,DF Individual - Demonstração de Valor Adicionado,REAL,MIL,ÚLTIMO,2022-12-31,7.08.04.03,Lucros Retidos / Prejuízo do Período,506861.0,S,2022-01-01,
60637,97.837.181/0001-47,2022-12-31,1,DEXCO S.A.,21091,,,,,DF Individual - Demonstração de Valor Adicionado,REAL,MIL,PENÚLTIMO,2021-12-31,7.08.05,Outros,0.0,S,2021-01-01,


In [21]:
base_dados[['con_ind', 'tipo_dem']] = base_dados['GRUPO_DFP'].str.split("-", expand = True)
base_dados['con_ind'] = base_dados['con_ind'].str.strip()
base_dados['tipo_dem'] = base_dados['tipo_dem'].str.strip()

base_dados = base_dados[base_dados['ORDEM_EXERC'] != "PENÚLTIMO"]

In [18]:
lista_empresas = base_dados['DENOM_CIA'].unique()
lista_empresas

array(['BCO BRASIL S.A.', 'BRB BCO DE BRASILIA S.A.',
       'CENTRAIS ELET BRAS S.A. - ELETROBRAS', ..., 'CLI SUL S.A.',
       'NOVA SOCIEDADE DE NAVEGAÇÃO S.A.', 'GRANJA FARIA S.A.'],
      dtype=object)

In [22]:
weg_dre = base_dados[(base_dados["DENOM_CIA"] == "WEG S.A.") & 
                     (base_dados["tipo_dem"] == "Demonstação do Resultado") & 
                     (base_dados["DS_CONTA"] == "Receita de Venda de Bens e/ou Serviços") & 
                     (base_dados["con_ind"] == "DF Consolidado")]

weg_dre                  

Unnamed: 0,CNPJ_CIA,DT_REFER,VERSAO,DENOM_CIA,CD_CVM,CATEG_DOC,ID_DOC,DT_RECEB,LINK_DOC,GRUPO_DFP,...,ORDEM_EXERC,DT_FIM_EXERC,CD_CONTA,DS_CONTA,VL_CONTA,ST_CONTA_FIXA,DT_INI_EXERC,COLUNA_DF,con_ind,tipo_dem


###### <font color='Red'> Projeto (28/09/2023): Importção de dados da CVM - Comissão de Valores Mobiliários - William E. Santos. 