# Libraries & databases

In [1]:
import os
import pandas as pd
import requests
from zipfile import ZipFile
import sqlite3

#### Download dados CVM

In [6]:
def baixar_arquivos_cvm(pasta_destino='CVM', anos=range(2016, 2025), baixar_dfp=True, baixar_fre=True, baixar_itr=True):
    os.makedirs(pasta_destino, exist_ok=True)

    if baixar_dfp:
        # DFP
        url_base_dfp = 'https://dados.cvm.gov.br/dados/CIA_ABERTA/DOC/DFP/DADOS/'
        for ano in anos:
            nome_arquivo = f'dfp_cia_aberta_{ano}.zip'
            url = url_base_dfp + nome_arquivo
            destino = os.path.join(pasta_destino, nome_arquivo)

            if not os.path.exists(destino):
                print(f'Baixando {nome_arquivo}...')
                r = requests.get(url)
                with open(destino, 'wb') as f:
                    f.write(r.content)
            else:
                print(f'{nome_arquivo} já existe.')

    if baixar_fre:
        # FRE – apenas capital_social
        url_base_fre = 'https://dados.cvm.gov.br/dados/CIA_ABERTA/DOC/FRE/DADOS/'
        for ano in anos:
            nome_arquivo = f'fre_cia_aberta_{ano}.zip'
            url = url_base_fre + nome_arquivo
            destino = os.path.join(pasta_destino, nome_arquivo)

            if not os.path.exists(destino):
                print(f'Baixando {nome_arquivo} (FRE - capital social)...')
                r = requests.get(url)
                with open(destino, 'wb') as f:
                    f.write(r.content)
            else:
                print(f'{nome_arquivo} já existe.')

    if baixar_itr:
        # ITR
        url_base_itr = 'https://dados.cvm.gov.br/dados/CIA_ABERTA/DOC/ITR/DADOS/'
        for ano in anos:
            nome_arquivo = f'itr_cia_aberta_{ano}.zip'
            url = url_base_itr + nome_arquivo
            destino = os.path.join(pasta_destino, nome_arquivo)

            if not os.path.exists(destino):
                print(f'Baixando {nome_arquivo} (ITR)...')
                r = requests.get(url)
                with open(destino, 'wb') as f:
                    f.write(r.content)
            else:
                print(f'{nome_arquivo} já existe.')

def extrair_arquivos_zip(pasta_zip='CVM', pasta_saida='CVM_EXTRAIDO'):
    os.makedirs(pasta_saida, exist_ok=True)
    
    for arquivo in os.listdir(pasta_zip):
        if arquivo.endswith('.zip'):
            caminho_zip = os.path.join(pasta_zip, arquivo)
            try:
                with ZipFile(caminho_zip, 'r') as zip_ref:
                    zip_ref.extractall(pasta_saida)
            except Exception as e:
                print(f"Erro ao extrair {arquivo}: {e}")

def combinar_csv_por_tipo(demonstrativo, pasta='CVM_EXTRAIDO', anos=range(2016, 2025), prefixo='dfp'):
    df_completo = pd.DataFrame()

    for ano in anos:
        if prefixo == 'fre':
            nome_arquivo = f'fre_cia_aberta_{demonstrativo}_{ano}.csv'
        else:
            nome_arquivo = f'{prefixo}_cia_aberta_{demonstrativo}_{ano}.csv'

        caminho = os.path.join(pasta, nome_arquivo)

        if os.path.exists(caminho):
            try:
                df = pd.read_csv(caminho, sep=';', decimal=',', encoding='ISO-8859-1', low_memory=False)
                df['ANO'] = ano
                df_completo = pd.concat([df_completo, df], ignore_index=True)
            except Exception as e:
                print(f"Erro ao ler {nome_arquivo}: {e}")
        else:
            print(f"Arquivo não encontrado: {nome_arquivo}")
    
    return df_completo

In [7]:
baixar_arquivos_cvm()
extrair_arquivos_zip()

dfp_cia_aberta_2016.zip já existe.
dfp_cia_aberta_2017.zip já existe.
dfp_cia_aberta_2018.zip já existe.
dfp_cia_aberta_2019.zip já existe.
dfp_cia_aberta_2020.zip já existe.
dfp_cia_aberta_2021.zip já existe.
dfp_cia_aberta_2022.zip já existe.
dfp_cia_aberta_2023.zip já existe.
dfp_cia_aberta_2024.zip já existe.
Baixando fre_cia_aberta_2016.zip (FRE - capital social)...
Baixando fre_cia_aberta_2017.zip (FRE - capital social)...
Baixando fre_cia_aberta_2018.zip (FRE - capital social)...
Baixando fre_cia_aberta_2019.zip (FRE - capital social)...
Baixando fre_cia_aberta_2020.zip (FRE - capital social)...
Baixando fre_cia_aberta_2021.zip (FRE - capital social)...
Baixando fre_cia_aberta_2022.zip (FRE - capital social)...
Baixando fre_cia_aberta_2023.zip (FRE - capital social)...
Baixando fre_cia_aberta_2024.zip (FRE - capital social)...
itr_cia_aberta_2016.zip já existe.
itr_cia_aberta_2017.zip já existe.
itr_cia_aberta_2018.zip já existe.
itr_cia_aberta_2019.zip já existe.
itr_cia_aberta

In [8]:
# Lista de demonstrativos DFP que queremos processar
tipos_demonstrativos_dfp = ['BPA_con', 'BPP_con', 'DRE_con', 'DFC_MI_con']

# Lista separada para FRE que queremos carregar
tipos_fre = ['capital_social']  # por enquanto, só esse

# Dicionário para armazenar todos os DataFrames
dfs_cvm = {}

# Anos a considerar
anos = range(2018, 2025)

# Carregar demonstrativos DFP
for tipo in tipos_demonstrativos_dfp:
    print(f"Carregando demonstrativo DFP: {tipo}")
    df = combinar_csv_por_tipo(tipo, pasta='CVM_EXTRAIDO', anos=anos, prefixo='dfp')
    dfs_cvm[f'dfp_{tipo}'] = df  # usa prefixo na chave

# Carregar demonstrativos FRE
for tipo in tipos_fre:
    print(f"Carregando demonstrativo FRE: {tipo}")
    df = combinar_csv_por_tipo(tipo, pasta='CVM_EXTRAIDO', anos=anos, prefixo='fre')
    dfs_cvm[f'fre_{tipo}'] = df  # usa prefixo na chave

Carregando demonstrativo DFP: BPA_con
Carregando demonstrativo DFP: BPP_con
Carregando demonstrativo DFP: DRE_con
Carregando demonstrativo DFP: DFC_MI_con
Carregando demonstrativo FRE: capital_social


#### Criação banco de dados SQL

In [11]:
caminho_banco = 'dados_cvm.db'

# Remove o banco anterior se quiser começar limpo
if os.path.exists(caminho_banco):
    os.remove(caminho_banco)

# Cria conexão com o banco
conn = sqlite3.connect(caminho_banco)

# Salva cada DataFrame no banco
for nome, df in dfs_cvm.items():
    nome_tabela = nome.lower()
    print(f'Salvando tabela {nome_tabela} no banco...')
    df.to_sql(nome_tabela, conn, if_exists='replace', index=False)

# (Opcional) Criar também a tabela de empresas únicas
# Use uma tabela que certamente tem os dados básicos da empresa
df_bpa = dfs_cvm.get('dfp_BPA_con')  # ou 'itr_BPA_con' se preferir
if df_bpa is not None:
    empresas = df_bpa[['CD_CVM', 'DENOM_CIA', 'CNPJ_CIA']].drop_duplicates()
    empresas.to_sql('empresas', conn, if_exists='replace', index=False)
    print('Tabela de empresas criada com sucesso.')

conn.close()
print('✅ Banco de dados criado com sucesso!')

PermissionError: [WinError 32] O arquivo já está sendo usado por outro processo: 'dados_cvm.db'