In [1]:
import pandas as pd
import zipfile
import requests, datetime
from io import BytesIO, StringIO
import numpy as np

from sqlalchemy import create_engine, MetaData, Table, update
from sqlalchemy.orm import sessionmaker, Session
from sqlalchemy.dialects.postgresql import insert



In [2]:

def get_itr_data_by_year(year):
    try:
        
        url = f"https://dados.cvm.gov.br/dados/CIA_ABERTA/DOC/ITR/DADOS/itr_cia_aberta_{year}.zip"

        response = requests.get(url)
        response.raise_for_status()
    
        with zipfile.ZipFile(BytesIO(response.content)) as zip_file:
            # Listar arquivos no ZIP (opcional)
            print("Arquivos no ZIP:", zip_file.namelist())
            # BPA - Balanço Patrimonial Ativo
            # BPP - Balanço Patrimonial Passivo
            # DRA - Demonstração do Resultado 
            # DFC_MI - Demonstração do Fluxo de Caixa Método Indireto

            df_bpa = pd.read_csv(
                StringIO(zip_file.read(f"itr_cia_aberta_BPA_con_{year}.csv").decode("latin1")),
                sep=";",
                encoding="latin1",
                low_memory=False,
            )
            df_bpp = pd.read_csv(
                StringIO(zip_file.read(f"itr_cia_aberta_BPP_con_{year}.csv").decode("latin1")),
                sep=";",
                encoding="latin1",
                low_memory=False,
            )
            df_dre = pd.read_csv(
                StringIO(zip_file.read(f"itr_cia_aberta_DRE_con_{year}.csv").decode("latin1")),
                sep=";",
                encoding="latin1",
                low_memory=False,
            )
            df_dfc_mi = pd.read_csv(
                StringIO(zip_file.read(f"itr_cia_aberta_DFC_MI_con_{year}.csv").decode("latin1")),
                sep=";",
                encoding="latin1",
                low_memory=False,
            )

        df_dfc_mi["GRUPO_DFP"] = "DF Consolidado - Demonstração do Fluxo de Caixa"
        return df_bpa, df_bpp, df_dre, df_dfc_mi

    except Exception as e:
        print(e)
        return None

In [3]:
def get_dfp_data_by_year(year):
    try:
        
        url = f"https://dados.cvm.gov.br/dados/CIA_ABERTA/DOC/DFP/DADOS/dfp_cia_aberta_{year}.zip"

        response = requests.get(url)
        response.raise_for_status()
    
        with zipfile.ZipFile(BytesIO(response.content)) as zip_file:
            # Listar arquivos no ZIP (opcional)
            #print("Arquivos no ZIP:", zip_file.namelist())
            # BPA - Balanço Patrimonial Ativo
            # BPP - Balanço Patrimonial Passivo
            # DRA - Demonstração do Resultado 
            # DFC_MI - Demonstração do Fluxo de Caixa Método Indireto

            df_bpa = pd.read_csv(
                StringIO(zip_file.read(f"dfp_cia_aberta_BPA_con_{year}.csv").decode("latin1")),
                sep=";",
                encoding="latin1",
                low_memory=False,
            )
            df_bpp = pd.read_csv(
                StringIO(zip_file.read(f"dfp_cia_aberta_BPP_con_{year}.csv").decode("latin1")),
                sep=";",
                encoding="latin1",
                low_memory=False,
            )
            df_dre = pd.read_csv(
                StringIO(zip_file.read(f"dfp_cia_aberta_DRE_con_{year}.csv").decode("latin1")),
                sep=";",
                encoding="latin1",
                low_memory=False,
            )
            df_dfc_mi = pd.read_csv(
                StringIO(zip_file.read(f"dfp_cia_aberta_DFC_MI_con_{year}.csv").decode("latin1")),
                sep=";",
                encoding="latin1",
                low_memory=False,
            )
        
        df_dfc_mi["GRUPO_DFP"] = "DF Consolidado - Demonstração do Fluxo de Caixa"
        return df_bpa, df_bpp, df_dre, df_dfc_mi

    except Exception as e:
        print(e)
        return None

In [4]:
engine = create_engine('postgresql+psycopg2://admin:admin_password@localhost:5432/meu_banco')
Session = sessionmaker(bind=engine)
session = Session()

metadata = MetaData(bind=engine)

empresa = Table('empresa', metadata, autoload_with=engine)
relatorio = Table('relatorio', metadata, autoload_with=engine)
dados_relatorio = Table('dados_relatorio', metadata, autoload_with=engine)

  metadata = MetaData(bind=engine)


In [5]:
def insert_data_v2(df_data):
    try:
        try:
            df_data['CD_CVM'] = df_data['CD_CVM'].astype(str).str.replace(',', '', regex=True).astype(float).astype(int)
        except Exception as e:
            print("Erro ao converter CD_CVM:", e)
            print("Valores problemáticos:", df_data[~df_data['CD_CVM'].astype(str).str.replace(',', '', regex=True).str.isnumeric()])
        
        if 'DT_INI_EXERC' in df_data.columns:
            df_data['DT_INI_EXERC'] = df_data['DT_INI_EXERC'].where(pd.notna(df_data['DT_INI_EXERC']), None)
        else:
            df_data['DT_INI_EXERC'] = None
        
        try:
            df_data['CD_CONTA'] = df_data['CD_CONTA'].astype(str).str.replace('.', '').str.replace(',', '', regex=True).astype(int)
        except Exception as e:
            print("Erro ao converter CD_CONTA:", e)
            print("Valores problemáticos:", df_data[~df_data['CD_CONTA'].astype(str).str.replace('.', '').str.replace(',', '', regex=True).str.isnumeric()])

                
        print("Inserindo dados para o relatório:", df_data['GRUPO_DFP'].unique()[0])
        
        df_data['DT_FIM_EXERC'] = df_data['DT_FIM_EXERC'].where(pd.notna(df_data['DT_FIM_EXERC']), None)
        df_data['VL_CONTA'] = df_data['VL_CONTA'].apply(lambda x: float(x) if pd.notna(x) else 0.0)
        
        unique_cvms = [int(x) for x in df_data['CD_CVM'].unique()]
        
        existing_empresas = {int(e.id_empresa) for e in session.query(empresa.c.id_empresa).filter(
            empresa.c.id_empresa.in_(unique_cvms)).all()}
        
        empresas_to_insert = []
        
        for code_cvm in unique_cvms:
            if int(code_cvm) not in existing_empresas:
                try:
                    empresas_to_insert.append({
                        "id_empresa": int(code_cvm), 
                        "nome_empresa": str(df_data[df_data['CD_CVM'] == code_cvm].iloc[0]['DENOM_CIA'])
                    })
                except Exception as e:
                    print(f"Erro ao preparar empresa {code_cvm}: {e}")
        
        if empresas_to_insert:
            try:
                from sqlalchemy.dialects.postgresql import insert
                stmt = insert(empresa).values(empresas_to_insert)
                stmt = stmt.on_conflict_do_nothing(index_elements=['id_empresa'])
                session.execute(stmt)
                session.commit()
            except Exception as e:
                print("Erro ao inserir empresas:", e)
                session.rollback()  # Garante que o erro não afete as próximas operações

    except Exception as e:
        print("Erro no pré-processamento:", e)
        return  # Evita continuar se houver erro crítico

    try:
        relatorios_data = []
        relatorios_keys = set()
        
        for code_cvm in unique_cvms:
            df_group = df_data[df_data['CD_CVM'] == code_cvm]
            nome_relatorio = str(df_group.iloc[0]["GRUPO_DFP"].split(" - ")[1])
            
            group_columns = ['DT_FIM_EXERC'] if df_data['DT_INI_EXERC'].isnull().all() else ['DT_INI_EXERC', 'DT_FIM_EXERC']
            date_combinations = df_group[group_columns].drop_duplicates()
            
            for _, date_row in date_combinations.iterrows():
                data_inicio = date_row['DT_INI_EXERC'] if 'DT_INI_EXERC' in date_row else None
                data_fim = date_row['DT_FIM_EXERC']
                
                key = (nome_relatorio, int(code_cvm), data_inicio, data_fim)
                if key not in relatorios_keys:
                    relatorios_data.append({
                        "tipo_relatorio": nome_relatorio,
                        "id_empresa": int(code_cvm),
                        "data_inicio": data_inicio,
                        "data_fim": data_fim
                    })
                    relatorios_keys.add(key)
        
        if relatorios_data:
            try:
                from sqlalchemy.dialects.postgresql import insert
                stmt = insert(relatorio).values(relatorios_data)
                stmt = stmt.on_conflict_do_nothing(index_elements=['tipo_relatorio', 'id_empresa', 'data_inicio', 'data_fim'])
                session.execute(stmt)
                session.commit()
            except Exception as e:
                print("Erro ao inserir relatórios:", e)
                session.rollback()

    except Exception as e:
        print("Erro ao processar relatórios:", e)

    try:
        inserted_relatorios = {}
        for r in session.query(relatorio).filter(relatorio.c.id_empresa.in_(unique_cvms)).all():
            data_inicio = r.data_inicio.strftime('%Y-%m-%d') if r.data_inicio else None
            data_fim = r.data_fim.strftime('%Y-%m-%d') if r.data_fim else None
            key = (r.tipo_relatorio, int(r.id_empresa), data_inicio, data_fim)
            inserted_relatorios[key] = int(r.id_relatorio)

        dados_relatorios_data = {}

        for code_cvm in unique_cvms:
            df_group = df_data[df_data['CD_CVM'] == code_cvm]
            nome_relatorio = str(df_group.iloc[0]["GRUPO_DFP"].split(" - ")[1])

            group_columns = ['DT_FIM_EXERC'] if df_data['DT_INI_EXERC'].isnull().all() else ['DT_INI_EXERC', 'DT_FIM_EXERC']
            grouped = df_group.groupby(group_columns)

            for group_key, group in grouped:
                if len(group_columns) == 1:
                    data_fim = group_key
                    data_inicio = None
                else:
                    data_inicio, data_fim = group_key

                data_inicio = data_inicio[0] if isinstance(data_inicio, tuple) else data_inicio
                data_fim = data_fim[0] if isinstance(data_fim, tuple) else data_fim

                if isinstance(data_inicio, pd.Timestamp):
                    data_inicio = data_inicio.strftime('%Y-%m-%d')

                if isinstance(data_fim, pd.Timestamp):
                    data_fim = data_fim.strftime('%Y-%m-%d')

                relatorio_id = inserted_relatorios.get((nome_relatorio, int(code_cvm), data_inicio, data_fim))

                if relatorio_id:
                    for _, row in group.iterrows():
                        descricao = str(row["DS_CONTA"])
                        valor = float(str(row["VL_CONTA"]).replace(",", '.')) if pd.notna(row["VL_CONTA"]) else 0.0
                        codigo_conta = int(str(row["CD_CONTA"]).replace(".", ""))

                        key = (relatorio_id, codigo_conta)

                        dados_relatorios_data[key] = {
                            "id_relatorio": relatorio_id,
                            "codigo_conta": codigo_conta,
                            "descricao": descricao,
                            "valor": valor
                        }

        if dados_relatorios_data:
            try:
                from sqlalchemy.dialects.postgresql import insert
                dados_relatorios_data = list(dados_relatorios_data.values())
                stmt = insert(dados_relatorio).values(dados_relatorios_data)
                stmt = stmt.on_conflict_do_update(
                    index_elements=['id_relatorio', 'codigo_conta'],
                    set_={'descricao': stmt.excluded.descricao, 'valor': stmt.excluded.valor}
                )
                session.execute(stmt)
                session.commit()
                print("Dados inseridos com sucesso!")
            except Exception as e:
                print("Erro ao inserir dados:", e)
                session.rollback()

    except Exception as e:
        print("Erro final:", e)
        session.rollback()


In [6]:
from bs4 import BeautifulSoup

def buscar_datas(url):
    """
    Faz scraping da página no 'url' e retorna
    um dicionário no formato {nome_arquivo.zip: data_modificacao}.
    Ex.: {"itr_cia_aberta_2021.zip": "30-Mar-2025", ...}
    """
    response_text = requests.get(url).text
    html_parsed = BeautifulSoup(response_text, "html.parser")

    # Encontra o bloco <pre>, divide por linhas e filtra somente .zip
    lines = html_parsed.find_all("pre")[0].text.split("\r")
    for line in lines[:]:
        if ".zip" not in line:
            lines.remove(line)

    lines = [l.replace("\n", "") for l in lines]

    arquivos = {}
    for line in lines:
        parts = line.split()
        if len(parts) >= 2:
            nome_arquivo = parts[0]
            data_mod = parts[1]
            arquivos[nome_arquivo] = data_mod

    return arquivos

In [10]:
url_itr = "https://dados.cvm.gov.br/dados/CIA_ABERTA/DOC/ITR/DADOS/"
url_dfp = "https://dados.cvm.gov.br/dados/CIA_ABERTA/DOC/DFP/DADOS/"

def _buscar_arquivos_modificados():
    """
    Busca no site da CVM, via scraping, os arquivos (ITR e DFP) disponíveis.
    Retorna um dicionário do tipo:
    {
        2011: {"ITR": <string data mod>, "DFP": <string data mod>},
        2012: ...
    }
    SOMENTE para os arquivos cuja data_mod seja a data de HOJE.
    """
    import datetime
    # Faz a leitura de todos os .zip em cada URL
    arquivos_itr = buscar_datas(url_itr)  # dict: {"itr_cia_aberta_2021.zip": "30-Mar-2025", ...}
    arquivos_dfp = buscar_datas(url_dfp)  # dict: {"dfp_cia_aberta_2021.zip": "30-Mar-2025", ...}
    # Data de hoje (no formato date, sem horas)
    # Faz a data de hoje ser 06-Apr-2025
    hoje = datetime.date(2025, 4, 6)
    #hoje = datetime.datetime.today().date()
    # Função auxiliar para verificar se a data_mod = HOJE
    def data_e_hoje(data_mod_str):
        # Exemplo de data_mod_str: "05-Aug-2024"
        # Formato a ser parseado: '%d-%b-%Y'
        # se houver variação, ajuste o formato.
        try:
            data_mod_date = datetime.datetime.strptime(data_mod_str, '%d-%b-%Y').date()
            return data_mod_date == hoje
        except ValueError:
            return False
    # Monta dicionário com anos que devem ser processados
    anos_processar = {}
    # Processa ITR
    for nome_arquivo, data_mod in arquivos_itr.items():
        if not data_e_hoje(data_mod):
            # Se NÃO é hoje, pula
            continue
        try:
            # "itr_cia_aberta_2021.zip" -> extrai "2021"
            year = int(nome_arquivo.replace("itr_cia_aberta_", "").replace(".zip", ""))
        except:
            continue
        if year not in anos_processar:
            anos_processar[year] = {"ITR": None, "DFP": None}
        anos_processar[year]["ITR"] = data_mod
    # Processa DFP
    for nome_arquivo, data_mod in arquivos_dfp.items():
        if not data_e_hoje(data_mod):
            # Se NÃO é hoje, pula
            continue
        try:
            # "dfp_cia_aberta_2021.zip" -> extrai "2021"
            year = int(nome_arquivo.replace("dfp_cia_aberta_", "").replace(".zip", ""))
        except:
            continue
        if year not in anos_processar:
            anos_processar[year] = {"ITR": None, "DFP": None}
        anos_processar[year]["DFP"] = data_mod
    # Filtra somente range 2011 ~ ano atual
    ano_atual = datetime.datetime.now().year
    anos_filtrados = {}
    for y, info in anos_processar.items():
        if 2011 <= y <= ano_atual + 1:
            anos_filtrados[y] = info
    return anos_filtrados

In [11]:
_buscar_arquivos_modificados()

{2021: {'ITR': '06-Apr-2025', 'DFP': '06-Apr-2025'},
 2022: {'ITR': '06-Apr-2025', 'DFP': '06-Apr-2025'},
 2023: {'ITR': '06-Apr-2025', 'DFP': '06-Apr-2025'},
 2024: {'ITR': '06-Apr-2025', 'DFP': '06-Apr-2025'}}

In [5]:
df_dfp_bpa, df_dfp_bpp, df_dfp_dre, df_dfp_dfc_mi = get_dfp_data_by_year(2024)

In [6]:
df_dfp_dre.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 30798 entries, 0 to 30797
Data columns (total 15 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   CNPJ_CIA       30798 non-null  object 
 1   DT_REFER       30798 non-null  object 
 2   VERSAO         30798 non-null  int64  
 3   DENOM_CIA      30798 non-null  object 
 4   CD_CVM         30798 non-null  int64  
 5   GRUPO_DFP      30798 non-null  object 
 6   MOEDA          30798 non-null  object 
 7   ESCALA_MOEDA   30798 non-null  object 
 8   ORDEM_EXERC    30798 non-null  object 
 9   DT_INI_EXERC   30798 non-null  object 
 10  DT_FIM_EXERC   30798 non-null  object 
 11  CD_CONTA       30798 non-null  object 
 12  DS_CONTA       30798 non-null  object 
 13  VL_CONTA       30798 non-null  float64
 14  ST_CONTA_FIXA  30798 non-null  object 
dtypes: float64(1), int64(2), object(12)
memory usage: 3.5+ MB


In [4]:
insert_data_v2(df_dfp_bpa)
insert_data_v2(df_dfp_bpp)
insert_data_v2(df_dfp_dre)
insert_data_v2(df_dfp_dfc_mi)
insert_data_v2(df_itr_bpa)
insert_data_v2(df_itr_bpp)
insert_data_v2(df_itr_dre)
insert_data_v2(df_itr_dfc_mi)


NameError: name 'insert_data_v2' is not defined