In [1]:
from pathlib import Path
import pandas as pd
import requests
import zipfile
import warnings
import re

warnings.filterwarnings('ignore')

In [2]:
# ─── 1. Definição dos date_ranges (somente uma vez) ────────────────────────────
# 1.1. Intervalo mensal: de janeiro/2017 a dezembro/2024 (formato "YYYYMM")
date_range_monthly = (
    pd.date_range(start='2024-01-01', end='2024-12-31', freq='M')
      .strftime("%Y%m")
      .tolist()
)

# 1.2. Intervalo trimestral: de março/2017 a dezembro/2024 (formato "YYYYMM")
date_range_quarterly = (
    pd.date_range(start='2024-01-01', end='2024-12-31', freq='Q')
      .strftime("%Y%m")
      .tolist()
)

In [3]:
# ─── 2. Definição e criação de diretórios principais ───────────────────────────
base_dir    = Path('..')                
dir_inputs  = base_dir / 'Input'        
dir_outputs = base_dir / 'Output'       

for d in (dir_inputs, dir_outputs):
    d.mkdir(parents=True, exist_ok=True)

In [4]:
# ─── 3. Pipeline COSIF Individual ──────────────────────────────────────────────

# 3.1. Diretório para baixar/armazenar COSIF Individual
cosif_ind_dir = dir_inputs / 'COSIF' / 'individual'
cosif_ind_dir.mkdir(parents=True, exist_ok=True)

# 3.2. Download e extração dos arquivos mensais (raw, sem filtros)
for date in date_range_monthly:
    subfolder = cosif_ind_dir / date
    subfolder.mkdir(exist_ok=True)

    if any(subfolder.glob('*.csv')):
        continue

    downloaded = False
    used_suffix = None

    for suffix in ('BANCOS.csv', 'BANCOS.zip', 'BANCOS.csv.zip'):
        url = f"https://www.bcb.gov.br/content/estabilidadefinanceira/cosif/Bancos/{date}{suffix}"
        local_file = cosif_ind_dir / f"{date}{suffix}"

        if local_file.exists():
            downloaded = True
            used_suffix = suffix
            break

        resp = requests.get(url, timeout=30)
        content_type = resp.headers.get('Content-Type', '').lower()
        is_html_error = (
            resp.status_code != 200
            or b'<!DOCTYPE html' in resp.content[:20]
            or 'text/html' in content_type
        )

        if not is_html_error:
            with open(local_file, 'wb') as f:
                f.write(resp.content)
            downloaded = True
            used_suffix = suffix
            break

    if downloaded and used_suffix:
        if used_suffix.endswith('.zip'):
            zip_path = cosif_ind_dir / f"{date}{used_suffix}"
            with zipfile.ZipFile(zip_path, 'r') as zip_ref:
                zip_ref.extractall(subfolder)
        else:
            csv_path = cosif_ind_dir / f"{date}{used_suffix}"
            destino = subfolder / csv_path.name
            if not destino.exists():
                csv_path.rename(destino)

# 3.3. Carregar TODOS os CSVs individuais em um DataFrame único (raw)
df_list = []
for date in date_range_monthly:
    subfolder = cosif_ind_dir / date
    if not subfolder.exists():
        continue

    csv_paths = list(subfolder.glob(f"{date}BANCOS*.csv"))
    for csv_path in csv_paths:
        temp_df = pd.read_csv(
            csv_path,
            header=3,
            encoding='unicode_escape',
            on_bad_lines='skip',
            sep=';',
            decimal=','
        )
        df_list.append(temp_df)

df_cosif_individual_full = pd.concat(df_list, ignore_index=True)

# 3.4. Exportar raw Individual para Parquet
df_cosif_individual_full.to_parquet(
    dir_outputs / 'df_cosif_individual_full.parquet',
    index=False
)

# 3.5. (Opcional) Dicionário de contas Individual em Excel
account_name = (
    df_cosif_individual_full
    .sort_values('CONTA')
    .drop_duplicates(subset=['CONTA'], keep='last')
    [['CONTA', 'NOME_CONTA']]
)
def remove_illegal(text: str) -> str:
    return re.sub(r'[\x00-\x1F\x7F]', '', text)

account_name['NOME_CONTA'] = account_name['NOME_CONTA'].astype(str).apply(remove_illegal)
account_name.to_excel(dir_outputs / 'cosif_account_name.xlsx', index=False)

In [5]:
# ─── 4. Pipeline COSIF Prudencial ──────────────────────────────────────────────

# 4.1. Diretório para baixar/armazenar COSIF Prudencial
cosif_prud_dir = dir_inputs / 'COSIF' / 'prudencial'
cosif_prud_dir.mkdir(parents=True, exist_ok=True)

# 4.2. Download e extração dos arquivos mensais (raw, sem filtros)
for date in date_range_monthly:
    subfolder = cosif_prud_dir / date
    subfolder.mkdir(exist_ok=True)

    if any(subfolder.glob('*.csv')):
        continue

    downloaded = False
    used_suffix = None

    for suffix in ('BLOPRUDENCIAL.csv', 'BLOPRUDENCIAL.zip', 'BLOPRUDENCIAL.csv.zip'):
        url = f"https://www.bcb.gov.br/content/estabilidadefinanceira/cosif/Conglomerados-prudenciais/{date}{suffix}"
        local_file = cosif_prud_dir / f"{date}{suffix}"

        if local_file.exists():
            downloaded = True
            used_suffix = suffix
            break

        resp = requests.get(url, timeout=30)
        content_type = resp.headers.get('Content-Type', '').lower()
        is_html_error = (
            resp.status_code != 200
            or b'<!DOCTYPE html' in resp.content[:20]
            or 'text/html' in content_type
        )

        if not is_html_error:
            with open(local_file, 'wb') as f:
                f.write(resp.content)
            downloaded = True
            used_suffix = suffix
            break

    if downloaded and used_suffix:
        if used_suffix.endswith('.zip'):
            zip_path = cosif_prud_dir / f"{date}{used_suffix}"
            with zipfile.ZipFile(zip_path, 'r') as zip_ref:
                zip_ref.extractall(subfolder)
        else:
            csv_path = cosif_prud_dir / f"{date}{used_suffix}"
            destino = subfolder / csv_path.name
            if not destino.exists():
                csv_path.rename(destino)

# 4.3. Carregar TODOS os CSVs Prudencial em um DataFrame único (raw)
df_prud_list = []
for date in date_range_monthly:
    subfolder = cosif_prud_dir / date
    if not subfolder.exists():
        continue

    csv_paths = list(subfolder.glob(f"{date}BLOPRUDENCIAL*.csv"))
    for csv_path in csv_paths:
        temp_df = pd.read_csv(
            csv_path,
            header=3,
            encoding='unicode_escape',
            on_bad_lines='skip',
            sep=';',
            decimal=','
        )
        df_prud_list.append(temp_df)

df_cosif_prudencial_full = pd.concat(df_prud_list, ignore_index=True)

# 4.4. Exportar raw Prudencial para Parquet
df_cosif_prudencial_full.to_parquet(
    dir_outputs / 'df_cosif_prudencial_full.parquet',
    index=False
)

# 4.5. (Opcional) Dicionário de contas Prudencial em Excel
account_prud = (
    df_cosif_prudencial_full
    .sort_values('CONTA')
    .drop_duplicates(subset=['CONTA'], keep='last')
    [['CONTA', 'NOME_CONTA']]
)
account_prud['NOME_CONTA'] = account_prud['NOME_CONTA'].astype(str).apply(remove_illegal)
account_prud.to_excel(dir_outputs / 'cosif_prudencial_account_name.xlsx', index=False)

In [6]:
# ─── 5. Pipeline IFDATA (trimestral) ───────────────────────────────────────────

# 5.1. Diretório para baixar/armazenar IFDATA
ifdata_dir = dir_inputs / 'IFDATA'
ifdata_dir.mkdir(parents=True, exist_ok=True)

# 5.2. Download dos CSVs da API do IFDATA (conteúdo já filtrado na URL)
for date in date_range_quarterly:
    url = (
        "https://olinda.bcb.gov.br/olinda/servico/IFDATA/versao/v1/odata/"
        f"IfDataValores(AnoMes=@AnoMes,TipoInstituicao=@TipoInstituicao,Relatorio=@Relatorio)?"
        f"@AnoMes={date}&@TipoInstituicao=1&@Relatorio='5'"
        "&$format=text/csv"
    )
    output = ifdata_dir / f"{date}.csv"
    if not output.exists():
        r = requests.get(url)
        with open(output, 'wb') as f:
            f.write(r.content)

# 5.3. Leitura de TODOS os CSVs IFDATA em um DataFrame único (raw)
df_if_list = []
for date in date_range_quarterly:
    path = ifdata_dir / f"{date}.csv"
    if path.exists():
        temp = pd.read_csv(
            path,
            encoding='unicode_escape',
            on_bad_lines='skip',
            sep=',',
            decimal=','
        )
        df_if_list.append(temp)

df_if_prudencial_full = pd.concat(df_if_list, ignore_index=True)

# 5.4. Padronização de colunas IFDATA
def map_coluna(c):
    return {
        79647: "Tier_1",
        79648: "Tier_2",
        79649: "Capital",
        79650: "CRWA",
        79651: "MRWA",
        79656: "ORWA",
        79664: "BIS",
        79665: "RWA"
    }.get(c, f"Conta_{c}")

df_if_prudencial_full['NomeColuna'] = df_if_prudencial_full['Conta'].apply(map_coluna)

# 5.5. (Opcional) Dicionário de contas IFDATA em Excel
account_name_ifdata = (
    df_if_prudencial_full
    .sort_values('Conta')
    .drop_duplicates(subset=['Conta'], keep='last')
    [['Conta', 'NomeColuna']]
)
account_name_ifdata['NomeColuna'] = account_name_ifdata['NomeColuna'].astype(str).apply(remove_illegal)
account_name_ifdata.to_excel(dir_outputs / 'if_account_name.xlsx', index=False)

# 5.6. Ajuste final de nomes e tipos IFDATA
df_if_prudencial_full = df_if_prudencial_full.rename(columns={
    'CodInst': 'COD_CONGL',
    'AnoMes': 'DATA'
})
df_if_prudencial_full['DATA'] = pd.to_numeric(df_if_prudencial_full['DATA'], errors='coerce')

# 5.7. Exportar raw IFDATA para Parquet
df_if_prudencial_full.to_parquet(
    dir_outputs / 'df_if_prudencial_full.parquet',
    index=False
)

In [7]:
# ─── 6. Combinações finais (sem filtros) ───────────────────────────────────────

# 6.1. Assegurar que 'DATA' exista em df_cosif_prudencial_full (a partir de '#DATA_BASE')
if '#DATA_BASE' in df_cosif_prudencial_full.columns:
    df_cosif_prudencial_full.rename(columns={'#DATA_BASE': 'DATA'}, inplace=True)
df_cosif_prudencial_full['DATA'] = (
    pd.to_datetime(df_cosif_prudencial_full['DATA'].astype(str), format='%Y%m')
      .dt.strftime('%Y%m')
      .astype(int)
)

# Agora sim podemos mapear (raw, sem drop_duplicates)
df_prud_mapping = df_cosif_prudencial_full[['DATA', 'CNPJ', 'COD_CONGL', 'NOME_CONGL']]


# 6.2. Pivot opcional do Individual (wide)
# Primeiro, cria 'DATA' a partir de '#DATA_BASE' em df_cosif_individual_full
if '#DATA_BASE' in df_cosif_individual_full.columns:
    df_cosif_individual_full.rename(columns={'#DATA_BASE': 'DATA'}, inplace=True)
df_cosif_individual_full['DATA'] = (
    pd.to_datetime(df_cosif_individual_full['DATA'].astype(str), format='%Y%m')
      .dt.strftime('%Y%m')
      .astype(int)
)

df_cosif_individual = (
    df_cosif_individual_full
    .pivot_table(
        index=['DATA', 'CNPJ', 'NOME_INSTITUICAO', 'TAXONOMIA'],
        columns='CONTA',
        values='SALDO'
    )
    .reset_index()
)

df_cosif_individual.to_parquet(
    dir_outputs / 'df_cosif_individual_wide.parquet',
    index=False
)


# 6.3. Merge Individual (wide) + Prudencial (mapping)
df_cosif_full = df_cosif_individual.merge(
    df_prud_mapping,
    on=['DATA', 'CNPJ'],
    how='left'
)

df_cosif_full.to_parquet(
    dir_outputs / 'df_cosif_full.parquet',
    index=False
)


# 6.4. Merge final com IFDATA (raw)
# Certificar que df_if_prudencial_full já tem 'DATA' como inteiro
# (normalmente foi ajustado antes, mas só por garantia:)
if 'DATA' in df_if_prudencial_full.columns:
    df_if_prudencial_full['DATA'] = pd.to_numeric(df_if_prudencial_full['DATA'], errors='coerce')

df_final = df_cosif_full.merge(
    df_if_prudencial_full,
    on=['DATA', 'COD_CONGL'],
    how='left'
)

df_final.to_parquet(
    dir_outputs / 'df_final.parquet',
    index=False
)

df_final.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1203944 entries, 0 to 1203943
Columns: 202 entries, DATA to Saldo
dtypes: float64(192), int64(2), object(8)
memory usage: 1.8+ GB
