Limpeza e Filtragem
O Problema: Temos gigabytes de dados misturados (Renda Fixa, Cambial, Multimercado). O desafio pede especificamente a "classe de A√ß√µes".

Script:

1 - Ler o arquivo de Cadastro (cad_fi.csv) para pegar os CNPJs que s√£o de "A√ß√µes".
2 - Ler os arquivos mensais (inf_diario...) um por um.
3 - Filtrar apenas as linhas que t√™m esses CNPJs.
4 - Salvar tudo num arquivo √∫nico e otimizado (formato Parquet, que √© muito mais r√°pido que CSV para leitura posterior).

Importamos as bibliotecas e definimos os caminhos. Usaremos o cad_fi.csv para filtrar os fundos de interesse antes de processar as s√©ries temporais pesadas.

## 1. Imports e Configura√ß√£o
Importamos as bibliotecas e definimos os caminhos. Usaremos o cad_fi.csv para filtrar os fundos de interesse antes de processar as s√©ries temporais pesadas.

In [1]:
import pandas as pd
import glob
import os
import gc # Garbage Collector para limpar mem√≥ria RAM

# Caminhos
RAW_DIR = '../data/raw'
PROCESSED_DIR = '../data/processed'
os.makedirs(PROCESSED_DIR, exist_ok=True)

## 2. Filtrando os CNPJs de A√ß√µes

Segundo o escopo do desafio, devemos utilizar a classe de A√ß√µes. Carregamos o cadastro (cad_fi.csv), filtramos por CLASSE == 'Fundo de A√ß√µes' e status EM FUNCIONAMENTO NORMAL. Isso gera uma lista de CNPJs v√°lidos ("White List") para aplicarmos nos dados di√°rios.

In [2]:
print("üìÇ Carregando cadastro de fundos...")

# L√™ o cadastro (encoding 'latin1' √© padr√£o de arquivos governamentais antigos no BR)
df_cad = pd.read_csv(f'{RAW_DIR}/cad_fi.csv', sep=';', encoding='latin1', low_memory=False)

# Normaliza colunas para evitar erros de mai√∫sculas/min√∫sculas
df_cad.columns = df_cad.columns.str.upper()

# FILTRO 1: Apenas classe 'A√ß√µes'
# Obs: Na CVM, a classe exata geralmente vem como 'Fundo de A√ß√µes'
filtro_acoes = df_cad['CLASSE'] == 'Fundo de A√ß√µes'

# FILTRO 2: Apenas fundos em funcionamento (opcional, mas remove lixo)
filtro_ativo = df_cad['SIT'] == 'EM FUNCIONAMENTO NORMAL'

# Aplica filtros
df_acoes = df_cad[filtro_acoes & filtro_ativo].copy()

# Cria a lista de CNPJs permitidos (nossa "White List")
cnpjs_acoes = set(df_acoes['CNPJ_FUNDO'].unique())

print(f"‚úÖ Total de fundos de A√ß√µes encontrados: {len(cnpjs_acoes)}")
print(f"Exemplos de Classes no arquivo: {df_cad['CLASSE'].unique()[:5]}")

üìÇ Carregando cadastro de fundos...
‚úÖ Total de fundos de A√ß√µes encontrados: 0
Exemplos de Classes no arquivo: [nan 'Multimercado' 'A√ß√µes' 'Renda Fixa' 'Referenciado']


## 3. Loop de Processamento (O "Triturador")

Agora iteramos sobre todos os arquivos mensais baixados. Para cada arquivo:

1 - Carregamos o CSV na mem√≥ria.
2 - Filtramos mantendo apenas os CNPJs de A√ß√µes identificados no passo anterior.
3 - Acumulamos o resultado.

Otimiza√ß√£o: Usamos gc.collect() para liberar mem√≥ria RAM entre as itera√ß√µes, evitando que o computador trave com o volume de dados.

In [3]:
# Lista todos os arquivos de informe di√°rio ordenados
arquivos_diarios = sorted(glob.glob(f'{RAW_DIR}/inf_diario_fi_*.csv'))

dfs_filtrados = []

print(f"üöÄ Iniciando processamento de {len(arquivos_diarios)} arquivos mensais...")

for arquivo in arquivos_diarios:
    print(f"Processando: {os.path.basename(arquivo)}...")

    try:
        # L√™ o arquivo mensal
        df_mes = pd.read_csv(arquivo, sep=';', encoding='latin1', low_memory=False)

        # Filtra apenas os CNPJs de A√ß√µes
        df_mes = df_mes[df_mes['CNPJ_FUNDO'].isin(cnpjs_acoes)]

        # Adiciona √† lista se sobrou alguma coisa
        if not df_mes.empty:
            dfs_filtrados.append(df_mes)

        # Limpeza de mem√≥ria
        del df_mes
        gc.collect()

    except Exception as e:
        print(f"‚ùå Erro ao ler {arquivo}: {e}")

print("üîÑ Concatenando todos os meses...")
df_final = pd.concat(dfs_filtrados, ignore_index=True)

print(f"üìä Dataset Final: {df_final.shape[0]} linhas e {df_final.shape[1]} colunas.")

üöÄ Iniciando processamento de 25 arquivos mensais...
Processando: inf_diario_fi_202312.csv...
‚ùå Erro ao ler ../data/raw\inf_diario_fi_202312.csv: 'CNPJ_FUNDO'
Processando: inf_diario_fi_202401.csv...
‚ùå Erro ao ler ../data/raw\inf_diario_fi_202401.csv: 'CNPJ_FUNDO'
Processando: inf_diario_fi_202402.csv...
‚ùå Erro ao ler ../data/raw\inf_diario_fi_202402.csv: 'CNPJ_FUNDO'
Processando: inf_diario_fi_202403.csv...
‚ùå Erro ao ler ../data/raw\inf_diario_fi_202403.csv: 'CNPJ_FUNDO'
Processando: inf_diario_fi_202404.csv...
‚ùå Erro ao ler ../data/raw\inf_diario_fi_202404.csv: 'CNPJ_FUNDO'
Processando: inf_diario_fi_202405.csv...
‚ùå Erro ao ler ../data/raw\inf_diario_fi_202405.csv: 'CNPJ_FUNDO'
Processando: inf_diario_fi_202406.csv...
‚ùå Erro ao ler ../data/raw\inf_diario_fi_202406.csv: 'CNPJ_FUNDO'
Processando: inf_diario_fi_202407.csv...
‚ùå Erro ao ler ../data/raw\inf_diario_fi_202407.csv: 'CNPJ_FUNDO'
Processando: inf_diario_fi_202408.csv...
‚ùå Erro ao ler ../data/raw\inf_diario_f

ValueError: No objects to concatenate

## 4. Salvando em Parquet


Salvamos o resultado consolidado em formato Parquet.
Por que Parquet? Ocupa ~80% menos espa√ßo em disco que CSV.
Mant√©m os tipos de dados (datas, n√∫meros) corretos, evitando ter que converter tudo de novo na pr√≥xima etapa.

In [None]:
# Converte a coluna de data para datetime (essencial para s√©ries temporais)
df_final['DT_COMPTC'] = pd.to_datetime(df_final['DT_COMPTC'])

# Ordena por Fundo e Data
df_final.sort_values(by=['CNPJ_FUNDO', 'DT_COMPTC'], inplace=True)

arquivo_saida = f'{PROCESSED_DIR}/base_acoes_consolidada.parquet'
print(f"üíæ Salvando em: {arquivo_saida}")

# Salva em Parquet (requer biblioteca pyarrow ou fastparquet instalada)
df_final.to_parquet(arquivo_saida, index=False)

print("‚úÖ Processo de Limpeza Conclu√≠do!")