Come√ßamos importando as bibliotecas necess√°rias. Estamos utilizando requests para comunica√ß√£o com a API da CVM e zipfile junto com io para manipula√ß√£o de arquivos em mem√≥ria.

Definimos tamb√©m as constantes do projeto. Segundo as instru√ß√µes do desafio, devemos buscar dados do Portal de Dados Abertos da CVM. Organizamos a sa√≠da na pasta data/raw para manter a estrutura do projeto limpa.

In [1]:
import os
import requests
import zipfile
import io
import pandas as pd
from datetime import datetime, timedelta

# Defini√ß√£o dos diret√≥rios
OUTPUT_DIR = '../data/raw'
os.makedirs(OUTPUT_DIR, exist_ok=True)

# URL base oficial da CVM para o Informe Di√°rio
BASE_URL = "https://dados.cvm.gov.br/dados/FI/DOC/INF_DIARIO/DADOS"

Aqui criamos uma fun√ß√£o robusta para o processo de ETL (Extract, Transform, Load).

Decis√£o T√©cnica: Ao inv√©s de baixar o arquivo .zip para o disco e depois descompactar (o que geraria lixo e uso desnecess√°rio de I/O), optamos por baixar o fluxo de bytes diretamente na mem√≥ria RAM usando io.BytesIO. Isso torna o processamento mais r√°pido e eficiente. Se o download falhar (ex: erro de conex√£o), o c√≥digo captura a exce√ß√£o para n√£o interromper todo o fluxo abruptamente.

In [2]:
def download_e_extrair_cvm(ano, mes):
    """
    Baixa o arquivo ZIP da CVM para um m√™s espec√≠fico e extrai o CSV na pasta de destino.
    """
    nome_arquivo = f"inf_diario_fi_{ano}{mes:02d}.zip"
    url = f"{BASE_URL}/{nome_arquivo}"

    print(f"üîÑ Baixando: {nome_arquivo}...")

    try:
        response = requests.get(url, stream=True)
        response.raise_for_status() # Garante que o link existe

        # Manipula√ß√£o em mem√≥ria para extra√ß√£o direta
        with zipfile.ZipFile(io.BytesIO(response.content)) as z:
            z.extractall(OUTPUT_DIR)

        print(f"‚úÖ Sucesso: {nome_arquivo} extra√≠do.")

    except Exception as e:
        print(f"‚ùå Erro ao baixar {nome_arquivo}: {e}")

O desafio sugere um per√≠odo m√≠nimo de 12 meses, mas indica que 24 meses √© desej√°vel. Para garantir robustez na valida√ß√£o do modelo (backtesting), optamos por baixar os √∫ltimos 2 anos de dados.

Este bloco percorre o calend√°rio m√™s a m√™s, chamando nossa fun√ß√£o de extra√ß√£o.

In [3]:
# Janela de tempo: √öltimos 24 meses
data_final = datetime.now()
data_inicial = data_final - timedelta(days=365 * 2)

print(f"üöÄ Iniciando download de {data_inicial.strftime('%m/%Y')} at√© {data_final.strftime('%m/%Y')}...")

data_atual = data_inicial
while data_atual <= data_final:
    download_e_extrair_cvm(data_atual.year, data_atual.month)

    # Avan√ßa para o dia 1 do pr√≥ximo m√™s
    # (Soma 32 dias e volta para o dia 1 para garantir a virada de m√™s)
    data_atual = (data_atual.replace(day=1) + timedelta(days=32)).replace(day=1)

üöÄ Iniciando download de 12/2023 at√© 12/2025...
üîÑ Baixando: inf_diario_fi_202312.zip...
‚úÖ Sucesso: inf_diario_fi_202312.zip extra√≠do.
üîÑ Baixando: inf_diario_fi_202401.zip...
‚úÖ Sucesso: inf_diario_fi_202401.zip extra√≠do.
üîÑ Baixando: inf_diario_fi_202402.zip...
‚úÖ Sucesso: inf_diario_fi_202402.zip extra√≠do.
üîÑ Baixando: inf_diario_fi_202403.zip...
‚úÖ Sucesso: inf_diario_fi_202403.zip extra√≠do.
üîÑ Baixando: inf_diario_fi_202404.zip...
‚úÖ Sucesso: inf_diario_fi_202404.zip extra√≠do.
üîÑ Baixando: inf_diario_fi_202405.zip...
‚úÖ Sucesso: inf_diario_fi_202405.zip extra√≠do.
üîÑ Baixando: inf_diario_fi_202406.zip...
‚úÖ Sucesso: inf_diario_fi_202406.zip extra√≠do.
üîÑ Baixando: inf_diario_fi_202407.zip...
‚úÖ Sucesso: inf_diario_fi_202407.zip extra√≠do.
üîÑ Baixando: inf_diario_fi_202408.zip...
‚úÖ Sucesso: inf_diario_fi_202408.zip extra√≠do.
üîÑ Baixando: inf_diario_fi_202409.zip...
‚úÖ Sucesso: inf_diario_fi_202409.zip extra√≠do.
üîÑ Baixando: inf_diario_fi_

Al√©m dos dados de cota e PL (Informe Di√°rio), o desafio exige o uso de atributos do fundo  para filtrar nossa classe de ativos.

Baixamos o arquivo cad_fi.csv (Cadastro de Fundos), que cont√©m o CNPJ, a Denomina√ß√£o Social e, crucialmente, a Classe CVM. Isso ser√° usado na pr√≥xima etapa para filtrar apenas os fundos de A√ß√µes com mais de 50 cotistas, conforme o escopo.

In [4]:
print("\nüîÑ Baixando Cadastro de Fundos (Metadados)...")
url_cad = "https://dados.cvm.gov.br/dados/FI/CAD/DADOS/cad_fi.csv"

try:
    response = requests.get(url_cad)
    with open(f"{OUTPUT_DIR}/cad_fi.csv", 'wb') as f:
        f.write(response.content)
    print("‚úÖ Cadastro (cad_fi.csv) salvo com sucesso!")
except Exception as e:
    print(f"‚ùå Falha no download do cadastro: {e}")


üîÑ Baixando Cadastro de Fundos (Metadados)...
‚úÖ Cadastro (cad_fi.csv) salvo com sucesso!
