# üéØ Constru√ß√£o da Pr√©-lista UNIVERSE_CANDIDATES

Este notebook executa o fluxo completo:
1. **Ingest√£o** de dados de mercado (Yahoo Finance)
2. **Pipeline** UNIVERSE_CANDIDATES (filtros e classifica√ß√£o)
3. **Resumo** da pr√©-lista gerada

---


## 1. Setup e Imports


In [None]:
import sys
import os
import logging
from pathlib import Path
from datetime import datetime
import json

# Configura logging
logging.basicConfig(level=logging.INFO, format='%(levelname)s - %(message)s')
logger = logging.getLogger(__name__)

# Define o diret√≥rio raiz do projeto
# Detecta automaticamente se estamos em notebooks/ ou na raiz
current_dir = Path.cwd()
if current_dir.name == 'notebooks':
    project_root = current_dir.parent
elif (current_dir / 'pyproject.toml').exists():
    project_root = current_dir
else:
    # Fallback: procura pyproject.toml subindo n√≠veis
    project_root = current_dir
    for _ in range(5):
        if (project_root / 'pyproject.toml').exists():
            break
        project_root = project_root.parent

# Muda para o diret√≥rio do projeto (importante para paths relativos)
os.chdir(project_root)

# Adiciona m√≥dulos ao path
sys.path.insert(0, str(project_root / 'modules'))

print(f"üìÅ Project root: {project_root}")
print(f"üìÇ Working directory: {Path.cwd()}")
print(f"üìÖ Data/hora: {datetime.now().strftime('%Y-%m-%d %H:%M:%S')}")


üìÅ Project root: /home/wilson/PortfolioZero
üìÖ Data/hora: 2025-12-02 16:47:33


In [5]:
# Imports dos m√≥dulos do PortfolioZero
from portfoliozero.core.data.market_data_ingestion import (
    fetch_and_store_universe_market_data,
    validate_raw_market_data,
    load_data_source_config,
)

from portfoliozero.core.data.universe_candidates_pipeline import (
    build_universe_candidates,
    load_universe_candidates,
    validate_universe_candidates,
    get_pipeline_metadata,
)

import polars as pl

print("‚úÖ Imports carregados com sucesso!")


‚úÖ Imports carregados com sucesso!


## 2. Configura√ß√£o

Carrega a configura√ß√£o para ver os tickers que ser√£o baixados.


In [None]:
# Caminho do arquivo de configura√ß√£o
config_path = str(project_root / 'config' / 'experiments' / 'universe_data_sources_v1.yaml')
print(f"üìÑ Config path: {config_path}")

# Carrega configura√ß√£o
config = load_data_source_config(config_path)

print(f"\nüìä Provider: {config.get('provider', 'N/A')}")
print(f"üìà Tickers configurados: {len(config.get('universe', []))}")
print(f"üìÖ Per√≠odo: {config.get('date_range', {}).get('start', 'N/A')} a {config.get('date_range', {}).get('end', 'N/A')}")
print(f"\nüè∑Ô∏è Primeiros 10 tickers:")
for ticker in config.get('universe', [])[:10]:
    print(f"   - {ticker}")
if len(config.get('universe', [])) > 10:
    print(f"   ... e mais {len(config.get('universe', [])) - 10} tickers")


FileNotFoundError: Arquivo de configura√ß√£o n√£o encontrado: /home/wilson/PortfolioZero/notebooks/config/experiments/universe_data_sources_v1.yaml
Crie o arquivo com os campos: provider, universe, date_range, frequency, output

## 3. Ingest√£o de Dados de Mercado üì•

Baixa dados OHLCV do Yahoo Finance para todos os tickers configurados.

‚ö†Ô∏è **Aten√ß√£o:** Esta etapa pode demorar 5-10 minutos dependendo da quantidade de tickers e conex√£o.


In [None]:
# Define se deve sobrescrever dados existentes
OVERWRITE_EXISTING = False  # Mude para True se quiser re-baixar tudo

print("="*60)
print("INGEST√ÉO DE DADOS DE MERCADO")
print("="*60)
print(f"\n‚öôÔ∏è Sobrescrever existentes: {OVERWRITE_EXISTING}")
print(f"üöÄ Iniciando ingest√£o...\n")

# Executa ingest√£o (usa o config_path definido na c√©lula anterior)
files = fetch_and_store_universe_market_data(config_path=config_path, overwrite=OVERWRITE_EXISTING)

print(f"\n‚úÖ Ingest√£o conclu√≠da!")
print(f"üìÅ Arquivos gerados/atualizados: {len(files)}")


In [None]:
# Valida dados brutos
validation = validate_raw_market_data()

print("\nüìã Valida√ß√£o dos dados brutos:")
print(f"   V√°lido: {'‚úÖ' if validation['valid'] else '‚ùå'}")
print(f"   Arquivos: {validation.get('files', 0)}")
print(f"   Registros totais: {validation.get('total_records', 0):,}")
print(f"   Tickers √∫nicos: {len(validation.get('tickers', []))}")

if validation.get('errors'):
    print(f"\n‚ö†Ô∏è Erros encontrados:")
    for err in validation['errors'][:5]:
        print(f"   - {err}")


## 4. Execu√ß√£o do Pipeline UNIVERSE_CANDIDATES üîß

Aplica os filtros de sele√ß√£o e gera a pr√©-lista de 60-80 candidatos.


In [None]:
print("="*60)
print("PIPELINE UNIVERSE_CANDIDATES")
print("="*60)

# Executa pipeline
output_path = build_universe_candidates(force_refresh=True)

print(f"\n‚úÖ Pipeline conclu√≠do!")
print(f"üìÅ Arquivo gerado: {output_path}")


## 5. Carrega e Analisa Resultado üìä


In [None]:
# Carrega resultado
df = load_universe_candidates(output_path)

# Valida
result = validate_universe_candidates(df)

print(f"üìä Candidatos carregados: {len(df)}")
print(f"‚úÖ Valida√ß√£o: {'OK' if result.is_valid else 'FALHOU'}")
if result.warnings:
    print(f"‚ö†Ô∏è Warnings: {len(result.warnings)}")
    for w in result.warnings:
        print(f"   - {w}")


In [None]:
# Mostra primeiros registros
print("\nüìã Primeiros 15 candidatos (ordenados por volume):")
df.head(15)


## 6. Resumo da Pr√©-lista üìà


In [None]:
# Constantes
TARGET_MIN = 60
TARGET_MAX = 80

total = len(df)
in_range = TARGET_MIN <= total <= TARGET_MAX

print("="*60)
print("RESUMO DA PR√â-LISTA UNIVERSE_CANDIDATES")
print("="*60)

print(f"\nüìä Total de candidatos: {total}")
print(f"üéØ Intervalo alvo: {TARGET_MIN} - {TARGET_MAX}")

if in_range:
    print(f"‚úÖ Dentro do intervalo: SIM")
else:
    print(f"‚ùå Dentro do intervalo: N√ÉO")
    if total < TARGET_MIN:
        print(f"   ‚ö†Ô∏è Faltam {TARGET_MIN - total} candidatos para atingir o m√≠nimo")
    else:
        print(f"   ‚ö†Ô∏è Excedem {total - TARGET_MAX} candidatos acima do m√°ximo")


In [None]:
# Distribui√ß√£o por setor
if 'setor' in df.columns and len(df) > 0:
    print("\nüìä Distribui√ß√£o por SETOR:")
    sector_counts = df.group_by('setor').len().sort('len', descending=True)
    for row in sector_counts.iter_rows():
        setor, count = row
        pct = (count / total * 100) if total > 0 else 0
        print(f"   {setor}: {count} ({pct:.1f}%)")


In [None]:
# Distribui√ß√£o por volatilidade
if 'volatility_class' in df.columns and len(df) > 0:
    print("\nüìä Distribui√ß√£o por VOLATILIDADE:")
    for vol_class in ['BAIXA', 'MEDIA', 'ALTA']:
        count = df.filter(pl.col('volatility_class') == vol_class).height
        pct = (count / total * 100) if total > 0 else 0
        print(f"   {vol_class}: {count} ({pct:.1f}%)")


In [None]:
# Distribui√ß√£o por liquidez
if 'liquidity_class' in df.columns and len(df) > 0:
    print("\nüìä Distribui√ß√£o por LIQUIDEZ:")
    for liq_class in ['BAIXA', 'MEDIA', 'ALTA']:
        count = df.filter(pl.col('liquidity_class') == liq_class).height
        pct = (count / total * 100) if total > 0 else 0
        print(f"   {liq_class}: {count} ({pct:.1f}%)")


## 7. Metadados do Pipeline


In [None]:
# Carrega metadados
metadata = get_pipeline_metadata(output_path)

if metadata:
    print("\nüìã Metadados do Pipeline:")
    print(f"   Execu√ß√£o: {metadata.execution_date}")
    print(f"   Registros entrada: {metadata.input_record_count:,}")
    print(f"   Registros sa√≠da: {metadata.output_record_count:,}")
    print(f"   Filtros aplicados: {len(metadata.filters_applied)}")
    
    print("\n   üìå Filtros:")
    for f in metadata.filters_applied:
        print(f"      - {f}")
    
    if metadata.warnings:
        print(f"\n   ‚ö†Ô∏è Warnings:")
        for w in metadata.warnings:
            print(f"      - {w}")


## 8. Visualiza√ß√£o dos Candidatos


In [None]:
# Exibe tabela completa
print(f"\nüìã LISTA COMPLETA DE CANDIDATOS ({len(df)} ativos):")
df


---

## üéØ Pr√≥ximos Passos

### Se dentro do intervalo (60-80):
1. ‚úÖ Revisar distribui√ß√£o setorial
2. ‚úÖ Revisar perfil de risco (volatilidade)
3. ‚û°Ô∏è Prosseguir para **TASK_011** (sele√ß√£o dos 30 supervisionados)

### Se fora do intervalo:
1. Ajustar tickers em `config/experiments/universe_data_sources_v1.yaml`
2. Ajustar filtros em `config/experiments/universe_selection_rules_v1.yaml`
3. Re-executar este notebook

---

### Arquivos de Configura√ß√£o:
- **Tickers:** `config/experiments/universe_data_sources_v1.yaml`
- **Filtros:** `config/experiments/universe_selection_rules_v1.yaml`

### Arquivos Gerados:
- **Pr√©-lista:** `data/universe/UNIVERSE_CANDIDATES.parquet`
- **CSV:** `data/universe/UNIVERSE_CANDIDATES.csv`
