In [None]:
# b3_iframe_selenium.py
from __future__ import annotations

import argparse
import csv
import logging
import re
import time
from io import StringIO
from pathlib import Path
from typing import Iterable, List, Optional, Set

import pandas as pd
import requests
from bs4 import BeautifulSoup
from requests.adapters import HTTPAdapter, Retry

# Selenium imports are optional; import when needed to avoid heavy dependency at module import
try:
    from selenium import webdriver
    from selenium.common.exceptions import (
        ElementClickInterceptedException,
        StaleElementReferenceException,
        TimeoutException,
    )
    from selenium.webdriver.chrome.service import Service
    from selenium.webdriver.common.by import By
    from selenium.webdriver.chrome.options import Options
    from selenium.webdriver.support.ui import WebDriverWait
    from selenium.webdriver.support import expected_conditions as EC
    from webdriver_manager.chrome import ChromeDriverManager
except Exception:  # pragma: no cover - selenium optional
    webdriver = None



#download_histories.py
import os
import logging
from datetime import datetime
from typing import List, Dict, Optional
import pandas as pd
import yfinance as yf
from tqdm import tqdm
import traceback

# analysis_historical_data.py
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# cvm_downloader.py
import requests
from zipfile import ZipFile
from __future__ import annotations
import argparse
import sys
from concurrent.futures import ThreadPoolExecutor, as_completed
from typing import Iterable, List, Tuple, Dict

import requests
from requests.adapters import HTTPAdapter
from urllib3.util.retry import Retry

# cvm_parser.py
import gc
from pathlib import Path

# news_crawler_rss.py
import feedparser
import urllib.parse



---

# üß† Arquitetura de Coleta e Processamento ‚Äî Projeto Aurum

```mermaid
flowchart LR
    A["Web Scraping na p√°gina da B3<br/><b>Ticker</b>"]

    %% Yahoo Finance
    A --> B["Web Scraping no Yahoo Finance<br/><b>Dados Hist√≥ricos</b>"]
    B --> C["<b>Backtests</b>"]
    C --> D["<b>Relat√≥rio de Desempenho</b>"]

    %% Google News
    A --> E["Web Scraping na p√°gina do Google News<br/><b>Dados de Not√≠cias</b>"]
    E --> F["<b>Modelo de Sentimento</b>"]
    F --> G["<b>Score de Sentimento</b>"]

    %% CVM
    A --> H["Baixar por uma URL gov.br<br/><b>Baixar as pastas CVM</b>"]
    H --> I["<b>Parser e Processador</b>"]
    I --> J["<b>Dados Fundamentalistas</b>"]

    %% Uni√£o
    G --> K["<b>DataFrame Fundamentalistas e Score de Sentimento</b>"]
    J --> K



---

### b3_iframe_full_extractor.py

### üìò Descri√ß√£o
Script respons√°vel por **extrair automaticamente todos os tickers listados na B3** (como o √≠ndice IBRX100), mesmo quando o conte√∫do est√° dentro de **iframes com pagina√ß√£o din√¢mica**.  
O c√≥digo realiza a extra√ß√£o utilizando **Selenium + BeautifulSoup + Pandas**, com fallback inteligente caso o download direto da tabela falhe.

### ‚öôÔ∏è Funcionalidades Principais
- Extra√ß√£o de tickers da p√°gina da B3 (`https://sistemaswebb3-listados.b3.com.br/indexPage/day/IBXX`)
- Normaliza√ß√£o dos tickers (ex: `PETR4` ‚Üí `PETR4.SA`)
- Identifica√ß√£o autom√°tica de colunas e cabe√ßalhos de c√≥digo
- Suporte a pagina√ß√£o autom√°tica e op√ß√µes de "itens por p√°gina"
- Modo **headless** (sem abrir navegador) ou **debug** (com logs detalhados)
- Gera√ß√£o de arquivo CSV (`tickers_ibrx100_full.csv`) com todos os tickers coletados



### üß© Diagrama (classe/entidade) ‚Äî sa√≠da do CSV
```mermaid
classDiagram
  class tickers_csv {
    + string Ticker
    --
    C√≥digo de negocia√ß√£o normalizado do ativo na B3
    Formato: <nome do papel> + .SA (ex.: PETR4.SA)
    Lista sem duplicatas; normaliza para mai√∫sculas
  }


In [None]:
import pandas as pd
import requests
import base64
import json
import logging
from pathlib import Path
import time
import urllib3

# --- Configura√ß√£o ---
logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')
logger = logging.getLogger(__name__)

# Diret√≥rio para salvar
OUTPUT_DIR = Path(".") 
OUTPUT_FILENAME_CSV = "tickers_ibrx100_full.csv"
OUTPUT_FILENAME_PARQUET = "tickers_ibrx100_full.parquet"

def fetch_ibrx100_from_b3_api() -> pd.DataFrame:
    """
    Consome diretamente a API JSON da B3 para obter a composi√ß√£o do IBRX-100.
    """
    logger.info("Iniciando requisi√ß√£o √† API da B3 (IndexProxy)...")
    
    try:
        # IBXX √© o c√≥digo do IBRX-100
        params = {
            "language": "pt-br",
            "pageNumber": 1,
            "pageSize": 120, 
            "index": "IBXX", 
            "segment": "1"
        }
        
        params_json = json.dumps(params)
        params_b64 = base64.b64encode(params_json.encode("utf-8")).decode("utf-8")
        
        url = f"https://sistemaswebb3-listados.b3.com.br/indexProxy/indexCall/GetPortfolioDay/{params_b64}"
        
        headers = {
            "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36"
        }
        
        # Desativa warnings de SSL
        urllib3.disable_warnings(urllib3.exceptions.InsecureRequestWarning)
        response = requests.get(url, headers=headers, timeout=15, verify=False)
        
        if response.status_code != 200:
            logger.error(f"Erro na requisi√ß√£o: Status {response.status_code}")
            return None
            
        data = response.json()
        results = data.get('results', [])
        
        if not results:
            logger.warning("JSON retornado pela B3 est√° vazio na chave 'results'.")
            return None
            
        logger.info(f"API retornou {len(results)} ativos.")
        
        # Criar DataFrame Bruto
        df = pd.DataFrame(results)
        
        # --- DEBUG: Imprimir colunas encontradas para ver o nome correto ---
        logger.info(f"Colunas encontradas no JSON: {df.columns.tolist()}")
        
        # --- L√ìGICA DE CORRE√á√ÉO: Identificar a coluna do Ticker ---
        # A B3 varia entre 'codNeg', 'cod', 'acronym', 'asset' dependendo do endpoint
        coluna_ticker = None
        possiveis_nomes = ['codNeg', 'cod', 'acronym', 'symbol', 'identifier']
        
        for col in possiveis_nomes:
            if col in df.columns:
                coluna_ticker = col
                logger.info(f"Coluna de ticker identificada como: '{col}'")
                break
        
        if not coluna_ticker:
            logger.error("N√£o foi poss√≠vel identificar a coluna de Ticker no DataFrame.")
            logger.error(f"Colunas dispon√≠veis: {df.columns.tolist()}")
            return None

        # Selecionar e renomear
        # Tamb√©m tentamos garantir a coluna de participa√ß√£o ('part' ou 'participation')
        coluna_part = 'part' if 'part' in df.columns else None
        
        colunas_selecao = [coluna_ticker]
        if coluna_part:
            colunas_selecao.append(coluna_part)
            
        df_final = df[colunas_selecao].copy()
        
        # Renomear para o padr√£o do nosso sistema
        rename_map = {coluna_ticker: 'ticker'}
        if coluna_part:
            rename_map[coluna_part] = 'participacao'
            
        df_final = df_final.rename(columns=rename_map)
        
        # 6. Normaliza√ß√£o para yfinance (.SA)
        logger.info("Normalizando tickers (adicionando .SA)...")
        # Remove espa√ßos em branco que a B3 as vezes deixa
        df_final['ticker'] = df_final['ticker'].str.strip()
        df_final['Ticker_Yahoo'] = df_final['ticker'].apply(lambda x: f"{x}.SA")
        
        return df_final

    except Exception as e:
        logger.error(f"Falha cr√≠tica no extrator da API B3: {e}")
        import traceback
        logger.error(traceback.format_exc())
        return None

def save_data(df: pd.DataFrame):
    OUTPUT_DIR.mkdir(parents=True, exist_ok=True)
    
    path_csv = OUTPUT_DIR / OUTPUT_FILENAME_CSV
    path_parquet = OUTPUT_DIR / OUTPUT_FILENAME_PARQUET
    
    df.to_csv(path_csv, index=False, encoding='utf-8-sig')
    df.to_parquet(path_parquet, index=False)
    
    logger.info(f"üíæ Arquivos salvos:")
    logger.info(f"   -> {path_csv}")
    logger.info(f"   -> {path_parquet}")

if __name__ == "__main__":
    start_time = time.time()
    
    df_result = fetch_ibrx100_from_b3_api()
    
    if df_result is not None and not df_result.empty:
        print("\n--- Amostra do IBRX-100 (API B3) ---")
        print(df_result.head())
        save_data(df_result)
    else:
        logger.error("N√£o foi poss√≠vel gerar a lista de tickers.")
        
    print(f"\nTempo total: {time.time() - start_time:.2f} segundos")

2025-12-09 14:25:02,100 - INFO - Iniciando requisi√ß√£o √† API da B3 (IndexProxy)...
2025-12-09 14:25:03,040 - INFO - API retornou 97 ativos.
2025-12-09 14:25:03,052 - ERROR - Falha cr√≠tica no extrator da API B3: "['codNeg'] not in index"
2025-12-09 14:25:03,164 - ERROR - Traceback (most recent call last):
  File "C:\Users\kaike\AppData\Local\Temp\ipykernel_22100\1422043272.py", line 71, in fetch_ibrx100_from_b3_api
    df_final = df[['codNeg', 'part']].copy()
               ~~^^^^^^^^^^^^^^^^^^^^
  File "c:\Users\kaike\projeto_aurum\venv_aurum\Lib\site-packages\pandas\core\frame.py", line 4119, in __getitem__
    indexer = self.columns._get_indexer_strict(key, "columns")[1]
              ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "c:\Users\kaike\projeto_aurum\venv_aurum\Lib\site-packages\pandas\core\indexes\base.py", line 6212, in _get_indexer_strict
    self._raise_if_missing(keyarr, indexer, axis_name)
  File "c:\Users\kaike\projeto_aurum\venv_aurum\Lib\site-packages\p


Tempo total: 1.07 segundos



---
### üóÇÔ∏è Hist√≥rico ‚Äî downloader & combinador (b3_hist_downloader.py)

**Resumo r√°pido**  
Script que baixa hist√≥ricos de pre√ßos (via `yfinance`), salva por ticker em **parquet** (e opcionalmente CSV), e permite combinar todos os parquets em um √∫nico arquivo *long-format*. Feito para rodar em batch com retry/backoff, pular tickers j√° salvos e gerar um resumo final.


#### ‚ú® Principais responsabilidades
- Baixar hist√≥ricos de pre√ßo por lotes (batch) com `yfinance`.  
- Salvar cada ticker em `data/historical/{TICKER}.parquet` e `{TICKER}.csv`.  
- Gerenciar retries (exponencial), fallback ticker-a-ticker e logs.  
- Gerar CSV de resumo por execu√ß√£o (`download_summary_YYYYMMDDTHHMMSSZ.csv`).  
- Recombinar todos os parquets em um √∫nico `all_histories.parquet` / `all_histories.csv`.


#### üß© Fun√ß√µes principais (one-liners)
- `ticker_exists_local(ticker)` ‚Üí verifica exist√™ncia de `{ticker}.parquet`.  
- `save_history_df(ticker, df, save_csv=True)` ‚Üí salva parquet e CSV; garante coluna `date`.  
- `download_batch(batch, start, threads)` ‚Üí tenta baixar um batch via `yfinance.download` com retries e fallback.  
- `download_all_histories(tickers, start, force, save_summary, save_csv_per_ticker)` ‚Üí orquestra o download em batches, salva e retorna um `DataFrame` resumo.  
- `combine_all_to_single_parquet(out_path, out_csv, tickers)` ‚Üí concatena todos os parquets em formato long e salva.


#### ‚öôÔ∏è Par√¢metros principais (valores padr√£o)
| Par√¢metro | Valor padr√£o |
|---:|:---|
| `HIST_DIR` | `data/historical/` |
| `DEFAULT_START` | `"2011-01-01"` |
| `BATCH_SIZE` | `15` |
| `MAX_ATTEMPTS` | `4` |
| `SLEEP_BETWEEN_BATCHES` | `1` (seg) |
| `SLEEP_BETWEEN_TICKERS` | `0.2` (seg) |


#### üìÇ Sa√≠das geradas
- `data/historical/{TICKER}.parquet` ‚Äî parquet por ticker.  
- `data/historical/{TICKER}.csv` ‚Äî  CSV por ticker.  
- `data/historical/download_summary_{ts}.csv` ‚Äî resumo da execu√ß√£o.  
- `data/historical/all_histories.parquet` & `all_histories.csv` ‚Äî concat final (long format).

---

In [None]:
# logging simples
logging.basicConfig(level=logging.INFO, format="%(asctime)s %(levelname)s %(message)s")

# diret√≥rio onde os hist√≥ricos ser√£o salvos (compat√≠vel com seu script anterior)
HIST_DIR = os.path.join("data", "historical")
os.makedirs(HIST_DIR, exist_ok=True)

# par√¢metros de download
DEFAULT_START = "2011-01-01"
BATCH_SIZE = 15
MAX_ATTEMPTS = 4          
SLEEP_BETWEEN_BATCHES = 1  
SLEEP_BETWEEN_TICKERS = 0.2

def ticker_exists_local(ticker: str) -> bool:
    """Verifica se j√° existe parquet salvo para ticker (usa para pular downloads)"""
    path = os.path.join(HIST_DIR, f"{ticker}.parquet")
    return os.path.isfile(path)

def save_history_df(ticker: str, df: pd.DataFrame, save_csv: bool = True):
    """Salva DataFrame em parquet e opcionalmente em CSV. Garante coluna 'date' se √≠ndice for DatetimeIndex."""
    if df is None or df.empty:
        raise ValueError("DataFrame nulo ou vazio")
    df = df.copy()
    # garantir que a coluna de data exista como coluna
    if isinstance(df.index, pd.DatetimeIndex):
        df.index.name = "date"
        df = df.reset_index()
    # converter coluna date para string ISO ao salvar CSV (mant√©m compatibilidade)
    out_parquet = os.path.join(HIST_DIR, f"{ticker}.parquet")
    out_csv = os.path.join(HIST_DIR, f"{ticker}.csv")
    try:
        df.to_parquet(out_parquet, index=False)
        logging.info("Saved %s rows for %s -> %s", len(df), ticker, out_parquet)
    except Exception as e:
        logging.exception("Erro salvando parquet para %s: %s", ticker, e)
        raise
    if save_csv:
        try:
            # padronizar data para ISO antes de salvar CSV (se existir)
            if 'date' in df.columns:
                df['date'] = pd.to_datetime(df['date']).dt.strftime('%Y-%m-%d')
            df.to_csv(out_csv, index=False)
            logging.info("Saved CSV for %s -> %s", ticker, out_csv)
        except Exception as e:
            logging.exception("Erro salvando CSV para %s: %s", ticker, e)
            # n√£o raise ‚Äî parquet j√° salvo, apenas logamos o problema

def download_batch(batch: List[str], start: str = DEFAULT_START, threads: bool = True) -> Dict[str, Optional[pd.DataFrame]]:
    """
    Tenta baixar um batch de tickers via yfinance.download.
    Retorna dict ticker -> DataFrame or None (se falhou).
    """
    joined = " ".join(batch)
    attempt = 0
    last_exc = None
    while attempt < MAX_ATTEMPTS:
        try:
            logging.info("yfinance.download attempt %d for batch size %d", attempt+1, len(batch))
            data = yf.download(tickers=joined, start=start, progress=False, threads=threads, group_by='ticker', auto_adjust=False, actions=True)
            result = {}
            if isinstance(data, pd.DataFrame) and isinstance(data.columns, pd.MultiIndex):
                for ticker in batch:
                    if ticker in data.columns.get_level_values(0):
                        df_t = data[ticker].copy()
                        result[ticker] = df_t
                    else:
                        try:
                            single = yf.download(ticker, start=start, progress=False, actions=True)
                            result[ticker] = single if not single.empty else None
                        except Exception:
                            result[ticker] = None
            else:
                for ticker in batch:
                    try:
                        df_t = yf.download(ticker, start=start, progress=False, actions=True)
                        result[ticker] = df_t if not df_t.empty else None
                    except Exception:
                        result[ticker] = None
            return result
        except Exception as e:
            last_exc = e
            logging.warning("Erro no yfinance.download (attempt %d): %s", attempt+1, str(e))
            attempt += 1
            time.sleep(2 ** attempt)  # backoff exponencial
    logging.error("Todas tentativas falharam para batch (%s). √öltimo erro: %s", joined, last_exc)
    # fallback: tentar baixar ticker a ticker
    result = {}
    for ticker in batch:
        try:
            df_t = yf.download(ticker, start=start, progress=False, actions=True)
            result[ticker] = df_t if not df_t.empty else None
        except Exception as e:
            logging.warning("Fallback individual falhou para %s: %s", ticker, e)
            result[ticker] = None
    return result

def download_all_histories(tickers: List[str], start: str = DEFAULT_START, force: bool = False, save_summary: bool = True, save_csv_per_ticker: bool = True):
    """
    Processo principal: recebe lista de tickers (strings), baixa hist√≥ricos e salva parquet + csv por ticker.
    - force: se True, re-baixa mesmo que arquivo exista.
    - save_csv_per_ticker: se True salva um CSV para cada ticker (al√©m do parquet).
    - retorna um DataFrame resumo com status por ticker.
    """
    os.makedirs(HIST_DIR, exist_ok=True)
    tickers = [t for t in tickers if isinstance(t, str) and t.strip()]
    tickers = list(dict.fromkeys(tickers))
    summary = []
    for i in range(0, len(tickers), BATCH_SIZE):
        batch = tickers[i:i+BATCH_SIZE]
        to_download = [t for t in batch if force or not ticker_exists_local(t)]
        if not to_download:
            logging.info("Batch %d: todos j√° existem localmente ‚Äî pulando.", i//BATCH_SIZE+1)
            for t in batch:
                summary.append({
                    "ticker": t,
                    "status": "skipped_local",
                    "rows": None,
                    "saved_parquet": os.path.join(HIST_DIR, f"{t}.parquet") if ticker_exists_local(t) else None,
                    "saved_csv": os.path.join(HIST_DIR, f"{t}.csv") if os.path.exists(os.path.join(HIST_DIR, f"{t}.csv")) else None
                })
            continue

        logging.info("Processando batch %d/%d (download %d/%d)", i//BATCH_SIZE+1, (len(tickers)+BATCH_SIZE-1)//BATCH_SIZE, len(to_download), len(batch))
        results = download_batch(to_download, start=start)
        for t in batch:
            df_t = results.get(t) if t in results else None
            if df_t is None or (isinstance(df_t, pd.DataFrame) and df_t.empty):
                logging.warning("Nenhum dado para %s em batch; tentativa isolada...", t)
                try:
                    single = yf.download(t, start=start, progress=False, actions=True)
                    df_t = single if not single.empty else None
                except Exception:
                    df_t = None
            if df_t is None or df_t.empty:
                logging.error("Falha obtendo dados para %s", t)
                summary.append({"ticker": t, "status": "failed", "rows": 0, "saved_parquet": None, "saved_csv": None})
            else:
                try:
                    save_history_df(t, df_t, save_csv=save_csv_per_ticker)
                    summary.append({
                        "ticker": t,
                        "status": "ok",
                        "rows": len(df_t),
                        "saved_parquet": os.path.join(HIST_DIR, f"{t}.parquet"),
                        "saved_csv": os.path.join(HIST_DIR, f"{t}.csv") if save_csv_per_ticker else None
                    })
                except Exception as e:
                    logging.exception("Erro salvando para %s: %s", t, e)
                    summary.append({"ticker": t, "status": "save_error", "rows": len(df_t) if isinstance(df_t, pd.DataFrame) else None, "saved_parquet": None, "saved_csv": None})
            time.sleep(SLEEP_BETWEEN_TICKERS)
        time.sleep(SLEEP_BETWEEN_BATCHES)

    df_summary = pd.DataFrame(summary)
    if save_summary:
        ts = datetime.utcnow().strftime("%Y%m%dT%H%M%SZ")
        summary_path = os.path.join(HIST_DIR, f"download_summary_{ts}.csv")
        df_summary.to_csv(summary_path, index=False)
        logging.info("Resumo salvo em %s", summary_path)
    return df_summary

def combine_all_to_single_parquet(out_path: str = os.path.join(HIST_DIR, "all_histories.parquet"), out_csv: Optional[str] = os.path.join(HIST_DIR, "all_histories.csv"), tickers: Optional[List[str]] = None):
    """
    L√™ todos os parquets em HIST_DIR (ou tickers list) e concatena em formato long:
    columns: ['ticker','date', 'Open','High','Low','Close','Adj Close','Volume', 'Dividends','Stock Splits']
    Salva em parquet e opcionalmente em csv.
    """
    files = []
    if tickers:
        files = [os.path.join(HIST_DIR, f"{t}.parquet") for t in tickers if os.path.exists(os.path.join(HIST_DIR, f"{t}.parquet"))]
    else:
        files = [os.path.join(HIST_DIR, f) for f in os.listdir(HIST_DIR) if f.endswith(".parquet")]
    dfs = []
    for f in files:
        try:
            df = pd.read_parquet(f)
            if 'date' in df.columns:
                df['date'] = pd.to_datetime(df['date'])
            fname = os.path.basename(f).replace(".parquet","")
            if 'ticker' not in df.columns:
                df.insert(0, 'ticker', fname)
            dfs.append(df)
        except Exception as e:
            logging.warning("Erro lendo %s: %s", f, e)
    if not dfs:
        raise RuntimeError("Nenhum parquet encontrado para combinar.")
    big = pd.concat(dfs, ignore_index=True, sort=False)
    big.to_parquet(out_path, index=False)
    logging.info("Combined saved to %s (rows=%d)", out_path, len(big))
    if out_csv:
        try:
            # converter date para formato iso ao salvar CSV
            if 'date' in big.columns:
                big['date'] = pd.to_datetime(big['date']).dt.strftime('%Y-%m-%d')
            big.to_csv(out_csv, index=False)
            logging.info("Combined CSV saved to %s", out_csv)
        except Exception as e:
            logging.exception("Erro salvando combined CSV: %s", e)
    return big

if __name__ == "__main__":
    # 1) carregue a lista de tickers a partir do arquivo que voc√™ j√° salvou
    tickers_file = os.path.join("tickers_ibrx100_full.csv")
    if os.path.exists(tickers_file):
        df = pd.read_csv(tickers_file)
        if 'Ticker' in df.columns:
            tickers = df['Ticker'].dropna().astype(str).tolist()
        else:
            tickers = df.iloc[:,0].dropna().astype(str).tolist()
    else:
        raise RuntimeError(f"N√£o encontrou {tickers_file}. Coloque seu CSV de tickers no mesmo diret√≥rio ou edite este script.")

    # 2) op√ß√£o: validar/normalizar tickers (garantir sufixo .SA)
    def normalize(t):
        t = str(t).strip().upper()
        if not t.endswith(".SA"):
            t = t.replace(".SA","") + ".SA"
        return t
    tickers = [normalize(t) for t in tickers]
    print("Tickers a baixar:", len(tickers), tickers[:10])

    # 3) executar (force=True re-baixa mesmo se j√° existir)
    summary_df = download_all_histories(tickers, start=DEFAULT_START, force=False, save_summary=True, save_csv_per_ticker=True)
    print(summary_df.head(50))

    # 4) opcional: combinar tudo em um √∫nico parquet e CSV (pode ser grande)
    combined = combine_all_to_single_parquet()
    print("Combined rows:", len(combined))



---

### üìã Descri√ß√£o das colunas do dataset hist√≥rico

| Coluna         | Tipo        | Breve descri√ß√£o |
|---------------:|:-----------:|:----------------|
| `date`         | `date`      | Data da observa√ß√£o no formato ISO (`YYYY-MM-DD`). Use como √≠ndice temporal para s√©ries. |
| `Open`         | `float`     | Pre√ßo de abertura do preg√£o (primeira transa√ß√£o considerada naquele dia). |
| `High`         | `float`     | Pre√ßo m√°ximo registrado durante o preg√£o. |
| `Low`          | `float`     | Pre√ßo m√≠nimo registrado durante o preg√£o. |
| `Close`        | `float`     | Pre√ßo de fechamento (√∫ltima transa√ß√£o do dia). N√£o considera ajustes por eventos corporativos. |
| `Adj Close`    | `float`     | Pre√ßo de fechamento **ajustado** por splits e dividendos ‚Äî use para c√°lculo de retornos total/consistentes em s√©ries hist√≥ricas. |
| `Volume`       | `int`       | Quantidade de a√ß√µes negociadas no dia (unidades). |
| `Dividends`    | `float`     | Valor do dividendo pago por a√ß√£o na data (se houver). Geralmente em moeda local (ex.: BRL para B3). |
| `Stock Splits` | `float`     | Fator de desdobramento/agrupamento (ex.: `2.0` ‚Üí split 2-por-1). Zero ou `0.0` quando n√£o houve evento. |

**Notas r√°pidas**
- `Adj Close` √© a coluna recomendada para backtests e c√°lculo de retornos cont√≠nuos (corrige pre√ßos para manter consist√™ncia ap√≥s eventos corporativos).  
- Converta `date` para `datetime` e defina como √≠ndice para opera√ß√µes de s√©rie temporal (`df['date'] = pd.to_datetime(df['date']); df.set_index('date', inplace=True)`).  
- Verifique a unidade/moeda conforme a fonte (normalmente moeda local do mercado, ex.: BRL para B3).  

---

In [2]:
import pandas as pd
import os
import io

def print_header(title):
    """
    Fun√ß√£o auxiliar para imprimir um cabe√ßalho formatado no log.
    """
    print("\n" + "=" * 70)
    print(f" {title.upper()} ")
    print("=" * 70)

def analyze_dataframe(file_path):
    """
    Carrega e analisa um DataFrame de hist√≥rico de a√ß√µes.
    """
    
    print(f"--- Iniciando An√°lise do Arquivo: {file_path} ---")

    # --- 1. Verifica√ß√£o e Carregamento dos Dados ---
    
    if not os.path.exists(file_path):
        print_header("[ERRO] Arquivo n√£o encontrado")
        print(f"O arquivo no caminho '{file_path}' n√£o foi localizado.")
        print("Por favor, verifique se o caminho est√° correto e a pasta 'historical' existe.")
        print("=" * 70)
        return

    try:
        # Tenta carregar o CSV. 
        # A coluna 'date' √© convertida para datetime no carregamento.
        df = pd.read_csv(file_path, parse_dates=['date'])
        print(f"\n[SUCESSO] Arquivo carregado. Total de {len(df)} linhas e {len(df.columns)} colunas.")
    except Exception as e:
        print_header("[ERRO] Falha ao carregar o arquivo")
        print(f"Ocorreu um erro ao tentar ler o arquivo CSV: {e}")
        print("=" * 70)
        return

    # --- 2. Amostra dos Dados (Head) ---
    print_header("1. Amostra dos Dados (Primeiras 5 Linhas)")
    # .to_string() formata o DataFrame como uma tabela de texto leg√≠vel
    print(df.head().to_string())

    # --- 3. Informa√ß√µes do DataFrame (Info) ---
    print_header("2. Informa√ß√µes do DataFrame (Tipos de Coluna e Nulos)")
    # O df.info() imprime diretamente. Para captur√°-lo e format√°-lo,
    # usamos um buffer de string.
    buffer = io.StringIO()
    df.info(buf=buffer)
    info_str = buffer.getvalue()
    print(info_str)

    # --- 4. Contagem de Valores Nulos ---
    print_header("3. Resumo de Valores Nulos por Coluna")
    null_counts = df.isnull().sum()
    
    if null_counts.sum() == 0:
        print("√ìtimo! N√£o h√° valores nulos em nenhuma coluna.")
    else:
        # Filtra para mostrar apenas colunas que *possuem* valores nulos
        print(null_counts[null_counts > 0].to_string())

    # --- 5. Estat√≠sticas Descritivas ---
    print_header("4. Estat√≠sticas Descritivas (Colunas Num√©ricas)")
    # O 'include='np.number' garante que s√≥ analisar√° colunas num√©ricas
    # .to_string() formata a sa√≠da para melhor visualiza√ß√£o no log
    try:
        print(df.describe().to_string())
    except Exception as e:
        print(f"N√£o foi poss√≠vel calcular estat√≠sticas descritivas: {e}")

    # --- 6. An√°lise de Tickers ---
    print_header("5. An√°lise da Coluna 'ticker'")
    if 'ticker' in df.columns:
        unique_tickers = df['ticker'].unique()
        num_unique_tickers = len(unique_tickers)
        print(f"Total de tickers √∫nicos encontrados: {num_unique_tickers}")
        
        # Mostra uma amostra se houver muitos tickers
        if num_unique_tickers > 10:
            print(f"Amostra de tickers: {unique_tickers[:10]}...")
        else:
            print(f"Tickers presentes: {unique_tickers}")
    else:
        print("Coluna 'ticker' n√£o encontrada.")

    print("\n" + "=" * 70)
    print("--- AN√ÅLISE CONCLU√çDA ---")
    print("=" * 70)

# --- Ponto de Execu√ß√£o Principal ---
if __name__ == "__main__":
    
    # Define o caminho do arquivo
    path_do_arquivo = 'data/historical/all_histories.csv'
    
    # Executa a fun√ß√£o de an√°lise
    analyze_dataframe(path_do_arquivo)

--- Iniciando An√°lise do Arquivo: data/historical/all_histories.csv ---

[SUCESSO] Arquivo carregado. Total de 357154 linhas e 10 colunas.

 1. AMOSTRA DOS DADOS (PRIMEIRAS 5 LINHAS) 
     ticker       date      Open      High       Low     Close  Adj Close     Volume  Dividends  Stock Splits
0  ABEV3.SA 2011-01-03  8.632311  8.728203  8.630313  8.690246   4.694568   576145.0        0.0           0.0
1  ABEV3.SA 2011-01-04  8.784141  8.784141  8.630313  8.692244   4.695646   328368.0        0.0           0.0
2  ABEV3.SA 2011-01-05  8.672266  8.718215  8.448517  8.530425   4.608232   299836.0        0.0           0.0
3  ABEV3.SA 2011-01-06  8.560392  8.590358  8.396576  8.450515   4.565063   731319.0        0.0           0.0
4  ABEV3.SA 2011-01-07  8.450515  8.550403  8.368607  8.416553   4.546715  1090222.0        0.0           0.0

 2. INFORMA√á√ïES DO DATAFRAME (TIPOS DE COLUNA E NULOS) 
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 357154 entries, 0 to 357153
Data columns (tota

In [5]:
import pandas as pd
import numpy as np
import logging
import os # Garante que 'os' est√° importado

# Configura√ß√£o de logging
logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')
logger = logging.getLogger(__name__)

# --- 1. Carregar os Dados ---
try:
    # Tenta carregar o Parquet primeiro, √© mais r√°pido
    df_prices_raw = pd.read_parquet("data/historical/all_histories.parquet")
    logger.info(f"Dados de pre√ßo brutos carregados do PARQUET: {df_prices_raw.shape[0]} linhas")
except FileNotFoundError:
    logger.warning("Arquivo all_histories.parquet n√£o encontrado! Tentando carregar o CSV...")
    try:
        # Carrega o CSV como fallback
        df_prices_raw = pd.read_csv("data/historical/all_histories.csv", parse_dates=['date'])
        logger.info(f"Dados de pre√ßo brutos carregados do CSV: {df_prices_raw.shape[0]} linhas")
    except FileNotFoundError as e:
        logger.error("Nenhum arquivo de hist√≥rico (parquet ou csv) encontrado. Execute o download primeiro.")
        raise e
except Exception as e:
    logger.error(f"Erro ao carregar dados: {e}")
    raise

# --- 2. Limpeza Cr√≠tica (Remover NaN de pr√©-IPO) ---
# Remove todas as linhas onde a a√ß√£o ainda n√£o existia (Adj Close ou Volume s√£o NaN)
df_prices_clean = df_prices_raw.dropna(subset=['Adj Close', 'Volume'])

# --- 3. Limpeza Opcional (Remover dias sem negocia√ß√£o) ---
df_prices_clean = df_prices_clean[df_prices_clean['Volume'] > 0]

linhas_removidas = len(df_prices_raw) - len(df_prices_clean)
logger.info(f"Dados de pre√ßo limpos: {df_prices_clean.shape[0]} linhas (removidas {linhas_removidas} linhas com NaN ou Volume 0)")

# --- 4. Salvar os Arquivos Limpos ---
# Garante que o diret√≥rio existe
output_dir = "data/historical"
os.makedirs(output_dir, exist_ok=True)

parquet_path = os.path.join(output_dir, "all_histories_cleaned.parquet")
csv_path = os.path.join(output_dir, "all_histories_cleaned.csv")

try:
    # Salvar em Parquet (preferencial para o pr√≥ximo passo)
    df_prices_clean.to_parquet(parquet_path, index=False)
    logger.info(f"‚úÖ Arquivo limpo salvo em (Parquet): {parquet_path}")

    # Salvar em CSV (para sua verifica√ß√£o)
    # date_format garante que a data seja salva em formato leg√≠vel
    df_prices_clean.to_csv(csv_path, index=False, date_format='%Y-%m-%d')
    logger.info(f"‚úÖ Arquivo limpo salvo em (CSV): {csv_path}")

except Exception as e:
    logger.error(f"‚ùå Erro ao salvar arquivos limpos: {e}")

print(f"\nLimpeza conclu√≠da. {linhas_removidas} linhas de 'lookahead' removidas.")
print(df_prices_clean.head())


Limpeza conclu√≠da. 79964 linhas de 'lookahead' removidas.
     ticker       date      Open      High       Low     Close  Adj Close  \
0  ABEV3.SA 2011-01-03  8.632311  8.728203  8.630313  8.690246   4.694568   
1  ABEV3.SA 2011-01-04  8.784141  8.784141  8.630313  8.692244   4.695646   
2  ABEV3.SA 2011-01-05  8.672266  8.718215  8.448517  8.530425   4.608232   
3  ABEV3.SA 2011-01-06  8.560392  8.590358  8.396576  8.450515   4.565063   
4  ABEV3.SA 2011-01-07  8.450515  8.550403  8.368607  8.416553   4.546715   

      Volume  Dividends  Stock Splits  
0   576145.0        0.0           0.0  
1   328368.0        0.0           0.0  
2   299836.0        0.0           0.0  
3   731319.0        0.0           0.0  
4  1090222.0        0.0           0.0  


In [14]:
import pandas as pd
import numpy as np
import logging
import os

# --- Configura√ß√£o ---
logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')
logger = logging.getLogger(__name__)

INPUT_FILE = "data/historical/all_histories_cleaned.parquet"
OUTPUT_DIR = "data/historical"

def gerar_precos_pivotados():
    logger.info("Iniciando o Passo 1: Gera√ß√£o dos Pre√ßos Pivotados (Wide)...")
    
    # 1. Carregar os dados de pre√ßo limpos
    try:
        df_prices_clean = pd.read_parquet(INPUT_FILE)
        logger.info(f"Dados limpos '{INPUT_FILE}' carregados.")
    except FileNotFoundError:
        logger.error(f"ARQUIVO N√ÉO ENCONTRADO: {INPUT_FILE}")
        logger.error("Execute o 'Script 1: Limpeza' primeiro.")
        return

    df_prices_clean['date'] = pd.to_datetime(df_prices_clean['date'])

    # 2. Criar a base de pre√ßos mensais
    logger.info("Reamostrando para Frequ√™ncia Mensal (M e MS)...")
    # 2a. Fechamento (√öltimo dia do m√™s 'M')
    df_prices_mensal_raw = df_prices_clean.set_index('date').groupby('ticker').resample('M').last()

    # 2b. Abertura (Primeiro dia do m√™s 'MS')
    df_open_mensal_raw = df_prices_clean.set_index('date').groupby('ticker').resample('MS').first()

    # 3. Pivotar para o formato "wide"
    logger.info("Corrigindo MultiIndex e Pivotando...")
    
    # CORRE√á√ÉO: Dropar a coluna 'ticker' duplicada antes de resetar o √≠ndice
    df_prices_mensal_long = df_prices_mensal_raw.drop(columns='ticker', errors='ignore').reset_index()
    df_open_mensal_long = df_open_mensal_raw.drop(columns='ticker', errors='ignore').reset_index()

    # Agora o .pivot() funcionar√°
    df_close_wide = df_prices_mensal_long.pivot(index='date', columns='ticker', values='Adj Close')
    df_open_wide = df_open_mensal_long.pivot(index='date', columns='ticker', values='Open')

    # 4. Sincronizar os √≠ndices de data
    logger.info("Sincronizando e preenchendo √≠ndices de data...")
    idx_union = df_close_wide.index.union(df_open_wide.index)
    
    df_close_wide = df_close_wide.reindex(idx_union, method='ffill')
    df_open_wide = df_open_wide.reindex(idx_union, method='ffill')

    # Preenche NaNs (pr√©-IPO e p√≥s-delist)
    df_close_wide = df_close_wide.ffill().bfill()
    df_open_wide = df_open_wide.ffill().bfill()

    # --- 5. SALVAR OS ARQUIVOS FALTOSOS ---
    os.makedirs(OUTPUT_DIR, exist_ok=True)
    
    path_close = os.path.join(OUTPUT_DIR, "prices_close_wide.parquet")
    path_open = os.path.join(OUTPUT_DIR, "prices_open_wide.parquet")
    
    df_close_wide.to_parquet(path_close)
    df_open_wide.to_parquet(path_open)
    
    logger.info(f"‚úÖ ARQUIVO FALTOSO GERADO: {path_close}")
    logger.info(f"‚úÖ ARQUIVO FALTOSO GERADO: {path_open}")
    print("\n--- Amostra de Fechamento (Wide) ---")
    print(df_close_wide.tail())

if __name__ == "__main__":
    gerar_precos_pivotados()


--- Amostra de Fechamento (Wide) ---
ticker      ABEV3.SA   ALOS3.SA  ANIM3.SA  ASAI3.SA  AURE3.SA   AZZA3.SA  \
date                                                                       
2025-08-31     12.35  23.764782      3.37     10.52     10.86  34.709999   
2025-09-01     12.35  23.764782      3.37     10.52     10.86  34.709999   
2025-09-30     12.09  25.721401      3.43      9.51     10.27  30.150000   
2025-10-01     12.09  25.721401      3.43      9.51     10.27  30.150000   
2025-10-31     12.12  24.480000      3.22      8.15     11.70  27.540001   

ticker       BBAS3.SA   BBDC3.SA   BBDC4.SA   BBSE3.SA  ...   TOTS3.SA  \
date                                                    ...              
2025-08-31  21.389999  14.151272  16.512844  32.820000  ...  42.957096   
2025-09-01  21.389999  14.151272  16.512844  32.820000  ...  42.957096   
2025-09-30  22.090000  15.212403  17.670698  33.259998  ...  45.930000   
2025-10-01  22.090000  15.212403  17.670698  33.259998  ...

ERROR:__main__:ERRO CR√çTICO: As colunas de fundamento chave ['ROIC'] n√£o foram encontradas ap√≥s o merge!
ERROR:__main__:Verifique os nomes das colunas no arquivo de fundamentos e se o merge_asof funcionou (veja logs acima).


In [9]:
import pandas as pd
import numpy as np
import os
import logging

# Configura√ß√£o de logging
logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')
logger = logging.getLogger(__name__)

logger.info("Iniciando Passo 2: C√°lculo da Volatilidade...")

# Carregar os dados de pre√ßo DI√ÅRIOS (limpos)
df_prices_daily = pd.read_parquet("data/historical/all_histories_cleaned.parquet")
df_prices_daily['date'] = pd.to_datetime(df_prices_daily['date'])

# 1. Calcular retornos di√°rios
df_prices_daily['returns'] = df_prices_daily.groupby('ticker')['Adj Close'].pct_change()

# 2. Calcular a volatilidade m√≥vel de 63 dias (~3 meses de negocia√ß√£o)
# .std() calcula o desvio padr√£o (volatilidade)
# reset_index(0, drop=True) √© necess√°rio ap√≥s o .rolling() em um groupby
df_prices_daily['VOLATILIDADE'] = df_prices_daily.groupby('ticker')['returns'].rolling(window=63).std().reset_index(0, drop=True)

# 3. Resample da volatilidade para MENSAL (pegamos o √∫ltimo valor do m√™s)
df_vol_mensal = df_prices_daily.set_index('date').groupby('ticker').resample('M').last()['VOLATILIDADE'].reset_index()

logger.info(f"‚úÖ Volatilidade mensal calculada. {len(df_vol_mensal)} registros.")
print(df_vol_mensal.tail())

         ticker       date  VOLATILIDADE
13681  YDUQ3.SA 2025-06-30      0.032834
13682  YDUQ3.SA 2025-07-31      0.029565
13683  YDUQ3.SA 2025-08-31      0.026134
13684  YDUQ3.SA 2025-09-30      0.027915
13685  YDUQ3.SA 2025-10-31      0.025774


In [10]:
logger.info("Iniciando Passo 3: Agrega√ß√£o de Sentimento...")

# Carregar seu arquivo de not√≠cias com sentimento
# (Vou usar o nome do seu screenshot)
df_sent_raw = pd.read_parquet("data/news/news_with_sentiment.parquet")

# 1. Renomear colunas para padroniza√ß√£o
df_sent_raw = df_sent_raw.rename(columns={
    'ticker_query': 'ticker',
    'published_date': 'date'
})
df_sent_raw['date'] = pd.to_datetime(df_sent_raw['date'], utc=True)
df_sent_raw['date'] = df_sent_raw['date'].dt.tz_localize(None) # Remover timezone para o merge

# 2. Garantir que o ticker tem o sufixo .SA (se necess√°rio)
# Se seu ticker_query for "PETR4", esta linha ajusta para "PETR4.SA"
if not df_sent_raw['ticker'].str.contains('.SA').any():
    df_sent_raw['ticker'] = df_sent_raw['ticker'].apply(lambda x: f"{x}.SA" if not x.endswith(".SA") else x)

# 3. Agregar por ticker e M√™s
df_sent_mensal = df_sent_raw.set_index('date').groupby('ticker').resample('M').agg(
    SENTIMENT_MEDIO=('numeric_sentiment', 'mean'), # Coluna que voc√™ mencionou
    SENTIMENT_STD=('numeric_sentiment', 'std'),
    NEWS_COUNT=('ticker', 'count')
).reset_index()

logger.info(f"‚úÖ Sentimento mensal agregado. {len(df_sent_mensal)} registros.")
print(df_sent_mensal.tail())

    ticker       date  SENTIMENT_MEDIO  SENTIMENT_STD  NEWS_COUNT
183  VIVT3 2025-09-30         0.333333       0.577350           3
184  VIVT3 2025-10-31         0.000000       0.000000          19
185  WEGE3 2025-09-30         0.085714       0.373491          35
186  WEGE3 2025-10-31         0.127660       0.396562          47
187  YDUQ3 2025-09-30         0.142857       0.377964           7


In [23]:
import pandas as pd
import numpy as np
import logging
import os

# (Execute os Passos 2 e 3 acima para ter 'df_vol_mensal' e 'df_sent_mensal')

logger.info("Iniciando Passo 4: Unifica√ß√£o do DataFrame Mestre...")

# --- 1. Carregar a Base de Pre√ßos Mensal ---
# Vamos usar o df_close_wide que voc√™ j√° criou e "des-pivotar" (melt)
try:
    df_close_wide = pd.read_parquet("data/historical/prices_close_wide.parquet")
    df_base_mensal = df_close_wide.melt(ignore_index=False, var_name='ticker', value_name='Adj Close').reset_index()
    df_base_mensal = df_base_mensal.rename(columns={'index': 'date'})
    logger.info(f"Base de pre√ßos mensal carregada: {len(df_base_mensal)} registros (tickers * meses)")
except FileNotFoundError:
    logger.error("Execute o script de Pivot (Script 2) primeiro!")
    raise

# --- 2. Carregar Fundamentos (Trimestrais) ---
df_fund = pd.read_parquet("data/aurum_scores_output/aurum_quality_scores_complete.parquet")
df_fund = df_fund.rename(columns={'DT_FIM_EXERC': 'date'})
df_fund['date'] = pd.to_datetime(df_fund['date'])

# --- 3. Carregar o Mapeamento (DE-PARA) ---
try:
    df_mapping = pd.read_csv("ticker_cnpj_map.csv") # O arquivo que voc√™ criou no Passo 1
    # Limpar CNPJs (remover pontua√ß√£o) se necess√°rio
    # df_mapping['CNPJ_CIA'] = df_mapping['CNPJ_CIA'].str.replace(r'[^\d]', '', regex=True)
except FileNotFoundError:
    logger.error("Arquivo 'ticker_cnpj_map.csv' n√£o encontrado! Crie-o antes de continuar.")
    raise

# Juntar o ticker aos dados de fundamento
df_fund_com_ticker = pd.merge(df_fund, df_mapping, on='CNPJ_CIA', how='left')
df_fund_com_ticker = df_fund_com_ticker.dropna(subset=['ticker'])
logger.info("Fundamentos mapeados para tickers.")

# --- 4. Construir o DataFrame Mestre ---
# Ordenar tudo por data √© crucial para o merge_asof
df_master = df_base_mensal.sort_values(by='date')
df_fund_com_ticker = df_fund_com_ticker.sort_values(by='date')

# 4a. Juntar Fundamentos (Trimestrais)
# "Para cada m√™s na minha base, pegue o √∫ltimo balan√ßo dispon√≠vel"
df_master = pd.merge_asof(
    df_master,
    df_fund_com_ticker,
    on='date',
    by='ticker',
    direction='backward' # 'backward' = olhar para tr√°s
)
logger.info("Merge 'as-of' dos fundamentos conclu√≠do.")

# 4b. Juntar Volatilidade (Mensal)
df_master = pd.merge(
    df_master,
    df_vol_mensal,
    on=['date', 'ticker'],
    how='left'
)
logger.info("Merge da volatilidade conclu√≠do.")

# 4c. Juntar Sentimento (Mensal)
df_master = pd.merge(
    df_master,
    df_sent_mensal,
    on=['date', 'ticker'],
    how='left'
)
logger.info("Merge do sentimento conclu√≠do.")

# --- 5. Limpeza Final ---
# Preencher NaNs de sentimento (meses sem not√≠cias) com Neutro (0)
df_master['SENTIMENT_MEDIO'] = df_master['SENTIMENT_MEDIO'].fillna(0)

# **MUITO IMPORTANTE**: Remover linhas onde os fundamentos ainda n√£o existiam
# (ex: antes do IPO da a√ß√£o ou antes dos dados de 2011)
# Se 'ROE' √© nulo, significa que o merge_asof n√£o encontrou fundamentos para aquele m√™s.
df_master = df_master.dropna(subset=['ROE', 'ROIC']) # Use as colunas chave do seu score

logger.info(f"Limpeza final conclu√≠da. DataFrame Mestre pronto com {len(df_master)} linhas.")

# --- 6. Salvar o Novo DataFrame Mestre ---
output_path = "data/aurum_master_features.parquet"
df_master.to_parquet(output_path, index=False)
logger.info(f"‚úÖ‚úÖ‚úÖ DataFrame Mestre salvo em: {output_path} ‚úÖ‚úÖ‚úÖ")
print(df_master.info())

FileNotFoundError: [Errno 2] No such file or directory: 'data/aurum_scores_output/aurum_quality_scores_complete.parquet'

In [7]:
import pandas as pd
import numpy as np
import logging
import os # Garante que 'os' est√° importado

# Configura√ß√£o de logging
logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')
logger = logging.getLogger(__name__)

# 1. Carregar os dados de pre√ßo limpos
try:
    df_prices_clean = pd.read_parquet("data/historical/all_histories_cleaned.parquet")
    logger.info("Dados limpos 'all_histories_cleaned.parquet' carregados.")
except FileNotFoundError:
    logger.error("Arquivo limpo n√£o encontrado. Execute o Script 1 (Limpeza) primeiro.")
    # Parar a execu√ß√£o se o arquivo n√£o existir
    raise

df_prices_clean['date'] = pd.to_datetime(df_prices_clean['date'])

# 2. Criar a base de pre√ßos mensais
# 2a. Fechamento (Usamos .last() no fim do m√™s 'M')
df_prices_mensal_raw = df_prices_clean.set_index('date').groupby('ticker').resample('M').last()

# 2b. Abertura (Usamos .first() no in√≠cio do m√™s 'MS')
df_open_mensal_raw = df_prices_clean.set_index('date').groupby('ticker').resample('MS').first()


# 3. Pivotar para o formato "wide"

# <<< A CORRE√á√ÉO EST√Å AQUI >>>
# O .last() e .first() mantiveram a coluna 'ticker' original,
# mas 'ticker' tamb√©m est√° no MultiIndex. Isso causa um conflito.
# Vamos dropar a coluna 'ticker' redundante ANTES de resetar o √≠ndice.
# 'errors="ignore"' evita erro caso a coluna n√£o exista.

df_prices_mensal_long = df_prices_mensal_raw.drop(columns='ticker', errors='ignore').reset_index()
df_open_mensal_long = df_open_mensal_raw.drop(columns='ticker', errors='ignore').reset_index()


# Agora o .pivot() funcionar√°
logger.info("Pivotando dados de Fechamento...")
df_close_wide = df_prices_mensal_long.pivot(index='date', columns='ticker', values='Adj Close')

logger.info("Pivotando dados de Abertura...")
df_open_wide = df_open_mensal_long.pivot(index='date', columns='ticker', values='Open')


# 4. Sincronizar os √≠ndices de data (MUITO IMPORTANTE)
# Garante que ambos os DataFrames (open e close) cubram o mesmo per√≠odo
logger.info("Sincronizando √≠ndices de data...")
idx_union = df_close_wide.index.union(df_open_wide.index)

# .reindex() com 'ffill' (forward-fill) preenche o pre√ßo de fechamento
# nos dias de in√≠cio de m√™s (MS) que n√£o existiam no df_close_wide (M)
df_close_wide = df_close_wide.reindex(idx_union, method='ffill')
df_open_wide = df_open_wide.reindex(idx_union, method='ffill')

# Preenche os NaNs iniciais (antes do IPO) que podem ter sido reintroduzidos
# E tamb√©m os finais, caso uma a√ß√£o seja deslistada (usa bfill)
df_close_wide = df_close_wide.ffill().bfill()
df_open_wide = df_open_wide.ffill().bfill()

logger.info("‚úÖ DataFrames de Pre√ßo (Wide) prontos para o backtest.")

print("\nDataFrame de Fechamento (Wide) - Amostra:")
print(df_close_wide.tail())

print("\nDataFrame de Abertura (Wide) - Amostra:")
print(df_open_wide.tail())

# --- 5. SALVAR OS ARQUIVOS WIDE ---
# Salvar os dataframes pivotados para uso f√°cil no pr√≥ximo script
output_dir = "data/historical"
os.makedirs(output_dir, exist_ok=True) # Garante que o diret√≥rio existe

df_close_wide.to_parquet(os.path.join(output_dir, "prices_close_wide.parquet"))
df_open_wide.to_parquet(os.path.join(output_dir, "prices_open_wide.parquet"))

logger.info(f"üíæ DataFrames de pre√ßo pivotados salvos em {output_dir}")

  df_prices_mensal_raw = df_prices_clean.set_index('date').groupby('ticker').resample('M').last()
  df_prices_mensal_raw = df_prices_clean.set_index('date').groupby('ticker').resample('M').last()



DataFrame de Fechamento (Wide) - Amostra:
ticker      ABEV3.SA   ALOS3.SA  ANIM3.SA  ASAI3.SA  AURE3.SA   AZZA3.SA  \
date                                                                       
2025-08-31     12.35  23.764782      3.37     10.52     10.86  34.709999   
2025-09-01     12.35  23.764782      3.37     10.52     10.86  34.709999   
2025-09-30     12.09  25.721401      3.43      9.51     10.27  30.150000   
2025-10-01     12.09  25.721401      3.43      9.51     10.27  30.150000   
2025-10-31     12.12  24.480000      3.22      8.15     11.70  27.540001   

ticker       BBAS3.SA   BBDC3.SA   BBDC4.SA   BBSE3.SA  ...   TOTS3.SA  \
date                                                    ...              
2025-08-31  21.389999  14.151272  16.512844  32.820000  ...  42.957096   
2025-09-01  21.389999  14.151272  16.512844  32.820000  ...  42.957096   
2025-09-30  22.090000  15.212403  17.670698  33.259998  ...  45.930000   
2025-10-01  22.090000  15.212403  17.670698  33.259998

  df_open_mensal_raw = df_prices_clean.set_index('date').groupby('ticker').resample('MS').first()


### üìä Documenta√ß√£o dos DataFrames da CVM (DFP / ITR)

Este documento descreve os **DataFrames gerados a partir dos arquivos p√∫blicos da CVM** ‚Äî especificamente, os conjuntos **BPP**, **BPA** e **DRE**, extra√≠dos dos demonstrativos financeiros enviados pelas companhias abertas brasileiras.

Cada DataFrame representa **uma parte diferente das demonstra√ß√µes cont√°beis** disponibilizadas pela CVM (Comiss√£o de Valores Mobili√°rios), e √© resultado do processamento dos arquivos `.csv` baixados e descompactados pelo script `cvm_downloader_clean.py`.

---

#### üß± Estrutura e Fun√ß√£o de Cada DataFrame

### **1. `raw_bpp` ‚Äî Balan√ßo Patrimonial Passivo**
O DataFrame `raw_bpp` cont√©m as contas e valores que comp√µem o **lado do passivo** no balan√ßo patrimonial das companhias abertas.  
Ele representa as **obriga√ß√µes, patrim√¥nio l√≠quido e contas de financiamento** de curto e longo prazo.

**Fun√ß√£o:** permite analisar a **estrutura de capital e endividamento** das empresas.

---

#### **2. `raw_bpa` ‚Äî Balan√ßo Patrimonial Ativo**
O DataFrame `raw_bpa` cont√©m as contas e valores que comp√µem o **lado do ativo** do balan√ßo patrimonial.  
Inclui **ativos circulantes e n√£o circulantes**, como caixa, contas a receber, estoques e imobilizado.

**Fun√ß√£o:** permite estudar a **composi√ß√£o dos ativos e a liquidez** das companhias.

---

#### **3. `raw_dre` ‚Äî Demonstra√ß√£o do Resultado do Exerc√≠cio**
O DataFrame `raw_dre` representa a **Demonstra√ß√£o do Resultado do Exerc√≠cio**, mostrando as receitas, custos, despesas e o lucro ou preju√≠zo de um per√≠odo.

**Fun√ß√£o:** possibilita a **an√°lise de desempenho e rentabilidade** da empresa.

---

### üßæ Dicion√°rio de Colunas (comum aos tr√™s DataFrames)

| Coluna | Tipo | Descri√ß√£o |
|:-------|:-----|:-----------|
| **CNPJ_CIA** | string | CNPJ da companhia aberta que enviou o demonstrativo. Identificador √∫nico da empresa. |
| **DT_REFER** | date | Data de refer√™ncia do relat√≥rio entregue √† CVM (geralmente o √∫ltimo dia do per√≠odo reportado). |
| **VERSAO** | int | Vers√£o do documento entregue √† CVM (1 = primeira entrega, >1 = reenvio/corre√ß√£o). |
| **DENOM_CIA** | string | Nome completo da companhia conforme cadastro na CVM. |
| **CD_CVM** | string/int | C√≥digo num√©rico da companhia na base da CVM (identificador √∫nico). |
| **GRUPO_DFP** | string | Indica o grupo de demonstrativo (ex.: DFP = Demonstra√ß√µes Financeiras Padronizadas). |
| **MOEDA** | string | Moeda de apresenta√ß√£o dos valores (ex.: 'REAL', 'USD'). |
| **ESCALA_MOEDA** | string | Escala dos valores informados (ex.: 'UNIDADE', 'MIL', 'MILH√ÉO'). |
| **ORDEM_EXERC** | string | Indica se o exerc√≠cio √© '√öLTIMO' (ano mais recente) ou 'PEN√öLTIMO' (ano anterior). |
| **DT_FIM_EXERC** | date | Data de encerramento do exerc√≠cio financeiro (geralmente 31/12/AAAA). |
| **CD_CONTA** | string | C√≥digo padronizado da conta cont√°bil conforme o plano da CVM. |
| **DS_CONTA** | string | Descri√ß√£o textual da conta cont√°bil (ex.: ‚ÄúAtivo Circulante‚Äù, ‚ÄúLucro L√≠quido do Exerc√≠cio‚Äù). |
| **VL_CONTA** | float | Valor num√©rico registrado na conta cont√°bil (em fun√ß√£o da escala da moeda). |
| **ST_CONTA_FIXA** | string | Indicador se a conta √© fixa (‚ÄòS‚Äô) ou vari√°vel (‚ÄòN‚Äô) no plano cont√°bil. |

---

### üß© Colunas espec√≠ficas por DataFrame

#### üîπ `raw_bpp` (Passivo)
Mesmas colunas da estrutura comum.  
O foco est√° nas contas de **passivos** e **patrim√¥nio l√≠quido**, como:
- Fornecedores  
- Empr√©stimos e financiamentos  
- Obriga√ß√µes fiscais  
- Capital social  
- Lucros acumulados  

---

#### üîπ `raw_bpa` (Ativo)
Mesmas colunas da estrutura comum.  
O foco est√° nas contas de **ativos**, como:
- Caixa e equivalentes  
- Contas a receber  
- Estoques  
- Imobilizado  
- Investimentos  

---

#### üîπ `raw_dre` (Resultado)
Inclui **duas datas adicionais**:

| Coluna | Tipo | Descri√ß√£o |
|:-------|:-----|:-----------|
| **DT_INI_EXERC** | date | Data de in√≠cio do exerc√≠cio (geralmente 01/01/AAAA). |
| **DT_FIM_EXERC** | date | Data de t√©rmino do exerc√≠cio (geralmente 31/12/AAAA). |

Essas datas definem o **per√≠odo de apura√ß√£o** do resultado.

Principais contas encontradas:
- Receita l√≠quida de vendas  
- Custo dos produtos vendidos  
- Despesas operacionais  
- Resultado financeiro  
- Lucro (ou preju√≠zo) do exerc√≠cio  

---

### üì¶ Rela√ß√£o entre os DataFrames

| DataFrame | Tipo de Demonstra√ß√£o | Rela√ß√£o com outros |
|:-----------|:--------------------|:-------------------|
| **raw_bpa** | Ativo (Balan√ßo Patrimonial) | Relaciona-se com `raw_bpp` (mesmo per√≠odo e CNPJ_CIA) |
| **raw_bpp** | Passivo (Balan√ßo Patrimonial) | Complementa o `raw_bpa` para totalizar o balan√ßo |
| **raw_dre** | Resultado (DRE) | Demonstra o desempenho que afeta o patrim√¥nio l√≠quido do `raw_bpp` |


### üìà Uso t√≠pico no pipeline

1. **Download e extra√ß√£o** via `cvm_downloader_clean.py` ‚Üí gera os CSVs.
2. **Leitura** dos arquivos CSV em pandas ‚Üí cria `raw_bpp`, `raw_bpa`, `raw_dre`.
3. **Limpeza e padroniza√ß√£o** ‚Üí converte tipos, remove duplicatas, ajusta nomes.
4. **Enriquecimento e an√°lise** ‚Üí c√°lculo de indicadores como liquidez, endividamento, rentabilidade.


**Refer√™ncia oficial:**  
üìö [Portal de Dados Abertos CVM ‚Äì Documentos DFP/ITR](https://dados.cvm.gov.br/dados/CIA_ABERTA/DOC/)




---

### **üì¶ cvm_downloader** ‚Äî Download & Unzip autom√°tico (CVM: DFP / ITR)

**1. Descri√ß√£o curta**  
Script robusto para baixar (streaming com progress bar) e descompactar os arquivos p√∫blicos da CVM (`DFP` e `ITR`) por ano. Inclui retries, backoff, grava√ß√£o segura (.part ‚Üí rename) e verifica√ß√£o para pular arquivos j√° existentes. Tem suporte a execu√ß√£o sequencial ou com --workers (thread pool).

**2. Principais responsabilidades**
- Construir URLs padr√£o: **https://dados.cvm.gov.br/dados/CIA_ABERTA/DOC/{doc_type}/DADOS/{doc_type}_cia_aberta_{year}.zip**
- Baixar zips com **requests.Session** + retries
- Exibir barra de progresso (**tqdm**)
- Descompactar zips (**zipfile.ZipFile**)
- Pular arquivos j√° baixados / extra√≠dos
- Opcional: paralelizar downloads via **ThreadPoolExecutor**

**3. Entradas / Par√¢metros**
- --doc-types (ex.: DFP,ITR)
- --start-year / --end-year (ex.: 2011 / 2025)
- --workers (n¬∫ threads; default 1)

**4. Sa√≠das**
- data/cvm/zip/{DOC}_cia_aberta_{YEAR}.zip
- data/cvm/unzipped/{DOC}_{YEAR}/... (conte√∫do extra√≠do)
- Retorna resumo (ok / skipped / failed) e c√≥digo de sa√≠da CLI

---


In [None]:
# --- Configura√ß√£o ---
# Onde os dados ser√£o salvos
BASE_DIR = os.path.join("data", "cvm")
ZIP_DIR = os.path.join(BASE_DIR, "zip")
UNZIPPED_DIR = os.path.join(BASE_DIR, "unzipped")

# Cria as pastas se n√£o existirem
os.makedirs(ZIP_DIR, exist_ok=True)
os.makedirs(UNZIPPED_DIR, exist_ok=True)

# URL base para os arquivos da CVM
URL_BASE = "https://dados.cvm.gov.br/dados/CIA_ABERTA/DOC/{doc_type}/DADOS/"

# Tipos de documentos que queremos
# DFP -> Anual, ITR -> Trimestral
DOC_TYPES = ['DFP', 'ITR']

YEARS = range(2011, 2026) 

def download_and_unzip(url, zip_path, unzipped_path):
    """Baixa e descompacta um arquivo ZIP se ele n√£o existir localmente."""
    if os.path.exists(zip_path):
        print(f"Arquivo j√° existe, pulando download: {os.path.basename(zip_path)}")
    else:
        print(f"Baixando: {os.path.basename(zip_path)}")
        try:
            response = requests.get(url, stream=True)
            response.raise_for_status() # Lan√ßa erro se a requisi√ß√£o falhar
            
            total_size = int(response.headers.get('content-length', 0))
            
            with open(zip_path, 'wb') as f, tqdm(
                desc=os.path.basename(zip_path),
                total=total_size,
                unit='iB',
                unit_scale=True,
                unit_divisor=1024,
            ) as bar:
                for data in response.iter_content(chunk_size=1024):
                    size = f.write(data)
                    bar.update(size)
            print("Download completo.")
        except requests.exceptions.RequestException as e:
            print(f"Erro no download de {url}: {e}")
            return # Sai da fun√ß√£o se o download falhar

    print(f"Descompactando: {os.path.basename(zip_path)}")
    try:
        with ZipFile(zip_path, 'r') as zip_ref:
            zip_ref.extractall(unzipped_path)
        print("Descompactado com sucesso.")
    except Exception as e:
        print(f"Erro ao descompactar {zip_path}: {e}")

if __name__ == "__main__":
    for doc_type in DOC_TYPES:
        for year in YEARS:
            filename = f"{doc_type}_cia_aberta_{year}.zip"
            url = URL_BASE.format(doc_type=doc_type) + filename
            
            zip_path = os.path.join(ZIP_DIR, filename)
            unzipped_path = os.path.join(UNZIPPED_DIR, f"{doc_type}_{year}")
            
            download_and_unzip(url, zip_path, unzipped_path)
            print("-" * 50)
            
    print("\nProcesso de download e extra√ß√£o conclu√≠do!")


---
### üß© cvm_parser ‚Äî Parser / Busca consolidada (_con_ files) e prepara√ß√£o

**1. Descri√ß√£o curta**  
Pipeline para localizar arquivos CSV consolidados _con_*.csv extra√≠dos da CVM, aplicar filtros (√öLTIMO/PEN√öLTIMO, escala MIL/UNIDADE), normalizar VL_CONTA, diagnosticar CNPJ(s) de interesse (ex.: Sanepar), concatenar, deduplicar e salvar resultado processado.

**2. Principais responsabilidades**
- Encontrar arquivos consolidados recursivamente (`UNZIPPED_DIR/**/*_con_*.csv`)
- Ler CSVs com pd.read_csv(..., encoding='latin-1', sep=';')
- Filtrar por ORDEM_EXERC (`√öLTIMO` / `PEN√öLTIMO`) e ESCALA_MOEDA (`MIL` / `UNIDADE`)
- Converter VL_CONTA para num√©rico e aplicar ajuste (multiplica por 1000 quando `ESCALA_MOEDA == 'MIL'`)
- Diagn√≥stico: detectar CNPJ_SAPR e imprimir valores de `ORDEM_EXERC` / `ESCALA_MOEDA`
- Concatenar chunks, ordenar por CNPJ_CIA, DT_FIM_EXERC, VERSAO
- Drop duplicates por ['CNPJ_CIA','DT_FIM_EXERC','CD_CONTA']
- Salvar processed/raw_{doc}.parquet e processed/raw_{doc}.csv

**3. Entradas**
- data/cvm/unzipped/... (arquivos _con_*.csv)

**4. Sa√≠das**
- data/cvm/processed/raw_{dre|bpa|bpp}.parquet
- data/cvm/processed/raw_{dre|bpa|bpp}.csv

---

In [None]:
# -----------------------
# Configura√ß√£o (edite aqui)
# -----------------------
BASE_DIR = Path("data") / "cvm"
UNZIPPED_DIR = BASE_DIR / "unzipped"
PROCESSED_DIR = BASE_DIR / "processed"
PROCESSED_DIR.mkdir(parents=True, exist_ok=True)

DOC_PATTERNS_BROAD = {
    "dre": "*_DRE_con_*.csv",
    "bpa": "*_BPA_con_*.csv",
    "bpp": "*_BPP_con_*.csv",
}

CNPJ_SAPR = "76.484.013/0001-45"
CNPJs_DEBUG = [CNPJ_SAPR, "33.839.910/0001-11"]  # VIVA3

CATEGORY_COLS = [
    "CNPJ_CIA", "DENOM_CIA", "GRUPO_DFP", "MOEDA",
    "ESCALA_MOEDA", "ORDEM_EXERC", "CD_CONTA",
    "DS_CONTA", "ST_CONTA_FIXA"
]

# -----------------------
# Logging
# -----------------------
logging.basicConfig(level=logging.INFO, format="%(asctime)s %(levelname)s %(message)s")
logger = logging.getLogger("cvm_parser")

# -----------------------
# Helpers
# -----------------------
def find_consolidated_files(unzipped_dir: Path, pattern: str) -> List[Path]:
    """Retorna lista de arquivos que batem com o padr√£o (recursivo)."""
    return list(unzipped_dir.rglob(pattern))


def _ensure_category(df: pd.DataFrame, col: str) -> None:
    """Converte coluna para category quando apropriado (silencioso)."""
    try:
        if col in df.columns and not pd.api.types.is_categorical_dtype(df[col]):
            df[col] = df[col].astype("category")
    except Exception:
        # n√£o quebrar a execu√ß√£o por problemas de convers√£o
        pass


def _read_csv_safe(path: Path) -> Optional[pd.DataFrame]:
    """L√™ um CSV com par√¢metros padr√£o usados no pipeline; captura exce√ß√µes e retorna None se falhar."""
    try:
        df = pd.read_csv(path, encoding="latin-1", sep=";", low_memory=False, dtype={"CNPJ_CIA": str})
        return df
    except Exception as exc:
        logger.warning("Falha lendo %s: %s", path, exc)
        return None


def _process_df_chunk(df: pd.DataFrame) -> Optional[pd.DataFrame]:
    """
    Aplicar filtros e tratamentos ao chunk (j√° lido).
    Retorna DataFrame filtrado pronto para concatenar ou None se vazio.
    """
    # garantir colunas chave
    if "DT_FIM_EXERC" not in df.columns:
        return None

    # normalizar e otimizar
    for col in CATEGORY_COLS:
        if col in df.columns:
            _ensure_category(df, col)

    # converter data e remover linhas sem data v√°lida
    df["DT_FIM_EXERC"] = pd.to_datetime(df["DT_FIM_EXERC"], errors="coerce")
    df = df.dropna(subset=["DT_FIM_EXERC"])
    if df.empty:
        return None

    # aplicar filtro ORDEM_EXERC & ESCALA_MOEDA quando existirem
    if "ORDEM_EXERC" in df.columns and "ESCALA_MOEDA" in df.columns:
        mask = (
            df["ORDEM_EXERC"].isin(["√öLTIMO", "PEN√öLTIMO"]) &
            df["ESCALA_MOEDA"].isin(["MIL", "UNIDADE"])
        )
        df = df.loc[mask].copy()

    if df.empty:
        return None

    # garantir VL_CONTA num√©rico; remover nulos
    if "VL_CONTA" in df.columns:
        df["VL_CONTA"] = pd.to_numeric(df["VL_CONTA"], errors="coerce")
        df = df.dropna(subset=["VL_CONTA"])
    else:
        return None

    # ajustar escala MIL ‚Üí multiplicar por 1000
    if "ESCALA_MOEDA" in df.columns:
        if pd.api.types.is_categorical_dtype(df["ESCALA_MOEDA"]):
            cats = df["ESCALA_MOEDA"].cat.categories
            is_mil = df["ESCALA_MOEDA"].cat.codes == int(np.where(cats == "MIL")[0][0]) if "MIL" in cats else False
        else:
            is_mil = df["ESCALA_MOEDA"].astype(str) == "MIL"
        # aplicar ajuste com np.where (vetorizado)
        df["VL_CONTA"] = np.where(is_mil, df["VL_CONTA"] * 1000.0, df["VL_CONTA"])

    return df


# -----------------------
# Pipeline principal
# -----------------------
def parse_and_consolidate_final(
    doc_name: str,
    broad_pattern: str,
    unzipped_dir: Path = UNZIPPED_DIR,
    processed_dir: Path = PROCESSED_DIR,
) -> Dict[str, object]:
    """
    Encontra arquivos consolidados (_con_), processa, concatena, deduplica e salva parquet/csv.
    Retorna dicion√°rio com estat√≠sticas do processamento.
    """
    logger.info("Iniciando processamento CONSOLIDADO para: %s (padr√£o: %s)", doc_name.upper(), broad_pattern)
    files = find_consolidated_files(unzipped_dir, broad_pattern)
    if not files:
        logger.info("Nenhum arquivo encontrado para o padr√£o: %s", broad_pattern)
        return {"status": "no_files", "files_count": 0}

    df_chunks = []
    total_rows_read = 0
    total_rows_after_filter = 0
    sapr_found = False

    for path in tqdm(files, desc=f"Processando {doc_name.upper()}"):
        df = _read_csv_safe(path)
        if df is None:
            continue

        total_rows_read += len(df)

        # diagnostico SAPR (apenas relat√≥rio, sem interromper)
        if "CNPJ_CIA" in df.columns:
            df["CNPJ_CIA"] = df["CNPJ_CIA"].astype(str).str.strip()
            df_sapr = df[df["CNPJ_CIA"] == CNPJ_SAPR]
            if not df_sapr.empty and not sapr_found:
                sapr_found = True
                logger.info("[DIAGN√ìSTICO SAPR11] Encontrado em: %s", path.name)
                if "ORDEM_EXERC" in df_sapr.columns:
                    logger.info("  ORDEM_EXERC values: %s", df_sapr["ORDEM_EXERC"].unique())
                if "ESCALA_MOEDA" in df_sapr.columns:
                    logger.info("  ESCALA_MOEDA values: %s", df_sapr["ESCALA_MOEDA"].unique())

        # processa e filtra o chunk
        try:
            processed = _process_df_chunk(df)
            if processed is not None and not processed.empty:
                total_rows_after_filter += len(processed)
                df_chunks.append(processed)
        except Exception as exc:
            logger.warning("Erro processando arquivo %s: %s", path, exc)
        finally:
            # liberar mem√≥ria
            del df
            gc.collect()

    logger.info("Totais: linhas lidas=%d, linhas ap√≥s filtros=%d", total_rows_read, total_rows_after_filter)
    if not sapr_found:
        logger.warning("[DIAGN√ìSTICO SAPR11] CNPJ Sanepar (%s) N√ÉO encontrado na busca consolidada.", CNPJ_SAPR)

    if not df_chunks:
        logger.info("Nenhum chunk com dados v√°lidos ap√≥s filtros. Abortando concatena√ß√£o.")
        return {"status": "no_data_after_filter", "files_count": len(files)}

    # concat + sort + dedupe
    logger.info("Concatenando %d chunks...", len(df_chunks))
    consolidated_df = pd.concat(df_chunks, ignore_index=True)
    consolidated_df.sort_values(by=["CNPJ_CIA", "DT_FIM_EXERC", "VERSAO"], ascending=[True, True, False], inplace=True)

    dedup_subset = ["CNPJ_CIA", "DT_FIM_EXERC", "CD_CONTA"]
    final_df = consolidated_df.drop_duplicates(subset=dedup_subset, keep="first").copy()

    # diagn√≥stico r√°pido para CNPJs de debug
    if "CNPJ_CIA" in final_df.columns:
        debug_mask = final_df["CNPJ_CIA"].astype(str).isin([str(x) for x in CNPJs_DEBUG])
        debug_data = final_df.loc[debug_mask]
        if not debug_data.empty:
            grouped = debug_data.groupby(["CNPJ_CIA", "DT_FIM_EXERC"]).size().reset_index(name="contagem_contas")
            logger.info("Dados SAPR11/VIVA3 no DF final:\n%s", grouped.head(20).to_string(index=False))
        else:
            logger.info("Nenhum dado SAPR11/VIVA3 no DF final.")

    # salvar resultados
    out_parquet = processed_dir / f"raw_{doc_name}.parquet"
    out_csv = processed_dir / f"raw_{doc_name}.csv"

    try:
        logger.info("Salvando Parquet: %s", out_parquet)
        final_df.to_parquet(out_parquet, index=False)
        logger.info("Salvando CSV: %s", out_csv)
        final_df.to_csv(out_csv, index=False, sep=";", encoding="utf-8-sig")
        logger.info("Shape final salvo: %s", final_df.shape)
    except Exception as exc:
        logger.exception("Falha ao salvar arquivos: %s", exc)
        return {"status": "save_error", "error": str(exc)}

    # limpeza final
    del df_chunks, consolidated_df, final_df
    gc.collect()

    return {
        "status": "ok",
        "files_count": len(files),
        "rows_read": total_rows_read,
        "rows_after_filter": total_rows_after_filter,
        "saved_parquet": str(out_parquet),
        "saved_csv": str(out_csv),
    }


if __name__ == "__main__":
    results = {}
    for name, pattern in DOC_PATTERNS_BROAD.items():
        results[name] = parse_and_consolidate_final(name, pattern)
        gc.collect()

    logger.info("Processo de parsing (v9.0 - Busca Consolidada) conclu√≠do!")
    logger.info("Consulte logs acima para mensagens '---> [DIAGN√ìSTICO SAPR11 v9.0]'.")
    logger.info("Resumo por documento: %s", results)



---
### **üîß cv_processor ‚Äî** Transforma√ß√£o para formato WIDE (fundamentals_wide)

**1. Descri√ß√£o curta**  
Transforma os arquivos processados (`processed/raw_dre.parquet`, `raw_bpa.parquet`, `raw_bpp.parquet`) em tabelas *wide* prontos para an√°lise fundamentalista. Mapeia c√≥digos de conta para nomes leg√≠veis (plano de contas), filtra pelo √öLTIMO exerc√≠cio, pivota (long ‚Üí wide) e faz o merge final entre DRE, BPA e BPP.

**2. Principais responsabilidades**
- Ler `processed/raw_{doc}.parquet` para cada doc type (dre, bpa, bpp)
- Filtrar linhas por CD_CONTA usando`MAPA_CONTAS_*
- Manter apenas ORDEM_EXERC == '√öLTIMO' quando dispon√≠vel
- Converter VL_CONTA para num√©rico e remover nulos
- Pivot (index: CNPJ_CIA, DENOM_CIA, DT_FIM_EXERC; columns: nome leg√≠vel da CONTA)
- Merge outer entre DRE / BPA / BPP em ['CNPJ_CIA','DENOM_CIA','DT_FIM_EXERC']
- Salvar data/cvm/final/fundamentals_wide.parquet (+ CSV ;)

**3. Entradas**
- data/cvm/processed/raw_dre.parquet
- data/cvm/processed/raw_bpa.parquet
- data/cvm/processed/raw_bpp.parquet

**4. Sa√≠das**
- data/cvm/final/fundamentals_wide.parquet
- data/cvm/final/fundamentals_wide.csv


In [26]:
import pandas as pd
import numpy as np
from pathlib import Path
import logging
from typing import Dict, List, Optional
import gc # Para garbage collection

# -----------------------
# Configura√ß√£o (ATUALIZADA)
# -----------------------
BASE_DIR = Path("data") / "cvm"
PROCESSED_DIR = BASE_DIR / "processed"
FINAL_DIR = BASE_DIR / "final"
FINAL_DIR.mkdir(parents=True, exist_ok=True)

# Mapa de contas PRINCIPAIS (agregadas)
MAPA_CONTAS_DRE_MAIN = {
    "3.01": "Receita L√≠quida",
    "3.02": "Custo dos Bens e/ou Servi√ßos Vendidos",
    "3.03": "Lucro Bruto",
    "3.05": "EBIT",
    "3.07": "EBT",
    "3.11": "Lucro L√≠quido Consolidado",
}

MAPA_CONTAS_BPA_MAIN = {
    "1": "Ativo Total",
    "1.01": "Ativo Circulante",
    "1.02": "Ativo N√£o Circulante",
}

MAPA_CONTAS_BPP_MAIN = {
    "2": "Passivo Total",
    "2.01": "Passivo Circulante",
    "2.02": "Passivo N√£o Circulante",
    "2.03": "Patrim√¥nio L√≠quido Consolidado",
}

# --- NOVO: Mapa de contas DETALHADAS (para colunas espec√≠ficas) ---
# Estes c√≥digos s√£o comuns, mas podem precisar de ajustes finos
# Verifique o plano de contas da CVM para mais detalhes se necess√°rio
MAPA_CONTAS_DETALHADAS_BPA = {
    "1.01.01": "Caixa e Equivalentes", # Caixa e Equivalentes de Caixa
}

MAPA_CONTAS_DETALHADAS_BPP = {
    "2.01.04": "D√≠vida Curto Prazo", # Empr√©stimos e Financiamentos CP
    "2.02.01": "D√≠vida Longo Prazo", # Empr√©stimos e Financiamentos LP
}
# --- FIM NOVO ---

# Estrutura unificada dos mapas
MAPA_CONTAS_GERAL = {
    "dre": {"main": MAPA_CONTAS_DRE_MAIN, "detailed": None}, # DRE n√£o tem detalhado por enquanto
    "bpa": {"main": MAPA_CONTAS_BPA_MAIN, "detailed": MAPA_CONTAS_DETALHADAS_BPA},
    "bpp": {"main": MAPA_CONTAS_BPP_MAIN, "detailed": MAPA_CONTAS_DETALHADAS_BPP},
}

# Colunas chave esperadas
INDEX_COLS = ["CNPJ_CIA", "DENOM_CIA", "DT_FIM_EXERC"]

# -----------------------
# Logging
# -----------------------
logging.basicConfig(level=logging.INFO, format="%(asctime)s %(levelname)s %(message)s")
logger = logging.getLogger("cvm_transform")

# -----------------------
# Fun√ß√µes utilit√°rias
# -----------------------
def _read_processed_parquet(path: Path) -> Optional[pd.DataFrame]:
    """L√™ um parquet com tratamento de erro."""
    try:
        df = pd.read_parquet(path)
        logger.info("Lido parquet: %s (shape=%s)", path.name, df.shape)
        return df
    except Exception as exc:
        logger.warning("Falha ao ler parquet %s: %s", path.name, exc)
        return None

# --- ATUALIZADO: Fun√ß√£o process_and_pivot_file ---
def process_and_pivot_file(
    doc_name: str,
    main_account_map: Dict[str, str],
    detailed_account_map: Optional[Dict[str, str]] = None, # Aceita mapa detalhado opcional
    processed_dir: Path = PROCESSED_DIR,
) -> Optional[pd.DataFrame]:
    """
    Carrega raw parquet, filtra contas (principais E detalhadas),
    mant√©m '√öLTIMO' exerc√≠cio e pivota para wide.
    """
    input_file = processed_dir / f"raw_{doc_name}.parquet"
    logger.info("Processando %s -> %s", doc_name.upper(), input_file.name)

    if not input_file.exists():
        logger.warning("Arquivo n√£o encontrado: %s. Pulando %s.", input_file.name, doc_name)
        return None

    df = _read_processed_parquet(input_file)
    if df is None or df.empty: return None

    # Validar colunas essenciais
    essential_cols = ["CD_CONTA", "VL_CONTA", "DT_FIM_EXERC", "ORDEM_EXERC"] + INDEX_COLS
    missing_essentials = [c for c in essential_cols if c not in df.columns]
    if missing_essentials:
        logger.error("Colunas essenciais ausentes em %s: %s. Pulando.", input_file.name, missing_essentials)
        return None

    # --- L√ìGICA ATUALIZADA: Combinar contas principais e detalhadas ---
    all_accounts_to_keep = list(main_account_map.keys())
    if detailed_account_map:
        all_accounts_to_keep.extend(list(detailed_account_map.keys()))
        logger.info(f"Contas detalhadas a serem extra√≠das: {list(detailed_account_map.keys())}")

    logger.info(f"Total de c√≥digos de conta a serem filtrados: {len(all_accounts_to_keep)}")
    df = df[df["CD_CONTA"].isin(all_accounts_to_keep)].copy()
    logger.info("Ap√≥s filtrar contas (principais + detalhadas): shape=%s", df.shape)
    if df.empty:
        logger.info("Nenhuma conta de interesse encontrada. Pulando.")
        return None
    # --- FIM L√ìGICA ATUALIZADA ---

    # Converter data e filtrar por ORDEM_EXERC == '√öLTIMO'
    df["DT_FIM_EXERC"] = pd.to_datetime(df["DT_FIM_EXERC"], errors="coerce")
    df = df.dropna(subset=["DT_FIM_EXERC"])
    df = df[df["ORDEM_EXERC"] == "√öLTIMO"].copy()
    logger.info("Ap√≥s filtrar ORDEM_EXERC == '√öLTIMO': shape=%s", df.shape)
    if df.empty:
        logger.info("Nenhuma linha '√öLTIMO' encontrada. Pulando.")
        return None

    # --- L√ìGICA ATUALIZADA: Mapear nome da conta (prioriza detalhado) ---
    # Primeiro tenta mapear com o mapa detalhado, depois com o principal
    map_detalhado = detailed_account_map if detailed_account_map else {}
    df["CONTA"] = df["CD_CONTA"].map(map_detalhado).fillna(df["CD_CONTA"].map(main_account_map))
    # Remove contas que n√£o foram mapeadas por nenhum dos mapas (se houver)
    df = df.dropna(subset=["CONTA"])
    logger.info("Contas mapeadas. Exemplo de nomes: %s", df["CONTA"].unique()[:5])
    if df.empty:
        logger.info("Nenhuma conta mapeada resultou em nome v√°lido. Pulando.")
        return None
    # --- FIM L√ìGICA ATUALIZADA ---

    # Garantir VL_CONTA num√©rico e remover ausentes
    df["VL_CONTA"] = pd.to_numeric(df["VL_CONTA"], errors="coerce")
    df = df.dropna(subset=["VL_CONTA"])
    if df.empty:
        logger.info("Sem valores num√©ricos para VL_CONTA. Pulando.")
        return None

    # Pivot (long -> wide)
    try:
        logger.info("Pivotando (long -> wide)...")
        # Usar fill_value=0 pode ser √∫til se algumas contas n√£o aparecem em todos os trimestres
        df_wide = df.pivot_table(
            index=INDEX_COLS,
            columns="CONTA", # Usar√° os nomes mapeados (incluindo os detalhados)
            values="VL_CONTA",
            aggfunc="sum",
            fill_value=0 # Preenche com 0 contas ausentes naquele per√≠odo/empresa
        )
        df_wide = df_wide.reset_index()
        df_wide.columns.name = None # Limpa o nome do √≠ndice das colunas
        logger.info("Pivot conclu√≠do: shape=%s", df_wide.shape)
        logger.info("Colunas geradas pelo pivot: %s", df_wide.columns.tolist())
    except Exception as exc:
        logger.exception("Erro ao pivotar %s: %s", input_file.name, exc)
        return None

    del df
    gc.collect()
    return df_wide

# -----------------------
# Fun√ß√£o para juntar todos os DF wide (dre,bpa,bpp) - SEM ALTERA√á√ÉO
# -----------------------
def merge_fundamentals(dfs_wide: Dict[str, pd.DataFrame]) -> Optional[pd.DataFrame]:
    """ Junta os DataFrames wide (DRE, BPA, BPP) """
    if not dfs_wide:
        logger.warning("Nenhum DataFrame wide fornecido para merge.")
        return None
    valid_dfs = {k: v for k, v in dfs_wide.items() if v is not None and not v.empty}
    if not valid_dfs:
        logger.warning("Nenhum DataFrame wide V√ÅLIDO fornecido para merge.")
        return None

    keys = list(valid_dfs.keys())
    base = valid_dfs[keys[0]].copy()
    logger.info("Usando %s como base para merge (shape=%s)", keys[0], base.shape)

    for k in keys[1:]:
        logger.info("Mesclando com %s (shape=%s)", k, valid_dfs[k].shape)
        # Verifica colunas duplicadas (exceto as de √≠ndice) antes do merge
        cols_to_merge = valid_dfs[k].columns.difference(base.columns).tolist() + INDEX_COLS
        base = pd.merge(base, valid_dfs[k][cols_to_merge], on=INDEX_COLS, how="outer")
        logger.info("Shape ap√≥s merge com %s: %s", k, base.shape)

    base = base.sort_values(by=["CNPJ_CIA", "DT_FIM_EXERC"]).reset_index(drop=True)
    logger.info("Merge finalizado: shape=%s", base.shape)
    logger.info("Colunas finais: %s", base.columns.tolist())
    return base


def save_final(df: pd.DataFrame, final_dir: Path = FINAL_DIR, fname: str = "fundamentals_wide.parquet") -> Dict[str, str]:
    """ Salva o DataFrame final em parquet e CSV """
    final_dir.mkdir(parents=True, exist_ok=True)
    out_parquet = final_dir / fname
    out_csv = final_dir / str(fname).replace(".parquet", ".csv")

    try:
        logger.info("Salvando parquet final em: %s", out_parquet)
        df.to_parquet(out_parquet, index=False)
        logger.info("Salvando CSV final em: %s", out_csv)
        df.to_csv(out_csv, index=False, sep=";", encoding="utf-8-sig")
        return {"parquet": str(out_parquet), "csv": str(out_csv)}
    except Exception as exc:
        logger.exception("Erro ao salvar arquivo final: %s", exc)
        raise

# -----------------------
# Execu√ß√£o principal (ATUALIZADA)
# -----------------------
if __name__ == "__main__":
    logger.info("Iniciando transforma√ß√£o para formato WIDE (com contas detalhadas)...")

    dfs_wide = {}
    # --- L√ìGICA ATUALIZADA: Iterar sobre a nova estrutura de mapas ---
    for doc_type, maps_dict in MAPA_CONTAS_GERAL.items():
        main_map = maps_dict.get("main")
        detailed_map = maps_dict.get("detailed") # Pode ser None

        if main_map: # S√≥ processa se houver um mapa principal
            logger.info("-" * 20)
            df_wide = process_and_pivot_file(doc_type, main_map, detailed_map) # Passa ambos os mapas
            if df_wide is not None and not df_wide.empty:
                dfs_wide[doc_type] = df_wide
            else:
                logger.warning("Processamento de %s n√£o gerou DataFrame v√°lido.", doc_type)
        else:
             logger.warning("Mapa principal n√£o definido para %s. Pulando.", doc_type)
    # --- FIM L√ìGICA ATUALIZADA ---

    if not dfs_wide:
        logger.error("Nenhum dataframe produzido. Encerrando sem salvar.")
    else:
        logger.info("-" * 20)
        logger.info("Iniciando merge dos DataFrames DRE, BPA, BPP...")
        final_df = merge_fundamentals(dfs_wide)
        if final_df is None or final_df.empty:
            logger.error("DataFrame final vazio ap√≥s merge. Encerrando.")
        else:
            save_paths = save_final(final_df)
            logger.info("-" * 20)
            logger.info("Processamento conclu√≠do com sucesso!")
            logger.info("Arquivos salvos: %s", save_paths)
            logger.info("Shape final mestre: %s", final_df.shape)
            logger.info("Colunas finais geradas: %s", final_df.columns.tolist())
            logger.info("Amostra do resultado final:\n%s",
                        final_df.head()[INDEX_COLS + list(final_df.columns.difference(INDEX_COLS))].to_string(index=False)) # Reordena colunas para amostra

### **Documenta√ß√£o:** Calculadora de Quality Score (AurumQualityScoreCalculator)

#### **1. Objetivo**

Este script √© um dos pilares centrais do **Pilar 1 (Qualidade Financeira)** do projeto Aurum. Sua responsabilidade √© transformar os dados fundamentalistas brutos (extra√≠dos da CVM e formatados no `fundamentals_wide.parquet`) em m√©tricas de performance acion√°veis.

O script executa um pipeline completo que:
1.  Carrega os dados brutos da CVM.
2.  Calcula os valores **TTM (Trailing Twelve Months / √öltimos 12 Meses)**, corrigindo a natureza "Acumulada no Ano" (YTD) dos dados da CVM.
3.  Calcula um conjunto abrangente de **ratios financeiros** (Rentabilidade, Margens, Alavancagem, etc.) usando os dados TTM.
4.  Calcula um **Aurum Quality Score** inicial, baseado em um *ranking percentile cross-sectional* (por data) desses ratios.
5.  Salva os resultados hist√≥ricos e os mais recentes.

#### **2. Configura√ß√£o (Input)**

O script depende de um √∫nico arquivo de entrada, que deve ser gerado pelo pipeline de processamento da CVM:

* **`ata/cvm/final/fundamentals_wide.parquet**: Um arquivo Parquet contendo os dados de Balan√ßo Patrimonial (BP) e Demonstra√ß√£o do Resultado (DRE) em formato "wide" (uma linha por empresa/data, m√∫ltiplas colunas de m√©tricas).
    * **Importante:** O script assume que os dados da DRE (ex: `Receita L√≠quida`, `Lucro Bruto`) est√£o no formato **YTD (Acumulado no Ano)**, que √© o padr√£o da CVM.

#### 3. Pipeline de Execu√ß√£o (Passo a Passo)

A classe **AurumQualityScoreCalculator** gerencia todo o fluxo de trabalho:

##### **Passo 1:** Carregar e Preparar Dados (`load_and_prepare_data`)

* Carrega o arquivo `fundamentals_wide.parquet`.
* Chama _clean_fundamentals_data para:
    * Converter DT_FIM_EXERC para datetime.
    * Remover quaisquer linhas duplicadas por CNPJ_CIA e DT_FIM_EXERC.
    * **Ordenar** os dados por CNPJ_CIA e DT_FIM_EXERC, o que √© **essencial** para o c√°lculo de TTM.

##### **Passo 2:** C√°lculo de TTM (`calculate_ttm_data`)

Este √© o passo mais cr√≠tico do script. Ele converte os dados de fluxo (DRE) de YTD para TTM.

* **L√≥gica:** O script agrupa por `CNPJ_CIA` e aplica a fun√ß√£o `rolling_sum_group`.
* **Desacumula√ß√£o (YTD -> Trimestral):** Para cada coluna de DRE, ele calcula o valor trimestral fazendo:
    quarterly = group[col] - group[col].shift(1).fillna(0)
* **Anualiza√ß√£o (Trimestral -> TTM):** Em seguida, ele calcula a soma m√≥vel dos √∫ltimos 4 valores trimestrais:
    group[f'{col}_ttm'] = quarterly.rolling(window=4, min_periods=4).sum()
* O resultado √© salvo em self.ratios_df, pronto para o c√°lculo dos ratios.

##### Passo 3: C√°lculo de Ratios Financeiros (`calculate_financial_ratios`)

* Usando o self.ratios_df (que agora cont√©m as colunas `_ttm`), este m√©todo calcula os principais indicadores financeiros.
* **Categorias:**
    * **Contas de D√≠vida: D√≠vida Bruta, D√≠vida L√≠quida, Capital Investido**.
    * **Rentabilidade (com TTM):** ROE, ROA, ROIC.
    * **Margens (com TTM):** MARGEM_EBIT, MARGEM_LIQUIDA, MARGEM_BRUTA.
    * **Alavancagem:** ALAVANCAGEM (Passivo/Ativo), DIVIDA_PL, DIVIDA_LIQ_EBIT.
    * **Liquidez:** LIQUIDEZ_CORRENTE.
    * **Efici√™ncia (com TTM):** GIRO_ATIVO.
* Usa safe_divide para evitar erros de divis√£o por zero.

##### Passo 3.1: Tratamento de Outliers (`_handle_ratio_outliers`)

* Ap√≥s o c√°lculo, os ratios s√£o limpos.
* Valores `infinitos` s√£o substitu√≠dos por `NaN`.
* Os dados s√£o "winsorizados": valores extremos s√£o "clipados" (limitados) aos **percentis 1% (inferior) e 99% (superior)**. Isso torna o scoring subsequente mais robusto.

##### Passo 4: C√°lculo do Score de Qualidade (`calculate_quality_scores`)

Este m√©todo implementa a **Metodologia de Ranking Cross-Sectional**.

* **Configura√ß√£o:** Define as m√©tricas, pesos e a dire√ß√£o (ex: `ROIC` -> maior √© melhor, `DIVIDA_LIQ_EBIT` -> menor √© melhor).
* **Ranking por Data:** O script agrupa os dados por `DT_FIM_EXERC` (`grouped_by_date`).
* Para cada m√©trica, ele calcula o **ranking percentile** de cada empresa *dentro daquele per√≠odo*:
    `scores_df[score_col] = grouped_by_date[metric].rank(pct=True) * 100`
* **Score Composto:** O `aurum_quality_score` √© calculado como a soma ponderada desses rankings (percentis de 0 a 100). Valores `NaN` s√£o preenchidos com a mediana (50) para n√£o penalizar empresas excessivamente.
* **Classifica√ß√£o Final:** O script calcula `quality_quintile` e `quality_grade` (A-E) com base no ranking *final* do `aurum_quality_score` de cada per√≠odo.

##### Passo 5 e 6: Salvar Resultados (`get_latest_scores` e `save_results`)

* O script gera e salva quatro arquivos distintos no diret√≥rio `data/aurum_scores_output/`.

#### 6. Sa√≠da (Output)

A execu√ß√£o do script gera os seguintes arquivos em `data/aurum_scores_output/`:

1.  **`aurum_quality_scores_complete.parquet`**:
    * O arquivo mais importante. Cont√©m o **hist√≥rico completo** de todas as empresas, datas, ratios calculados e scores. Este ser√° o input para o `AurumScoringSystem` avan√ßado e para o *backtesting*.

2.  **`aurum_quality_scores_latest.parquet`**:
    * Um arquivo de conveni√™ncia que cont√©m apenas o **√∫ltimo registro (data mais recente)** de score/ratios para cada empresa.

3.  **`aurum_quality_scores_latest.csv`**:
    * Vers√£o CSV do arquivo acima, para f√°cil visualiza√ß√£o em planilhas.

4.  **`aurum_scores_statistics.txt`**:
    * Um relat√≥rio de texto (`.txt`) leg√≠vel, mostrando as estat√≠sticas do √∫ltimo per√≠odo (distribui√ß√£o de notas, Top 10 empresas) para uma verifica√ß√£o r√°pida.

---

In [28]:
import pandas as pd
import numpy as np
from pathlib import Path
import logging
from typing import Dict, List, Optional
import warnings
from tqdm import tqdm

warnings.filterwarnings('ignore')
logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')
logger = logging.getLogger(__name__)
tqdm.pandas()

class AurumQualityScoreCalculator:
    """ Calcula TTM, ratios financeiros (incluindo ROIC correto) e scores """

    def __init__(self, fundamentals_path: str):
        self.fundamentals_path = Path(fundamentals_path)
        self.fundamentals_df = None
        self.ratios_df = None
        self.scores_df = None
        self.dre_cols = [
            'Receita L√≠quida', 'Custo dos Bens e/ou Servi√ßos Vendidos',
            'Lucro Bruto', 'EBIT', 'EBT', 'Lucro L√≠quido Consolidado'
        ]

    def load_and_prepare_data(self) -> pd.DataFrame:
        logger.info("üì• 1. CARREGANDO NOVO fundamentals_wide.parquet...")
        try:
            self.fundamentals_df = pd.read_parquet(self.fundamentals_path)
            logger.info(f"‚úÖ Dados carregados: {self.fundamentals_df.shape}")
            logger.info(f"Colunas encontradas: {self.fundamentals_df.columns.tolist()}")
            # Verificar se as novas colunas est√£o presentes
            new_cols = ['Caixa e Equivalentes', 'D√≠vida Curto Prazo', 'D√≠vida Longo Prazo']
            missing_new = [col for col in new_cols if col not in self.fundamentals_df.columns]
            if missing_new:
                 logger.error(f"‚ùå ERRO: Novas colunas {missing_new} N√ÉO encontradas no input!")
                 raise ValueError(f"Novas colunas faltando: {missing_new}")
            else:
                 logger.info("‚úÖ Novas colunas (Caixa, D√≠vida CP, D√≠vida LP) encontradas!")

            self.fundamentals_df = self._clean_fundamentals_data(self.fundamentals_df)
            return self.fundamentals_df
        except Exception as e:
            logger.error(f"‚ùå Erro ao carregar dados: {e}")
            raise

    def _clean_fundamentals_data(self, df: pd.DataFrame) -> pd.DataFrame:
        df_clean = df.copy()
        df_clean['DT_FIM_EXERC'] = pd.to_datetime(df_clean['DT_FIM_EXERC'], errors='coerce')
        df_clean = df_clean.dropna(subset=['DT_FIM_EXERC'])
        df_clean = df_clean.drop_duplicates(subset=['CNPJ_CIA', 'DT_FIM_EXERC'])
        df_clean = df_clean.sort_values(['CNPJ_CIA', 'DT_FIM_EXERC'])
        return df_clean

    def calculate_ttm_data(self) -> pd.DataFrame:
        if self.fundamentals_df is None: raise ValueError("Dados n√£o carregados.")
        logger.info("‚è≥ 2. CALCULANDO TTM...")
        df_ttm = self.fundamentals_df.copy()
        def rolling_sum_group(group):
            for col in self.dre_cols:
                if col in group.columns:
                    quarterly = group[col] - group[col].shift(1).fillna(0)
                    group[f'{col}_ttm'] = quarterly.rolling(window=4, min_periods=4).sum()
                else: group[f'{col}_ttm'] = np.nan
            return group
        grouped = df_ttm.groupby('CNPJ_CIA', group_keys=False)
        self.ratios_df = grouped.progress_apply(rolling_sum_group)
        logger.info(f"‚úÖ TTM calculado.")
        return self.ratios_df

    def calculate_financial_ratios(self) -> pd.DataFrame:
        """ PASSO 3: Calcula ratios (com ROIC correto e ratios de d√≠vida) """
        if self.ratios_df is None: raise ValueError("Dados TTM n√£o calculados.")
        logger.info("üßÆ 3. CALCULANDO RATIOS FINANCEIROS (COM TTM)...")
        df = self.ratios_df.copy()

        def get_col(df, col_name): return df.get(col_name, np.nan)
        def safe_divide(num, den): return np.where(den == 0, np.nan, num / den)

        # --- Contas de D√≠vida (USANDO AS NOVAS COLUNAS) ---
        divida_cp = get_col(df, 'D√≠vida Curto Prazo').fillna(0) # Usando a coluna correta
        divida_lp = get_col(df, 'D√≠vida Longo Prazo').fillna(0) # Usando a coluna correta
        caixa = get_col(df, 'Caixa e Equivalentes').fillna(0)   # Usando a coluna correta
        pl = get_col(df, 'Patrim√¥nio L√≠quido Consolidado').fillna(0)
        
        df['D√≠vida Bruta'] = divida_cp + divida_lp
        df['Capital Investido'] = df['D√≠vida Bruta'] + pl # Defini√ß√£o correta
        df['D√≠vida L√≠quida'] = df['D√≠vida Bruta'] - caixa # Defini√ß√£o correta
        logger.info("‚úÖ D√≠vida Bruta, Capital Investido e D√≠vida L√≠quida calculados.")

        # --- RENTABILIDADE ---
        logger.info("üìà Calculando RENTABILIDADE...")
        df['ROE'] = safe_divide(get_col(df, 'Lucro L√≠quido Consolidado_ttm'), pl)
        df['ROA'] = safe_divide(get_col(df, 'Lucro L√≠quido Consolidado_ttm'), get_col(df, 'Ativo Total'))
        # <<< ROIC CORRETO >>>
        df['ROIC'] = safe_divide(get_col(df, 'EBIT_ttm'), df['Capital Investido'])
        logger.info(f"‚úÖ ROIC (correto) calculado. M√©dia: {df['ROIC'].mean():.4f}")
        # <<< FIM ROIC CORRETO >>>

        # --- MARGENS ---
        df['MARGEM_EBIT'] = safe_divide(get_col(df, 'EBIT_ttm'), get_col(df, 'Receita L√≠quida_ttm'))
        df['MARGEM_LIQUIDA'] = safe_divide(get_col(df, 'Lucro L√≠quido Consolidado_ttm'), get_col(df, 'Receita L√≠quida_ttm'))
        df['MARGEM_BRUTA'] = safe_divide(get_col(df, 'Lucro Bruto_ttm'), get_col(df, 'Receita L√≠quida_ttm'))

        # --- ALAVANCAGEM ---
        logger.info("‚öñÔ∏è Calculando ALAVANCAGEM...")
        df['ALAVANCAGEM'] = safe_divide(get_col(df, 'Passivo Total'), get_col(df, 'Ativo Total'))
        df['DIVIDA_PL'] = safe_divide(df['D√≠vida Bruta'], pl) # Agora pode ser calculado
        df['DIVIDA_LIQ_EBIT'] = safe_divide(df['D√≠vida L√≠quida'], get_col(df, 'EBIT_ttm')) # Agora pode ser calculado
        logger.info("‚úÖ Ratios de alavancagem (incluindo DIVIDA_PL, DIVIDA_LIQ_EBIT) calculados.")

        # --- LIQUIDEZ ---
        df['LIQUIDEZ_CORRENTE'] = safe_divide(get_col(df, 'Ativo Circulante'), get_col(df, 'Passivo Circulante'))

        # --- EFICI√äNCIA ---
        df['GIRO_ATIVO'] = safe_divide(get_col(df, 'Receita L√≠quida_ttm'), get_col(df, 'Ativo Total'))

        self.ratios_df = self._handle_ratio_outliers(df)
        logger.info("üéØ RATIOS CALCULADOS e limpos.")
        logger.info(f"Colunas FINAIS de Ratios: {self.ratios_df.columns.tolist()}")
        return self.ratios_df

    def _handle_ratio_outliers(self, df: pd.DataFrame) -> pd.DataFrame:
        df_clean = df.copy()
        # Lista completa agora que temos os dados
        ratio_columns = [
            'ROE', 'ROA', 'ROIC', 'MARGEM_EBIT', 'MARGEM_LIQUIDA', 'MARGEM_BRUTA',
            'ALAVANCAGEM', 'DIVIDA_PL', 'DIVIDA_LIQ_EBIT', 'LIQUIDEZ_CORRENTE', 'GIRO_ATIVO'
        ]
        for col in ratio_columns:
            if col in df_clean.columns:
                df_clean[col] = df_clean[col].replace([np.inf, -np.inf], np.nan)
                if df_clean[col].notna().sum() > 0:
                    lower = df_clean[col].quantile(0.01)
                    upper = df_clean[col].quantile(0.99)
                    df_clean[col] = df_clean[col].clip(lower=lower, upper=upper)
        return df_clean

    def calculate_quality_scores(self) -> pd.DataFrame:
        """ PASSO 4: Calcula scores individuais e score composto """
        if self.ratios_df is None: raise ValueError("Ratios n√£o calculados.")
        logger.info("üéØ 4. CALCULANDO SCORES DE QUALIDADE...")
        scores_df = self.ratios_df.copy()
        grouped_by_date = scores_df.groupby('DT_FIM_EXERC')

        # Configura√ß√£o original (ou ajuste como preferir)
        metrics_config = {
            'ROIC': {'direction': 1, 'weight': 0.25}, # ROIC correto
            'ROE': {'direction': 1, 'weight': 0.15},
            'MARGEM_EBIT': {'direction': 1, 'weight': 0.15},
            'MARGEM_LIQUIDA': {'direction': 1, 'weight': 0.10},
            'DIVIDA_LIQ_EBIT': {'direction': -1, 'weight': 0.15}, # Agora existe
            'LIQUIDEZ_CORRENTE': {'direction': 1, 'weight': 0.10},
            'GIRO_ATIVO': {'direction': 1, 'weight': 0.10},
            # 'ALAVANCAGEM': {'direction': -1, 'weight': 0.0}, # Pode remover ou ajustar peso
        }
        # Validar e ajustar pesos para somar 1.0
        total_w = sum(c['weight'] for c in metrics_config.values())
        if abs(total_w - 1.0) > 0.01:
             logger.warning(f"Soma dos pesos √© {total_w:.2f}. Ajustando proporcionalmente...")
             for k in metrics_config: metrics_config[k]['weight'] /= total_w

        logger.info(f"Configura√ß√£o de m√©tricas para score: { {k: v['weight'] for k, v in metrics_config.items()} }")

        for metric, config in metrics_config.items():
            if metric in scores_df.columns and scores_df[metric].notna().any():
                score_col = f'score_{metric}'
                if config['direction'] == 1:
                    scores_df[score_col] = grouped_by_date[metric].rank(pct=True) * 100
                else:
                    scores_df[score_col] = grouped_by_date[metric].rank(ascending=False, pct=True) * 100
                logger.info(f"  ‚úÖ Score {metric} calculado.")
            else:
                 logger.warning(f"M√©trica '{metric}' n√£o encontrada ou sem dados para score.")

        logger.info("‚öñÔ∏è Calculando score composto...")
        scores_df['aurum_quality_score'] = 0.0
        total_applied_weight = 0.0
        for metric, config in metrics_config.items():
            score_col = f'score_{metric}'
            if score_col in scores_df.columns:
                scores_df['aurum_quality_score'] += scores_df[score_col].fillna(50) * config['weight']
                total_applied_weight += config['weight']

        if total_applied_weight > 0:
            scores_df['aurum_quality_score'] /= total_applied_weight

        # ... (c√≥digo de classifica√ß√£o e restante igual ao anterior) ...
        logger.info("üèÜ Classificando empresas...")
        try:
             valid_scores = scores_df['aurum_quality_score'].dropna()
             if not valid_scores.empty:
                  ranks = valid_scores.rank(ascending=False, pct=True)
                  scores_df['final_rank'] = ranks
                  try:
                       scores_df['quality_quintile'] = pd.qcut(scores_df['final_rank'].dropna(), 5, labels=[f'{i}¬∫ Quintil' for i in range(1, 6)])
                  except ValueError: scores_df['quality_quintile'] = pd.cut(scores_df['final_rank'].dropna(), 5, labels=False)
                  scores_df['quality_grade'] = pd.cut(scores_df['final_rank'].dropna(), bins=[0, 0.2, 0.4, 0.6, 0.8, 1.0], labels=['A', 'B', 'C', 'D', 'E'], right=True, include_lowest=True)
             else: scores_df[['final_rank', 'quality_quintile', 'quality_grade']] = np.nan
        except Exception as e:
             logger.error(f"Erro ao calcular ranks/grades: {e}")
             scores_df[['final_rank', 'quality_quintile', 'quality_grade']] = np.nan
        
        self.scores_df = scores_df
        logger.info(f"Colunas FINAIS ANTES de salvar: {self.scores_df.columns.tolist()}")
        return scores_df

    # M√©todos get_latest_scores, save_results, _save_statistics s√£o iguais aos anteriores
    # ... (Copie e cole os m√©todos get_latest_scores, save_results, _save_statistics da vers√£o anterior aqui) ...
    def get_latest_scores(self) -> pd.DataFrame:
        if self.scores_df is None: raise ValueError("Scores n√£o calculados.")
        latest_scores = self.scores_df.sort_values('DT_FIM_EXERC').groupby('CNPJ_CIA').last().reset_index()
        return latest_scores

    def save_results(self, output_dir: str = "data/aurum_scores"):
        output_path = Path(output_dir)
        output_path.mkdir(parents=True, exist_ok=True)
        if self.scores_df is not None:
            logger.info(f"Salvando DataFrame com colunas: {self.scores_df.columns.tolist()}")
            if 'ROIC' not in self.scores_df.columns: logger.error("ERRO FATAL: Coluna 'ROIC' AUSENTE antes de salvar!")
            scores_path = output_path / "aurum_quality_scores_complete.parquet"
            self.scores_df.to_parquet(scores_path, index=False)
            logger.info(f"üíæ Scores completos (hist√≥rico) salvos: {scores_path}")
        latest_scores = self.get_latest_scores()
        latest_path = output_path / "aurum_quality_scores_latest.parquet"
        latest_csv_path = output_path / "aurum_quality_scores_latest.csv"
        latest_scores.to_parquet(latest_path, index=False)
        latest_scores.to_csv(latest_csv_path, index=False, sep=';', encoding='utf-8-sig')
        logger.info(f"üíæ Scores mais recentes salvos: {latest_path} e {latest_csv_path}")
        stats_path = output_path / "aurum_scores_statistics.txt"
        self._save_statistics(latest_scores, stats_path)
        logger.info(f"üíæ Estat√≠sticas salvas: {stats_path}")
        return {'complete_scores': scores_path,'latest_scores': latest_path,'statistics': stats_path}

    def _save_statistics(self, scores_df: pd.DataFrame, stats_path: Path):
        with open(stats_path, 'w', encoding='utf-8') as f:
            f.write("AURUM QUALITY SCORE - ESTAT√çSTICAS (√öLTIMO PER√çODO)\n" + "=" * 50 + "\n\n")
            f.write(f"Total de empresas: {len(scores_df)}\n")
            max_date = scores_df['DT_FIM_EXERC'].max()
            f.write(f"Per√≠odo mais recente: {max_date if pd.notna(max_date) else 'N/A'}\n\n")
            if 'aurum_quality_score' in scores_df.columns:
                 f.write("DISTRIBUI√á√ÉO DOS SCORES:\n" + f"  M√©dia: {scores_df['aurum_quality_score'].mean():.2f}\n" +
                         f"  Mediana: {scores_df['aurum_quality_score'].median():.2f}\n" + f"  M√≠nimo: {scores_df['aurum_quality_score'].min():.2f}\n" +
                         f"  M√°ximo: {scores_df['aurum_quality_score'].max():.2f}\n\n")
            else: f.write("DISTRIBUI√á√ÉO DOS SCORES: N/A\n\n")
            if 'quality_grade' in scores_df.columns:
                 f.write("DISTRIBUI√á√ÉO POR NOTAS:\n")
                 grade_counts = scores_df['quality_grade'].value_counts().sort_index(ascending=True)
                 for grade, count in grade_counts.items(): f.write(f"  Nota {grade}: {count} empresas\n")
            else: f.write("DISTRIBUI√á√ÉO POR NOTAS: N/A\n")
            if 'aurum_quality_score' in scores_df.columns:
                 f.write("\nTOP 10 EMPRESAS:\n")
                 top_10 = scores_df.nlargest(10, 'aurum_quality_score')[['DENOM_CIA', 'aurum_quality_score', 'quality_grade']]
                 for i, (_, row) in enumerate(top_10.iterrows(), 1):
                      grade = row.get('quality_grade', 'N/A')
                      f.write(f"  {i:2d}. {str(row['DENOM_CIA'])[:35]:35} {row['aurum_quality_score']:6.2f} (Nota {grade})\n")
            else: f.write("\nTOP 10 EMPRESAS: N/A\n")


# ==================== EXECU√á√ÉO PRINCIPAL ====================
def main():
    logger.info("üöÄ INICIANDO PIPELINE DO AURUM QUALITY SCORE (Vers√£o Final com ROIC Correto)")
    try:
        calculator = AurumQualityScoreCalculator(
            fundamentals_path="data/cvm/final/fundamentals_wide.parquet" # Ler o NOVO input
        )
        calculator.load_and_prepare_data()
        calculator.calculate_ttm_data()
        calculator.calculate_financial_ratios() # Calcular ROIC correto e ratios de d√≠vida
        calculator.calculate_quality_scores()   # Usar ROIC correto e ratios de d√≠vida
        output_files = calculator.save_results(output_dir="data/aurum_scores") # Salvar no diret√≥rio correto
        logger.info(f"üíæ Resultados (com ROIC correto) salvos em: {output_files}")

        latest_scores = calculator.get_latest_scores()
        # ... (impress√£o dos resultados igual) ...
        print("\n" + "="*60 + "\nüéâ AURUM QUALITY SCORE - RESULTADOS FINAIS (√öLTIMO PER√çODO)\n" + "="*60)
        print(f"\nüìä TOTAL DE EMPRESAS: {len(latest_scores)}")
        if 'aurum_quality_score' in latest_scores.columns: print(f"üìà SCORE M√âDIO: {latest_scores['aurum_quality_score'].mean():.2f}")
        print(f"\nüìã DISTRIBUI√á√ÉO DAS NOTAS:")
        if 'quality_grade' in latest_scores.columns:
             grade_dist = latest_scores['quality_grade'].value_counts().sort_index(ascending=True)
             for grade, count in grade_dist.items(): print(f"   Nota {grade}: {count:3d} empresas")
        print(f"\nü•á TOP 10 EMPRESAS:")
        if 'aurum_quality_score' in latest_scores.columns:
             top_10 = latest_scores.nlargest(10, 'aurum_quality_score')[['DENOM_CIA', 'aurum_quality_score', 'quality_grade']]
             for i, (_, row) in enumerate(top_10.iterrows(), 1):
                  grade = row.get('quality_grade', 'N/A')
                  print(f"   {i:2d}. {str(row['DENOM_CIA'])[:35]:35} {row['aurum_quality_score']:6.2f} (Nota {grade})")

        return calculator

    except Exception as e:
        logger.error(f"‚ùå ERRO NO PIPELINE: {e}")
        import traceback
        logger.error(traceback.format_exc())
        raise

if __name__ == "__main__":
    aurum_calculator = main()

100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 727/727 [00:06<00:00, 106.92it/s]



üéâ AURUM QUALITY SCORE - RESULTADOS FINAIS (√öLTIMO PER√çODO)

üìä TOTAL DE EMPRESAS: 727
üìà SCORE M√âDIO: 49.33

üìã DISTRIBUI√á√ÉO DAS NOTAS:
   Nota A: 201 empresas
   Nota B:  82 empresas
   Nota C:  72 empresas
   Nota D: 146 empresas
   Nota E: 226 empresas

ü•á TOP 10 EMPRESAS:
    1. CAMIL ALIMENTOS S.A.                100.00 (Nota A)
    2. MINUPAR PARTICIPACOES S.A.           91.13 (Nota A)
    3. 521 PARTICIPACOES S.A. - EM LIQUIDA  89.17 (Nota A)
    4. STEIN SP II PARTICIPA√á√ïES S.A.       87.37 (Nota A)
    5. EPR INFRAESTRUTURA PR S.A.           85.60 (Nota A)
    6. COMERCIAL QUINTELLA COM EXP SA EM L  84.67 (Nota A)
    7. SONDOTECNICA ENGENHARIA SOLOS S.A.   84.42 (Nota A)
    8. M√âLIUZ S.A.                          83.91 (Nota A)
    9. FICTOR ALIMENTOS S.A.                82.46 (Nota A)
   10. GRANJA FARIA S.A.                    82.18 (Nota A)


In [None]:
import pandas as pd
import numpy as np
import os
import logging
from pathlib import Path

# --- Configura√ß√£o ---
logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')
logger = logging.getLogger(__name__)

# --- Arquivos de Input (VERIFICADOS) ---
PATH_PRECOS_LIMPOS = "data/historical/all_histories_cleaned.parquet"
PATH_PRECOS_WIDE = "data/historical/prices_close_wide.parquet"
PATH_FUNDAMENTOS = "data/aurum_scores/aurum_quality_scores_complete.parquet" # Seu arquivo de fundamentos com ROIC
PATH_SENTIMENTO = "data/news/news_with_sentiment.parquet"
PATH_DE_PARA = "data/ticker_cnpj_map.parquet" # Seu arquivo de mapeamento

# --- Arquivo de Output ---
OUTPUT_DIR = "data"
OUTPUT_FILENAME = "aurum_master_features.parquet"
output_path = Path(OUTPUT_DIR) / OUTPUT_FILENAME

def calcular_volatilidade_mensal():
    # ... (c√≥digo igual, sem altera√ß√µes) ...
    logger.info("Iniciando Unifica√ß√£o (Passo 1/3): C√°lculo da Volatilidade...")
    try: df_prices_daily = pd.read_parquet(PATH_PRECOS_LIMPOS)
    except FileNotFoundError: logger.error(f"Arquivo n√£o encontrado: {PATH_PRECOS_LIMPOS}"); return None
    df_prices_daily['date'] = pd.to_datetime(df_prices_daily['date'])
    df_prices_daily['returns'] = df_prices_daily.groupby('ticker')['Adj Close'].pct_change()
    df_prices_daily['VOLATILIDADE'] = df_prices_daily.groupby('ticker')['returns'].rolling(window=63, min_periods=30).std().reset_index(0, drop=True)
    df_vol_mensal = df_prices_daily.set_index('date').groupby('ticker').resample('M').last()['VOLATILIDADE'].reset_index()
    logger.info(f"‚úÖ Volatilidade mensal calculada.")
    return df_vol_mensal

def agregar_sentimento_mensal():
    # ... (c√≥digo igual, sem altera√ß√µes) ...
    logger.info("Iniciando Unifica√ß√£o (Passo 2/3): Agrega√ß√£o de Sentimento...")
    try: df_sent_raw = pd.read_parquet(PATH_SENTIMENTO)
    except FileNotFoundError: logger.error(f"Arquivo n√£o encontrado: {PATH_SENTIMENTO}"); return None
    df_sent_raw = df_sent_raw.rename(columns={'ticker_query': 'ticker', 'published_date': 'date'})
    df_sent_raw['date'] = pd.to_datetime(df_sent_raw['date'], utc=True).dt.tz_localize(None)
    if not df_sent_raw['ticker'].str.contains('.SA').any():
        logger.warning("Tickers sem sufixo .SA. Adicionando...")
        df_sent_raw['ticker'] = df_sent_raw['ticker'].apply(lambda x: f"{x}.SA" if not str(x).endswith(".SA") else x)
    df_sent_mensal = df_sent_raw.set_index('date').groupby('ticker').resample('M').agg(
        SENTIMENT_MEDIO=('numeric_sentiment', 'mean'),
        SENTIMENT_STD=('numeric_sentiment', 'std'),
        NEWS_COUNT=('ticker', 'count')
    ).reset_index()
    logger.info(f"‚úÖ Sentimento mensal agregado.")
    return df_sent_mensal

def unificar_dataframe_mestre(df_vol_mensal, df_sent_mensal):
    if df_vol_mensal is None or df_sent_mensal is None: return
    logger.info("Iniciando Unifica√ß√£o (Passo 3/3): Jun√ß√£o do DataFrame Mestre...")

    # --- 1. Carregar Base de Pre√ßos Mensal ---
    try:
        df_close_wide = pd.read_parquet(PATH_PRECOS_WIDE)
        df_base_mensal = df_close_wide.melt(ignore_index=False, var_name='ticker', value_name='Adj Close').reset_index()
        df_base_mensal = df_base_mensal.rename(columns={'index': 'date'})
        logger.info(f"Base de pre√ßos (wide) carregada.")
    except FileNotFoundError: logger.error(f"Arquivo n√£o encontrado: {PATH_PRECOS_WIDE}"); return

    # --- 2. Carregar Fundamentos (Trimestrais) ---
    try:
        df_fund = pd.read_parquet(PATH_FUNDAMENTOS)
        df_fund = df_fund.rename(columns={'DT_FIM_EXERC': 'date'})
        df_fund['date'] = pd.to_datetime(df_fund['date'])
        logger.info(f"Fundamentos carregados. Colunas: {df_fund.columns.tolist()}")
    except FileNotFoundError: logger.error(f"Arquivo n√£o encontrado: {PATH_FUNDAMENTOS}"); return
    except KeyError as e: logger.error(f"Erro ao renomear 'DT_FIM_EXERC': {e}"); return

    # --- 3. Carregar o Mapeamento (DE-PARA) ---
    try:
        df_mapping = pd.read_parquet(PATH_DE_PARA)
        if 'ticker' not in df_mapping.columns or 'CNPJ_CIA' not in df_mapping.columns:
             logger.error(f"ERRO: Mapeamento {PATH_DE_PARA} sem 'ticker' ou 'CNPJ_CIA'.")
             return
    except FileNotFoundError: logger.error(f"Arquivo n√£o encontrado: {PATH_DE_PARA}"); return

    df_fund_com_ticker = pd.merge(df_fund, df_mapping, on='CNPJ_CIA', how='left')
    df_fund_com_ticker = df_fund_com_ticker.dropna(subset=['ticker'])
    logger.info("Fundamentos mapeados para tickers.")

    # --- 4. Construir o DataFrame Mestre ---
    df_master = df_base_mensal.sort_values(by='date')
    df_fund_com_ticker = df_fund_com_ticker.sort_values(by='date')

    # 4a. Juntar Fundamentos (merge_asof)
    df_master = pd.merge_asof(
        df_master, df_fund_com_ticker, on='date', by='ticker', direction='backward'
    )
    logger.info("Merge 'as-of' dos fundamentos conclu√≠do.")
    logger.info(f"Colunas no df_master AP√ìS merge_asof: {df_master.columns.tolist()}") # DEBUG

    # 4b. Juntar Volatilidade (merge)
    df_master = pd.merge(df_master, df_vol_mensal, on=['date', 'ticker'], how='left')
    logger.info("Merge da volatilidade conclu√≠do.")

    # 4c. Juntar Sentimento (merge)
    df_master = pd.merge(df_master, df_sent_mensal, on=['date', 'ticker'], how='left')
    logger.info("Merge do sentimento conclu√≠do.")

    # --- 5. Limpeza Final ---
    df_master['SENTIMENT_MEDIO'] = df_master['SENTIMENT_MEDIO'].fillna(0)
    df_master['VOLATILIDADE'] = df_master.groupby('ticker')['VOLATILIDADE'].ffill().bfill()

    # <<< VERS√ÉO FINAL DO dropna >>>
    # Usando ambas as colunas, pois df_master.info() provou que elas existem
    fundamental_key_columns = ['ROE', 'ROIC'] # <--- USANDO AMBAS AS COLUNAS

    missing_cols = [col for col in fundamental_key_columns if col not in df_master.columns]
    if missing_cols:
        # Este erro n√£o deve mais acontecer baseado no seu df.info()
        logger.error(f"ERRO CR√çTICO P√ìS-MERGE: Colunas {missing_cols} n√£o encontradas!")
        return
    else:
        logger.info(f"Aplicando dropna nas colunas chave: {fundamental_key_columns}")
        df_master = df_master.dropna(subset=fundamental_key_columns)
    # <<< FIM DA VERS√ÉO FINAL >>>

    logger.info(f"Limpeza final conclu√≠da. DataFrame Mestre pronto com {len(df_master)} linhas.")

    # --- 6. Salvar o Novo DataFrame Mestre ---
    os.makedirs(OUTPUT_DIR, exist_ok=True)
    df_master.to_parquet(output_path, index=False)
    logger.info(f"‚úÖ‚úÖ‚úÖ DataFrame Mestre salvo em: {output_path} ‚úÖ‚úÖ‚úÖ")

    print("\n--- Informa√ß√µes do DataFrame Mestre Gerado ---")
    df_master.info(verbose=True, show_counts=True) # Mostrar detalhes
    print("\n--- Amostra do DataFrame Mestre ---")
    sample_cols = ['date', 'ticker', 'ROE', 'ROIC', 'SENTIMENT_MEDIO', 'VOLATILIDADE']
    print(df_master.sample(5)[[col for col in sample_cols if col in df_master.columns]])

    return df_master

# --- Execu√ß√£o Principal ---
if __name__ == "__main__":
    df_vol = calcular_volatilidade_mensal()
    df_sent = agregar_sentimento_mensal()
    if df_vol is not None and df_sent is not None:
        unificar_dataframe_mestre(df_vol, df_sent)
    else:
        logger.error("Falha ao gerar dados. O DataFrame Mestre n√£o foi criado.")


--- Informa√ß√µes do DataFrame Mestre Gerado ---
<class 'pandas.core.frame.DataFrame'>
Index: 19581 entries, 2232 to 34531
Data columns (total 57 columns):
 #   Column                                     Non-Null Count  Dtype         
---  ------                                     --------------  -----         
 0   date                                       19581 non-null  datetime64[ns]
 1   ticker                                     19581 non-null  object        
 2   Adj Close                                  19581 non-null  float64       
 3   CNPJ_CIA                                   19581 non-null  object        
 4   DENOM_CIA                                  19581 non-null  object        
 5   Custo dos Bens e/ou Servi√ßos Vendidos      19581 non-null  float64       
 6   EBIT                                       19581 non-null  float64       
 7   EBT                                        19581 non-null  float64       
 8   Lucro Bruto                                1958

### **Documenta√ß√£o:** Sistema de Scoring Avan√ßado (AurumScoringSystem)

#### 1. Objetivo

Este script √© o "c√©rebro" do projeto Aurum, onde a tese de investimento quantitativo √© de fato implementada. Ele representa a **evolu√ß√£o** do `AurumQualityScoreCalculator`, aplicando uma metodologia de scoring mais robusta e academicamente embasada.

Enquanto o script anterior (`Calculator`) era focado em *calcular ratios* e criar um *score de ranking simples*, este script (`System`) tem como responsabilidades:
1.  **Carregar uma Tese:** Define um conjunto expl√≠cito de **m√©tricas e pesos** baseados em teorias financeiras (ex: Fama & French, Graham & Dodd), armazenados na classe `ScoringMetric`.
2.  **Normaliza√ß√£o Avan√ßada:** Substitui a normaliza√ß√£o por ranking (percentil) por uma **normaliza√ß√£o sigm√≥ide (baseada em Z-Score)**. Isso cria um score mais suave, robusto a outliers e que recompensa melhor empresas excepcionais.
3.  **Incorporar Fatores M√∫ltiplos:** O sistema √© projetado para consumir *n√£o apenas* os ratios financeiros do script anterior, mas tamb√©m m√©tricas de **crescimento**, **sentimento (NLP)** e **volatilidade (pre√ßo)**.
4.  **Validar-se:** Gera um relat√≥rio de valida√ß√£o que compara a contribui√ß√£o *te√≥rica* de cada m√©trica (o peso que definimos) com sua contribui√ß√£o *real* no score final.
5.  **Gerar o Score Final:** Calcula o `aurum_quality_score` final e as classifica√ß√µes (A, B, C, D, E).

#### 2. Configura√ß√£o (Input)

Este script √© o **segundo passo** no pipeline de scoring e depende da sa√≠da do script anterior.

1.  **Input Principal (Obrigat√≥rio):**
    * `data/aurum_scores/aurum_quality_scores_complete.parquet`: Este √© o arquivo de **output** gerado pelo `AurumQualityScoreCalculator`. Ele cont√©m todos os ratios hist√≥ricos (ROE, ROIC, etc.) j√° calculados e tratados.

2.  **Input Opcional (Configura√ß√£o):**
    * O construtor `AurumScoringSystem(config_path="...")` aceita um caminho para um arquivo `.json`. Isso permite carregar um conjunto personalizado de m√©tricas e pesos sem alterar o c√≥digo, facilitando a experimenta√ß√£o. Se nenhum caminho for fornecido, ele usa os pesos padr√£o definidos em `_initialize_scoring_metrics`.

#### 3. Sa√≠da (Output)

O script cria um novo diret√≥rio: `data/aurum_final_scores/`.

1.  **`aurum_advanced_scores.parquet`**:
    * O **hist√≥rico completo** de todas as empresas com os scores finais (0-100), notas (A-E) e quintis. Este √© o arquivo final que ser√° usado para o **backtesting**.

2.  **`aurum_latest_advanced_scores.parquet`**:
    * Um snapshot contendo apenas o **√∫ltimo score dispon√≠vel** para cada empresa.

3.  **`aurum_scoring_config.json`**:
    * Um arquivo `.json` que salva a tese exata (m√©tricas e pesos) usada nesta execu√ß√£o, garantindo a reprodutibilidade dos resultados.

In [13]:
import pandas as pd
import numpy as np
from pathlib import Path
import logging
from typing import Dict, List, Optional, Tuple
import warnings
from dataclasses import dataclass
import json

warnings.filterwarnings('ignore')

# Configura√ß√£o de logging
logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')
logger = logging.getLogger(__name__)

@dataclass
class ScoringMetric:
    """Classe para representar uma m√©trica de scoring"""
    name: str
    weight: float
    direction: int  # 1 = maior √© melhor, -1 = menor √© melhor
    description: str
    min_value: float = None
    max_value: float = None
    ideal_range: Tuple[float, float] = None

class AurumScoringSystem:
    """
    Sistema avan√ßado de scoring para o Aurum Quality Score
    com pesos baseados em fundamentos financeiros
    """
    
    def __init__(self, config_path: str = None):
        self.scoring_metrics = self._initialize_scoring_metrics(config_path)
        self.quality_thresholds = {
            'A': 80,  # Excelente
            'B': 60,  # Bom
            'C': 40,  # Regular
            'D': 20,  # Ruim
            'E': 0    # Muito ruim
        }
        
    def _initialize_scoring_metrics(self, config_path: str = None) -> Dict[str, ScoringMetric]:
        """
        Inicializa as m√©tricas de scoring com pesos baseados em:
        - Graham & Dodd: Security Analysis
        - Fama & French: Three Factor Model  
        - Pr√°ticas do mercado quantitativo
        """
        
        if config_path and Path(config_path).exists():
            return self._load_custom_config(config_path)
        
        # Pesos baseados em import√¢ncia relativa para qualidade de empresas
        # CORRE√á√ÉO: Soma total = 1.0 (100%)
        metrics_config = {
            # === RENTABILIDADE (47% do total) ===
            'ROE': ScoringMetric(
                name='ROE', weight=0.18, direction=1,  # Aumentado de 0.15 para 0.18
                description='Return on Equity - Efici√™ncia do capital pr√≥prio',
                ideal_range=(0.10, 0.25)
            ),
            'ROA': ScoringMetric(
                name='ROA', weight=0.12, direction=1,
                description='Return on Assets - Efici√™ncia dos ativos',
                ideal_range=(0.05, 0.15)
            ),
            'MARGEM_EBIT': ScoringMetric(
                name='MARGEM_EBIT', weight=0.08, direction=1,
                description='Margem Operacional - Ebit/Receita',
                ideal_range=(0.08, 0.20)
            ),
            'MARGEM_LIQUIDA': ScoringMetric(
                name='MARGEM_LIQUIDA', weight=0.05, direction=1,  # Reduzido de 0.06 para 0.05
                description='Margem L√≠quida - Lucro/Receita',
                ideal_range=(0.06, 0.18)
            ),
            'MARGEM_BRUTA': ScoringMetric(
                name='MARGEM_BRUTA', weight=0.04, direction=1,
                description='Margem Bruta - Lucro Bruto/Receita',
                ideal_range=(0.20, 0.50)
            ),
            
            # === SOLV√äNCIA E ALAVANCAGEM (33% do total) ===
            'ALAVANCAGEM': ScoringMetric(
                name='ALAVANCAGEM', weight=0.09, direction=-1,  # Aumentado de 0.08 para 0.09
                description='Alavancagem Total - Passivo/Ativo',
                ideal_range=(0.30, 0.60)
            ),
            'DIVIDA_PL': ScoringMetric(
                name='DIVIDA_PL', weight=0.09, direction=-1,  # Aumentado de 0.08 para 0.09
                description='D√≠vida/Patrim√¥nio L√≠quido',
                ideal_range=(0.50, 1.50)
            ),
            'LIQUIDEZ_CORRENTE': ScoringMetric(
                name='LIQUIDEZ_CORRENTE', weight=0.08, direction=1,  # Aumentado de 0.07 para 0.08
                description='Liquidez Corrente - Ativo Circulante/Passivo Circulante',
                ideal_range=(1.20, 3.00)
            ),
            'GIRO_ATIVO': ScoringMetric(
                name='GIRO_ATIVO', weight=0.07, direction=1,
                description='Giro do Ativo - Receita/Ativo Total',
                ideal_range=(0.30, 1.00)
            ),
            
            # === CRESCIMENTO (10% do total) ===
            'CRESC_RECEITA': ScoringMetric(
                name='CRESC_RECEITA', weight=0.05, direction=1,
                description='Crescimento da Receita (anual)',
                ideal_range=(0.05, 0.30)
            ),
            'CRESC_LUCRO': ScoringMetric(
                name='CRESC_LUCRO', weight=0.05, direction=1,
                description='Crescimento do Lucro L√≠quido (anual)',
                ideal_range=(0.08, 0.40)
            ),
            
            # === EFICI√äNCIA (10% do total) ===
            'SENTIMENT_MEDIO': ScoringMetric(
                name='SENTIMENT_MEDIO', weight=0.05, direction=1,
                description='Sentimento M√©dio de Not√≠cias',
                ideal_range=(0.10, 0.80)
            ),
            'VOLATILIDADE': ScoringMetric(
                name='VOLATILIDADE', weight=0.05, direction=-1,
                description='Volatilidade dos Retornos (3 meses)',
                ideal_range=(0.10, 0.40)
            )
        }
        
        # Validar que soma dos pesos = 1.0
        total_weight = sum(metric.weight for metric in metrics_config.values())
        if abs(total_weight - 1.0) > 0.001:
            # Ajuste autom√°tico para garantir soma = 1.0
            adjustment_factor = 1.0 / total_weight
            for metric in metrics_config.values():
                metric.weight *= adjustment_factor
            
            logger.info(f"üîß Pesos ajustados automaticamente para soma = 1.0")
        
        logger.info(f"‚úÖ Sistema de scoring inicializado com {len(metrics_config)} m√©tricas")
        logger.info(f"üìä Soma dos pesos: {sum(metric.weight for metric in metrics_config.values()):.3f}")
        
        return metrics_config
    
    def _load_custom_config(self, config_path: str) -> Dict[str, ScoringMetric]:
        """Carrega configura√ß√£o personalizada de pesos"""
        try:
            with open(config_path, 'r', encoding='utf-8') as f:
                config_data = json.load(f)
            
            metrics_config = {}
            for metric_name, metric_data in config_data.items():
                metrics_config[metric_name] = ScoringMetric(**metric_data)
            
            logger.info(f"‚úÖ Configura√ß√£o personalizada carregada: {config_path}")
            return metrics_config
            
        except Exception as e:
            logger.error(f"‚ùå Erro ao carregar configura√ß√£o: {e}")
            return self._initialize_scoring_metrics()  # Fallback para padr√£o
    
    def calculate_individual_scores(self, df: pd.DataFrame) -> pd.DataFrame:
        """
        Calcula scores individuais para cada m√©trica usando normaliza√ß√£o avan√ßada
        """
        scores_df = df.copy()
        
        logger.info("üéØ Calculando scores individuais...")
        
        for metric_name, metric_config in self.scoring_metrics.items():
            if metric_name not in scores_df.columns:
                logger.warning(f"‚ö†Ô∏è M√©trica {metric_name} n√£o encontrada no dataset")
                continue
            
            # CORRE√á√ÉO: Verifica√ß√£o de tipo de dados corrigida para NumPy 2.0
            if scores_df[metric_name].dtype == object or pd.api.types.is_string_dtype(scores_df[metric_name]):
                logger.warning(f"‚ö†Ô∏è M√©trica {metric_name} √© do tipo texto - pulando")
                continue
            
            # Remover outliers extremos
            clean_series = self._remove_outliers(scores_df[metric_name])
            
            if metric_config.direction == 1:
                # MAIOR √© melhor - usar fun√ß√£o sigmoide para suavizar
                scores_df[f'score_{metric_name}'] = self._sigmoid_normalization(clean_series)
            else:
                # MENOR √© melhor - inverter a normaliza√ß√£o
                scores_df[f'score_{metric_name}'] = 1 - self._sigmoid_normalization(clean_series)
            
            # Aplicar pesos
            scores_df[f'score_{metric_name}'] *= 100  # Converter para 0-100
            scores_df[f'score_{metric_name}'] *= metric_config.weight
            
            valid_scores = scores_df[f'score_{metric_name}'].notna().sum()
            logger.info(f"  ‚úÖ {metric_name}: {valid_scores} scores calculados (peso: {metric_config.weight*100:.1f}%)")
        
        return scores_df
    
    def _remove_outliers(self, series: pd.Series, n_std: int = 3) -> pd.Series:
        """Remove outliers usando m√©todo Z-score"""
        # CORRE√á√ÉO: Verifica√ß√£o de tipo de dados atualizada para NumPy 2.0
        if series.dtype == object or pd.api.types.is_string_dtype(series) or pd.api.types.is_categorical_dtype(series):
            return series
        
        try:
            z_scores = np.abs((series - series.mean()) / series.std())
            clean_series = series.copy()
            clean_series[z_scores > n_std] = np.nan
            
            outliers_removed = (z_scores > n_std).sum()
            if outliers_removed > 0:
                logger.debug(f"  üéØ {outliers_removed} outliers removidos de {series.name}")
            
            return clean_series
        except Exception as e:
            logger.warning(f"  ‚ö†Ô∏è Erro ao remover outliers de {series.name}: {e}")
            return series
    
    def _sigmoid_normalization(self, series: pd.Series) -> pd.Series:
        """
        Normaliza√ß√£o usando fun√ß√£o sigmoide para suavizar valores extremos
        Mais robusta que rankeamento simples
        """
        # CORRE√á√ÉO: Verifica√ß√£o de tipo de dados atualizada
        if series.dtype == object or pd.api.types.is_string_dtype(series) or pd.api.types.is_categorical_dtype(series):
            return series
        
        try:
            # Standardizar para m√©dia 0, std 1
            standardized = (series - series.mean()) / series.std()
            
            # Aplicar sigmoide
            sigmoid = 1 / (1 + np.exp(-standardized))
            
            return sigmoid
        except Exception as e:
            logger.warning(f"  ‚ö†Ô∏è Erro na normaliza√ß√£o sigmoide de {series.name}: {e}")
            # Fallback: normaliza√ß√£o linear simples
            return (series - series.min()) / (series.max() - series.min())
    
    def calculate_composite_score(self, scores_df: pd.DataFrame) -> pd.DataFrame:
        """
        Calcula o score composto final com valida√ß√µes
        """
        logger.info("‚öñÔ∏è Calculando score composto...")
        
        # Identificar colunas de score
        score_columns = [col for col in scores_df.columns if col.startswith('score_')]
        
        if not score_columns:
            raise ValueError("‚ùå Nenhuma coluna de score encontrada")
        
        logger.info(f"üìã Colunas de score encontradas: {len(score_columns)}")
        
        # Calcular score composto
        scores_df['aurum_quality_score'] = scores_df[score_columns].sum(axis=1, skipna=True)
        
        # Normalizar para 0-100 (caso alguns pesos n√£o tenham sido aplicados)
        max_possible_score = sum(metric.weight * 100 for metric in self.scoring_metrics.values())
        scores_df['aurum_quality_score'] = (scores_df['aurum_quality_score'] / max_possible_score) * 100
        
        # Garantir que scores estejam entre 0 e 100
        scores_df['aurum_quality_score'] = scores_df['aurum_quality_score'].clip(0, 100)
        
        # Aplicar classifica√ß√µes
        scores_df = self._apply_quality_classifications(scores_df)
        
        valid_scores = scores_df['aurum_quality_score'].notna().sum()
        logger.info(f"‚úÖ Score composto calculado: {valid_scores} empresas")
        
        return scores_df
    
    def _apply_quality_classifications(self, df: pd.DataFrame) -> pd.DataFrame:
        """Aplica classifica√ß√µes de qualidade (A, B, C, D, E)"""
        
        # Classifica√ß√£o por quintis
        try:
            df['quality_quintile'] = pd.qcut(
                df['aurum_quality_score'], 
                5, 
                labels=['5¬∫ Quintil', '4¬∫ Quintil', '3¬∫ Quintil', '2¬∫ Quintil', '1¬∫ Quintil']
            )
        except ValueError as e:
            logger.warning(f"‚ö†Ô∏è Erro no qcut, usando cortes uniformes: {e}")
            # Fallback para cortes uniformes
            df['quality_quintile'] = pd.cut(
                df['aurum_quality_score'],
                bins=5,
                labels=['5¬∫ Quintil', '4¬∫ Quintil', '3¬∫ Quintil', '2¬∫ Quintil', '1¬∫ Quintil']
            )
        
        # Classifica√ß√£o por letras baseada em thresholds
        conditions = [
            df['aurum_quality_score'] >= self.quality_thresholds['A'],
            df['aurum_quality_score'] >= self.quality_thresholds['B'],
            df['aurum_quality_score'] >= self.quality_thresholds['C'],
            df['aurum_quality_score'] >= self.quality_thresholds['D'],
            df['aurum_quality_score'] >= self.quality_thresholds['E']
        ]
        
        choices = ['A', 'B', 'C', 'D', 'E']
        
        df['quality_grade'] = np.select(conditions, choices, default='E')
        
        # Classifica√ß√£o descritiva
        grade_descriptions = {
            'A': 'Excelente Qualidade',
            'B': 'Boa Qualidade', 
            'C': 'Qualidade Regular',
            'D': 'Qualidade Baixa',
            'E': 'Qualidade Muito Baixa'
        }
        
        df['quality_description'] = df['quality_grade'].map(grade_descriptions)
        
        return df
    
    def calculate_sector_adjusted_scores(self, df: pd.DataFrame, sector_column: str = 'setor') -> pd.DataFrame:
        """
        Calcula scores ajustados por setor (quando informa√ß√£o de setor dispon√≠vel)
        """
        if sector_column not in df.columns:
            logger.warning("‚ö†Ô∏è Coluna de setor n√£o encontrada - pulando ajuste setorial")
            return df
        
        logger.info("üè≠ Aplicando ajuste setorial...")
        
        df_sector_adjusted = df.copy()
        
        # Calcular medianas por setor para cada m√©trica
        for metric_name in self.scoring_metrics.keys():
            if metric_name in df.columns:
                sector_medians = df.groupby(sector_column)[metric_name].median()
                
                # Ajustar scores baseado na mediana do setor
                df_sector_adjusted[f'{metric_name}_sector_adj'] = df.apply(
                    lambda row: row[metric_name] / sector_medians.get(row[sector_column], 1.0), 
                    axis=1
                )
        
        # Recalcular scores com ajuste setorial
        score_columns_adj = [col for col in df_sector_adjusted.columns if col.endswith('_sector_adj')]
        
        if score_columns_adj:
            logger.info(f"‚úÖ Ajuste setorial aplicado para {len(score_columns_adj)} m√©tricas")
        
        return df_sector_adjusted
    
    def validate_scoring_system(self, scores_df: pd.DataFrame) -> Dict:
        """
        Valida o sistema de scoring atrav√©s de an√°lises estat√≠sticas
        """
        logger.info("üîç Validando sistema de scoring...")
        
        validation_report = {
            'basic_stats': {
                'total_companies': len(scores_df),
                'companies_with_scores': scores_df['aurum_quality_score'].notna().sum(),
                'score_mean': scores_df['aurum_quality_score'].mean(),
                'score_std': scores_df['aurum_quality_score'].std(),
                'score_min': scores_df['aurum_quality_score'].min(),
                'score_max': scores_df['aurum_quality_score'].max(),
                'score_median': scores_df['aurum_quality_score'].median()
            },
            'distribution': {
                'grade_A': len(scores_df[scores_df['quality_grade'] == 'A']),
                'grade_B': len(scores_df[scores_df['quality_grade'] == 'B']),
                'grade_C': len(scores_df[scores_df['quality_grade'] == 'C']),
                'grade_D': len(scores_df[scores_df['quality_grade'] == 'D']),
                'grade_E': len(scores_df[scores_df['quality_grade'] == 'E'])
            },
            'correlation_analysis': {},
            'metric_contribution': {},
            'weight_summary': {}
        }
        
        # An√°lise de correla√ß√£o entre scores individuais e score final
        score_columns = [col for col in scores_df.columns if col.startswith('score_')]
        
        for score_col in score_columns:
            if score_col in scores_df.columns:
                correlation = scores_df[score_col].corr(scores_df['aurum_quality_score'])
                validation_report['correlation_analysis'][score_col] = round(correlation, 4) if not pd.isna(correlation) else None
        
        # Contribui√ß√£o de cada m√©trica
        total_actual_weight = 0
        for metric_name, metric_config in self.scoring_metrics.items():
            score_col = f'score_{metric_name}'
            if score_col in scores_df.columns:
                actual_contribution = scores_df[score_col].mean() / scores_df['aurum_quality_score'].mean() * 100
                if not pd.isna(actual_contribution):
                    validation_report['metric_contribution'][metric_name] = {
                        'weight': round(metric_config.weight * 100, 2),
                        'actual_contribution': round(actual_contribution, 2),
                        'description': metric_config.description
                    }
                    total_actual_weight += actual_contribution
        
        validation_report['weight_summary']['total_theoretical_weight'] = 100.0
        validation_report['weight_summary']['total_actual_weight'] = round(total_actual_weight, 2)
        
        logger.info("‚úÖ Sistema de scoring validado")
        return validation_report
    
    def save_scoring_configuration(self, output_path: str = "data/aurum_scoring_config.json"):
        """Salva a configura√ß√£o do sistema de scoring"""
        config_data = {}
        
        for metric_name, metric_config in self.scoring_metrics.items():
            config_data[metric_name] = {
                'name': metric_config.name,
                'weight': metric_config.weight,
                'direction': metric_config.direction,
                'description': metric_config.description,
                'min_value': metric_config.min_value,
                'max_value': metric_config.max_value,
                'ideal_range': metric_config.ideal_range
            }
        
        output_dir = Path(output_path).parent
        output_dir.mkdir(parents=True, exist_ok=True)
        
        with open(output_path, 'w', encoding='utf-8') as f:
            json.dump(config_data, f, indent=2, ensure_ascii=False)
        
        logger.info(f"üíæ Configura√ß√£o salva em: {output_path}")
        return output_path

# ==================== EXECU√á√ÉO PRINCIPAL ====================

def run_advanced_scoring_system():
    """
    Executa o sistema avan√ßado de scoring completo
    """
    logger.info("üöÄ INICIANDO SISTEMA AVAN√áADO DE SCORING AURUM")
    
    try:
        # 1. INICIALIZAR SISTEMA DE SCORING
        scoring_system = AurumScoringSystem()
        
        # 2. CARREGAR DADOS DO DATAFRAME MESTRE (Unificado)
        ratios_path = "data/aurum_master_features.parquet" # <- ESTA √â A MUDAN√áA
        
        if not Path(ratios_path).exists():
            logger.error(f"‚ùå Arquivo de ratios n√£o encontrado: {ratios_path}")
            logger.info("üí° Execute primeiro o c√°lculo dos ratios financeiros")
            return None
        
        ratios_df = pd.read_parquet(ratios_path)
        logger.info(f"‚úÖ Dados de ratios carregados: {ratios_df.shape}")
        
        # 3. CALCULAR SCORES INDIVIDUAIS
        individual_scores_df = scoring_system.calculate_individual_scores(ratios_df)
        
        # 4. CALCULAR SCORE COMPOSTO
        final_scores_df = scoring_system.calculate_composite_score(individual_scores_df)
        
        # 5. VALIDAR SISTEMA
        validation_report = scoring_system.validate_scoring_system(final_scores_df)
        
        # 6. SALVAR RESULTADOS
        output_dir = Path("data/aurum_final_scores")
        output_dir.mkdir(parents=True, exist_ok=True)
        
        # Salvar scores finais
        final_output_path = output_dir / "aurum_advanced_scores.parquet"
        final_scores_df.to_parquet(final_output_path, index=False)
        
        # Salvar apenas os mais recentes
        latest_scores = final_scores_df.sort_values(['CNPJ_CIA', 'DT_FIM_EXERC']).groupby('CNPJ_CIA').last().reset_index()
        latest_output_path = output_dir / "aurum_latest_advanced_scores.parquet"
        latest_scores.to_parquet(latest_output_path, index=False)
        
        # Salvar configura√ß√£o
        config_path = scoring_system.save_scoring_configuration()
        
        # 7. RELAT√ìRIO FINAL
        print("\n" + "="*70)
        print("üéâ SISTEMA DE SCORING AURUM - RESULTADOS FINAIS")
        print("="*70)
        
        basic_stats = validation_report['basic_stats']
        distribution = validation_report['distribution']
        
        print(f"\nüìä ESTAT√çSTICAS GERAIS:")
        print(f"   ‚Ä¢ Empresas no dataset: {basic_stats['total_companies']:,}")
        print(f"   ‚Ä¢ Empresas com score:  {basic_stats['companies_with_scores']:,}")
        print(f"   ‚Ä¢ Score m√©dio: {basic_stats['score_mean']:.2f}")
        print(f"   ‚Ä¢ Score mediano: {basic_stats['score_median']:.2f}")
        print(f"   ‚Ä¢ Melhor score: {basic_stats['score_max']:.2f}")
        print(f"   ‚Ä¢ Pior score: {basic_stats['score_min']:.2f}")
        
        print(f"\nüìà DISTRIBUI√á√ÉO DAS NOTAS:")
        print(f"   ‚Ä¢ Nota A (Excelente): {distribution['grade_A']:3d} empresas")
        print(f"   ‚Ä¢ Nota B (Boa):       {distribution['grade_B']:3d} empresas") 
        print(f"   ‚Ä¢ Nota C (Regular):   {distribution['grade_C']:3d} empresas")
        print(f"   ‚Ä¢ Nota D (Baixa):     {distribution['grade_D']:3d} empresas")
        print(f"   ‚Ä¢ Nota E (Muito Baixa): {distribution['grade_E']:3d} empresas")
        
        print(f"\nü•á TOP 10 EMPRESAS POR QUALIDADE:")
        top_10 = latest_scores.nlargest(10, 'aurum_quality_score')[
            ['DENOM_CIA', 'aurum_quality_score', 'quality_grade', 'quality_description']
        ]
        
        for i, (_, row) in enumerate(top_10.iterrows(), 1):
            print(f"   {i:2d}. {row['DENOM_CIA'][:35]:35} {row['aurum_quality_score']:6.2f} ({row['quality_grade']})")
        
        print(f"\nüìã CONTRIBUI√á√ÉO DAS M√âTRICAS:")
        metric_contrib = validation_report['metric_contribution']
        for metric_name, contrib_info in list(metric_contrib.items())[:6]:  # Mostrar top 6
            diff = contrib_info['actual_contribution'] - contrib_info['weight']
            diff_symbol = "+" if diff > 0 else ""
            print(f"   ‚Ä¢ {metric_name:15}: {contrib_info['actual_contribution']:5.1f}% (peso: {contrib_info['weight']:.1f}%) {diff_symbol}{diff:+.1f}%")
        
        weight_summary = validation_report['weight_summary']
        print(f"\n‚öñÔ∏è  RESUMO DE PESOS:")
        print(f"   ‚Ä¢ Peso te√≥rico total: {weight_summary['total_theoretical_weight']}%")
        print(f"   ‚Ä¢ Peso real total:    {weight_summary['total_actual_weight']}%")
        
        print(f"\nüíæ ARQUIVOS GERADOS:")
        print(f"   ‚Ä¢ Scores completos: {final_output_path}")
        print(f"   ‚Ä¢ Scores recentes:  {latest_output_path}")
        print(f"   ‚Ä¢ Configura√ß√£o:     {config_path}")
        
        return {
            'scoring_system': scoring_system,
            'final_scores': final_scores_df,
            'latest_scores': latest_scores,
            'validation_report': validation_report
        }
        
    except Exception as e:
        logger.error(f"‚ùå Erro no sistema de scoring: {e}")
        import traceback
        logger.error(traceback.format_exc())
        raise

# Fun√ß√£o para an√°lise r√°pida de m√©tricas
def analyze_metric_importance():
    """Analisa a import√¢ncia de cada m√©trica no sistema de scoring"""
    scoring_system = AurumScoringSystem()
    
    print("\nüîç AN√ÅLISE DE IMPORT√ÇNCIA DAS M√âTRICAS")
    print("="*50)
    
    metrics_by_category = {
        'RENTABILIDADE': ['ROE', 'ROA', 'MARGEM_EBIT', 'MARGEM_LIQUIDA', 'MARGEM_BRUTA'],
        'SOLV√äNCIA': ['ALAVANCAGEM', 'DIVIDA_PL', 'LIQUIDEZ_CORRENTE', 'GIRO_ATIVO'],
        'CRESCIMENTO': ['CRESC_RECEITA', 'CRESC_LUCRO'],
        'EFICI√äNCIA': ['SENTIMENT_MEDIO', 'VOLATILIDADE']
    }
    
    total_weight = 0
    for category, metrics in metrics_by_category.items():
        category_weight = sum(
            scoring_system.scoring_metrics[metric].weight 
            for metric in metrics 
            if metric in scoring_system.scoring_metrics
        )
        total_weight += category_weight
        
        print(f"\nüìä {category}: {category_weight*100:.1f}%")
        for metric in metrics:
            if metric in scoring_system.scoring_metrics:
                metric_config = scoring_system.scoring_metrics[metric]
                print(f"   ‚Ä¢ {metric:20} {metric_config.weight*100:5.1f}% - {metric_config.description}")
    
    print(f"\nüìà SOMA TOTAL: {total_weight*100:.1f}%")

if __name__ == "__main__":
    # Executar sistema completo
    results = run_advanced_scoring_system()
    
    # Mostrar an√°lise de import√¢ncia
    analyze_metric_importance()
    
    print("\nüéØ PR√ìXIMOS PASSOS SUGERIDOS:")
    print("   1. Analisar correla√ß√£o entre scores e performance futura")
    print("   2. Ajustar pesos baseado em backtesting hist√≥rico") 
    print("   3. Implementar ajustes setoriais espec√≠ficos")
    print("   4. Criar dashboard de monitoramento dos scores")

ERROR:__main__:‚ùå Arquivo de ratios n√£o encontrado: data/aurum_master_features.parquet



üîç AN√ÅLISE DE IMPORT√ÇNCIA DAS M√âTRICAS

üìä RENTABILIDADE: 47.0%
   ‚Ä¢ ROE                   18.0% - Return on Equity - Efici√™ncia do capital pr√≥prio
   ‚Ä¢ ROA                   12.0% - Return on Assets - Efici√™ncia dos ativos
   ‚Ä¢ MARGEM_EBIT            8.0% - Margem Operacional - Ebit/Receita
   ‚Ä¢ MARGEM_LIQUIDA         5.0% - Margem L√≠quida - Lucro/Receita
   ‚Ä¢ MARGEM_BRUTA           4.0% - Margem Bruta - Lucro Bruto/Receita

üìä SOLV√äNCIA: 33.0%
   ‚Ä¢ ALAVANCAGEM            9.0% - Alavancagem Total - Passivo/Ativo
   ‚Ä¢ DIVIDA_PL              9.0% - D√≠vida/Patrim√¥nio L√≠quido
   ‚Ä¢ LIQUIDEZ_CORRENTE      8.0% - Liquidez Corrente - Ativo Circulante/Passivo Circulante
   ‚Ä¢ GIRO_ATIVO             7.0% - Giro do Ativo - Receita/Ativo Total

üìä CRESCIMENTO: 10.0%
   ‚Ä¢ CRESC_RECEITA          5.0% - Crescimento da Receita (anual)
   ‚Ä¢ CRESC_LUCRO            5.0% - Crescimento do Lucro L√≠quido (anual)

üìä EFICI√äNCIA: 10.0%
   ‚Ä¢ SENTIMENT_MEDIO       


---

### **Documenta√ß√£o**: Script de Coleta de Not√≠cias (Google News RSS)

#### **1. Objetivo**

Este script implementa parte do Pilar 2 (Qualidade da Comunica√ß√£o) do projeto Aurum. Sua responsabilidade √© automatizar a coleta de not√≠cias financeiras recentes para cada empresa (ticker) listada no √≠ndice IBRX-100.

O script utiliza o *feed RSS do Google News* como fonte de dados, buscando men√ß√µes a cada ticker nos √∫ltimos 30 dias. Os dados brutos coletados s√£o a base para a futura an√°lise de sentimento (NLP).

#### **2. Configura√ß√£o (Input)**

O script depende de um √∫nico arquivo de entrada:

* `tickers_ibrx100_full.csv`: Um arquivo CSV que deve conter a lista completa de tickers do IBRX-100.
    * Formato esperado: O script l√™ a **primeira coluna** deste arquivo. Os tickers podem estar no formato `PETR4.SA` ou `PETR4`. A fun√ß√£o `load_tickers_from_csv` remove automaticamente o sufixo `.SA` para otimizar a busca no Google News.

#### **3. Sa√≠da (Output)**

O script gera dois arquivos id√™nticos em conte√∫do, localizados em `data/news/`:

1.  `raw_news_data.parquet`
2.  `raw_news_data.csv`

O schema (colunas) do DataFrame salvo √©:

| Coluna | Tipo | Descri√ß√£o |
| :--- | :--- | :--- |
| `ticker_query` | string | O ticker usado na busca (ex: `PETR4`). |
| `title` | string | O t√≠tulo da not√≠cia. |
| `link` | string | O link original da not√≠cia. |
| `published_date` | datetime | A data e hora da publica√ß√£o (j√° convertida). |
| `source` | string | O nome do ve√≠culo de m√≠dia (ex: "InfoMoney"). |
| `summary` | string | Um pequeno resumo ou *snippet* da not√≠cia (HTML). |

---

In [None]:
# Diret√≥rio para salvar os dados
DATA_DIR = "data"
NEWS_DIR = os.path.join(DATA_DIR, "news")
os.makedirs(NEWS_DIR, exist_ok=True)

def load_tickers_from_csv(file_path: str) -> list:
    """Carrega a lista de tickers a partir de um arquivo CSV."""
    df = pd.read_csv(file_path)
    tickers = df.iloc[:, 0].dropna().astype(str).tolist()
    # Remove o sufixo '.SA' para usar na busca de not√≠cias
    return [t.replace('.SA', '') for t in tickers]

def fetch_news_for_ticker(ticker: str):
    """Busca not√≠cias para um ticker espec√≠fico usando o RSS do Google News."""
    raw_query = f'"{ticker}" when:30d'
    search_query = urllib.parse.quote(raw_query)
    url = f"https://news.google.com/rss/search?q={search_query}&hl=pt-BR&gl=BR&ceid=BR:pt-419"
    
    feed = feedparser.parse(url)
    
    news_items = []
    for entry in feed.entries:
        news_items.append({
            'ticker_query': ticker,
            'title': entry.title,
            'link': entry.link,
            'published_date': entry.published,
            'source': entry.source.title,
            'summary': entry.summary
        })
    return news_items


if __name__ == "__main__":
    tickers_csv_path = "tickers_ibrx100_full.csv"
    tickers = load_tickers_from_csv(tickers_csv_path)
    
    all_news = []
    
    print("Iniciando a coleta de not√≠cias via Google News RSS...")
    for ticker in tqdm(tickers, desc="Buscando not√≠cias"):
        try:
            news = fetch_news_for_ticker(ticker)
            if news:
                all_news.extend(news)
            time.sleep(0.5)
        except Exception as e:
            print(f"Erro ao buscar not√≠cias para {ticker}: {e}")

    if not all_news:
        print("\nNenhuma not√≠cia foi coletada. Verifique a conex√£o ou a consulta de busca. Encerrando.")
    else:
        df_news = pd.DataFrame(all_news)
        df_news.drop_duplicates(subset=['title', 'link'], inplace=True)
        df_news['published_date'] = pd.to_datetime(df_news['published_date'])
        
        # --- SALVANDO ARQUIVOS ---
        output_path_parquet = os.path.join(NEWS_DIR, "raw_news_data.parquet")
        output_path_csv = os.path.join(NEWS_DIR, "raw_news_data.csv")

        # Salva em Parquet
        df_news.to_parquet(output_path_parquet, index=False)
        
        # Salva em CSV
        df_news.to_csv(output_path_csv, index=False)
        
        print(f"\nColeta conclu√≠da. {len(df_news)} not√≠cias √∫nicas salvas.")
        print(f"-> {output_path_parquet}")
        print(f"-> {output_path_csv}")
        print("\nAmostra das not√≠cias coletadas:")
        print(df_news.head())

### **Documenta√ß√£o:** Script de Amostragem e An√°lise (AurumDataSampler)

#### **1. Objetivo**

Este √© um **script utilit√°rio** de An√°lise Explorat√≥ria de Dados (EDA). Seu principal objetivo √© ajudar o desenvolvedor a entender o ecossistema de dados do projeto Aurum, que est√° em constante evolu√ß√£o.

Ele **n√£o coleta** novos dados. Em vez disso, ele **varre** o diret√≥rio `data/` em busca de todos os arquivos de dados `.parquet` j√° processados e, para cada um, executa as seguintes a√ß√µes:
1.  **Descobre:** Lista todos os datasets `.parquet` dispon√≠veis.
2.  **Amostra:** Carrega uma amostra pequena e inteligente dos dados (usando amostragem estratificada por data, se poss√≠vel).
3.  **Analisa:** Gera um relat√≥rio b√°sico de qualidade dos dados (contagem de linhas, colunas, tipos de dados, valores nulos, duplicatas e estat√≠sticas num√©ricas).
4.  **Reporta:** Salva as amostras em arquivos `.csv` f√°ceis de visualizar e cria um relat√≥rio consolidado em `.json`.

Este script √© fundamental para validar rapidamente a sa√≠da de cada etapa do pipeline (coleta de not√≠cias, processamento de fundamentos, etc.).

#### **2. Configura√ß√£o (Input)**

O script foi projetado para funcionar sem configura√ß√£o manual. Ele assume a seguinte estrutura de diret√≥rio:

* **data/ (Diret√≥rio Raiz):** O script inicia sua busca aqui.
* **.parquet** (Arquivos Alvo):** Ele procurar√° recursivamente em **todos** os subdiret√≥rios dentro de data/ por qualquer arquivo que termine com a extens√£o .parquet.

## 3. Sa√≠da (Output)

Ao executar main(), o script cria um novo diret√≥rio: data/samples/. Este diret√≥rio conter√°:

1.  **Amostras em CSV (`*.sample.csv`):**
    * `raw_news_data_sample.csv`
    * `fundamentals_wide_sample.csv`
    * `aurum_quality_scores_complete_sample.csv`
    * *(...e um `.csv` para cada `.parquet` encontrado)*

2.  **Relat√≥rio Consolidado (`aurum_sampling_report.json`):**
    * Um √∫nico arquivo JSON que armazena os metadados e a an√°lise de qualidade de todos os datasets processados. Este arquivo √© ideal para monitoramento program√°tico do "data health" (sa√∫de dos dados) do projeto.

---

In [None]:
import pandas as pd
import numpy as np
from pathlib import Path
import logging
from typing import Dict, List, Optional
import json

# Configura√ß√£o de logging
logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')
logger = logging.getLogger(__name__)

class AurumDataSampler:
    """
    Classe para amostragem e an√°lise explorat√≥ria dos dados do Aurum
    """
    
    def __init__(self, base_path: str = "data"):
        self.base_path = Path(base_path)
        self.sample_size = 100  # Tamanho padr√£o da amostra
        
    def list_available_datasets(self) -> Dict[str, Path]:
        """
        Lista todos os datasets Parquet dispon√≠veis
        """
        datasets = {}
        
        # Procurar recursivamente por arquivos .parquet
        for parquet_file in self.base_path.rglob("*.parquet"):
            relative_path = parquet_file.relative_to(self.base_path)
            datasets[str(relative_path)] = parquet_file
            
        return datasets
    
    def load_dataset_sample(self, dataset_path: Path, sample_size: int = None, 
                          random_state: int = 42) -> pd.DataFrame:
        """
        Carrega uma amostra representativa do dataset
        """
        if sample_size is None:
            sample_size = self.sample_size
            
        logger.info(f"üìä Carregando amostra de {dataset_path}...")
        
        try:
            # Ler o dataset completo para obter metadados
            full_df = pd.read_parquet(dataset_path)
            total_rows = len(full_df)
            
            logger.info(f"   üìà Dataset completo: {total_rows} linhas, {len(full_df.columns)} colunas")
            
            # Estrat√©gias de amostragem baseadas no tamanho do dataset
            if total_rows <= sample_size:
                # Dataset pequeno - retornar tudo
                sample_df = full_df.copy()
                logger.info("   üîç Dataset pequeno - retornando dados completos")
            else:
                # Dataset grande - amostragem estratificada quando poss√≠vel
                sample_df = self._stratified_sampling(full_df, sample_size, random_state)
                
            return sample_df
            
        except Exception as e:
            logger.error(f"‚ùå Erro ao carregar {dataset_path}: {e}")
            return pd.DataFrame()
    
    def _stratified_sampling(self, df: pd.DataFrame, sample_size: int, random_state: int) -> pd.DataFrame:
        """
        Amostragem estratificada tentando manter propor√ß√µes de categorias importantes
        """
        sample_df = df.copy()
        
        # Tentar estratificar por ano se a coluna existir
        year_columns = [col for col in sample_df.columns if 'ANO' in col or 'YEAR' in col or 'DATA' in col]
        
        if year_columns:
            try:
                year_col = year_columns[0]
                # Amostragem estratificada por ano
                stratified_sample = sample_df.groupby(year_col, group_keys=False).apply(
                    lambda x: x.sample(n=min(len(x), max(1, sample_size // sample_df[year_col].nunique())), 
                                      random_state=random_state)
                )
                
                # Se a amostra estratificada for muito pequena, completar com amostra aleat√≥ria
                if len(stratified_sample) < sample_size:
                    remaining = sample_size - len(stratified_sample)
                    additional_sample = sample_df.drop(stratified_sample.index).sample(
                        n=remaining, random_state=random_state)
                    stratified_sample = pd.concat([stratified_sample, additional_sample])
                
                logger.info(f"   üéØ Amostragem estratificada por {year_col}: {len(stratified_sample)} linhas")
                return stratified_sample
                
            except Exception as e:
                logger.warning(f"   ‚ö†Ô∏è Amostragem estratificada falhou: {e}")
        
        # Fallback: amostra aleat√≥ria simples
        simple_sample = sample_df.sample(n=min(sample_size, len(sample_df)), random_state=random_state)
        logger.info(f"   üé≤ Amostra aleat√≥ria simples: {len(simple_sample)} linhas")
        return simple_sample
    
    def generate_basic_report(self, dataset_path: Path, sample_size: int = 50) -> Dict:
        """
        Gera relat√≥rio b√°sico do dataset (sem dados complexos para JSON)
        """
        # Carregar amostra
        sample_df = self.load_dataset_sample(dataset_path, sample_size)
        
        if sample_df.empty:
            return {
                'dataset_name': dataset_path.name,
                'dataset_path': str(dataset_path),
                'error': 'Falha ao carregar dataset'
            }
        
        # Estat√≠sticas b√°sicas
        basic_stats = {
            'total_rows_original': len(pd.read_parquet(dataset_path)),
            'sample_size': len(sample_df),
            'columns_count': len(sample_df.columns),
            'memory_usage_mb': round(sample_df.memory_usage(deep=True).sum() / 1024**2, 2),
            'columns_list': list(sample_df.columns),
            'dtypes': {col: str(dtype) for col, dtype in sample_df.dtypes.items()}
        }
        
        # Informa√ß√µes de data
        date_info = self._get_date_info(sample_df)
        
        # Qualidade b√°sica dos dados
        quality_info = self._get_basic_quality_info(sample_df)
        
        report = {
            'dataset_name': dataset_path.name,
            'dataset_path': str(dataset_path),
            'basic_stats': basic_stats,
            'date_info': date_info,
            'quality_info': quality_info
        }
        
        return report
    
    def _get_date_info(self, df: pd.DataFrame) -> Dict:
        """Extrai informa√ß√µes de data de forma segura"""
        date_info = {}
        date_columns = df.select_dtypes(include=['datetime64']).columns
        
        for col in date_columns:
            try:
                if col in df.columns and not df[col].isna().all():
                    date_info[col] = {
                        'min': str(df[col].min()),
                        'max': str(df[col].max()),
                        'null_count': int(df[col].isna().sum()),
                        'null_percentage': round((df[col].isna().sum() / len(df)) * 100, 2)
                    }
            except Exception as e:
                date_info[col] = {'error': f'Erro ao processar: {str(e)}'}
        
        return date_info
    
    def _get_basic_quality_info(self, df: pd.DataFrame) -> Dict:
        """Analisa qualidade b√°sica dos dados"""
        quality_info = {
            'total_rows': len(df),
            'complete_cases': len(df.dropna()),
            'duplicate_rows': int(df.duplicated().sum()),
            'columns_quality': {}
        }
        
        for column in df.columns:
            try:
                col_data = df[column]
                col_info = {
                    'dtype': str(col_data.dtype),
                    'null_count': int(col_data.isna().sum()),
                    'null_percentage': round((col_data.isna().sum() / len(df)) * 100, 2),
                    'unique_count': int(col_data.nunique())
                }
                
                # Estat√≠sticas para colunas num√©ricas
                if pd.api.types.is_numeric_dtype(col_data):
                    col_info.update({
                        'mean': float(col_data.mean()) if not col_data.isna().all() else None,
                        'std': float(col_data.std()) if not col_data.isna().all() else None,
                        'min': float(col_data.min()) if not col_data.isna().all() else None,
                        'max': float(col_data.max()) if not col_data.isna().all() else None
                    })
                
                quality_info['columns_quality'][column] = col_info
                
            except Exception as e:
                quality_info['columns_quality'][column] = {'error': f'Erro na an√°lise: {str(e)}'}
        
        return quality_info
    
    def create_simple_sampling_report(self, output_dir: str = "data/samples") -> Dict:
        """
        Cria relat√≥rio simplificado de amostragem para todos os datasets
        """
        output_path = Path(output_dir)
        output_path.mkdir(parents=True, exist_ok=True)
        
        datasets = self.list_available_datasets()
        reports = {}
        
        logger.info("üîç INICIANDO AMOSTRAGEM DOS DATASETS AURUM")
        logger.info(f"üìÅ Encontrados {len(datasets)} datasets:")
        
        for name, path in datasets.items():
            logger.info(f"   üìä {name}")
        
        print("\n" + "="*60)
        print("üéØ RELAT√ìRIO DE AMOSTRAGEM - AURUM DATA SAMPLES")
        print("="*60)
        
        for dataset_name, dataset_path in datasets.items():
            print(f"\nüìÅ DATASET: {dataset_name}")
            print("-" * 40)
            
            # Gerar relat√≥rio b√°sico
            report = self.generate_basic_report(dataset_path)
            reports[dataset_name] = report
            
            # Carregar amostra para salvar como CSV
            sample_df = self.load_dataset_sample(dataset_path, 50)
            
            if not sample_df.empty:
                # Salvar amostra como CSV
                sample_csv_path = output_path / f"{dataset_path.stem}_sample.csv"
                sample_df.to_csv(sample_csv_path, index=False, encoding='utf-8')
                
                # Mostrar resumo no console
                basic_stats = report['basic_stats']
                print(f"üìà Estat√≠sticas:")
                print(f"   ‚Ä¢ Linhas totais: {basic_stats['total_rows_original']:,}")
                print(f"   ‚Ä¢ Amostra: {basic_stats['sample_size']} linhas")
                print(f"   ‚Ä¢ Colunas: {basic_stats['columns_count']}")
                print(f"   ‚Ä¢ Uso de mem√≥ria: {basic_stats['memory_usage_mb']:.2f} MB")
                
                # Mostrar primeiras linhas
                print(f"\nüëÄ Primeiras 3 linhas da amostra:")
                print(sample_df.head(3).to_string(index=False))
                
                print(f"\nüíæ Amostra salva em: {sample_csv_path}")
            else:
                print("‚ùå N√£o foi poss√≠vel carregar amostra deste dataset")
        
        # Salvar relat√≥rio consolidado (agora seguro para JSON)
        report_path = output_path / "aurum_sampling_report.json"
        
        try:
            with open(report_path, 'w', encoding='utf-8') as f:
                json.dump(reports, f, indent=2, ensure_ascii=False, default=str)
            logger.info(f"üìã Relat√≥rio consolidado salvo em: {report_path}")
        except Exception as e:
            logger.error(f"‚ùå Erro ao salvar relat√≥rio JSON: {e}")
        
        return reports

    def quick_preview(self, dataset_pattern: str = None, sample_size: int = 10):
        """
        Visualiza√ß√£o r√°pida dos datasets
        """
        datasets = self.list_available_datasets()
        
        print("üöÄ VISUALIZA√á√ÉO R√ÅPIDA DOS DATASETS AURUM")
        print("=" * 50)
        
        for name, path in datasets.items():
            if dataset_pattern and dataset_pattern.lower() not in name.lower():
                continue
                
            print(f"\nüìä {name}")
            print("-" * 40)
            
            sample_df = self.load_dataset_sample(path, sample_size)
            if not sample_df.empty:
                print(f"üìã Shape: {sample_df.shape}")
                print(f"üéØ Amostra de {len(sample_df)} linhas:")
                print(sample_df.to_string(index=False))
            else:
                print("‚ùå N√£o foi poss√≠vel carregar amostra")
            
            print("\n" + "=" * 50)

# Fun√ß√µes de uso r√°pido
def quick_sample(dataset_pattern: str, sample_size: int = 15) -> pd.DataFrame:
    """
    Fun√ß√£o r√°pida para obter amostra de datasets que correspondam ao padr√£o
    """
    sampler = AurumDataSampler()
    datasets = sampler.list_available_datasets()
    
    matching_datasets = []
    for name, path in datasets.items():
        if dataset_pattern.lower() in name.lower():
            matching_datasets.append((name, path))
    
    if not matching_datasets:
        available = "\n".join(datasets.keys())
        print(f"‚ùå Nenhum dataset encontrado com '{dataset_pattern}'.")
        print(f"üìÅ Datasets dispon√≠veis:\n{available}")
        return pd.DataFrame()
    
    if len(matching_datasets) == 1:
        name, path = matching_datasets[0]
        sample = sampler.load_dataset_sample(path, sample_size)
        print(f"üéØ Amostra de {name} ({len(sample)} linhas):")
        print(sample.to_string(index=False))
        return sample
    else:
        print(f"üîç M√∫ltiplos datasets encontrados com '{dataset_pattern}':")
        for i, (name, path) in enumerate(matching_datasets, 1):
            print(f"   {i}. {name}")
        
        choice = input("üëâ Escolha o n√∫mero do dataset (ou Enter para o primeiro): ").strip()
        try:
            choice_idx = int(choice) - 1 if choice else 0
            name, path = matching_datasets[choice_idx]
            sample = sampler.load_dataset_sample(path, sample_size)
            print(f"üéØ Amostra de {name} ({len(sample)} linhas):")
            print(sample.to_string(index=False))
            return sample
        except (ValueError, IndexError):
            print("‚ùå Escolha inv√°lida.")
            return pd.DataFrame()

def list_datasets():
    """Lista todos os datasets dispon√≠veis"""
    sampler = AurumDataSampler()
    datasets = sampler.list_available_datasets()
    
    print("üìÅ DATASETS DISPON√çVEIS NO AURUM:")
    print("=" * 50)
    
    for i, (name, path) in enumerate(datasets.items(), 1):
        try:
            # Tentar obter informa√ß√µes b√°sicas
            df_sample = pd.read_parquet(path, nrows=1)
            print(f"{i:2d}. {name}")
            print(f"    üìä Colunas: {len(df_sample.columns)}, Estilo: {df_sample.shape[1]}xN")
            print(f"    üìç {path}")
        except:
            print(f"{i:2d}. {name} (‚ùå erro ao carregar)")
    
    return datasets

# Execu√ß√£o principal
def main():
    """
    Executa amostragem completa de todos os datasets
    """
    sampler = AurumDataSampler()
    reports = sampler.create_simple_sampling_report()
    
    print("\n" + "="*60)
    print("‚úÖ AMOSTRAGEM CONCLU√çDA!")
    print("="*60)
    
    # Resumo final
    total_datasets = len(reports)
    successful_samples = sum(1 for report in reports.values() if 'error' not in report)
    
    print(f"üìä Resumo Final:")
    print(f"   ‚Ä¢ Datasets processados: {total_datasets}")
    print(f"   ‚Ä¢ Amostras geradas com sucesso: {successful_samples}")
    print(f"   ‚Ä¢ Local das amostras: data/samples/")
    
    print(f"\nüéØ COMANDOS R√ÅPIDOS:")
    print(f"   ‚Ä¢ list_datasets() - Lista todos os datasets")
    print(f"   ‚Ä¢ quick_sample('quality') - Amostra de datasets de qualidade")
    print(f"   ‚Ä¢ quick_sample('news') - Amostra de datasets de not√≠cias")
    print(f"   ‚Ä¢ quick_sample('fundamentals') - Amostra de dados fundamentalistas")

if __name__ == "__main__":
    main()

# Exemplos de uso ap√≥s execu√ß√£o
print("\n" + "="*60)
print("üöÄ EXEMPLOS DE USO R√ÅPIDO - EXECUTE AP√ìS O SCRIPT:")
print("="*60)
print("""
# Listar todos os datasets
list_datasets()

# Amostra r√°pida de datasets de qualidade
quick_sample('quality', 10)

# Amostra de dados fundamentalistas  
quick_sample('fundamental', 15)

# Amostra de not√≠cias
quick_sample('news', 8)

# Visualiza√ß√£o r√°pida de tudo
sampler = AurumDataSampler()
sampler.quick_preview()
""")


üéØ RELAT√ìRIO DE AMOSTRAGEM - AURUM DATA SAMPLES

üìÅ DATASET: aurum_master_features.parquet
----------------------------------------
üìà Estat√≠sticas:
   ‚Ä¢ Linhas totais: 19,581
   ‚Ä¢ Amostra: 50 linhas
   ‚Ä¢ Colunas: 57
   ‚Ä¢ Uso de mem√≥ria: 0.03 MB

üëÄ Primeiras 3 linhas da amostra:
      date   ticker  Adj Close           CNPJ_CIA                                DENOM_CIA  Custo dos Bens e/ou Servi√ßos Vendidos         EBIT          EBT   Lucro Bruto  Lucro L√≠quido Consolidado  Receita L√≠quida  Ativo Circulante  Ativo N√£o Circulante  Ativo Total  Caixa e Equivalentes  D√≠vida Curto Prazo  D√≠vida Longo Prazo  Passivo Circulante  Passivo N√£o Circulante  Passivo Total  Patrim√¥nio L√≠quido Consolidado  Receita L√≠quida_ttm  Custo dos Bens e/ou Servi√ßos Vendidos_ttm  Lucro Bruto_ttm     EBIT_ttm      EBT_ttm  Lucro L√≠quido Consolidado_ttm  D√≠vida Bruta  Capital Investido  D√≠vida L√≠quida       ROE       ROA      ROIC  MARGEM_EBIT  MARGEM_LIQUIDA  MARGEM_BRUTA  ALA

: 