### **Documenta√ß√£o:** Calculadora de Quality Score (AurumQualityScoreCalculator)

#### **1. Objetivo**

Este script √© um dos pilares centrais do **Pilar 1 (Qualidade Financeira)** do projeto Aurum. Sua responsabilidade √© transformar os dados fundamentalistas brutos (extra√≠dos da CVM e formatados no `fundamentals_wide.parquet`) em m√©tricas de performance acion√°veis.

O script executa um pipeline completo que:
1.  Carrega os dados brutos da CVM.
2.  Calcula os valores **TTM (Trailing Twelve Months / √öltimos 12 Meses)**, corrigindo a natureza "Acumulada no Ano" (YTD) dos dados da CVM.
3.  Calcula um conjunto abrangente de **ratios financeiros** (Rentabilidade, Margens, Alavancagem, etc.) usando os dados TTM.
4.  Calcula um **Aurum Quality Score** inicial, baseado em um *ranking percentile cross-sectional* (por data) desses ratios.
5.  Salva os resultados hist√≥ricos e os mais recentes.

#### **2. Configura√ß√£o (Input)**

O script depende de um √∫nico arquivo de entrada, que deve ser gerado pelo pipeline de processamento da CVM:

* **`data/cvm/final/fundamentals_wide.parquet**: Um arquivo Parquet contendo os dados de Balan√ßo Patrimonial (BP) e Demonstra√ß√£o do Resultado (DRE) em formato "wide" (uma linha por empresa/data, m√∫ltiplas colunas de m√©tricas).
    * **Importante:** O script assume que os dados da DRE (ex: `Receita L√≠quida`, `Lucro Bruto`) est√£o no formato **YTD (Acumulado no Ano)**, que √© o padr√£o da CVM.

#### 3. Pipeline de Execu√ß√£o (Passo a Passo)

A classe **AurumQualityScoreCalculator** gerencia todo o fluxo de trabalho:

##### **Passo 1:** Carregar e Preparar Dados (`load_and_prepare_data`)

* Carrega o arquivo `fundamentals_wide.parquet`.
* Chama _clean_fundamentals_data para:
    * Converter DT_FIM_EXERC para datetime.
    * Remover quaisquer linhas duplicadas por CNPJ_CIA e DT_FIM_EXERC.
    * **Ordenar** os dados por CNPJ_CIA e DT_FIM_EXERC, o que √© **essencial** para o c√°lculo de TTM.

##### **Passo 2:** C√°lculo de TTM (`calculate_ttm_data`)

Este √© o passo mais cr√≠tico do script. Ele converte os dados de fluxo (DRE) de YTD para TTM.

* **L√≥gica:** O script agrupa por `CNPJ_CIA` e aplica a fun√ß√£o `rolling_sum_group`.
* **Desacumula√ß√£o (YTD -> Trimestral):** Para cada coluna de DRE, ele calcula o valor trimestral fazendo:
    quarterly = group[col] - group[col].shift(1).fillna(0)
* **Anualiza√ß√£o (Trimestral -> TTM):** Em seguida, ele calcula a soma m√≥vel dos √∫ltimos 4 valores trimestrais:
    group[f'{col}_ttm'] = quarterly.rolling(window=4, min_periods=4).sum()
* O resultado √© salvo em self.ratios_df, pronto para o c√°lculo dos ratios.

##### Passo 3: C√°lculo de Ratios Financeiros (`calculate_financial_ratios`)

* Usando o self.ratios_df (que agora cont√©m as colunas `_ttm`), este m√©todo calcula os principais indicadores financeiros.
* **Categorias:**
    * **Contas de D√≠vida: D√≠vida Bruta, D√≠vida L√≠quida, Capital Investido**.
    * **Rentabilidade (com TTM):** ROE, ROA, ROIC.
    * **Margens (com TTM):** MARGEM_EBIT, MARGEM_LIQUIDA, MARGEM_BRUTA.
    * **Alavancagem:** ALAVANCAGEM (Passivo/Ativo), DIVIDA_PL, DIVIDA_LIQ_EBIT.
    * **Liquidez:** LIQUIDEZ_CORRENTE.
    * **Efici√™ncia (com TTM):** GIRO_ATIVO.
* Usa safe_divide para evitar erros de divis√£o por zero.

##### Passo 3.1: Tratamento de Outliers (`_handle_ratio_outliers`)

* Ap√≥s o c√°lculo, os ratios s√£o limpos.
* Valores `infinitos` s√£o substitu√≠dos por `NaN`.
* Os dados s√£o "winsorizados": valores extremos s√£o "clipados" (limitados) aos **percentis 1% (inferior) e 99% (superior)**. Isso torna o scoring subsequente mais robusto.

##### Passo 4: C√°lculo do Score de Qualidade (`calculate_quality_scores`)

Este m√©todo implementa a **Metodologia de Ranking Cross-Sectional**.

* **Configura√ß√£o:** Define as m√©tricas, pesos e a dire√ß√£o (ex: `ROIC` -> maior √© melhor, `DIVIDA_LIQ_EBIT` -> menor √© melhor).
* **Ranking por Data:** O script agrupa os dados por `DT_FIM_EXERC` (`grouped_by_date`).
* Para cada m√©trica, ele calcula o **ranking percentile** de cada empresa *dentro daquele per√≠odo*:
    `scores_df[score_col] = grouped_by_date[metric].rank(pct=True) * 100`
* **Score Composto:** O `aurum_quality_score` √© calculado como a soma ponderada desses rankings (percentis de 0 a 100). Valores `NaN` s√£o preenchidos com a mediana (50) para n√£o penalizar empresas excessivamente.
* **Classifica√ß√£o Final:** O script calcula `quality_quintile` e `quality_grade` (A-E) com base no ranking *final* do `aurum_quality_score` de cada per√≠odo.

##### Passo 5 e 6: Salvar Resultados (`get_latest_scores` e `save_results`)

* O script gera e salva quatro arquivos distintos no diret√≥rio `data/aurum_scores_output/`.

#### 6. Fluxograma
```mermaid
flowchart TD
    %% --- INPUT ---
    Input[("üìÇ <b>Input</b><br/>fundamentals_wide.parquet")]
    
    %% --- PREPARA√á√ÉO ---
    subgraph Prep ["1. Prepara√ß√£o"]
        Clean["<b>Limpeza & Ordena√ß√£o</b><br/>Sort by: CNPJ + Data"]
    end
    
    %% --- TTM ---
    subgraph TTM ["2. C√°lculo TTM"]
        Desac["<b>Desacumula√ß√£o</b><br/>YTD ‚Üí Trimestral"]
        Roll["<b>Soma M√≥vel (Rolling 4)</b><br/>Trimestral ‚Üí TTM (12 Meses)"]
    end
    
    %% --- RATIOS ---
    subgraph Ratios ["3. Ratios Financeiros"]
        CalcRat["<b>C√°lculo de Indicadores</b><br/>ROIC, ROE, D√≠vida L√≠quida..."]
        Outliers["<b>Tratamento de Outliers</b><br/>Winsorization (Clip 1% - 99%)"]
    end
    
    %% --- SCORING ---
    subgraph Score ["4. Scoring Cross-Sectional"]
        Group["<b>Agrupamento por Data</b><br/>(Compara√ß√£o Temporal Justa)"]
        Rank["<b>Ranking Percentile</b><br/>0 a 100 para cada m√©trica"]
        Weight["<b>M√©dia Ponderada</b><br/>Aplica√ß√£o dos Pesos (ex: ROIC 25%)"]
        Grade["<b>Classifica√ß√£o Final</b><br/>Quintis e Notas (A-E)"]
    end
    
    %% --- OUTPUTS ---
    subgraph Outputs ["5. Sa√≠da"]
        Hist[("üíæ <b>Hist√≥rico Completo</b><br/>.parquet / .csv")]
        Latest[("üíæ <b>√öltimo Per√≠odo</b><br/>.parquet / .csv")]
        Stats[("üìÑ <b>Relat√≥rio Estat√≠stico</b><br/>.txt")]
    end

    %% --- LIGA√á√ïES ---
    Input --> Clean
    Clean --> Desac --> Roll
    Roll --> CalcRat --> Outliers
    Outliers --> Group --> Rank --> Weight --> Grade
    Grade --> Hist & Latest & Stats
```
#### 7. Sa√≠da (Output)

A execu√ß√£o do script gera os seguintes arquivos em `data/aurum_scores_output/`:

1.  **`aurum_quality_scores_complete.parquet`**:
    * O arquivo mais importante. Cont√©m o **hist√≥rico completo** de todas as empresas, datas, ratios calculados e scores. Este ser√° o input para o `AurumScoringSystem` avan√ßado e para o *backtesting*.

2.  **`aurum_quality_scores_latest.parquet`**:
    * Um arquivo de conveni√™ncia que cont√©m apenas o **√∫ltimo registro (data mais recente)** de score/ratios para cada empresa.

3.  **`aurum_quality_scores_latest.csv`**:
    * Vers√£o CSV do arquivo acima, para f√°cil visualiza√ß√£o em planilhas.

4.  **`aurum_scores_statistics.txt`**:
    * Um relat√≥rio de texto (`.txt`) leg√≠vel, mostrando as estat√≠sticas do √∫ltimo per√≠odo (distribui√ß√£o de notas, Top 10 empresas) para uma verifica√ß√£o r√°pida.

---

In [2]:
import pandas as pd
import numpy as np
from pathlib import Path
import logging
import warnings
from tqdm import tqdm

warnings.filterwarnings('ignore')
logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')
logger = logging.getLogger(__name__)
tqdm.pandas()

class AurumQualityScoreCalculator:
    """ Calcula TTM, ratios financeiros (incluindo ROIC correto) e scores """

    def __init__(self, fundamentals_path: str):
        self.fundamentals_path = Path(fundamentals_path)
        self.fundamentals_df = None
        self.ratios_df = None
        self.scores_df = None
        self.dre_cols = [
            'Receita L√≠quida', 'Custo dos Bens e/ou Servi√ßos Vendidos',
            'Lucro Bruto', 'EBIT', 'EBT', 'Lucro L√≠quido Consolidado'
        ]

    def load_and_prepare_data(self) -> pd.DataFrame:
        logger.info("üì• 1. CARREGANDO NOVO fundamentals_wide.parquet...")
        try:
            self.fundamentals_df = pd.read_parquet(self.fundamentals_path)
            logger.info(f"‚úÖ Dados carregados: {self.fundamentals_df.shape}")
            logger.info(f"Colunas encontradas: {self.fundamentals_df.columns.tolist()}")
            new_cols = ['Caixa e Equivalentes', 'D√≠vida Curto Prazo', 'D√≠vida Longo Prazo']
            missing_new = [col for col in new_cols if col not in self.fundamentals_df.columns]
            if missing_new:
                 logger.error(f"‚ùå ERRO: Novas colunas {missing_new} N√ÉO encontradas no input!")
                 raise ValueError(f"Novas colunas faltando: {missing_new}")
            else:
                 logger.info("‚úÖ Novas colunas (Caixa, D√≠vida CP, D√≠vida LP) encontradas!")

            self.fundamentals_df = self._clean_fundamentals_data(self.fundamentals_df)
            return self.fundamentals_df
        except Exception as e:
            logger.error(f"‚ùå Erro ao carregar dados: {e}")
            raise

    def _clean_fundamentals_data(self, df: pd.DataFrame) -> pd.DataFrame:
        df_clean = df.copy()
        df_clean['DT_FIM_EXERC'] = pd.to_datetime(df_clean['DT_FIM_EXERC'], errors='coerce')
        df_clean = df_clean.dropna(subset=['DT_FIM_EXERC'])
        df_clean = df_clean.drop_duplicates(subset=['CNPJ_CIA', 'DT_FIM_EXERC'])
        df_clean = df_clean.sort_values(['CNPJ_CIA', 'DT_FIM_EXERC'])
        return df_clean

    def calculate_ttm_data(self) -> pd.DataFrame:
        if self.fundamentals_df is None: raise ValueError("Dados n√£o carregados.")
        logger.info("‚è≥ 2. CALCULANDO TTM...")
        df_ttm = self.fundamentals_df.copy()
        def rolling_sum_group(group):
            for col in self.dre_cols:
                if col in group.columns:
                    quarterly = group[col] - group[col].shift(1).fillna(0)
                    group[f'{col}_ttm'] = quarterly.rolling(window=4, min_periods=4).sum()
                else: group[f'{col}_ttm'] = np.nan
            return group
        grouped = df_ttm.groupby('CNPJ_CIA', group_keys=False)
        self.ratios_df = grouped.progress_apply(rolling_sum_group)
        logger.info(f"‚úÖ TTM calculado.")
        return self.ratios_df

    def calculate_financial_ratios(self) -> pd.DataFrame:
        """ PASSO 3: Calcula ratios (com ROIC correto e ratios de d√≠vida) """
        if self.ratios_df is None: raise ValueError("Dados TTM n√£o calculados.")
        logger.info("üßÆ 3. CALCULANDO RATIOS FINANCEIROS (COM TTM)...")
        df = self.ratios_df.copy()

        def get_col(df, col_name): return df.get(col_name, np.nan)
        def safe_divide(num, den): return np.where(den == 0, np.nan, num / den)

        divida_cp = get_col(df, 'D√≠vida Curto Prazo').fillna(0) 
        divida_lp = get_col(df, 'D√≠vida Longo Prazo').fillna(0)
        caixa = get_col(df, 'Caixa e Equivalentes').fillna(0)   
        pl = get_col(df, 'Patrim√¥nio L√≠quido Consolidado').fillna(0)
        
        df['D√≠vida Bruta'] = divida_cp + divida_lp
        df['Capital Investido'] = df['D√≠vida Bruta'] + pl 
        df['D√≠vida L√≠quida'] = df['D√≠vida Bruta'] - caixa 
        logger.info("‚úÖ D√≠vida Bruta, Capital Investido e D√≠vida L√≠quida calculados.")

        logger.info("üìà Calculando RENTABILIDADE...")
        df['ROE'] = safe_divide(get_col(df, 'Lucro L√≠quido Consolidado_ttm'), pl)
        df['ROA'] = safe_divide(get_col(df, 'Lucro L√≠quido Consolidado_ttm'), get_col(df, 'Ativo Total'))
        df['ROIC'] = safe_divide(get_col(df, 'EBIT_ttm'), df['Capital Investido'])
        logger.info(f"‚úÖ ROIC (correto) calculado. M√©dia: {df['ROIC'].mean():.4f}")

        df['MARGEM_EBIT'] = safe_divide(get_col(df, 'EBIT_ttm'), get_col(df, 'Receita L√≠quida_ttm'))
        df['MARGEM_LIQUIDA'] = safe_divide(get_col(df, 'Lucro L√≠quido Consolidado_ttm'), get_col(df, 'Receita L√≠quida_ttm'))
        df['MARGEM_BRUTA'] = safe_divide(get_col(df, 'Lucro Bruto_ttm'), get_col(df, 'Receita L√≠quida_ttm'))

        logger.info("‚öñÔ∏è Calculando ALAVANCAGEM...")
        df['ALAVANCAGEM'] = safe_divide(get_col(df, 'Passivo Total'), get_col(df, 'Ativo Total'))
        df['DIVIDA_PL'] = safe_divide(df['D√≠vida Bruta'], pl) 
        df['DIVIDA_LIQ_EBIT'] = safe_divide(df['D√≠vida L√≠quida'], get_col(df, 'EBIT_ttm')) 
        logger.info("‚úÖ Ratios de alavancagem (incluindo DIVIDA_PL, DIVIDA_LIQ_EBIT) calculados.")

        df['LIQUIDEZ_CORRENTE'] = safe_divide(get_col(df, 'Ativo Circulante'), get_col(df, 'Passivo Circulante'))

        df['GIRO_ATIVO'] = safe_divide(get_col(df, 'Receita L√≠quida_ttm'), get_col(df, 'Ativo Total'))

        self.ratios_df = self._handle_ratio_outliers(df)
        logger.info("üéØ RATIOS CALCULADOS e limpos.")
        logger.info(f"Colunas FINAIS de Ratios: {self.ratios_df.columns.tolist()}")
        return self.ratios_df

    def _handle_ratio_outliers(self, df: pd.DataFrame) -> pd.DataFrame:
        df_clean = df.copy()
        ratio_columns = [
            'ROE', 'ROA', 'ROIC', 'MARGEM_EBIT', 'MARGEM_LIQUIDA', 'MARGEM_BRUTA',
            'ALAVANCAGEM', 'DIVIDA_PL', 'DIVIDA_LIQ_EBIT', 'LIQUIDEZ_CORRENTE', 'GIRO_ATIVO'
        ]
        for col in ratio_columns:
            if col in df_clean.columns:
                df_clean[col] = df_clean[col].replace([np.inf, -np.inf], np.nan)
                if df_clean[col].notna().sum() > 0:
                    lower = df_clean[col].quantile(0.01)
                    upper = df_clean[col].quantile(0.99)
                    df_clean[col] = df_clean[col].clip(lower=lower, upper=upper)
        return df_clean

    def calculate_quality_scores(self) -> pd.DataFrame:
        """ PASSO 4: Calcula scores individuais e score composto """
        if self.ratios_df is None: raise ValueError("Ratios n√£o calculados.")
        logger.info("üéØ 4. CALCULANDO SCORES DE QUALIDADE...")
        scores_df = self.ratios_df.copy()
        grouped_by_date = scores_df.groupby('DT_FIM_EXERC')

        metrics_config = {
            'ROIC': {'direction': 1, 'weight': 0.25}, 
            'ROE': {'direction': 1, 'weight': 0.15},
            'MARGEM_EBIT': {'direction': 1, 'weight': 0.15},
            'MARGEM_LIQUIDA': {'direction': 1, 'weight': 0.10},
            'DIVIDA_LIQ_EBIT': {'direction': -1, 'weight': 0.15}, 
            'LIQUIDEZ_CORRENTE': {'direction': 1, 'weight': 0.10},
            'GIRO_ATIVO': {'direction': 1, 'weight': 0.10},
            # 'ALAVANCAGEM': {'direction': -1, 'weight': 0.0}, # Pode remover ou ajustar peso
        }
        total_w = sum(c['weight'] for c in metrics_config.values())
        if abs(total_w - 1.0) > 0.01:
             logger.warning(f"Soma dos pesos √© {total_w:.2f}. Ajustando proporcionalmente...")
             for k in metrics_config: metrics_config[k]['weight'] /= total_w

        logger.info(f"Configura√ß√£o de m√©tricas para score: { {k: v['weight'] for k, v in metrics_config.items()} }")

        for metric, config in metrics_config.items():
            if metric in scores_df.columns and scores_df[metric].notna().any():
                score_col = f'score_{metric}'
                if config['direction'] == 1:
                    scores_df[score_col] = grouped_by_date[metric].rank(pct=True) * 100
                else:
                    scores_df[score_col] = grouped_by_date[metric].rank(ascending=False, pct=True) * 100
                logger.info(f"  ‚úÖ Score {metric} calculado.")
            else:
                 logger.warning(f"M√©trica '{metric}' n√£o encontrada ou sem dados para score.")

        logger.info("‚öñÔ∏è Calculando score composto...")
        scores_df['aurum_quality_score'] = 0.0
        total_applied_weight = 0.0
        for metric, config in metrics_config.items():
            score_col = f'score_{metric}'
            if score_col in scores_df.columns:
                scores_df['aurum_quality_score'] += scores_df[score_col].fillna(50) * config['weight']
                total_applied_weight += config['weight']

        if total_applied_weight > 0:
            scores_df['aurum_quality_score'] /= total_applied_weight

        logger.info("üèÜ Classificando empresas...")
        try:
             valid_scores = scores_df['aurum_quality_score'].dropna()
             if not valid_scores.empty:
                  ranks = valid_scores.rank(ascending=False, pct=True)
                  scores_df['final_rank'] = ranks
                  try:
                       scores_df['quality_quintile'] = pd.qcut(scores_df['final_rank'].dropna(), 5, labels=[f'{i}¬∫ Quintil' for i in range(1, 6)])
                  except ValueError: scores_df['quality_quintile'] = pd.cut(scores_df['final_rank'].dropna(), 5, labels=False)
                  scores_df['quality_grade'] = pd.cut(scores_df['final_rank'].dropna(), bins=[0, 0.2, 0.4, 0.6, 0.8, 1.0], labels=['A', 'B', 'C', 'D', 'E'], right=True, include_lowest=True)
             else: scores_df[['final_rank', 'quality_quintile', 'quality_grade']] = np.nan
        except Exception as e:
             logger.error(f"Erro ao calcular ranks/grades: {e}")
             scores_df[['final_rank', 'quality_quintile', 'quality_grade']] = np.nan
        
        self.scores_df = scores_df
        logger.info(f"Colunas FINAIS ANTES de salvar: {self.scores_df.columns.tolist()}")
        return scores_df

    def get_latest_scores(self) -> pd.DataFrame:
        if self.scores_df is None: raise ValueError("Scores n√£o calculados.")
        latest_scores = self.scores_df.sort_values('DT_FIM_EXERC').groupby('CNPJ_CIA').last().reset_index()
        return latest_scores

    def save_results(self, output_dir: str = "../data/aurum_scores"):
        output_path = Path(output_dir)
        output_path.mkdir(parents=True, exist_ok=True)

        if self.scores_df is not None:
            logger.info(f"Salvando DataFrame com colunas: {self.scores_df.columns.tolist()}")
            
            if 'ROIC' not in self.scores_df.columns: 
                logger.error("ERRO FATAL: Coluna 'ROIC' AUSENTE antes de salvar!")

            scores_path = output_path / "aurum_quality_scores_complete.parquet"
            self.scores_df.to_parquet(scores_path, index=False)

            scores_csv_path = output_path / "aurum_quality_scores_complete.csv"
            self.scores_df.to_csv(scores_csv_path, index=False, sep=';', float_format='%.4f', encoding='utf-8-sig')

            logger.info(f"üíæ Scores completos (hist√≥rico) salvos em:")
            logger.info(f"   -> {scores_path}")
            logger.info(f"   -> {scores_csv_path}")

        latest_scores = self.get_latest_scores()
        
        latest_path = output_path / "aurum_quality_scores_latest.parquet"
        latest_csv_path = output_path / "aurum_quality_scores_latest.csv"
        
        latest_scores.to_parquet(latest_path, index=False)
        latest_scores.to_csv(latest_csv_path, index=False, sep=';', encoding='utf-8-sig')
        
        logger.info(f"üíæ Scores mais recentes salvos: {latest_path} e {latest_csv_path}")

        # Salvar Estat√≠sticas
        stats_path = output_path / "aurum_scores_statistics.txt"
        self._save_statistics(latest_scores, stats_path)
        logger.info(f"üíæ Estat√≠sticas salvas: {stats_path}")

        return {
            'complete_parquet': scores_path,
            'complete_csv': scores_csv_path,
            'latest_parquet': latest_path,
            'statistics': stats_path
        }

    def _save_statistics(self, scores_df: pd.DataFrame, stats_path: Path):
        with open(stats_path, 'w', encoding='utf-8') as f:
            f.write("AURUM QUALITY SCORE - ESTAT√çSTICAS (√öLTIMO PER√çODO)\n" + "=" * 50 + "\n\n")
            f.write(f"Total de empresas: {len(scores_df)}\n")
            max_date = scores_df['DT_FIM_EXERC'].max()
            f.write(f"Per√≠odo mais recente: {max_date if pd.notna(max_date) else 'N/A'}\n\n")
            if 'aurum_quality_score' in scores_df.columns:
                 f.write("DISTRIBUI√á√ÉO DOS SCORES:\n" + f"  M√©dia: {scores_df['aurum_quality_score'].mean():.2f}\n" +
                         f"  Mediana: {scores_df['aurum_quality_score'].median():.2f}\n" + f"  M√≠nimo: {scores_df['aurum_quality_score'].min():.2f}\n" +
                         f"  M√°ximo: {scores_df['aurum_quality_score'].max():.2f}\n\n")
            else: f.write("DISTRIBUI√á√ÉO DOS SCORES: N/A\n\n")
            if 'quality_grade' in scores_df.columns:
                 f.write("DISTRIBUI√á√ÉO POR NOTAS:\n")
                 grade_counts = scores_df['quality_grade'].value_counts().sort_index(ascending=True)
                 for grade, count in grade_counts.items(): f.write(f"  Nota {grade}: {count} empresas\n")
            else: f.write("DISTRIBUI√á√ÉO POR NOTAS: N/A\n")
            if 'aurum_quality_score' in scores_df.columns:
                 f.write("\nTOP 10 EMPRESAS:\n")
                 top_10 = scores_df.nlargest(10, 'aurum_quality_score')[['DENOM_CIA', 'aurum_quality_score', 'quality_grade']]
                 for i, (_, row) in enumerate(top_10.iterrows(), 1):
                      grade = row.get('quality_grade', 'N/A')
                      f.write(f"  {i:2d}. {str(row['DENOM_CIA'])[:35]:35} {row['aurum_quality_score']:6.2f} (Nota {grade})\n")
            else: f.write("\nTOP 10 EMPRESAS: N/A\n")


# ==================== EXECU√á√ÉO PRINCIPAL ====================
def main():
    logger.info("üöÄ INICIANDO PIPELINE DO AURUM QUALITY SCORE (Vers√£o Final com ROIC Correto)")
    try:
        calculator = AurumQualityScoreCalculator(
            fundamentals_path="../data/cvm/final/fundamentals_wide.parquet"
        )
        calculator.load_and_prepare_data()
        calculator.calculate_ttm_data()
        calculator.calculate_financial_ratios() # Calcular ROIC correto e ratios de d√≠vida
        calculator.calculate_quality_scores()   # Usar ROIC correto e ratios de d√≠vida
        output_files = calculator.save_results(output_dir="../data/aurum_scores") # Salvar no diret√≥rio correto
        logger.info(f"üíæ Resultados (com ROIC correto) salvos em: {output_files}")

        latest_scores = calculator.get_latest_scores()
        # ... (impress√£o dos resultados igual) ...
        print("\n" + "="*60 + "\nüéâ AURUM QUALITY SCORE - RESULTADOS FINAIS (√öLTIMO PER√çODO)\n" + "="*60)
        print(f"\nüìä TOTAL DE EMPRESAS: {len(latest_scores)}")
        if 'aurum_quality_score' in latest_scores.columns: print(f"üìà SCORE M√âDIO: {latest_scores['aurum_quality_score'].mean():.2f}")
        print(f"\nüìã DISTRIBUI√á√ÉO DAS NOTAS:")
        if 'quality_grade' in latest_scores.columns:
             grade_dist = latest_scores['quality_grade'].value_counts().sort_index(ascending=True)
             for grade, count in grade_dist.items(): print(f"   Nota {grade}: {count:3d} empresas")
        print(f"\nü•á TOP 10 EMPRESAS:")
        if 'aurum_quality_score' in latest_scores.columns:
             top_10 = latest_scores.nlargest(10, 'aurum_quality_score')[['DENOM_CIA', 'aurum_quality_score', 'quality_grade']]
             for i, (_, row) in enumerate(top_10.iterrows(), 1):
                  grade = row.get('quality_grade', 'N/A')
                  print(f"   {i:2d}. {str(row['DENOM_CIA'])[:35]:35} {row['aurum_quality_score']:6.2f} (Nota {grade})")

        return calculator

    except Exception as e:
        logger.error(f"‚ùå ERRO NO PIPELINE: {e}")
        import traceback
        logger.error(traceback.format_exc())
        raise

if __name__ == "__main__":
    aurum_calculator = main()

2025-12-17 17:50:20,381 - INFO - üöÄ INICIANDO PIPELINE DO AURUM QUALITY SCORE (Vers√£o Final com ROIC Correto)
2025-12-17 17:50:20,400 - INFO - üì• 1. CARREGANDO NOVO fundamentals_wide.parquet...
2025-12-17 17:50:20,730 - INFO - ‚úÖ Dados carregados: (21559, 19)
2025-12-17 17:50:20,732 - INFO - Colunas encontradas: ['CNPJ_CIA', 'DENOM_CIA', 'DT_FIM_EXERC', 'Custo dos Bens e/ou Servi√ßos Vendidos', 'EBIT', 'EBT', 'Lucro Bruto', 'Lucro L√≠quido Consolidado', 'Receita L√≠quida', 'Ativo Circulante', 'Ativo N√£o Circulante', 'Ativo Total', 'Caixa e Equivalentes', 'D√≠vida Curto Prazo', 'D√≠vida Longo Prazo', 'Passivo Circulante', 'Passivo N√£o Circulante', 'Passivo Total', 'Patrim√¥nio L√≠quido Consolidado']
2025-12-17 17:50:20,740 - INFO - ‚úÖ Novas colunas (Caixa, D√≠vida CP, D√≠vida LP) encontradas!
2025-12-17 17:50:20,861 - INFO - ‚è≥ 2. CALCULANDO TTM...
100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 729/729 [00:03<00:00, 196.08it/s]
2025-12-17 17:50:24,651 - INFO - ‚úÖ TTM calculado.
2025-12


üéâ AURUM QUALITY SCORE - RESULTADOS FINAIS (√öLTIMO PER√çODO)

üìä TOTAL DE EMPRESAS: 729
üìà SCORE M√âDIO: 49.27

üìã DISTRIBUI√á√ÉO DAS NOTAS:
   Nota A: 191 empresas
   Nota B:  90 empresas
   Nota C:  83 empresas
   Nota D: 147 empresas
   Nota E: 218 empresas

ü•á TOP 10 EMPRESAS:
    1. CAMIL ALIMENTOS S.A.                100.00 (Nota A)
    2. MINUPAR PARTICIPACOES S.A.           90.07 (Nota A)
    3. 521 PARTICIPACOES S.A. - EM LIQUIDA  89.17 (Nota A)
    4. STEIN SP II PARTICIPA√á√ïES S.A.       87.37 (Nota A)
    5. COMERCIAL QUINTELLA COM EXP SA EM L  84.67 (Nota A)
    6. SONDOTECNICA ENGENHARIA SOLOS S.A.   83.36 (Nota A)
    7. EPR INFRAESTRUTURA PR S.A.           83.19 (Nota A)
    8. M√âLIUZ S.A.                          82.29 (Nota A)
    9. RIVA INCORPORADORA S.A               79.77 (Nota A)
   10. AURA ALMAS MINERA√á√ÉO S.A.            79.68 (Nota A)



### üß¨ Script: Aurum Data Unifier (Merge Engine)

> **Fase:** Engenharia de Dados / ETL
> **Arquivo Alvo:** `aurum_master_features.parquet`

Este script √© o **Motor de Integra√ß√£o** do sistema Aurum. Ele √© respons√°vel por fundir tr√™s fontes de dados heterog√™neas (Pre√ßos, Fundamentos e Metadados) em um √∫nico DataFrame temporalmente coerente ("Master Features").

Sua principal fun√ß√£o √© resolver o problema do **"Look-Ahead Bias"** (vi√©s de olhar para o futuro), aplicando um `LAG` (atraso) de 3 meses nas datas de balan√ßo para simular a disponibilidade real da informa√ß√£o para o investidor.

### üéØ Objetivos

1. **Sincroniza√ß√£o Temporal:** Alinhar pre√ßos di√°rios/mensais com fundamentos trimestrais.
2. **Mapeamento de Identificadores:** Conectar `CNPJ` (usado nos balan√ßos da CVM) com `Tickers` (usados na bolsa).
3. **C√°lculo de Volatilidade:** Gerar a m√©trica de risco (`StdDev` de 63 dias) para uso no scoring.
4. **Consolida√ß√£o:** Gerar o arquivo final que alimentar√° o Backtest e o Scoring Engine.

### üèóÔ∏è Arquitetura de Dados (Data Flow)

O processo segue um fluxo linear de carregamento, transforma√ß√£o e fus√£o (`Merge As-Of`).

```mermaid
flowchart TD
    %% --- FONTES ---
    subgraph Sources ["1. Fontes de Dados"]
        Prices[("<b>Pre√ßos Limpos</b><br/>all_histories_cleaned.parquet")]
        Fund[("<b>Scores Fundamentais</b><br/>aurum_quality_scores_complete.parquet")]
        Map[("<b>Mapa Ticker-CNPJ</b><br/>mapa_ticker_cnpj.parquet")]
    end

    %% --- VOLATILIDADE ---
    subgraph Volatility ["2. C√°lculo de Risco"]
        CalcVol["<b>C√°lculo de Volatilidade</b><br/>Janela M√≥vel 63 dias"]
        Resample["<b>Agrega√ß√£o Mensal</b><br/>Resample('M').last()"]
    end

    %% --- PREPARA√á√ÉO ---
    subgraph Prep ["3. Prepara√ß√£o & Lag"]
        Melt["<b>Melt Pre√ßos</b><br/>Wide -> Long Format"]
        Lag["<b>Aplica√ß√£o de Lag (3 Meses)</b><br/>Date_Balan√ßo + 3M = Date_Dispon√≠vel"]
        MapJoin["<b>Join CNPJ-Ticker</b><br/>V√≠nculo da empresa com c√≥digo de bolsa"]
    end

    %% --- FUS√ÉO ---
    subgraph Merge ["4. Fus√£o Temporal (As-Of)"]
        AsOf{{"<b>Merge As-Of</b>"}}
        Note["Alinha o pre√ßo de HOJE<br/>com o balan√ßo MAIS RECENTE dispon√≠vel"]
        VolJoin["<b>Join Volatilidade</b><br/>Left Join por Ticker/Data"]
    end

    %% --- OUTPUT ---
    subgraph Output ["5. Sa√≠da Final"]
        Clean["<b>Limpeza Final</b><br/>Remove linhas sem Score/Pre√ßo"]
        Master[("<b>AURUM MASTER FEATURES</b><br/>Dataset Unificado")]
    end

    %% --- LIGA√á√ïES ---
    Prices --> CalcVol --> Resample
    Prices --> Melt --> AsOf
    Fund --> Lag --> MapJoin
    Map --> MapJoin --> AsOf
    Resample --> VolJoin
    
    AsOf --> VolJoin --> Clean --> Master

```

### ‚öôÔ∏è Detalhes da Implementa√ß√£o

#### 1. C√°lculo de Volatilidade (`calcular_volatilidade_mensal`)

* **Input:** Pre√ßos di√°rios limpos.
* **L√≥gica:**
* Calcula retorno di√°rio (`pct_change`).
* Calcula desvio padr√£o m√≥vel de 63 dias (aprox. 1 trimestre √∫til).
* Agrega o √∫ltimo valor de cada m√™s (`resample('M').last()`).


* **Por que?** A volatilidade √© um componente chave do Score Aurum (peso 10%), penalizando ativos inst√°veis.

#### 2. Tratamento de Fundamentos & Lag

* **Input:** `aurum_quality_scores_complete.parquet` (Dados da CVM).
* **O Problema:** Um balan√ßo do 4¬∫ Trimestre (31/Dez) s√≥ √© divulgado em Mar√ßo/Abril. Se usarmos a data 31/Dez no backtest, estamos "roubando", pois a informa√ß√£o n√£o existia publicamente naquele dia.
* **A Solu√ß√£o (Lag):**
```python
df_fund['date_disponivel'] = df_fund['date_balanco'] + DateOffset(months=3)

```


O sistema s√≥ permite que o rob√¥ "veja" o balan√ßo 3 meses ap√≥s o fechamento do trimestre.

#### 3. Mapeamento CNPJ -> Ticker

* A CVM usa `CNPJ` como chave prim√°ria. O Yahoo Finance usa `Ticker`.
* O script carrega um dicion√°rio (`mapa_ticker_cnpj_automatizado.parquet`) para traduzir os dados.
* **Limpeza:** Remove caracteres especiais de CNPJ (`.`, `/`, `-`) para garantir o *match*.

#### 4. Merge As-Of (O Cora√ß√£o do Script)

* **Comando:** `pd.merge_asof(..., direction='backward')`
* **Como funciona:** Para cada data de pre√ßo (ex: 15/Jan/2024), ele procura a data de balan√ßo dispon√≠vel **mais pr√≥xima no passado** (ex: 30/Set/2023 + 3 meses lag = 30/Dez/2023).
* Isso garante que, em qualquer dia da simula√ß√£o, temos o dado fundamentalista mais recente e v√°lido.

### üìÇ Outputs (Sa√≠das)

O script gera dois arquivos id√™nticos em formatos diferentes:

1. **`../data/aurum_master_features.parquet`**:
* Arquivo bin√°rio otimizado para leitura r√°pida no Pandas/Backtrader.
* Cont√©m: `date`, `ticker`, `Adj Close`, `aurum_quality_score`, `ROE`, `VOLATILIDADE`, etc.


2. **`../data/aurum_master_features.csv`**:
* Vers√£o em texto para auditoria visual e debug r√°pido no Excel.



### üöÄ Como Executar

Este script depende da execu√ß√£o pr√©via dos scripts de **Coleta de Pre√ßos** e **C√°lculo de Scores Fundamentais**.

```bash
python src/step_04_unificar_master.py

```

### üìã Verifica√ß√£o de Sucesso

Se o script rodar corretamente, voc√™ ver√° no log:

```text
‚úÖ‚úÖ‚úÖ ARQUIVO MESTRE GERADO: ../data/aurum_master_features.parquet ‚úÖ‚úÖ‚úÖ

```

E uma amostra final dos dados combinados:

```text
             date    ticker date_disponivel  Adj Close  aurum_quality_score      ROE
...  2024-12-31  WEGE3.SA      2024-09-30      35.40                65.40  0.2510

```

---

In [None]:
import pandas as pd
import numpy as np
import os
import logging
from pathlib import Path
from pandas.tseries.offsets import DateOffset

logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')
logger = logging.getLogger(__name__)

PATH_PRECOS_LIMPOS = "../data/historical/all_histories_cleaned.parquet"
PATH_PRECOS_WIDE = "../data/historical/prices_close_wide.parquet"
PATH_FUNDAMENTOS = "../data/aurum_scores/aurum_quality_scores_complete.parquet"
PATH_DE_PARA = "../data/dados_mapeamento/mapa_ticker_cnpj_automatizado.parquet"
# SENTIMENTO: Desativado temporariamente
# PATH_SENTIMENTO = "../data/news/news_with_sentiment.parquet" 

OUTPUT_DIR = "../data"
OUTPUT_FILENAME = "aurum_master_features.parquet"
output_path = Path(OUTPUT_DIR) / OUTPUT_FILENAME

def calcular_volatilidade_mensal():
    logger.info("Iniciando Unifica√ß√£o (Passo 1/2): C√°lculo da Volatilidade...")
    try: 
        df_prices_daily = pd.read_parquet(PATH_PRECOS_LIMPOS)
    except FileNotFoundError: 
        logger.error(f"Arquivo n√£o encontrado: {PATH_PRECOS_LIMPOS}")
        return None
        
    df_prices_daily['date'] = pd.to_datetime(df_prices_daily['date'])
    df_prices_daily['returns'] = df_prices_daily.groupby('ticker')['Adj Close'].pct_change()
    
    df_prices_daily['VOLATILIDADE'] = df_prices_daily.groupby('ticker')['returns'].rolling(window=63, min_periods=30).std().reset_index(0, drop=True)
    
    df_vol_mensal = df_prices_daily.set_index('date').groupby('ticker').resample('M').last()['VOLATILIDADE'].reset_index()
    
    logger.info(f"‚úÖ Volatilidade mensal calculada.")
    return df_vol_mensal

def carregar_e_limpar_mapeamento():
    """ Carrega e prepara o novo arquivo de mapeamento """
    logger.info(f"üìÇ Carregando mapeamento de: {PATH_DE_PARA}")
    try:
        df_map = pd.read_parquet(PATH_DE_PARA)
        
        cols_necessarias = ['ticker', 'CNPJ']
        if not all(col in df_map.columns for col in cols_necessarias):
            logger.error(f"Colunas {cols_necessarias} n√£o encontradas no mapeamento. Colunas atuais: {df_map.columns}")
            return None
            
        df_map = df_map[cols_necessarias].copy()
        
        df_map = df_map.rename(columns={'CNPJ': 'CNPJ_CIA'})
        
        df_map['CNPJ_CIA'] = df_map['CNPJ_CIA'].astype(str).str.replace(r'[.\-/]', '', regex=True)
        
        df_map['ticker'] = df_map['ticker'].apply(lambda x: f"{x}.SA" if not str(x).endswith(".SA") else x)
        
        df_map = df_map.drop_duplicates(subset=['ticker'])
        
        logger.info(f"‚úÖ Mapeamento carregado e limpo: {len(df_map)} tickers.")
        return df_map
        
    except FileNotFoundError:
        logger.error(f"Arquivo de mapeamento n√£o encontrado: {PATH_DE_PARA}")
        return None

def unificar_dataframe_mestre(df_vol_mensal):
    logger.info("Iniciando Unifica√ß√£o (Passo 2/2): Jun√ß√£o do DataFrame Mestre (SEM SENTIMENTO)...")

    try:
        df_close_wide = pd.read_parquet(PATH_PRECOS_WIDE)
        df_base_mensal = df_close_wide.melt(ignore_index=False, var_name='ticker', value_name='Adj Close').reset_index()
        df_base_mensal = df_base_mensal.rename(columns={'index': 'date'})
        logger.info(f"Base de pre√ßos (wide) carregada.")
    except FileNotFoundError: 
        logger.error(f"Arquivo n√£o encontrado: {PATH_PRECOS_WIDE}")
        return

    try:
        df_fund = pd.read_parquet(PATH_FUNDAMENTOS)
        df_fund = df_fund.rename(columns={'DT_FIM_EXERC': 'date_balanco'}) 
        df_fund['date_balanco'] = pd.to_datetime(df_fund['date_balanco'])
        
        logger.info("‚è≥ Aplicando LAG de 3 meses nas datas de balan√ßo...")
        df_fund['date_disponivel'] = df_fund['date_balanco'] + DateOffset(months=3)
        
    except FileNotFoundError: 
        logger.error(f"Arquivo n√£o encontrado: {PATH_FUNDAMENTOS}")
        return

    df_mapping = carregar_e_limpar_mapeamento()
    if df_mapping is None: return

    df_fund['CNPJ_CIA'] = df_fund['CNPJ_CIA'].astype(str).str.replace(r'[.\-/]', '', regex=True)
    
    df_fund_com_ticker = pd.merge(df_fund, df_mapping, on='CNPJ_CIA', how='inner')
    
    if df_fund_com_ticker.empty:
        logger.error("‚ùå O Merge entre Fundamentos e Tickers retornou vazio! Verifique os CNPJs.")
        return
        
    logger.info(f"Fundamentos mapeados: {len(df_fund_com_ticker)} registros.")

    df_master = df_base_mensal.sort_values(by='date')
    df_fund_com_ticker = df_fund_com_ticker.sort_values(by='date_disponivel') 

    df_master = pd.merge_asof(
        df_master, 
        df_fund_com_ticker, 
        left_on='date', 
        right_on='date_disponivel', 
        by='ticker', 
        direction='backward' 
    )
    
    logger.info("Merge 'as-of' com LAG conclu√≠do.")

    if df_vol_mensal is not None:
        df_master = pd.merge(df_master, df_vol_mensal, on=['date', 'ticker'], how='left')
        df_master['VOLATILIDADE'] = df_master.groupby('ticker')['VOLATILIDADE'].ffill()

    key_metrics = ['aurum_quality_score', 'ROE', 'ROIC'] 
    
    df_master_clean = df_master.dropna(subset=key_metrics)
    
    removed = len(df_master) - len(df_master_clean)
    logger.info(f"Limpeza final: {removed} linhas removidas (sem score fundamentalista).")

    os.makedirs(OUTPUT_DIR, exist_ok=True)
    df_master_clean.to_parquet(output_path, index=False)
    logger.info(f"‚úÖ‚úÖ‚úÖ ARQUIVO MESTRE GERADO: {output_path} ‚úÖ‚úÖ‚úÖ")

    output_csv_path = Path(OUTPUT_DIR) / "aurum_master_features.csv"
    df_master_clean.to_csv(output_csv_path, index=False, sep=';', float_format='%.4f', encoding='utf-8-sig')
    logger.info(f"‚úÖ‚úÖ‚úÖ ARQUIVO MESTRE GERADO (CSV): {output_csv_path} ‚úÖ‚úÖ‚úÖ")

    cols_view = ['date', 'ticker', 'date_disponivel', 'Adj Close', 'aurum_quality_score', 'ROE']
    print("\n--- Amostra Final ---")
    try:
        display(df_master_clean[cols_view].tail(5))
    except NameError:
        print(df_master_clean[cols_view].tail(5).to_string())

    return df_master_clean

if __name__ == "__main__":
    df_vol = calcular_volatilidade_mensal()
    
    if df_vol is not None:
        unificar_dataframe_mestre(df_vol)

2025-12-17 17:44:09,894 - INFO - Iniciando Unifica√ß√£o (Passo 1/2): C√°lculo da Volatilidade...
  df_vol_mensal = df_prices_daily.set_index('date').groupby('ticker').resample('M').last()['VOLATILIDADE'].reset_index()
  df_vol_mensal = df_prices_daily.set_index('date').groupby('ticker').resample('M').last()['VOLATILIDADE'].reset_index()
2025-12-17 17:44:11,734 - INFO - ‚úÖ Volatilidade mensal calculada.
2025-12-17 17:44:11,738 - INFO - Iniciando Unifica√ß√£o (Passo 2/2): Jun√ß√£o do DataFrame Mestre (SEM SENTIMENTO)...
2025-12-17 17:44:11,785 - INFO - Base de pre√ßos (wide) carregada.
2025-12-17 17:44:11,903 - INFO - ‚è≥ Aplicando LAG de 3 meses nas datas de balan√ßo...
2025-12-17 17:44:11,909 - INFO - üìÇ Carregando mapeamento de: ../data/dados_mapeamento/mapa_ticker_cnpj_automatizado.parquet
2025-12-17 17:44:11,937 - INFO - ‚úÖ Mapeamento carregado e limpo: 97 tickers.
2025-12-17 17:44:11,986 - INFO - Fundamentos mapeados: 4158 registros.
2025-12-17 17:44:12,019 - INFO - Merge 'as-o


--- Amostra Final ---


Unnamed: 0,date,ticker,date_disponivel,Adj Close,aurum_quality_score,ROE
34914,2025-12-31,SANB11.SA,2025-12-30,32.029999,32.493761,0.0
34915,2025-12-31,BRKM5.SA,2025-12-30,7.86,40.404762,-0.021431
34917,2025-12-31,BRAV3.SA,2025-12-30,13.43,50.768216,0.151608
34918,2025-12-31,CYRE3.SA,2025-12-30,32.740002,33.327166,0.004177
34919,2025-12-31,YDUQ3.SA,2012-06-30,12.36,58.418262,0.076099



### üß† Script: Sentiment Fusion Engine (Merge V6)

> **Fase:** Engenharia de Dados / Enriquecimento
> **Arquivo Alvo:** `aurum_master_features_final.parquet`

Este script √© respons√°vel por **enriquecer** o dataset financeiro mestre com dados de Intelig√™ncia Artificial (Sentimento). Ele unifica m√∫ltiplas fontes de not√≠cias (Google News e MarketAux), padroniza os scores de sentimento gerados pelo RoBERTa e os agrega em uma vis√£o mensal para alinhar com a frequ√™ncia dos balan√ßos e pre√ßos.

### üéØ Objetivos

1. **Unifica√ß√£o de Fontes:** Combinar feeds de not√≠cias d√≠spares (Google = Recente, MarketAux = Hist√≥rico) em um √∫nico fluxo de informa√ß√£o.
2. **Padroniza√ß√£o:** Garantir que datas e scores sigam o mesmo formato, independentemente da origem.
3. **Agrega√ß√£o Temporal:** Transformar not√≠cias di√°rias esparsas em um indicador mensal robusto (`SENTIMENT_SCORE` m√©dio e `NEWS_VOLUME`).
4. **Integra√ß√£o Final:** Cruzar esses indicadores com o arquivo mestre financeiro (Pre√ßo + Fundamentos).

### üèóÔ∏è Arquitetura de Dados (Data Flow)

O processo segue um fluxo de "Funil": coleta de v√°rias pontas, agrega√ß√£o no meio e fus√£o final.

```mermaid
flowchart TD
    %% --- FONTES ---
    subgraph Sources ["1. Fontes de Dados"]
        Fin[("<b>Financeiro Mestre</b><br/>aurum_master_features.parquet")]
        GNews[("<b>Google News</b><br/>news_with_sentiment.parquet")]
        MktAux[("<b>MarketAux (Hist√≥rico)</b><br/>Pasta de Parquets")]
    end

    %% --- PREPARA√á√ÉO DE NOT√çCIAS ---
    subgraph NewsPrep ["2. Padroniza√ß√£o de Not√≠cias"]
        NormG["<b>Normalizar Google</b><br/>Rename Cols -> Ticker, Date, Score"]
        NormM["<b>Normalizar MarketAux</b><br/>Loop em Arquivos -> Concat"]
        Union["<b>Uni√£o (Concat)</b><br/>Google + MarketAux"]
    end

    %% --- AGREGA√á√ÉO ---
    subgraph Agg ["3. Agrega√ß√£o Mensal"]
        GroupBy["<b>Agrupamento</b><br/>Por Ticker e M√™s"]
        Metrics["<b>C√°lculo de KPI</b><br/>M√©dia (Sentimento)<br/>Contagem (Volume)"]
    end

    %% --- FUS√ÉO ---
    subgraph Merge ["4. Fus√£o Final"]
        LeftJoin{{"<b>Left Join</b>"}}
        Note["Preserva todas as linhas financeiras.<br/>Se n√£o houver not√≠cia, preenche com 0."]
        FillNA["<b>Tratamento de Nulos</b><br/>Sentimento = 0 (Neutro)"]
    end

    %% --- OUTPUT ---
    subgraph Output ["5. Sa√≠da"]
        Final[("<b>DATASET FINAL V6</b><br/>aurum_master_features_final.parquet")]
    end

    %% --- LIGA√á√ïES ---
    GNews --> NormG
    MktAux --> NormM
    NormG & NormM --> Union
    Union --> GroupBy --> Metrics
    
    Fin --> LeftJoin
    Metrics --> LeftJoin
    LeftJoin --> FillNA --> Final

```

### ‚öôÔ∏è Detalhes da Implementa√ß√£o

#### 1. Carregamento Flex√≠vel

* **Google News:** Arquivo √∫nico, geralmente contendo dados recentes.
* **MarketAux:** Diret√≥rio com m√∫ltiplos arquivos `.parquet` particionados. O script itera sobre todos eles (`glob`), garantindo que nenhum dado hist√≥rico seja perdido.

#### 2. Agrega√ß√£o Mensal (O "Fator Sentimento")

Como o pre√ßo e os fundamentos j√° est√£o alinhados mensalmente, n√£o podemos usar not√≠cias di√°rias diretamente (daria erro de granularidade).
O script cria uma chave `periodo` (Ano-M√™s) e calcula:

* **`SENTIMENT_SCORE`:** A m√©dia de todos os scores de not√≠cias daquele m√™s.
* **`NEWS_VOLUME`:** Quantas not√≠cias sa√≠ram sobre a empresa.
* **`SENTIMENT_VOL`:** (Opcional) O desvio padr√£o, para medir se as opini√µes est√£o divididas.

#### 3. Tratamento de Aus√™ncia (Neutralidade)

Nem toda empresa tem not√≠cia todo m√™s.

* **L√≥gica:** `fillna(0.0)`
* **Interpreta√ß√£o:** "No News is Good News" (ou pelo menos, n√£o √© bad news). A aus√™ncia de not√≠cias √© tratada como **Sentimento Neutro**, garantindo que o algoritmo de Scoring n√£o quebre ao encontrar um valor nulo.

#### üìÇ Outputs (Sa√≠das)

O arquivo gerado (`../data/aurum_master_features_final.parquet`) √© o **Artefato Final** da engenharia de dados. Ele cont√©m:

| Coluna | Descri√ß√£o |
| --- | --- |
| `date` | Data de refer√™ncia (fim do m√™s). |
| `ticker` | C√≥digo do ativo (ex: PETR4.SA). |
| `Adj Close` | Pre√ßo ajustado. |
| `ROE`, `D√≠vida...` | Indicadores fundamentalistas (com Lag). |
| **`SENTIMENT_SCORE`** | **Novo:** Nota de qualidade das not√≠cias (-1 a 1). |
| **`NEWS_VOLUME`** | **Novo:** Quantidade de not√≠cias no m√™s. |

#### üöÄ Como Executar

Este script deve ser rodado **ap√≥s** a unifica√ß√£o financeira (Step 04) e o processamento de NLP.

```bash
python src/step_06_merge_final_sentiment.py

```

#### üìã Verifica√ß√£o de Sucesso

No final da execu√ß√£o, o script exibe uma amostra dos meses com maior volume de not√≠cias ("Buzz"). Verifique se os dados fazem sentido:

```text
üîé Top 5 Meses com Mais Not√≠cias:
            date    ticker  SENTIMENT_SCORE  NEWS_VOLUME
 2023-01-31  AMER3.SA        -0.8500        150.0   <-- Ex: Crise Americanas
 2021-02-28  PETR4.SA        -0.4200         85.0

```

---

In [2]:
import pandas as pd
import glob
import os
import logging
from pathlib import Path

# --- CONFIGURA√á√ÉO DE CAMINHOS (AJUSTADO CONFORME SEU PEDIDO) ---
# 1. Dados Financeiros (Pre√ßo + Fundamentos)
PATH_MESTRE_ANTIGO = "../data/aurum_master_features.parquet"

# 2. Fonte Google News (Arquivo √önico)
PATH_GOOGLE_NEWS = "../data/news/news_with_sentiment.parquet" 

# 3. Fonte MarketAux (Pasta com Parquets processados pelo RoBERTa)
DIR_MARKETAUX = "../data/news/processed/marketaux_roberta"

# 4. Sa√≠da Final
OUTPUT_FILE = "../data/aurum_master_features_final.parquet"

logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(message)s')

def carregar_google():
    """Carrega e padroniza o Google News"""
    if not os.path.exists(PATH_GOOGLE_NEWS):
        logging.warning(f"‚ö†Ô∏è Google News n√£o encontrado em: {PATH_GOOGLE_NEWS}")
        return pd.DataFrame()
        
    try:
        df = pd.read_parquet(PATH_GOOGLE_NEWS)
        # Padroniza colunas
        # Seu arquivo Google tem: ticker_query, title, sentiment_weighted (ou numeric_sentiment), published_date
        cols_map = {
            'ticker_query': 'ticker',
            'published_date': 'date',
            'sentiment_weighted': 'score'
        }
        # Fallback se n√£o tiver o weighted
        if 'sentiment_weighted' not in df.columns and 'numeric_sentiment' in df.columns:
            cols_map['numeric_sentiment'] = 'score'
            
        df = df.rename(columns=cols_map)
        df['source'] = 'Google'
        
        # Garante data limpa
        df['date'] = pd.to_datetime(df['date'], errors='coerce', utc=True).dt.tz_localize(None)
        
        # Filtra colunas vitais
        cols = ['date', 'ticker', 'score', 'title', 'source']
        return df[[c for c in cols if c in df.columns]]
        
    except Exception as e:
        logging.error(f"Erro ao ler Google News: {e}")
        return pd.DataFrame()

def carregar_marketaux():
    """Carrega e padroniza o MarketAux (M√∫ltiplos arquivos)"""
    if not os.path.exists(DIR_MARKETAUX):
        logging.warning(f"‚ö†Ô∏è Pasta MarketAux n√£o encontrada: {DIR_MARKETAUX}")
        return pd.DataFrame()
        
    arquivos = list(Path(DIR_MARKETAUX).glob("*.parquet"))
    logging.info(f"üìÇ Lendo {len(arquivos)} arquivos do MarketAux...")
    
    dfs = []
    for f in arquivos:
        try:
            df = pd.read_parquet(f)
            # Padroniza
            if 'sentiment' in df.columns:
                df = df.rename(columns={'sentiment': 'score'})
            
            df['source'] = 'MarketAux'
            df['date'] = pd.to_datetime(df['date'], errors='coerce', utc=True).dt.tz_localize(None)
            
            cols = ['date', 'ticker', 'score', 'title', 'source']
            # Garante que existem (Title pode n√£o existir em alguns processados antigos)
            cols_validas = [c for c in cols if c in df.columns]
            dfs.append(df[cols_validas])
        except: pass
        
    if not dfs: return pd.DataFrame()
    return pd.concat(dfs, ignore_index=True)

def main():
    print("--- ü¶Å INICIANDO MERGE FINAL (V6 - FONTES CORRETAS) ---")
    
    # 1. Carrega as duas fontes
    df_google = carregar_google()
    df_mkt = carregar_marketaux()
    
    logging.info(f"üìä Linhas -> Google: {len(df_google)} | MarketAux: {len(df_mkt)}")
    
    if df_google.empty and df_mkt.empty:
        logging.error("‚ùå Nenhuma not√≠cia carregada. Abortando.")
        return

    # 2. Unifica
    df_news = pd.concat([df_google, df_mkt], ignore_index=True)
    
    # 3. Agrega√ß√£o Mensal (M√©dia do Score no M√™s)
    logging.info("üîÑ Calculando 'Fator Sentimento' Mensal...")
    
    # Cria chave M√™s
    df_news['periodo'] = df_news['date'].dt.to_period('M')
    
    df_agregado = df_news.groupby(['ticker', 'periodo']).agg(
        SENTIMENT_SCORE=('score', 'mean'),      # Qualidade (Positivo/Negativo)
        NEWS_VOLUME=('score', 'count'),         # Quantidade (Buzz)
        SENTIMENT_VOL=('score', 'std')          # Volatilidade de opini√£o (Pol√™mica)
    ).reset_index()
    
    logging.info(f"‚úÖ Base Agregada: {len(df_agregado)} linhas (Ticker x M√™s).")

    # 4. Cruzamento com Financeiro
    if not os.path.exists(PATH_MESTRE_ANTIGO):
        logging.error("‚ùå Arquivo Mestre Financeiro n√£o encontrado.")
        return

    df_mestre = pd.read_parquet(PATH_MESTRE_ANTIGO)
    df_mestre['date'] = pd.to_datetime(df_mestre['date'])
    df_mestre['periodo'] = df_mestre['date'].dt.to_period('M')
    
    logging.info("üîó Realizando Merge (Left Join)...")
    
    df_final = pd.merge(
        df_mestre,
        df_agregado[['ticker', 'periodo', 'SENTIMENT_SCORE', 'NEWS_VOLUME']],
        on=['ticker', 'periodo'],
        how='left'
    )
    
    # 5. Tratamento de Nulos
    # Se n√£o teve not√≠cia, Sentimento = 0 (Neutro)
    df_final['SENTIMENT_SCORE'] = df_final['SENTIMENT_SCORE'].fillna(0.0)
    df_final['NEWS_VOLUME'] = df_final['NEWS_VOLUME'].fillna(0.0)
    
    # Limpeza
    df_final = df_final.drop(columns=['periodo'])
    
    # 6. Salva
    df_final.to_parquet(OUTPUT_FILE, index=False)
    
    print("\n" + "="*40)
    print(f"üèÜ DATASET V4 PRONTO: {OUTPUT_FILE}")
    print("="*40)
    
    # Amostra dos dados com not√≠cias
    print("\nüîé Top 5 Meses com Mais Not√≠cias:")
    print(df_final.sort_values('NEWS_VOLUME', ascending=False)[['date', 'ticker', 'SENTIMENT_SCORE', 'NEWS_VOLUME']].head(5).to_string())

if __name__ == "__main__":
    main()

--- ü¶Å INICIANDO MERGE FINAL (V6 - FONTES CORRETAS) ---


2025-12-20 02:40:15,747 - üìÇ Lendo 97 arquivos do MarketAux...
2025-12-20 02:40:16,583 - üìä Linhas -> Google: 2766 | MarketAux: 204
2025-12-20 02:40:16,588 - üîÑ Calculando 'Fator Sentimento' Mensal...
2025-12-20 02:40:16,614 - ‚úÖ Base Agregada: 287 linhas (Ticker x M√™s).
2025-12-20 02:40:16,650 - üîó Realizando Merge (Left Join)...



üèÜ DATASET V4 PRONTO: ../data/aurum_master_features_final.parquet

üîé Top 5 Meses com Mais Not√≠cias:
            date    ticker  SENTIMENT_SCORE  NEWS_VOLUME
12561 2022-05-31  PETR4.SA        -0.111604         15.0
12486 2022-05-01  PETR4.SA        -0.111604         15.0
12982 2022-08-31  BBAS3.SA        -0.281047          9.0
12299 2022-03-31  PETR4.SA         0.105945          9.0
12219 2022-03-01  PETR4.SA         0.105945          9.0




### üßÆ Script: Aurum Scoring Engine (Final)

> **Fase:** Intelig√™ncia / Modelagem
> **Arquivo Alvo:** `aurum_scored_history.parquet`

Este script √© o **Cora√ß√£o Quantitativo** do sistema Aurum. Ele aplica um modelo multifatorial para transformar m√©tricas financeiras brutas (que possuem escalas diferentes, como `%` e `R$`) em uma nota padronizada de 0 a 100, integrando tamb√©m os dados de Sentimento (IA) e Risco (Volatilidade).

### üéØ Objetivos

1. **Normaliza√ß√£o Estat√≠stica:** Tornar compar√°veis m√©tricas de naturezas distintas (ex: comparar ROE com Sentimento).
2. **Pondera√ß√£o de Fatores:** Aplicar a "Tese de Investimento" atribuindo pesos espec√≠ficos para Rentabilidade, Solv√™ncia e Risco.
3. **Classifica√ß√£o:** Gerar o **Aurum Quality Score** e atribuir notas (Grades A-E) para facilitar a sele√ß√£o de ativos.

### üèóÔ∏è Arquitetura L√≥gica (Algoritmo)

O motor utiliza uma fun√ß√£o **Sigmoide sobre Z-Score** para suavizar outliers e garantir uma distribui√ß√£o justa de notas.

```mermaid
flowchart TD
    %% --- INPUT ---
    Input[("<b>Input: Master Features</b><br/>aurum_master_features_final.parquet")]

    %% --- CONFIGURA√á√ÉO ---
    subgraph Config ["1. Defini√ß√£o de Pesos (Tese)"]
        Rent["<b>Rentabilidade (45%)</b><br/>ROE, ROA, Margens"]
        Solv["<b>Solv√™ncia (30%)</b><br/>D√≠vida/PL, Liquidez"]
        Risk["<b>Risco & IA (25%)</b><br/>Sentimento (NLP) + Volatilidade"]
    end

    %% --- NORMALIZA√á√ÉO (LOOP) ---
    subgraph Norm ["2. Pipeline de Normaliza√ß√£o (Por M√©trica)"]
        Winsor["<b>Winsorization</b><br/>Clip Outliers (1% - 99%)"]
        ZScore["<b>Z-Score</b><br/>Desvio da M√©dia"]
        Sigmoid["<b>Fun√ß√£o Sigmoide</b><br/>Transforma√ß√£o para 0-1"]
        Scale["<b>Escala Final</b><br/>0 a 100"]
    end

    %% --- AGREGA√á√ÉO ---
    subgraph Agg ["3. C√°lculo Final"]
        Weighted["<b>M√©dia Ponderada</b><br/>Soma (Nota * Peso)"]
        Grade["<b>Classifica√ß√£o (Grade)</b><br/>A (>80), B (>60)..."]
    end

    %% --- OUTPUTS ---
    subgraph Output ["4. Sa√≠da"]
        Hist[("<b>Hist√≥rico Completo</b><br/>aurum_scored_history.parquet")]
        Snapshot[("<b>Carteira Atual (Snapshot)</b><br/>aurum_scored_latest_portfolio.csv")]
    end

    %% --- LIGA√á√ïES ---
    Input --> Rent & Solv & Risk
    Rent & Solv & Risk --> Winsor
    Winsor --> ZScore --> Sigmoid --> Scale
    Scale --> Weighted --> Grade
    Grade --> Hist & Snapshot

```

### ‚öôÔ∏è Detalhes da Implementa√ß√£o

#### 1. M√©tricas e Pesos

O sistema avalia 3 pilares fundamentais:

* **Rentabilidade (45%):** Efici√™ncia em gerar lucro (`ROE`, `ROIC`, `Margens`).
* **Solv√™ncia (30%):** Sa√∫de financeira (`D√≠vida/PL`, `Liquidez`).
* **Qualidade/Risco (25%):** O diferencial do Aurum (`Sentimento` positivo e `Volatilidade` baixa).

#### 2. O Segredo Matem√°tico (Sigmoide)

Em vez de usar um ranking simples (que ignora a magnitude da diferen√ßa), usamos a Sigmoide:

* `Z = (Valor - M√©dia) / DesvioPadr√£o`
* `Score = 1 / (1 + e^-Z)`
* **Por que?** Isso evita que uma √∫nica empresa com ROE de 500% distor√ßa o ranking inteiro. A nota "satura" suavemente perto de 100.

#### 3. Tratamento de Dire√ß√£o

O script entende que para algumas m√©tricas, **menos √© mais**.

* **Exemplo:** D√≠vida Alta.
* O script inverte a nota automaticamente: `Score = 1 - Sigmoide`.

### üìÇ Outputs (Sa√≠das)

1. **`../data/aurum_final_scores/aurum_scored_history.parquet`**:
* O arquivo "Ouro". Cont√©m todo o hist√≥rico de notas m√™s a m√™s. √â este arquivo que alimenta o Backtest.


2. **`../data/aurum_final_scores/aurum_scored_latest_portfolio.csv`**:
* Um relat√≥rio executivo mostrando a situa√ß√£o **HOJE**.
* Ideal para abrir no Excel e decidir quais a√ß√µes comprar na segunda-feira.



### üöÄ Como Executar

Este √© o passo final antes do Backtest.

```bash
python src/step_08_scoring_engine_final.py

```

### üìã Verifica√ß√£o de Sucesso

O script imprime o **Top 10 Atual** no console. Verifique se as empresas listadas s√£o coerentes (Blue Chips de qualidade):

```text
üèÜ TOP 10 A√á√ïES HOJE (Qualidade Aurum):
 ticker  aurum_quality_score quality_grade       ROE  SENTIMENT_SCORE
 WEGE3.SA            78.45             B   0.2450             0.8
 PSSA3.SA            76.12             B   0.1800             0.5
 ...

```

---

In [None]:
import pandas as pd
import numpy as np
from pathlib import Path
import logging
from typing import Dict, List, Optional, Tuple
import warnings
from dataclasses import dataclass
import json
import os

warnings.filterwarnings('ignore')

logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')
logger = logging.getLogger(__name__)

# --- CONFIGURA√á√ÉO ---
INPUT_FILE = "../data/aurum_master_features_final.parquet"
OUTPUT_DIR = "../data/aurum_final_scores"

@dataclass
class ScoringMetric:
    name: str
    weight: float
    direction: int 
    description: str
    min_value: float = None
    max_value: float = None
    ideal_range: Tuple[float, float] = None

class AurumScoringSystem:
    def __init__(self):
        self.scoring_metrics = self._initialize_scoring_metrics()
        self.quality_thresholds = {'A': 80, 'B': 60, 'C': 40, 'D': 20, 'E': 0}
        
    def _initialize_scoring_metrics(self) -> Dict[str, ScoringMetric]:
        metrics_config = {
            'ROE': ScoringMetric('ROE', 0.15, 1, 'Efici√™ncia do capital pr√≥prio'),
            'ROA': ScoringMetric('ROA', 0.10, 1, 'Efici√™ncia dos ativos'),
            'ROIC': ScoringMetric('ROIC', 0.10, 1, 'Retorno sobre capital investido'),
            'MARGEM_EBIT': ScoringMetric('MARGEM_EBIT', 0.05, 1, 'Margem Operacional'),
            'MARGEM_LIQUIDA': ScoringMetric('MARGEM_LIQUIDA', 0.05, 1, 'Margem L√≠quida'),

            'ALAVANCAGEM': ScoringMetric('ALAVANCAGEM', 0.08, -1, 'Passivo/Ativo (Menor √© melhor)'),
            'DIVIDA_PL': ScoringMetric('DIVIDA_PL', 0.08, -1, 'D√≠vida/PL (Menor √© melhor)'),
            'LIQUIDEZ_CORRENTE': ScoringMetric('LIQUIDEZ_CORRENTE', 0.07, 1, 'Liquidez de curto prazo'),
            'GIRO_ATIVO': ScoringMetric('GIRO_ATIVO', 0.07, 1, 'Efici√™ncia de vendas'),

            'SENTIMENT_SCORE': ScoringMetric('SENTIMENT_SCORE', 0.15, 1, 'Sentimento de Not√≠cias (IA)'),
            'VOLATILIDADE': ScoringMetric('VOLATILIDADE', 0.10, -1, 'Volatilidade do Pre√ßo (Menor √© melhor)')
        }
        return metrics_config
    
    def calculate_individual_scores(self, df: pd.DataFrame) -> pd.DataFrame:
        scores_df = df.copy()
        
        cols_to_numeric = [m for m in self.scoring_metrics.keys() if m in scores_df.columns]
        for col in cols_to_numeric:
            scores_df[col] = pd.to_numeric(scores_df[col], errors='coerce')

        logger.info("üéØ Calculando scores individuais...")
        
        valid_metrics = []
        for metric_name, config in self.scoring_metrics.items():
            if metric_name not in scores_df.columns:
                logger.warning(f"‚ö†Ô∏è M√©trica {metric_name} n√£o encontrada. Peso ser√° ignorado.")
                continue
            
            if scores_df[metric_name].abs().sum() == 0:
                 # logger.warning(f"‚ö†Ô∏è M√©trica {metric_name} est√° vazia/zerada. Ignorando.")
                 pass

            series = scores_df[metric_name]
            lower = series.quantile(0.01)
            upper = series.quantile(0.99)
            series_clipped = series.clip(lower, upper)
            
            mean = series_clipped.mean()
            std = series_clipped.std()
            if std == 0: std = 1
            
            z_score = (series_clipped - mean) / std
            sigmoid_score = 1 / (1 + np.exp(-z_score)) 
            
            if config.direction == -1:
                sigmoid_score = 1 - sigmoid_score
                
            col_score = f'score_{metric_name}'
            scores_df[col_score] = sigmoid_score * 100
            
            valid_metrics.append((col_score, config.weight))
            
        return scores_df, valid_metrics
    
    def calculate_final_score(self, df: pd.DataFrame, metric_weights: List[Tuple]) -> pd.DataFrame:
        logger.info("‚öñÔ∏è Calculando AURUM SCORE final...")
        
        total_weight = sum(w for _, w in metric_weights)
        if total_weight == 0: return df
        
        df['aurum_quality_score'] = 0.0
        
        for col_score, weight in metric_weights:
            adjusted_weight = weight / total_weight
            df['aurum_quality_score'] += df[col_score].fillna(50) * adjusted_weight
    
        conditions = [
            df['aurum_quality_score'] >= 80,
            df['aurum_quality_score'] >= 60,
            df['aurum_quality_score'] >= 40,
            df['aurum_quality_score'] >= 20
        ]
        choices = ['A', 'B', 'C', 'D']
        df['quality_grade'] = np.select(conditions, choices, default='E')
        
        return df

def run_scoring_pipeline():
    print("--- ü¶Å INICIANDO MOTOR DE SCORING AVAN√áADO ---")
    
    if not os.path.exists(INPUT_FILE):
        logger.error(f"Arquivo n√£o encontrado: {INPUT_FILE}")
        return

    df = pd.read_parquet(INPUT_FILE)
    logger.info(f"Dados carregados: {len(df)} linhas de {len(df['ticker'].unique())} empresas.")
    
    engine = AurumScoringSystem()
    
    df_scored, valid_metrics = engine.calculate_individual_scores(df)
    
    df_final = engine.calculate_final_score(df_scored, valid_metrics)
    
    Path(OUTPUT_DIR).mkdir(parents=True, exist_ok=True)
    
    file_hist = Path(OUTPUT_DIR) / "aurum_scored_history.parquet"
    df_final.to_parquet(file_hist, index=False)
    
    df_latest = df_final.sort_values('date').groupby('ticker').tail(1)
    file_latest = Path(OUTPUT_DIR) / "aurum_scored_latest_portfolio.csv"
    df_latest.to_csv(file_latest, sep=';', decimal=',', index=False)
    
    print("\n" + "="*50)
    print("‚úÖ SCORING CONCLU√çDO!")
    print(f"üìÅ Hist√≥rico: {file_hist}")
    print(f"üìÅ Snapshot (Excel): {file_latest}")
    print("="*50)
    
    print("\nüèÜ TOP 10 A√á√ïES HOJE (Qualidade Aurum):")
    cols_show = ['ticker', 'aurum_quality_score', 'quality_grade', 'ROE', 'SENTIMENT_SCORE', 'VOLATILIDADE']
    top10 = df_latest.sort_values('aurum_quality_score', ascending=False).head(10)
    print(top10[cols_show].to_string(index=False))

if __name__ == "__main__":
    run_scoring_pipeline()

2025-12-23 18:24:18,594 - INFO - Dados carregados: 18879 linhas de 94 empresas.
2025-12-23 18:24:18,608 - INFO - üéØ Calculando scores individuais...


--- ü¶Å INICIANDO MOTOR DE SCORING AVAN√áADO ---


2025-12-23 18:24:18,969 - INFO - ‚öñÔ∏è Calculando AURUM SCORE final...



‚úÖ SCORING CONCLU√çDO!
üìÅ Hist√≥rico: ..\data\aurum_final_scores\aurum_scored_history.parquet
üìÅ Snapshot (Excel): ..\data\aurum_final_scores\aurum_scored_latest_portfolio.csv

üèÜ TOP 10 A√á√ïES HOJE (Qualidade Aurum):
   ticker  aurum_quality_score quality_grade      ROE  SENTIMENT_SCORE  VOLATILIDADE
 MULT3.SA            57.928712             C 2.201927              0.0      0.015106
 SLCE3.SA            57.340818             C 0.119173              0.0      0.012109
 CURY3.SA            57.197869             C 0.166912              0.0      0.015372
 MOTV3.SA            56.527477             C 0.110268              0.0      0.014928
 SUZB3.SA            56.399023             C 0.301152              0.0      0.012409
 ISAE4.SA            55.815113             C 0.158355              0.0      0.011797
 RAIL3.SA            55.372407             C 0.095788              0.0      0.022669
 EGIE3.SA            55.311749             C 0.158355              0.0      0.014555
 PCAR3.S