In [2]:
import json
import random
import os
import re
from pathlib import Path
from typing import List, Dict, Any, Tuple
import shutil
import time

# ==============================================================================
# CONFIGURA√á√ïES
# ==============================================================================

# Diret√≥rio de onde o script ir√° ler os JSONs (Treino Geral - AGORA LIMPOS)
INPUT_DIR = Path('data/json/test_ready')

# Diret√≥rio para onde os 3 exemplos selecionados ser√£o movidos (Controle)
SAMPLES_DIR = Path('data/json/fewshot_samples')

# Crit√©rios de Sele√ß√£o
MIN_FATORES_POR_RELATORIO = 2 # M√≠nimo de fatores contribuintes que cada exemplo deve ter
NUM_EXEMPLOS_DESEJADOS = 3    # N√∫mero total de exemplos Few-Shot

# ==============================================================================
# FUN√á√ïES DE PROCESSAMENTO (Sem a limpeza individual)
# ==============================================================================

# Nota: A fun√ß√£o 'limpar_fator_contribuinte' foi movida para limpador_labels.py
# e ser√° executada separadamente antes deste script.

def carregar_e_filtrar_candidatos(input_dir: Path) -> List[Dict[str, Any]]:
    """
    Carrega todos os JSONs e filtra os que t√™m o n√∫mero m√≠nimo de fatores.
    Assume que os arquivos j√° foram limpos pelo limpador_labels.py.
    """
    candidatos_validos = []
    arquivos_json = list(input_dir.glob("*.json"))

    print(f"üìÅ Total de arquivos JSON encontrados: {len(arquivos_json)}")

    for arquivo_path in arquivos_json:
        try:
            with open(arquivo_path, 'r', encoding='utf-8') as f:
                data = json.load(f)

            # Acessa a lista de fatores LIMPOS
            fatores_limpos = data.get('conteudo', {}).get('fatores_contribuintes', [])

            # 1. Verifica o crit√©rio de tamanho
            if len(fatores_limpos) >= MIN_FATORES_POR_RELATORIO:
                candidatos_validos.append({
                    'path': arquivo_path,
                    'data': data,
                    'fatores': fatores_limpos # Usando a lista LIMPA (Conceito (Classifica√ß√£o))
                })

        except Exception as e:
            print(f"  ‚ùå Erro ao ler ou analisar {arquivo_path.name}: {e}")

    print(f"üéØ Total de relat√≥rios candidatos (com >= {MIN_FATORES_POR_RELATORIO} fatores limpos): {len(candidatos_validos)}")
    return candidatos_validos

def selecionar_amostra_diversa(candidatos: List[Dict[str, Any]], num_exemplos: int) -> List[Dict[str, Any]]:
    """
    Seleciona 'num_exemplos' relat√≥rios priorizando o conjunto m√°ximo de fatores √∫nicos.
    A classifica√ß√£o (contribuiu) √© removida temporariamente para calcular a diversidade por conceito.
    """
    if len(candidatos) < num_exemplos:
        print(f"üõë Aviso: Apenas {len(candidatos)} candidatos dispon√≠veis. Selecionando todos.")
        return candidatos

    # 1. Contar a frequ√™ncia de todos os fatores (somente o CONCEITO)
    frequencia_fatores = {}

    def get_conceito_limpo(fator_completo):
        """Extrai apenas o conceito (exclui a classifica√ß√£o entre par√™nteses)"""
        return fator_completo.split('(')[0].strip().lower()

    for cand in candidatos:
        for fator in cand['fatores']:
            fator_limpo_conceito = get_conceito_limpo(fator)
            frequencia_fatores[fator_limpo_conceito] = frequencia_fatores.get(fator_limpo_conceito, 0) + 1

    # 2. Atribuir um "valor de diversidade" a cada relat√≥rio
    for cand in candidatos:
        valor_diversidade = 0
        fatores_unicos_conceito = set()

        for fator in cand['fatores']:
            fator_limpo_conceito = get_conceito_limpo(fator)

            # Fatores menos frequentes s√£o mais valiosos (maior raridade)
            fator_raridade = 1 / (frequencia_fatores.get(fator_limpo_conceito, 1) + 1)
            valor_diversidade += fator_raridade
            fatores_unicos_conceito.add(fator_limpo_conceito)

        cand['score_diversidade'] = valor_diversidade
        cand['fatores_unicos_conceito'] = fatores_unicos_conceito

    # 3. Ordenar e selecionar os 3 mais diversos

    # Ordena todos os candidatos pelo maior score de diversidade
    candidatos_ordenados = sorted(candidatos, key=lambda x: x['score_diversidade'], reverse=True)

    exemplos_selecionados: List[Dict[str, Any]] = []

    # Abordagem gananciosa: pega os K mais diversos
    for i in range(min(num_exemplos, len(candidatos_ordenados))):
        exemplos_selecionados.append(candidatos_ordenados[i])

    return exemplos_selecionados

def contar_labels_e_mover(candidatos: List[Dict[str, Any]], amostra_final: List[Dict[str, Any]]):
    """
    Executa os passos de contar labels e mover a amostra.
    """
    # 1. Contagem Total de Labels (LIMPOS)
    total_labels = sum(len(c.get('fatores', [])) for c in candidatos)
    print(f"\nüìä Contagem total de labels (fatores contribuintes LIMPOS) em {INPUT_DIR}: {total_labels}")

    # 2. Detalhes da Amostra Final
    fatores_unicos_na_amostra = set()
    nomes_arquivos_amostra = []

    for ex in amostra_final:
        fatores_unicos_na_amostra.update(ex['fatores_unicos_conceito'])
        nomes_arquivos_amostra.append(ex['path'].name)

    print(f"\n‚ú® Amostra selecionada ({len(amostra_final)} relat√≥rios):")
    print(f"   Total de labels √∫nicos (conceitos) na amostra: {len(fatores_unicos_na_amostra)}")
    print(f"   Labels √∫nicos (conceitos, exemplos): {list(fatores_unicos_na_amostra)[:5]}...")

    # 3. Mover os arquivos
    SAMPLES_DIR.mkdir(parents=True, exist_ok=True)
    movidos = 0

    print(f"\nüì¶ Movendo {len(amostra_final)} arquivos para {SAMPLES_DIR.name}...")
    for ex in amostra_final:
        src_path = ex['path']
        dest_path = SAMPLES_DIR / src_path.name
        try:
            # Move o arquivo (agora ele j√° est√° limpo no disco)
            shutil.move(str(src_path), str(dest_path))
            movidos += 1
        except Exception as e:
            print(f"  ‚ùå Erro ao mover {src_path.name}: {e}")

    print(f"\n‚úÖ Conclu√≠do. {movidos} relat√≥rios movidos para a pasta de controle.")
    print("------------------------------------------------------------------")

# ==============================================================================
# EXECU√á√ÉO PRINCIPAL
# ==============================================================================

def main_fewshot_sampler():
    print("ATEN√á√ÉO: Este script assume que 'limpador_labels.py' j√° foi executado.")
    print("üöÄ INICIANDO SELE√á√ÉO DA AMOSTRA DIVERSA...")

    # 1. Carregar e filtrar documentos
    candidatos = carregar_e_filtrar_candidatos(INPUT_DIR)

    if len(candidatos) < NUM_EXEMPLOS_DESEJADOS:
        print("N√£o h√° relat√≥rios candidatos suficientes para a sele√ß√£o Few-Shot.")
        return

    # 2. Selecionar a amostra diversa
    amostra_final = selecionar_amostra_diversa(candidatos, NUM_EXEMPLOS_DESEJADOS)

    # 3. Contar labels e mover a amostra selecionada
    contar_labels_e_mover(candidatos, amostra_final)

if __name__ == "__main__":
    main_fewshot_sampler()

ATEN√á√ÉO: Este script assume que 'limpador_labels.py' j√° foi executado.
üöÄ INICIANDO SELE√á√ÉO DA AMOSTRA DIVERSA...
üìÅ Total de arquivos JSON encontrados: 993
üéØ Total de relat√≥rios candidatos (com >= 2 fatores limpos): 441

üìä Contagem total de labels (fatores contribuintes LIMPOS) em data\json\training_ready: 1410

‚ú® Amostra selecionada (3 relat√≥rios):
   Total de labels √∫nicos (conceitos) na amostra: 19
   Labels √∫nicos (conceitos, exemplos): ['cultura do grupo de trabalho', 'sistema de apoio', 'processo organizacional', 'pessoal de apoio', 'comunica√ß√£o']...

üì¶ Movendo 3 arquivos para fewshot_samples...

‚úÖ Conclu√≠do. 3 relat√≥rios movidos para a pasta de controle.
------------------------------------------------------------------
