In [2]:
import json
import os
import shutil
from pathlib import Path
from collections import Counter

# ==============================================================================
# CONFIGURA√á√ïES
# ==============================================================================
INPUT_DIR = Path('data/json/cleaned_factors')
OUTLIER_DIR = Path('data/json/Identified_outliers')
LIMITE_OUTLIER = 2  # Se aparecer x vezes ou menos, √© considerado outlier

def analisar_e_segregar():
    # 1. Prepara√ß√£o do ambiente
    if not INPUT_DIR.exists():
        print(f"Erro: Diret√≥rio de entrada '{INPUT_DIR}' n√£o encontrado.")
        return

    # Cria diret√≥rio de destino se n√£o existir
    OUTLIER_DIR.mkdir(parents=True, exist_ok=True)

    arquivos_json = list(INPUT_DIR.glob("*.json"))
    print(f"üìÇ Lendo {len(arquivos_json)} arquivos para an√°lise de frequ√™ncia...")

    # ==========================================================================
    # PASSO 1: CONTAGEM GLOBAL (Mapear o territ√≥rio)
    # ==========================================================================
    contador_global = Counter()

    # Dicion√°rio para guardar os fatores de TODOS arquivos em mem√≥ria
    cache_arquivos = {}

    for arquivo in arquivos_json:
        try:
            with open(arquivo, 'r', encoding='utf-8') as f:
                dados = json.load(f)

            # Extrai a lista, garantindo que seja uma lista mesmo se for None
            fatores = dados.get('conteudo', {}).get('fatores_contribuintes', [])
            if fatores is None:
                fatores = []

            # Normaliza√ß√£o b√°sica
            fatores = [f.strip() for f in fatores if f]

            # Guardamos no cache INDEPENDENTE de ter fatores ou n√£o
            cache_arquivos[arquivo] = fatores

            # S√≥ contamos para a estat√≠stica se houver fatores
            if fatores:
                contador_global.update(fatores)

        except Exception as e:
            print(f"‚ö†Ô∏è Erro ao ler {arquivo.name}: {e}")

    print(f"üìä Total de fatores √∫nicos identificados: {len(contador_global)}")

    # ==========================================================================
    # PASSO 2: IDENTIFICAR OUTLIERS
    # ==========================================================================
    # Labels que aparecem LIMITE_OUTLIER vezes ou menos
    labels_outliers = {
        label for label, freq in contador_global.items()
        if freq <= LIMITE_OUTLIER
    }

    print(f"üîç Identificados {len(labels_outliers)} labels considerados 'raros' (frequ√™ncia <= {LIMITE_OUTLIER}).")

    # ==========================================================================
    # PASSO 3: SEGREGAR ARQUIVOS
    # ==========================================================================
    movidos_vazios = 0
    movidos_raros = 0
    total_movidos = 0

    print("\nüì¶ Iniciando segrega√ß√£o de arquivos...")

    for arquivo_path, fatores in cache_arquivos.items():
        eh_vazio = len(fatores) == 0
        contem_outlier = any(fator in labels_outliers for fator in fatores)

        motivo = None
        if eh_vazio:
            motivo = "Sem Fatores"
            movidos_vazios += 1
        elif contem_outlier:
            motivo = "Fator Raro"
            movidos_raros += 1

        # Se tiver motivo para mover, movemos
        if motivo:
            destino = OUTLIER_DIR / arquivo_path.name
            try:
                shutil.move(str(arquivo_path), str(destino))
                total_movidos += 1
                # Opcional: printar movimenta√ß√£o individual se quiser debugar
                # print(f" -> Movendo {arquivo_path.name} ({motivo})")
            except Exception as e:
                print(f"‚ùå Erro ao mover {arquivo_path.name}: {e}")

    # ==========================================================================
    # PASSO 4: RELAT√ìRIO FINAL
    # ==========================================================================
    print("\n" + "="*60)
    print(f"RELAT√ìRIO DE FATORES COMUNS (Frequ√™ncia > {LIMITE_OUTLIER})")
    print("="*60)

    fatores_comuns = {
        label: freq for label, freq in contador_global.items()
        if freq > LIMITE_OUTLIER
    }

    for fator, freq in sorted(fatores_comuns.items()):
        print(f"‚Ä¢ {fator}: {freq}")

    print("\n" + "="*60)
    print("RESUMO DA OPERA√á√ÉO")
    print("="*60)
    print(f"üìÇ Arquivos analisados: {len(arquivos_json)}")
    print(f"üìâ Arquivos segregados (Total): {total_movidos}")
    print(f"   ‚îú‚îÄ Por aus√™ncia de fatores: {movidos_vazios}")
    print(f"   ‚îî‚îÄ Por conter fatores raros: {movidos_raros}")
    print(f"‚úÖ Arquivos mantidos (Dataset Limpo): {len(arquivos_json) - total_movidos}")
    print(f"üìÅ Local dos segregados: {OUTLIER_DIR}")
    print("="*60)

if __name__ == "__main__":
    analisar_e_segregar()

üìÇ Lendo 1567 arquivos para an√°lise de frequ√™ncia...
üìä Total de fatores √∫nicos identificados: 264
üîç Identificados 167 labels considerados 'raros' (frequ√™ncia <= 2).

üì¶ Iniciando segrega√ß√£o de arquivos...

RELAT√ìRIO DE FATORES COMUNS (Frequ√™ncia > 2)
‚Ä¢ aplica√ß√£o do comando: 149
‚Ä¢ aplica√ß√£o do comando (contribuiu): 180
‚Ä¢ aplica√ß√£o do comando (contribuiu) atitude (contribuiu): 3
‚Ä¢ aplica√ß√£o do comando (indeterminado): 89
‚Ä¢ aten√ß√£o: 8
‚Ä¢ aten√ß√£o (contribuiu): 58
‚Ä¢ aten√ß√£o (indeterminado): 39
‚Ä¢ atitude: 20
‚Ä¢ atitude (contribuiu): 149
‚Ä¢ atitude (indeterminado): 64
‚Ä¢ atua√ß√£o no comando (contribuiu): 4
‚Ä¢ capacita√ß√£o e treinamento (contribuiu): 12
‚Ä¢ capacita√ß√£o e treinamento (indeterminado): 23
‚Ä¢ caracter√≠stica da tarefa (indeterminado): 4
‚Ä¢ comunica√ß√£o: 10
‚Ä¢ comunica√ß√£o (contribuiu): 7
‚Ä¢ comunica√ß√£o (indeterminado): 4
‚Ä¢ condi√ß√£o meteorol√≥gica adversa: 18
‚Ä¢ condi√ß√£o meteorol√≥gica adversa (contribuiu): 30
‚Ä