In [4]:
import json
import os
import shutil
from pathlib import Path
from collections import Counter

# ==============================================================================
# CONFIGURA√á√ïES
# ==============================================================================
INPUT_DIR = Path('data/json/cleaned_factors')
OUTLIER_DIR = Path('data/json/Identified_outliers')
LIMITE_OUTLIER = 0  # Se aparecer x vezes ou menos, √© considerado outlier

def analisar_e_segregar():
    # 1. Prepara√ß√£o do ambiente
    if not INPUT_DIR.exists():
        print(f"Erro: Diret√≥rio de entrada '{INPUT_DIR}' n√£o encontrado.")
        return

    # Cria (ou limpa/recria se quiser ser agressivo, aqui apenas garante que existe)
    OUTLIER_DIR.mkdir(parents=True, exist_ok=True)

    arquivos_json = list(INPUT_DIR.glob("*.json"))
    print(f"üìÇ Lendo {len(arquivos_json)} arquivos para an√°lise de frequ√™ncia...")

    # ==========================================================================
    # PASSO 1: CONTAGEM GLOBAL (Mapear o territ√≥rio)
    # ==========================================================================
    contador_global = Counter()

    # Dicion√°rio para guardar os fatores de cada arquivo em mem√≥ria
    # (para evitar ler o disco duas vezes)
    cache_arquivos = {}

    for arquivo in arquivos_json:
        try:
            with open(arquivo, 'r', encoding='utf-8') as f:
                dados = json.load(f)

            fatores = dados.get('conteudo', {}).get('fatores_contribuintes', [])

            # Normaliza√ß√£o b√°sica (strip) para garantir contagem exata
            fatores = [f.strip() for f in fatores if f]

            if fatores:
                contador_global.update(fatores)
                cache_arquivos[arquivo] = fatores

        except Exception as e:
            print(f"‚ö†Ô∏è Erro ao ler {arquivo.name}: {e}")

    print(f"üìä Total de fatores √∫nicos identificados: {len(contador_global)}")

    # ==========================================================================
    # PASSO 2: IDENTIFICAR OUTLIERS
    # ==========================================================================
    # Labels que aparecem LIMITE_OUTLIER vezes ou menos
    labels_outliers = {
        label for label, freq in contador_global.items()
        if freq <= LIMITE_OUTLIER
    }

    print(f"üîç Identificados {len(labels_outliers)} labels considerados 'raros' (frequ√™ncia <= {LIMITE_OUTLIER}).")

    # ==========================================================================
    # PASSO 3: SEGREGAR ARQUIVOS
    # ==========================================================================
    arquivos_movidos = 0

    print("\nüì¶ Iniciando segrega√ß√£o de arquivos...")

    for arquivo_path, fatores in cache_arquivos.items():
        # Verifica se este arquivo cont√©m ALGUM fator que est√° na lista de outliers
        contem_outlier = any(fator in labels_outliers for fator in fatores)

        if contem_outlier:
            destino = OUTLIER_DIR / arquivo_path.name
            try:
                shutil.move(str(arquivo_path), str(destino))
                arquivos_movidos += 1
            except Exception as e:
                print(f"‚ùå Erro ao mover {arquivo_path.name}: {e}")

    # ==========================================================================
    # PASSO 4: RELAT√ìRIO FINAL
    # ==========================================================================
    print("\n" + "="*60)
    print(f"RELAT√ìRIO DE FATORES COMUNS (Frequ√™ncia > {LIMITE_OUTLIER})")
    print("="*60)

    # Filtra apenas os comuns para exibi√ß√£o
    fatores_comuns = {
        label: freq for label, freq in contador_global.items()
        if freq > LIMITE_OUTLIER
    }

    # Ordena alfabeticamente pela chave (nome do fator)
    for fator, freq in sorted(fatores_comuns.items()):
        print(f"‚Ä¢ {fator}: {freq}")

    print("\n" + "="*60)
    print("RESUMO DA OPERA√á√ÉO")
    print("="*60)
    print(f"üìÇ Arquivos analisados: {len(arquivos_json)}")
    print(f"üìâ Arquivos segregados (Outliers): {arquivos_movidos}")
    print(f"‚úÖ Arquivos mantidos (Dataset Limpo): {len(arquivos_json) - arquivos_movidos}")
    print(f"üìÅ Local dos outliers: {OUTLIER_DIR}")
    print("="*60)

if __name__ == "__main__":
    analisar_e_segregar()

üìÇ Lendo 1567 arquivos para an√°lise de frequ√™ncia...
üìä Total de fatores √∫nicos identificados: 283
üîç Identificados 0 labels considerados 'raros' (frequ√™ncia <= 0).

üì¶ Iniciando segrega√ß√£o de arquivos...

RELAT√ìRIO DE FATORES COMUNS (Frequ√™ncia > 0)
‚Ä¢ - aplica√ß√£o dos comandos: 1
‚Ä¢ - manuten√ß√£o da aeronave: 1
‚Ä¢ - n√£o foi poss√≠vel identificar os fatores contribuintes desta ocorr√™ncia: 1
‚Ä¢ ansiedade: 1
‚Ä¢ aplica√ß√£o de comando: 2
‚Ä¢ aplica√ß√£o de comandos: 33
‚Ä¢ aplica√ß√£o de comandos (contribuiu): 39
‚Ä¢ aplica√ß√£o de comandos (contribuiu) - julgamento de pilotagem (contribuiu) planejamento de voo (indeterminado): 1
‚Ä¢ aplica√ß√£o de comandos (indeterminado): 12
‚Ä¢ aplica√ß√£o de comandos - atitude - condi√ß√µes meteorol√≥gicas adversas: 1
‚Ä¢ aplica√ß√£o de comandos da aeronave: 1
‚Ä¢ aplica√ß√£o dos comando (contribuiu): 1
‚Ä¢ aplica√ß√£o dos comandos: 114
‚Ä¢ aplica√ß√£o dos comandos (contribuiu): 137
‚Ä¢ aplica√ß√£o dos comandos (contribuiu) -