In [1]:
import os
import json
import time
import random
import csv
import shutil
from datetime import datetime
from pathlib import Path
from typing import List, Dict, Any
from dotenv import load_dotenv

# --- IMPORTA√á√ÉO DA SDK (google-genai) ---
from google import genai
from google.genai import types

# ==============================================================================
# CONFIGURA√á√ïES GERAIS
# ==============================================================================

# Carrega vari√°veis do arquivo .env
load_dotenv()

# 1. Configura√ß√£o da API Key
API_KEY = os.getenv("GEMINI_API_KEY")

# 2. Configura√ß√£o do Modelo
MODEL_NAME = "gemini-2.5-flash"

# 3. Configura√ß√£o de Gera√ß√£o Padr√£o
GENERATION_CONFIG = types.GenerateContentConfig(
    temperature=0.2,
    top_p=0.8,
    top_k=40,
    #max_output_tokens=1000,
    response_mime_type="text/plain",
    safety_settings=[
        types.SafetySetting(
            category="HARM_CATEGORY_HATE_SPEECH",
            threshold="BLOCK_NONE"
        ),
        types.SafetySetting(
            category="HARM_CATEGORY_DANGEROUS_CONTENT",
            threshold="BLOCK_NONE"
        ),
        types.SafetySetting(
            category="HARM_CATEGORY_HARASSMENT",
            threshold="BLOCK_NONE"
        ),
        types.SafetySetting(
            category="HARM_CATEGORY_SEXUALLY_EXPLICIT",
            threshold="BLOCK_NONE"
        ),
    ]
)

# 4. Configura√ß√£o de Amostragem e Logs
QTDE_AMOSTRA_TESTE = 30

# Timestamp atual para arquivos √∫nicos por execu√ß√£o
TIMESTAMP_EXECUCAO = datetime.now().strftime("%Y%m%d_%H%M%S")

# Caminhos
INPUT_DIR = Path('data/json/cleaned_factors/identified_factors')
PROCESSED_DIR = INPUT_DIR / 'already_tested' # Novo diret√≥rio para arquivos movidos
FEW_SHOT_DIR = Path('data/json/fewshot_samples')

# Arquivo de resultado agora inclui timestamp para n√£o sobrescrever lotes anteriores
OUTPUT_FILE = Path(f'results/cenipa_gemini_results_{TIMESTAMP_EXECUCAO}.json')
LOG_FILE = Path('logs/log_execucao_arquivos.csv')

# ==============================================================================
# TAXONOMIA CENIPA
# ==============================================================================
TAXONOMIA_CENIPA = {
    "Fatores Humanos": [
        "√Ålcool", "Ansiedade", "Aten√ß√£o", "Atitude", "Capacita√ß√£o e treinamento",  "Caracter√≠sticas da tarefa", "Clima organizacional",
        "Comunica√ß√£o", "Condi√ß√µes f√≠sicas do trabalho", "Cultura do grupo de trabalho", "Cultura organizacional", "Desorienta√ß√£o", "Dieta inadequada",
        "Din√¢mica da equipe", "Disbarismo", "Dor", "Enfermidade", "Enjoo a√©reo", "Equipamento - caracter√≠sticas ergon√¥micas", "Estado emocional", "Fadiga",
        "Gravidez", "Hiperventila√ß√£o", "Hip√≥xia", "Ilus√µes visuais", "Inconsci√™ncia", "Influ√™ncias externas", "Ins√¥nia", "Intoxica√ß√£o alimentar",
        "Intoxica√ß√£o por CO", "Mem√≥ria", "Motiva√ß√£o", "Obesidade", "Organiza√ß√£o do trabalho", "Percep√ß√£o", "Processo decis√≥rio", "Processos Organizacionais",
        "Pr√≥teses", "Rela√ß√µes interpessoais", "Ressaca", "Sistemas de apoio", "Sobrecarga de tarefas", "Uso de Medicamento", "Uso il√≠cito de drogas", "Vertigem",
        "Vestimenta inadequada"
    ],
    "Fatores Operacionais": [
        "Aplica√ß√£o do comando", "Condi√ß√µes meteorol√≥gicas adversas", "Conhecimento de normas (ATS)", "Console (ATS)", "Coordena√ß√£o de cabine",
        "Coordena√ß√£o de tr√°fego (ATS)", "Desvio de navega√ß√£o", "Emprego de meios (ATS)", "Equipamento de apoio (ATS)", "Fraseologia da tripula√ß√£o",
        "Fraseologia do √ìrg√£o ATS", "Habilidade de controle (ATS)", "Indisciplina de voo", "Infraestrutura aeroportu√°ria", "Instru√ß√£o",
        "Julgamento de pilotagem", "Limite de autoriza√ß√£o", "Manuten√ß√£o da aeronave", "Outro", "Pessoal de apoio", "Planejamento de tr√°fego (ATS)",
        "Planejamento do voo", "Planejamento gerencial", "Pouca experi√™ncia do piloto", "Presen√ßa de ave", "Presen√ßa de fauna (n√£o ave)", "Publica√ß√µes (ATS)",
        "RADAR (ATS)", "Servi√ßo fixo (ATS)", "Servi√ßo m√≥vel (ATS)", "Substitui√ß√£o na posi√ß√£o (ATS)", "Supervis√£o (ATS)", "Supervis√£o gerencial",
        "Tratamento (ATS)", "Visualiza√ß√£o (ATS)"
    ],
    "Fatores Materiais": [
        "Fabrica√ß√£o", "Manuseio do material", "Projeto"
    ]
}

TODOS_FATORES = []
for cat in TAXONOMIA_CENIPA.values():
    TODOS_FATORES.extend(cat)

# ==============================================================================
# FUN√á√ïES DE UTILIDADE
# ==============================================================================

def get_gemini_client():
    if not API_KEY:
        print("‚ö†Ô∏è ERRO: API Key n√£o encontrada.")
        return None
    return genai.Client(api_key=API_KEY)

def carregar_relatorios(diretorio: Path) -> List[Dict]:
    relatorios = []
    if not diretorio.exists():
        print(f"‚ö†Ô∏è Diret√≥rio n√£o encontrado: {diretorio}")
        return []

    arquivos = list(diretorio.glob("*.json"))
    if not arquivos:
        print(f"‚ö†Ô∏è Nenhum arquivo JSON encontrado em: {diretorio}")
        return []

    print(f"Carregando {len(arquivos)} arquivos de treino de: {diretorio}...")
    for arquivo in arquivos:
        try:
            with open(arquivo, 'r', encoding='utf-8') as f:
                data = json.load(f)
                data['filename'] = arquivo.name
                if 'conteudo' in data:
                    relatorios.append(data)
        except Exception as e:
            print(f"  Erro ao ler {arquivo.name}: {e}")
    return relatorios

def salvar_log_csv(relatorios_selecionados: List[Dict]):
    """
    Salva o log em modo append ('a').
    Se o arquivo n√£o existir, cria o cabe√ßalho.
    """
    # Garante que a pasta logs existe
    LOG_FILE.parent.mkdir(parents=True, exist_ok=True)

    file_exists = LOG_FILE.exists()

    # Se existe, 'a' (append), sen√£o 'w' (write)
    mode = 'a' if file_exists else 'w'

    print(f"üìù Atualizando log de execu√ß√£o em: {LOG_FILE}")

    with open(LOG_FILE, mode=mode, newline='', encoding='utf-8') as f:
        writer = csv.writer(f)

        # Escreve cabe√ßalho apenas se o arquivo for novo
        if not file_exists:
            writer.writerow(['Data_Hora', 'Arquivo_Selecionado', 'Batch_ID'])

        timestamp = datetime.now().strftime("%Y-%m-%d %H:%M:%S")
        for relatorio in relatorios_selecionados:
            writer.writerow([timestamp, relatorio['filename'], TIMESTAMP_EXECUCAO])

def mover_arquivos_processados(relatorios: List[Dict]):
    """
    Move os arquivos JSON processados para a pasta 'already_tested'.
    """
    if not relatorios:
        return

    PROCESSED_DIR.mkdir(parents=True, exist_ok=True)
    print(f"\nüì¶ Movendo {len(relatorios)} arquivos processados para: {PROCESSED_DIR}")

    movidos = 0
    erros = 0

    for caso in relatorios:
        filename = caso['filename']
        src_path = INPUT_DIR / filename
        dst_path = PROCESSED_DIR / filename

        try:
            if src_path.exists():
                shutil.move(str(src_path), str(dst_path))
                movidos += 1
            else:
                print(f"  ‚ö†Ô∏è Arquivo n√£o encontrado na origem (pode j√° ter sido movido): {filename}")
        except Exception as e:
            print(f"  ‚ùå Erro ao mover {filename}: {e}")
            erros += 1

    print(f"  -> {movidos} arquivos movidos com sucesso.")
    if erros > 0:
        print(f"  -> {erros} erros durante a movimenta√ß√£o.")

def preparar_texto_relatorio(conteudo_json: Dict) -> str:
    historico = conteudo_json.get('historico_voo', '')
    analise = conteudo_json.get('analise', '')
    return f"""
    --- IN√çCIO DO RELAT√ìRIO ---
    HIST√ìRICO DO VOO:
    {historico}

    AN√ÅLISE:
    {analise}
    --- FIM DO RELAT√ìRIO ---
    """

def chamar_gemini(client, prompt: str, retries=3, custom_config=None) -> str:
    config_to_use = custom_config if custom_config else GENERATION_CONFIG

    for i in range(retries):
        try:
            response = client.models.generate_content(
                model=MODEL_NAME,
                contents=prompt,
                config=config_to_use
            )

            if response.text:
                return response.text

            print(f"  ‚ö†Ô∏è AVISO: Resposta vazia (Tentativa {i+1}). Investigando motivo...")
            if response.candidates:
                candidate = response.candidates[0]
                reason = candidate.finish_reason
                print(f"     -> Motivo do Bloqueio (Finish Reason): {reason}")

            return "BLOQUEADO_PELO_FILTRO"

        except Exception as e:
            wait_time = 10 * (i + 1)
            msg_erro = str(e)
            if "429" in msg_erro or "RESOURCE_EXHAUSTED" in msg_erro:
                print(f"  ‚ö†Ô∏è COTA EXCEDIDA (429). Aguardando {wait_time}s...")
            else:
                print(f"  ‚ö†Ô∏è Erro na API (tentativa {i+1}/{retries}): {e}. Aguardando {wait_time}s...")
            time.sleep(wait_time)

    return "ERRO_API"

# ==============================================================================
# ESTRAT√âGIAS DE PROMPT
# ==============================================================================

def estrategia_zero_shot(client, texto_relatorio: str) -> str:
    prompt = f"""
    Voc√™ √© um especialista em seguran√ßa de voo (CENIPA).
    Leia o relat√≥rio abaixo e liste APENAS os Fatores Contribuintes.
    SEJA CONCISO. N√£o escreva introdu√ß√µes ou justificativas. Apenas os nomes dos fatores separados por v√≠rgula.

    {texto_relatorio}

    Fatores Contribuintes:
    """
    return chamar_gemini(client, prompt)

def estrategia_few_shot(client, texto_relatorio: str, exemplos: List[Dict]) -> str:
    prompt_exemplos = ""
    for ex in exemplos:
        txt_ex = preparar_texto_relatorio(ex['conteudo'])
        fatores_ex = ", ".join(ex['conteudo'].get('fatores_contribuintes', []))
        prompt_exemplos += f"""
        Exemplo de Relat√≥rio:
        {txt_ex}
        Fatores Contribuintes Identificados:
        {fatores_ex}
        -----------------------------------
        """
    prompt = f"""
    Voc√™ √© um especialista do CENIPA. Extraia os fatores contribuintes. Siga o padr√£o dos exemplos (apenas a lista).

    {prompt_exemplos}

    Novo Relat√≥rio:
    {texto_relatorio}

    Resposta (Apenas Fatores):
    """
    return chamar_gemini(client, prompt)

def estrategia_auto_cot(client, texto_relatorio: str) -> str:
    cot_config = types.GenerateContentConfig(
        temperature=0.2,
        top_p=0.8,
        top_k=40,
        safety_settings=GENERATION_CONFIG.safety_settings
    )
    prompt = f"""
    Voc√™ √© um investigador de acidentes aeron√°uticos do CENIPA.
    Leia o relat√≥rio abaixo.

    {texto_relatorio}

    Tarefa: Identificar os fatores contribuintes.
    Pense passo a passo nas falhas humanas, materiais e operacionais descritas no texto.
    No final, apenas liste os principais fatores contribuintes, separados por v√≠rgula, sem exibir uma explica√ß√£o expl√≠cita.
    """
    return chamar_gemini(client, prompt, custom_config=cot_config)

def estrategia_zero_shot_plus(client, texto_relatorio: str) -> str:
    lista_fatores_str = ", ".join(TODOS_FATORES)
    prompt = f"""
    Analise o relat√≥rio. Selecione quais fatores da lista oficial do CENIPA contribu√≠ram.
    Responda APENAS com os itens da lista selecionados, separados por v√≠rgula.

    Lista Oficial:
    [{lista_fatores_str}]

    {texto_relatorio}

    Fatores Contribuintes (apenas a lista):
    """
    return chamar_gemini(client, prompt)

def estrategia_cfg_cot(client, texto_relatorio: str) -> Dict[str, str]:
    cot_config = types.GenerateContentConfig(
        temperature=0.2,
        top_p=0.8,
        top_k=40,
        safety_settings=GENERATION_CONFIG.safety_settings
    )
    respostas = {}

    prompt_humanos = f"""
    Analise focando EXCLUSIVAMENTE em Fatores Humanos.
    R√≥tulos poss√≠veis: {", ".join(TAXONOMIA_CENIPA['Fatores Humanos'])}.

    {texto_relatorio}

    Quais fatores humanos da lista acima est√£o presentes? apenas liste sem exibir uma explica√ß√£o expl√≠cita.
    """
    respostas['humanos'] = chamar_gemini(client, prompt_humanos, custom_config=cot_config)

    prompt_operacionais = f"""
    Analise focando EXCLUSIVAMENTE em Fatores Operacionais.
    R√≥tulos poss√≠veis: {", ".join(TAXONOMIA_CENIPA['Fatores Operacionais'])}.

    {texto_relatorio}

    Quais fatores operacionais da lista acima est√£o presentes? apenas liste sem exibir uma explica√ß√£o expl√≠cita.
    """
    time.sleep(3)
    respostas['operacionais'] = chamar_gemini(client, prompt_operacionais, custom_config=cot_config)

    prompt_materiais = f"""
    Analise focando EXCLUSIVAMENTE em Fatores Materiais.
    R√≥tulos poss√≠veis: {", ".join(TAXONOMIA_CENIPA['Fatores Materiais'])}.

    {texto_relatorio}

    Quais fatores materiais da lista acima est√£o presentes? apenas liste sem exibir uma explica√ß√£o expl√≠cita.
    """
    time.sleep(3)
    respostas['materiais'] = chamar_gemini(client, prompt_materiais, custom_config=cot_config)

    respostas['consolidado'] = f"HUMANOS: {respostas['humanos']}\nOPERACIONAIS: {respostas['operacionais']}\nMATERIAIS: {respostas['materiais']}"
    return respostas['consolidado']

# ==============================================================================
# LOOP PRINCIPAL
# ==============================================================================

def main():
    print("--- Iniciando Benchmark CENIPA vs GEMINI (Modo Batch) ---")
    print(f"Configura√ß√£o: Processar {QTDE_AMOSTRA_TESTE} arquivos aleat√≥rios.")
    print(f"Resultados ser√£o salvos em: {OUTPUT_FILE}")

    client = get_gemini_client()
    if not client:
        return

    # 1. Listar e Sortear arquivos da pasta de entrada
    print(f"\nListando arquivos no diret√≥rio: {INPUT_DIR}")
    if not INPUT_DIR.exists():
        print("‚ùå ERRO: Diret√≥rio de teste n√£o encontrado.")
        return

    todos_paths = list(INPUT_DIR.glob("*.json"))
    total_disponivel = len(todos_paths)
    if total_disponivel == 0:
        print("‚ùå ERRO: Nenhum arquivo JSON encontrado para processar.")
        return

    tamanho_amostra = min(QTDE_AMOSTRA_TESTE, total_disponivel)
    paths_sorteados = random.sample(todos_paths, tamanho_amostra)

    conjunto_teste = []
    for path in paths_sorteados:
        try:
            with open(path, 'r', encoding='utf-8') as f:
                data = json.load(f)
                data['filename'] = path.name # Importante para mover depois
                if 'conteudo' in data:
                    conjunto_teste.append(data)
        except Exception as e:
            print(f"  Erro ao ler {path.name}: {e}")

    if conjunto_teste:
        # Loga no CSV (Append)
        salvar_log_csv(conjunto_teste)
    else:
        print("Nenhum arquivo v√°lido carregado.")
        return

    # 2. Carregar Dados de Treino
    exemplos_few_shot = carregar_relatorios(FEW_SHOT_DIR)

    print(f"\n‚úÖ Iniciando processamento de {len(conjunto_teste)} casos de teste...")
    resultados_finais = []

    # Garante diret√≥rio de sa√≠da
    OUTPUT_FILE.parent.mkdir(parents=True, exist_ok=True)

    try:
        for idx, caso in enumerate(conjunto_teste):
            nome_arq = caso.get('filename', f'caso_{idx}')
            print(f"\nProcessando caso {idx+1}/{len(conjunto_teste)}: {nome_arq}")

            texto = preparar_texto_relatorio(caso['conteudo'])
            ground_truth = caso['conteudo'].get('fatores_contribuintes', [])

            res_caso = {
                "arquivo": nome_arq,
                "batch_id": TIMESTAMP_EXECUCAO,
                "ground_truth": ground_truth,
                "respostas": {}
            }

            if idx > 0:
                print("  (Aguardando 15s para aliviar cota entre arquivos...)")
                time.sleep(15)

            # Executa as estrat√©gias
            print("  > Executando Zero Shot...")
            res_caso["respostas"]["zero_shot"] = estrategia_zero_shot(client, texto)

            print("  > Executando Few Shot...")
            if exemplos_few_shot:
                res_caso["respostas"]["few_shot"] = estrategia_few_shot(client, texto, exemplos_few_shot)
            else:
                res_caso["respostas"]["few_shot"] = "SKIPPED_NO_EXAMPLES"

            print("  > Executando Auto-CoT...")
            res_caso["respostas"]["auto_cot"] = estrategia_auto_cot(client, texto)

            print("  > Executando Zero Shot+...")
            res_caso["respostas"]["zero_shot_plus"] = estrategia_zero_shot_plus(client, texto)

            print("  > Executando CFG-CoT (3 steps)...")
            res_caso["respostas"]["cfg_cot"] = estrategia_cfg_cot(client, texto)

            resultados_finais.append(res_caso)

        print(f"\nSalvando resultados em {OUTPUT_FILE}...")
        with open(OUTPUT_FILE, 'w', encoding='utf-8') as f:
            json.dump(resultados_finais, f, ensure_ascii=False, indent=4)

        # 3. MOVER ARQUIVOS APENAS SE TUDO CORREU BEM
        mover_arquivos_processados(conjunto_teste)

        print("Conclu√≠do com sucesso!")

    except KeyboardInterrupt:
        print("\n‚ö†Ô∏è Execu√ß√£o interrompida pelo usu√°rio. Salvando parcial...")
        if resultados_finais:
            partial_file = OUTPUT_FILE.with_name(f"partial_{OUTPUT_FILE.name}")
            with open(partial_file, 'w', encoding='utf-8') as f:
                json.dump(resultados_finais, f, ensure_ascii=False, indent=4)
        print("Finalizado.")

if __name__ == "__main__":
    main()

--- Iniciando Benchmark CENIPA vs GEMINI (Modo Batch) ---
Configura√ß√£o: Processar 30 arquivos aleat√≥rios.
Resultados ser√£o salvos em: results\cenipa_gemini_results_20251201_114018.json

Listando arquivos no diret√≥rio: data\json\cleaned_factors\identified_factors
üìù Atualizando log de execu√ß√£o em: logs\log_execucao_arquivos.csv
Carregando 3 arquivos de treino de: data\json\fewshot_samples...

‚úÖ Iniciando processamento de 30 casos de teste...

Processando caso 1/30: pt_ofu_09_07_01_1.json
  > Executando Zero Shot...
  > Executando Few Shot...
  > Executando Auto-CoT...
  > Executando Zero Shot+...
  > Executando CFG-CoT (3 steps)...

Processando caso 2/30: PR-ZPE_22-04-2016-INC_GRAV.json
  (Aguardando 15s para aliviar cota entre arquivos...)
  > Executando Zero Shot...
  > Executando Few Shot...
  > Executando Auto-CoT...
  > Executando Zero Shot+...
  > Executando CFG-CoT (3 steps)...

Processando caso 3/30: pt_dza_08_08_12.json
  (Aguardando 15s para aliviar cota entre arqui