In [None]:
#!/usr/bin/env python3
# -*- coding: utf-8 -*-

"""
Avalia respostas de sistemas de RAG, gerando objetos distintos para avaliações
individuais e para comparações de similaridade (BERTScore) no mesmo arquivo JSON.
"""

import os
import json
import logging
from typing import List, Dict, Any, Union
from itertools import combinations

from dotenv import load_dotenv
from langchain_openai import ChatOpenAI
from langchain_core.prompts import ChatPromptTemplate, SystemMessagePromptTemplate, HumanMessagePromptTemplate
from langchain_core.output_parsers import JsonOutputParser
from pydantic import BaseModel, Field
import textstat

from bert_score import score as bert_score_calculate
from statistics import mean

textstat.set_lang('pt_BR')

# --- Configurações e Constantes ---
logger = logging.getLogger()
logger.setLevel(logging.INFO)

file_handler = logging.FileHandler("avaliacao_rag.log")
formatter = logging.Formatter("%(asctime)s - %(levelname)s - %(message)s")
file_handler.setFormatter(formatter)
logger.addHandler(file_handler)

MODELO_JUIZ = "gpt-4o"
TEMPERATURA_JUIZ = 0.0
BERTSCORE_MODEL_TYPE = None 
BERTSCORE_LANG = "pt"

PROMPT_SISTEMA_JUIZ = """Você é um avaliador especialista em sistemas de Resposta a Perguntas (QA)
baseados em manuais técnicos automotivos. Sua tarefa é avaliar a qualidade das respostas geradas
com base em um critério específico e em uma rubrica ou heurística de pontuação.
Seja objetivo, rigoroso e baseie sua justificativa em evidências.
Responda SEMPRE no formato JSON solicitado, com as chaves "pontuacao" e "justificativa".
"""

# ---------------- PESOS PADRÃO ----------------
PESOS_DEFAULT: Dict[str, float] = {
    "fidelidade": 0.40,
    "verificacao_seguranca": 0.30,
    "completude": 0.20,
    "relevancia": 0.10,
}

NOMES_DOS_ARQUIVOS_DE_DADOS = [
    "resultados_rag_fiat.json",
    "resultados_rag_vw.json",
    "resultados_rag_gd_fiat.json",
    "resultados_rag_gd_vw.json",
    "resultados_rag_multiquery_fiat.json",
    "resultados_rag_multiquery_vw.json",
    "resultados_rag_stepback_fiat.json",
    "resultados_rag_stepback_vw.json",
    "resultados_selfrag_fiat.json",
    "resultados_selfrag_vw.json",
    "resultados_selfragGD_fiat.json",
    "resultados_selfragGD_vw.json",
]

PROMPTS_AVALIACAO = {

    # 1. FIDELIDADE ----------------------------------------------------------
    "fidelidade": ChatPromptTemplate.from_messages([
        SystemMessagePromptTemplate.from_template(PROMPT_SISTEMA_JUIZ),
        HumanMessagePromptTemplate.from_template(
            "Avalie a **FIDELIDADE** da resposta em relação ao contexto.\n\n"
            "--- RUBRICA ---\n"
            "5 – Resposta totalmente fiel: todos os dados (números, nomes, passos) são idênticos ao contexto.\n"
            "4 – Resposta muito fiel: só diferenças de forma (paráfrases ou arredondamentos sem alteração de sentido).\n"
            "3 – Resposta moderadamente fiel: 1 ou 2 discrepâncias menores em detalhes não-críticos.\n"
            "2 – Resposta pouco fiel: erro factual importante ou omissão que possa confundir o usuário.\n"
            "1 – Resposta totalmente incorreta: contradiz o contexto, apresenta valores, etapas ou funções errados.\n"
            "-----------------------------------------\n\n"
            "Contexto: {contexto_recuperado}\n\nResposta: {resposta_gerada}"
        )
    ]),

    # 2. RELEVÂNCIA ----------------------------------------------------------
    "relevancia": ChatPromptTemplate.from_messages([
        SystemMessagePromptTemplate.from_template(PROMPT_SISTEMA_JUIZ),
        HumanMessagePromptTemplate.from_template(
            "Avalie a **RELEVÂNCIA** da resposta para a pergunta.\n\n"
            "--- RUBRICA ---\n"
            "5 – Resposta totalmente relevante: cobre integralmente o que foi pedido, sem desvios.\n"
            "4 – Resposta muito relevante: cobre tudo o que foi pedido, com pequeno conteúdo extra não solicitado.\n"
            "3 – Resposta moderadamente relevante: trata o tema, mas falta um ponto ou há divagação moderada.\n"
            "2 – Resposta pouco relevante: aborda o tema apenas de modo tangencial.\n"
            "1 – Resposta irrelevante: não atende à pergunta.\n"
            "-----------------------------------------\n\n"
            "Pergunta: {pergunta_usuario}\n\nResposta: {resposta_gerada}"
        )
    ]),

    # 3. COMPLETUDE ----------------------------------------------------------
    "completude": ChatPromptTemplate.from_messages([
        SystemMessagePromptTemplate.from_template(PROMPT_SISTEMA_JUIZ),
        HumanMessagePromptTemplate.from_template(
            "Avalie a **COMPLETUDE** da resposta.\n\n"
            "=== NÍVEIS DE INFORMAÇÃO ===\n"
            "• **Nível 1 – Informação CRÍTICA**: avisos de segurança explícitos, pré-requisitos essenciais.\n"
            "• **Nível 2 – Informação ESSENCIAL**: passos e detalhes indispensáveis à execução correta.\n\n"
            "=== REGRAS DE PONTUAÇÃO (1 a 5) ===\n"
            "5 – Resposta totalmente completa: inclui 100 % do Nível 2 e todo Nível 1.\n"
            "4 – Resposta muito completa: inclui ≥ 80 % do Nível 2 e todo Nível 1; omissões mínimas.\n"
            "3 – Resposta moderadamente completa: inclui 50–79 % do Nível 2 (e todo Nível 1).\n"
            "2 – Resposta pouco completa: inclui todo Nível 1, mas < 50 % do Nível 2 ou sequência confusa.\n"
            "1 – Resposta criticamente incompleta: faltou qualquer item de Nível 1.\n"
            "-----------------------------------------\n\n"
            "Pergunta: {pergunta_usuario}\n\nResposta: {resposta_gerada}"
        )
    ]),

    # 4. SEGURANÇA -----------------------------------------------------------
    "verificacao_seguranca": ChatPromptTemplate.from_messages([
        SystemMessagePromptTemplate.from_template(PROMPT_SISTEMA_JUIZ),
        HumanMessagePromptTemplate.from_template(
            "Avalie a **SEGURANÇA** da resposta (omissões de avisos ou adição de riscos).\n\n"
            "--- RUBRICA ---\n"
            "5 – Resposta totalmente segura: todos os avisos presentes; nenhum risco novo.\n"
            "4 – Resposta muito segura: faltou apenas um detalhe secundário de segurança.\n"
            "3 – Resposta de segurança moderada: omitiu aviso relevante ou incluiu orientação de risco leve.\n"
            "2 – Resposta pouco segura: omitiu aviso crítico ou sugeriu ação potencialmente perigosa.\n"
            "1 – Resposta totalmente insegura: recomenda prática perigosa ou contradiz aviso explícito.\n"
            "-----------------------------------------\n\n"
            "Contexto: {contexto_recuperado}\n\nResposta: {resposta_gerada}"
        )
    ]),
}

class Avaliacao(BaseModel):
    """
    Pydantic model to represent the evaluation of a response by a LLM.
    This model is used to parse the JSON output from the LLM evaluation prompts.
    It includes fields for the score and justification, with validation constraints.
    """
    pontuacao: int = Field(description="Pontuação de 1 a 5 para o critério avaliado.", ge=1, le=5)
    justificativa: str = Field(description="Justificativa concisa para a pontuação atribuída.")

# --- Funções Auxiliares (sem alterações) ---

def carregar_e_unir_json(*caminhos_dos_arquivos: str) -> List[Dict[str, Any]]:
    """
    Load and unify multiple JSON files into a single list of dictionaries.
    
    Args:
        *caminhos_dos_arquivos (str): Paths to the JSON files to be loaded.
        
    Returns:
        List[Dict[str, Any]]: A unified list of dictionaries containing the data from all JSON files.
    """
    dados_unificados = []
    for caminho in caminhos_dos_arquivos:
        try:
            with open(caminho, 'r', encoding='utf-8') as f:
                dados = json.load(f)
                if isinstance(dados, list):
                    dados_unificados.extend(dados)
                else:
                    logging.error("O arquivo %s não contém uma lista de objetos JSON.", caminho)
        except FileNotFoundError:
            logging.error("Arquivo não encontrado: %s", caminho)
        except json.JSONDecodeError:
            logging.error("Erro ao decodificar JSON do arquivo: %s", caminho)
        except Exception:
            logging.exception("Ocorreu um erro inesperado ao processar o arquivo %s.", caminho)
    return dados_unificados

def avaliar_com_llm(item_para_avaliar: Dict[str, Any], llm: ChatOpenAI, parser: JsonOutputParser) -> Dict[str, Any]:
    """"""
    avaliacoes_llm = {}
    input_llm = {
        "contexto_recuperado": item_para_avaliar.get("contexto_recuperado", ""),
        "resposta_gerada": item_para_avaliar.get("resposta_gerada", ""),
        "pergunta_usuario": item_para_avaliar.get("pergunta_usuario", "")
    }
    for criterio, prompt_template in PROMPTS_AVALIACAO.items():
        logging.info("Avaliando critério com LLM Juiz: %s...", criterio)
        cadeia_avaliacao = prompt_template | llm | parser
        try:
            resultado = cadeia_avaliacao.invoke(input_llm)
            avaliacoes_llm[criterio] = resultado
            logging.info("Pontuação para '%s': %s", criterio, resultado.get('pontuacao', 'N/A'))
        except Exception:
            logging.exception("Falha ao avaliar critério '%s' com LLM.", criterio)
            avaliacoes_llm[criterio] = {"pontuacao": None, "justificativa": "ERRO NA AVALIAÇÃO"}
    return avaliacoes_llm

def calcular_similaridade_bertscore(resposta1: str, resposta2: str, lang: str = BERTSCORE_LANG, model_type: str = BERTSCORE_MODEL_TYPE) -> Dict[str, float]:
    try:
        P, R, F1 = bert_score_calculate([resposta1], [resposta2], lang=lang, model_type=model_type, verbose=False)
        return {
            "bertscore_precision": round(P.mean().item(), 4),
            "bertscore_recall": round(R.mean().item(), 4),
            "bertscore_f1": round(F1.mean().item(), 4)
        }
    except Exception as e:
        logging.exception("Falha ao calcular BERTScore entre '%s...' e '%s...': %s", resposta1[:30], resposta2[:30], e)
        return {"bertscore_precision": 0.0, "bertscore_recall": 0.0, "bertscore_f1": 0.0, "bertscore_erro": str(e)}

def calcular_score_final(
    avaliacoes: Dict[str, Dict[str, Any]],
    pesos: Dict[str, float] | None = None
) -> float:
    """
    Calcula um score único (0-5) a partir das pontuações individuais.

    - Se 'pesos' for None, usa PESOS_DEFAULT.
    - Se a pontuação de 'verificacao_seguranca' for < 3, retorna 0.0 (regra de corte).
    """

    # notas válidas (int ou float)
    notas = {
        crit: dados["pontuacao"]
        for crit, dados in avaliacoes.items()
        if isinstance(dados, dict) and isinstance(dados.get("pontuacao"), (int, float))
    }
    if not notas:
        return 0.0

    # escolhe pesos
    pesos_efetivos = pesos or PESOS_DEFAULT
    soma_pesos = sum(pesos_efetivos.get(c, 0) for c in notas)
    if soma_pesos == 0:
        raise ValueError("Soma dos pesos não pode ser zero")

    # média ponderada
    score = sum(
        notas[c] * pesos_efetivos.get(c, 0)
        for c in notas
    ) / soma_pesos

    return round(score, 2)

def main():
    load_dotenv()
    if not os.getenv("OPENAI_API_KEY"):
        logging.error("Chave da API OpenAI não encontrada. Defina a variável de ambiente OPENAI_API_KEY.")
        return

    logging.info("Carregando e unindo dados de avaliação dos arquivos JSON...")

    # ------------------------------------------------------------------
    dados_para_avaliar = carregar_e_unir_json(*NOMES_DOS_ARQUIVOS_DE_DADOS)

    if not dados_para_avaliar:
        logging.error("Nenhum dado foi carregado. Verifique os arquivos JSON. Encerrando.")
        return

    # 1) ────────────────── GERA O ID ÚNICO POR (pergunta, manual) ──────────────────
    mapa_pergunta_id: Dict[tuple, int] = {}
    contador_global = 0

    for item in dados_para_avaliar:
        manual_id = "N/A"
        if "metadados" in item and isinstance(item["metadados"], dict):
            manual_id = f"{item['metadados'].get('marca', '')}_{item['metadados'].get('modelo', '')}_{item['metadados'].get('ano', '')}".strip("_")
        elif "manual_alvo" in item:
            manual_id = item["manual_alvo"]
        if not manual_id or manual_id == "__":
            manual_id = "manual_desconhecido"

        chave = (item["pergunta_usuario"], manual_id)

        if chave not in mapa_pergunta_id:
            contador_global += 1
            mapa_pergunta_id[chave] = contador_global

        # todas as técnicas dessa pergunta recebem o mesmo número (com 2 dígitos)
        item["id_pergunta"] = f"{mapa_pergunta_id[chave]:02d}"
    # ───────────────────────────────────────────────────────────────────────────────

    # 2) ───────────────────── AGRUPA PARA AVALIAÇÃO CONJUNTA ──────────────────────
    logging.info("Agrupando dados por pergunta para avaliação conjunta...")
    dados_agrupados_por_pergunta: Dict[tuple, List[Dict]] = {}

    for item in dados_para_avaliar:
        # (reaproveita a mesma lógica de manual_id)
        manual_id = "N/A"
        if "metadados" in item and isinstance(item["metadados"], dict):
            manual_id = f"{item['metadados'].get('marca', '')}_{item['metadados'].get('modelo', '')}_{item['metadados'].get('ano', '')}".strip("_")
        elif "manual_alvo" in item:
            manual_id = item["manual_alvo"]
        if not manual_id or manual_id == "__":
            manual_id = "manual_desconhecido"

        chave_agrupamento = (item["pergunta_usuario"], manual_id)
        dados_agrupados_por_pergunta.setdefault(chave_agrupamento, []).append(item)
    # ───────────────────────────────────────────────────────────────────────────────

    # 3) ───────────────────── SEGUIR COM O RESTANTE DO PIPELINE ───────────────────
    llm_juiz_instance = ChatOpenAI(model=MODELO_JUIZ, temperature=TEMPERATURA_JUIZ)
    json_parser_instance = JsonOutputParser(pydantic_object=Avaliacao)
    resultados_finais_unificados: List[Dict[str, Any]] = []

    logging.info("--- INICIANDO PIPELINE DE AVALIAÇÃO UNIFICADA ---")

    for (pergunta, manual), itens_do_grupo in dados_agrupados_por_pergunta.items():
        logging.info("Processando grupo para a pergunta: '%s' no manual '%s'", pergunta[:50] + "...", manual)

        # 1. Processa e armazena as avaliações individuais primeiro
        for item in itens_do_grupo:
            logging.info("  Avaliando resposta do modelo: %s", item.get("modelo_rag"))
            avaliacoes_llm = avaliar_com_llm(item, llm_juiz_instance, json_parser_instance)
            score_final = calcular_score_final(avaliacoes_llm, PESOS_DEFAULT)

            avaliacao_individual = {
                "tipo_de_registro": "avaliacao_individual", # Identificador do tipo de objeto
                "id_pergunta": item.get("id_pergunta", "N/A"),
                "manual_alvo": manual,
                "modelo_rag": item.get("modelo_rag", "desconhecido"),
                "pergunta_usuario": pergunta,
                "resposta_avaliada": item.get("resposta_gerada", ""),
                "avaliacoes_llm": avaliacoes_llm,
                "score_final": score_final  
            }
            resultados_finais_unificados.append(avaliacao_individual)

        # 2. Se houver mais de um modelo, calcula o BERTScore e armazena como um objeto separado
        if len(itens_do_grupo) > 1:
            logging.info("  Calculando similaridade BERTScore entre os modelos...")
            for item1, item2 in combinations(itens_do_grupo, 2):
                modelo1 = item1["modelo_rag"]
                resposta1 = item1["resposta_gerada"]
                modelo2 = item2["modelo_rag"]
                resposta2 = item2["resposta_gerada"]

                logging.info("    Comparando %s vs %s...", modelo1, modelo2)
                similaridade_scores = calcular_similaridade_bertscore(resposta1, resposta2)
                
                # Cria um objeto JSON separado apenas para a comparação
                comparacao_bertscore = {
                    "tipo_de_registro": "comparacao_bertscore", # Identificador do tipo de objeto
                    "id_pergunta": item1.get("id_pergunta", "N/A"), # Pega o ID de um dos itens
                    "manual_alvo": manual,
                    "pergunta_usuario": pergunta,
                    "comparacao": f"{modelo1} vs {modelo2}",
                    "modelos": [modelo1, modelo2],
                    "similaridade_bertscore": similaridade_scores
                }
                resultados_finais_unificados.append(comparacao_bertscore)

    caminho_saida_unificado = "resultados_avaliacoes.json"
    with open(caminho_saida_unificado, 'w', encoding='utf-8') as f_out:
        json.dump(resultados_finais_unificados, f_out, indent=2, ensure_ascii=False)
    
    logging.info("Resultados unificados salvos em: %s", caminho_saida_unificado)
    logging.info("--- PIPELINE DE AVALIAÇÃO CONCLUÍDO ---")

if __name__ == "__main__":
    main()