# Avalia√ß√£o de Modelos de IA para Consultas Jur√≠dicas Brasileiras

Este notebook permite executar o pipeline de avalia√ß√£o de modelos de IA especializados em direito brasileiro. Ele inclui setup completo, configura√ß√£o de cache e execu√ß√£o intuitiva baseada no script `run.py`.

## Pr√©-requisitos
- Conta no OpenRouter para API key
- Ambiente Colab ou Jupyter com acesso a GPU (recomendado)

## Passos do Setup
1. Definir API key do OpenRouter
2. Clonar reposit√≥rio
3. Instalar depend√™ncias
4. Configurar cache do Hugging Face
5. Executar avalia√ß√£o

## 1. Definir API Key do OpenRouter

Execute a c√©lula abaixo e insira sua API key quando solicitado. Ela ser√° armazenada como vari√°vel de ambiente.

In [None]:
import os

# Solicitar API key do usu√°rio
api_key = input("Digite sua API key do OpenRouter: ")
os.environ['OPENAI_API_KEY'] = api_key
print("API key definida com sucesso!")

## 2. Clonar Reposit√≥rio

Clone o reposit√≥rio oficial do projeto.

In [None]:
!git clone https://github.com/expagepay/EvalAItoNomartiveConsults.git
%cd /content/EvalAItoNomartiveConsults

## 3. Instalar Depend√™ncias

Instale todas as bibliotecas necess√°rias do arquivo `requirements.txt`.

In [None]:
!pip install -r requirements.txt

## 4. Configurar Cache do Hugging Face

Configure o cache para otimizar downloads de modelos e evitar re-downloads.

In [None]:
import os

# Configurar caminhos de cache (adaptado para Colab/Linux)
cache_dir = '/content/HF_Cache'
os.makedirs(cache_dir, exist_ok=True)

os.environ['HF_HUB_CACHE'] = cache_dir
os.environ['HF_HUB_DISABLE_SYMLINKS_WARNING'] = '1'
os.environ['TRANSFORMERS_CACHE'] = cache_dir
os.environ['HF_HF_HUB_CACHE'] = os.path.join(cache_dir, 'models')

print(f"Cache configurado em: {cache_dir}")

## 5. Executar Avalia√ß√£o

Agora voc√™ pode executar o pipeline de avalia√ß√£o usando os argumentos do `run.py`. Aqui est√£o algumas op√ß√µes:

### Op√ß√µes de Execu√ß√£o:
- `--quick_eval`: Avalia√ß√£o r√°pida com conjunto padr√£o de perguntas
- `--perguntas "Pergunta 1" "Pergunta 2"`: Lista de perguntas (use aspas para espa√ßos)
- `--ground_truth "Resposta 1" "Resposta 2"`: Respostas ideais (opcional, use "" para vazio)
- `--csv_file arquivo.csv`: Arquivo CSV com perguntas e ground truths
- `--num_queries N`: N√∫mero de queries por pergunta (padr√£o: 3)
- `--modelos modelo1 modelo2`: Lista de modelos a comparar

### Exemplos:
- Avalia√ß√£o r√°pida: `!python run.py --quick_eval`
- Com perguntas customizadas: `!python run.py --perguntas "O que √© a LGPD?" "Direitos do consumidor" --ground_truth "Lei de prote√ß√£o de dados" ""`
- Com CSV: `!python run.py --csv_file meu_arquivo.csv`

In [None]:
# Exemplo: Avalia√ß√£o r√°pida
!python run.py --quick_eval --num_queries 2

## Resultados

Ap√≥s a execu√ß√£o, os resultados ser√£o salvos em:
- `resultados.csv`: Dados tabulares
- `resultados.json`: Dados estruturados
- `comparacao_modelos.json`: Compara√ß√£o entre modelos
- `report.py`: Gera relat√≥rio detalhado

Para visualizar os resultados, execute o relat√≥rio:

## 6. Modo de Tratamento de Contexto

O par√¢metro `--modo_contexto` controla como o sistema lida com contextos muito grandes que podem exceder o limite de tokens dos modelos:

- **`truncar`** (padr√£o): Aplica truncamento regressivo do contexto (700k ‚Üí 100k ‚Üí 50k ‚Üí 28k) at√© que a chamada seja bem-sucedida.
- **`resumir`**: Gera um resumo do contexto usando Gemini 2.5 Flash, preservando detalhes essenciais sem inventar informa√ß√µes.

### Exemplos com Modo de Contexto:
- Avalia√ß√£o r√°pida com truncamento: `!python run.py --quick_eval --modo_contexto truncar`
- Avalia√ß√£o r√°pida com resumo: `!python run.py --quick_eval --modo_contexto resumir`

In [None]:
# Exemplo com resumo de contexto
!python run.py --quick_eval --modo_contexto resumir

In [None]:
# Gerar relat√≥rio
!python report.py

In [None]:
# Mostrar Resultados e Issues
import json
import pandas as pd
from IPython.display import display, Markdown

# Caminhos dos arquivos
results_path = 'results/resultados.json'
comparacao_path = 'results/comparacao_modelos.json'

try:
    # Carregar compara√ß√£o para tabela e vencedor
    with open(comparacao_path, 'r', encoding='utf-8') as f:
        comparacao = json.load(f)
    
    stats = comparacao.get('estatisticas_por_modelo', {})
    ranking = comparacao.get('ranking_modelos', [])
    
    # Modelo vencedor
    if ranking:
        vencedor = ranking[0]['modelo']
        display(Markdown(f"## üèÜ Modelo Vencedor: **{vencedor}**"))
    
    # Tabela comparativa
    data = []
    for modelo, stat in stats.items():
        data.append({
            'Modelo': modelo,
            'Faithfulness': f"{stat['faithfulness_media']:.3f}",
            'Relevancy': f"{stat['answer_relevancy_media']:.3f}",
            'Context Precision': f"{stat.get('context_precision_media', 0.0):.3f}",
            'ROUGE-1': f"{stat['rouge_1_f1_media']:.3f}",
            'BERTScore': f"{stat['bertscore_f1_media']:.3f}",
            'Tempo M√©dio (s)': f"{stat['tempo_resposta_medio']:.2f}"
        })
    df = pd.DataFrame(data)
    display(Markdown("## üìä Compara√ß√£o de Modelos"))
    display(df)
    
    # Issues identificados
    with open(results_path, 'r', encoding='utf-8') as f:
        resultados = json.load(f)
    
    issues_por_modelo = {}
    for res in resultados:
        modelo = res['modelo']
        issues = res.get('issues', [])
        if issues:
            if modelo not in issues_por_modelo:
                issues_por_modelo[modelo] = []
            issues_por_modelo[modelo].extend(issues)
    
    if issues_por_modelo:
        display(Markdown("## ‚ö†Ô∏è Issues Identificados"))
        for modelo, issues in issues_por_modelo.items():
            display(Markdown(f"**{modelo}:**"))
            for issue in issues:
                display(Markdown(f"- {issue}"))
    else:
        display(Markdown("## ‚úÖ Nenhum Issue Identificado"))

except Exception as e:
    display(Markdown(f"**Erro ao carregar resultados:** {e}"))