# Avaliação de Modelos de IA para Consultas Jurídicas Brasileiras

Este notebook permite executar o pipeline de avaliação de modelos de IA especializados em direito brasileiro. Ele inclui setup completo, configuração de cache e execução intuitiva baseada no script `run.py`.

## Pré-requisitos
- Conta no OpenRouter para API key
- Ambiente Colab ou Jupyter com acesso a GPU (recomendado)

## Passos do Setup
1. Definir API key do OpenRouter
2. Clonar repositório
3. Instalar dependências
4. Configurar cache do Hugging Face
5. Executar avaliação

## 1. Definir API Key do OpenRouter

Execute a célula abaixo e insira sua API key quando solicitado. Ela será armazenada como variável de ambiente.

In [1]:
import os

# Solicitar API key do usuário
api_key = input("Digite sua API key do OpenRouter: ")
os.environ['OPENAI_API_KEY'] = api_key
print("API key definida com sucesso!")

Digite sua API key do OpenRouter: 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
API key definida com sucesso!


## 2. Clonar Repositório

Clone o repositório oficial do projeto.

In [2]:
!git clone https://github.com/expagepay/EvalAItoNomartiveConsults.git
%cd /content/EvalAItoNomartiveConsults

Cloning into 'EvalAItoNomartiveConsults'...
remote: Enumerating objects: 49, done.[K
remote: Counting objects: 100% (49/49), done.[K
remote: Compressing objects: 100% (35/35), done.[K
remote: Total 49 (delta 19), reused 38 (delta 12), pack-reused 0 (from 0)[K
Receiving objects: 100% (49/49), 44.31 KiB | 1.77 MiB/s, done.
Resolving deltas: 100% (19/19), done.
/content/EvalAItoNomartiveConsults


## 3. Instalar Dependências

Instale todas as bibliotecas necessárias do arquivo `requirements.txt`.

In [3]:
!pip install -r requirements.txt

Collecting langchain_openai (from -r requirements.txt (line 1))
  Downloading langchain_openai-0.3.33-py3-none-any.whl.metadata (2.4 kB)
Collecting langchain_huggingface (from -r requirements.txt (line 3))
  Downloading langchain_huggingface-0.3.1-py3-none-any.whl.metadata (996 bytes)
Collecting ragas==0.2.9 (from -r requirements.txt (line 4))
  Downloading ragas-0.2.9-py3-none-any.whl.metadata (9.2 kB)
Collecting bs4 (from -r requirements.txt (line 5))
  Downloading bs4-0.0.2-py2.py3-none-any.whl.metadata (411 bytes)
Collecting bert-score (from -r requirements.txt (line 8))
  Downloading bert_score-0.3.13-py3-none-any.whl.metadata (15 kB)
Collecting rouge_score (from -r requirements.txt (line 9))
  Downloading rouge_score-0.1.2.tar.gz (17 kB)
  Preparing metadata (setup.py) ... [?25l[?25hdone
Collecting streamlit (from -r requirements.txt (line 11))
  Downloading streamlit-1.49.1-py3-none-any.whl.metadata (9.5 kB)
Collecting langchain-community (from ragas==0.2.9->-r requirements.tx

## 4. Configurar Cache do Hugging Face

Configure o cache para otimizar downloads de modelos e evitar re-downloads.

In [4]:
import os

# Configurar caminhos de cache (adaptado para Colab/Linux)
cache_dir = '/content/HF_Cache'
os.makedirs(cache_dir, exist_ok=True)

os.environ['HF_HUB_CACHE'] = cache_dir
os.environ['HF_HUB_DISABLE_SYMLINKS_WARNING'] = '1'
os.environ['TRANSFORMERS_CACHE'] = cache_dir
os.environ['HF_HF_HUB_CACHE'] = os.path.join(cache_dir, 'models')

print(f"Cache configurado em: {cache_dir}")

Cache configurado em: /content/HF_Cache


## 5. Executar Avaliação

Agora você pode executar o pipeline de avaliação usando os argumentos do `run.py`. Aqui estão algumas opções:

### Opções de Execução:
- `--quick_eval`: Avaliação rápida com conjunto padrão de perguntas
- `--perguntas "Pergunta 1" "Pergunta 2"`: Lista de perguntas (use aspas para espaços)
- `--ground_truth "Resposta 1" "Resposta 2"`: Respostas ideais (opcional, use "" para vazio)
- `--csv_file arquivo.csv`: Arquivo CSV com perguntas e ground truths
- `--num_queries N`: Número de queries por pergunta (padrão: 3)
- `--modelos modelo1 modelo2`: Lista de modelos a comparar
- `--modo_contexto`: controla como o sistema lida com contextos muito grandes que podem exceder o limite de tokens dos modelos

### Exemplos:
- Avaliação rápida: `!python run.py --quick_eval`
- Com perguntas customizadas: `!python run.py --perguntas "O que é a LGPD?" "Direitos do consumidor" --ground_truth "Lei de proteção de dados" ""`
- Com CSV: `!python run.py --csv_file meu_arquivo.csv`
### Exemplos com Modo de Contexto:
- Avaliação rápida com truncamento: `!python run.py --quick_eval --modo_contexto truncar`
- Avaliação rápida com resumo: `!python run.py --quick_eval --modo_contexto resumir`

In [5]:
# Exemplo: Avaliação rápida
!python run.py --quick_eval --num_queries 2

2025-09-21 20:50:22.051945: E external/local_xla/xla/stream_executor/cuda/cuda_fft.cc:467] Unable to register cuFFT factory: Attempting to register factory for plugin cuFFT when one has already been registered
E0000 00:00:1758487822.090068     835 cuda_dnn.cc:8579] Unable to register cuDNN factory: Attempting to register factory for plugin cuDNN when one has already been registered
E0000 00:00:1758487822.101840     835 cuda_blas.cc:1407] Unable to register cuBLAS factory: Attempting to register factory for plugin cuBLAS when one has already been registered
W0000 00:00:1758487822.122076     835 computation_placer.cc:177] computation placer already registered. Please check linkage and avoid linking the same target more than once.
W0000 00:00:1758487822.122118     835 computation_placer.cc:177] computation placer already registered. Please check linkage and avoid linking the same target more than once.
W0000 00:00:1758487822.122123     835 computation_placer.cc:177] computation placer alr

## Resultados

Após a execução, os resultados serão salvos em:
- `resultados.csv`: Dados tabulares
- `resultados.json`: Dados estruturados
- `comparacao_modelos.json`: Comparação entre modelos
- `report.py`: Gera relatório detalhado

Para visualizar os resultados, execute o relatório:

## 6. Modo de Tratamento de Contexto

# Mostrar Resultados e Issues

In [6]:
# Mostrar Resultados e Issues
import json
import pandas as pd
from IPython.display import display, Markdown

# Caminhos dos arquivos
results_path = 'results/resultados.json'
comparacao_path = 'results/comparacao_modelos.json'

try:
    # Carregar comparação para tabela e vencedor
    with open(comparacao_path, 'r', encoding='utf-8') as f:
        comparacao = json.load(f)

    stats = comparacao.get('estatisticas_por_modelo', {})
    ranking = comparacao.get('ranking_modelos', [])

    # Modelo vencedor
    if ranking:
        vencedor = ranking[0]['modelo']
        display(Markdown(f"## 🏆 Modelo Vencedor: **{vencedor}**"))

    # Tabela comparativa
    data = []
    for modelo, stat in stats.items():
        data.append({
            'Modelo': modelo,
            'Faithfulness': f"{stat['faithfulness_media']:.3f}",
            'Relevancy': f"{stat['answer_relevancy_media']:.3f}",
            'Context Precision': f"{stat.get('context_precision_media', 0.0):.3f}",
            'ROUGE-1': f"{stat['rouge_1_f1_media']:.3f}",
            'BERTScore': f"{stat['bertscore_f1_media']:.3f}",
            'Tempo Médio (s)': f"{stat['tempo_resposta_medio']:.2f}"
        })
    df = pd.DataFrame(data)
    display(Markdown("## 📊 Comparação de Modelos"))
    display(df)

    # Issues identificados
    with open(results_path, 'r', encoding='utf-8') as f:
        resultados = json.load(f)

    issues_por_modelo = {}
    for res in resultados:
        modelo = res['modelo']
        issues = res.get('issues', [])
        if issues:
            if modelo not in issues_por_modelo:
                issues_por_modelo[modelo] = []
            issues_por_modelo[modelo].extend(issues)

    if issues_por_modelo:
        display(Markdown("## ⚠️ Issues Identificados"))
        for modelo, issues in issues_por_modelo.items():
            display(Markdown(f"**{modelo}:**"))
            for issue in issues:
                display(Markdown(f"- {issue}"))
    else:
        display(Markdown("## ✅ Nenhum Issue Identificado"))

except Exception as e:
    display(Markdown(f"**Erro ao carregar resultados:** {e}"))

## 🏆 Modelo Vencedor: **mistralai/mistral-7b-instruct**

## 📊 Comparação de Modelos

Unnamed: 0,Modelo,Faithfulness,Relevancy,Context Precision,ROUGE-1,BERTScore,Tempo Médio (s)
0,mistralai/mistral-7b-instruct,0.419,0.364,0.194,0.162,0.151,7.92
1,meta-llama/llama-3.3-70b-instruct,0.242,0.381,0.138,0.057,0.036,14.54


## ⚠️ Issues Identificados

**meta-llama/llama-3.3-70b-instruct:**

- Nenhum contexto recuperado - indica queries de pesquisa ruins ou erro na busca

- Resposta vazia ou muito curta gerada pelo modelo

- Nenhum contexto recuperado - indica queries de pesquisa ruins ou erro na busca

- Resposta vazia ou muito curta gerada pelo modelo

- Nenhum contexto recuperado - indica queries de pesquisa ruins ou erro na busca

- Resposta vazia ou muito curta gerada pelo modelo

**mistralai/mistral-7b-instruct:**

- Nenhum contexto recuperado - indica queries de pesquisa ruins ou erro na busca

- Resposta vazia ou muito curta gerada pelo modelo

- Nenhum contexto recuperado - indica queries de pesquisa ruins ou erro na busca

- Resposta vazia ou muito curta gerada pelo modelo