# Caderno 4. Testes com LLMs respondendo as questões

In [108]:
import json
import os
import pandas as pd
from tqdm import tqdm
import pickle
import gzip
import re
from getpass import getpass
from openai import OpenAI

Nome dos arquivos que guardam os resultados das pesquisas feitas no caderno anterior.

In [109]:
NOME_ARQUIVO_RESULTADOS_PESQUISAS_TODOS_CHUNKS = 'outputs/3 - resultados_pesquisas/resultados_pesquisas_todos_chunks.pickle.gz'
NOME_ARQUIVO_RESULTADOS_PESQUISAS_APENAS_ART = 'outputs/3 - resultados_pesquisas/resultados_pesquisas_apenas_art.pickle.gz'

Configurações para testes e nome dos arquivos de resultados.

In [110]:
NOME_ARQUIVO_RESPOSTAS_LLMS = 'outputs/4 - respostas_llms/respostas_llms.jsonl'

In [111]:
OPENAI_KEY = getpass("KEY OpenAI")
DEEPSEEK_KEY = getpass("KEY DeepSeek")
SABIA_API = getpass("KEY Maritaca")

KEY OpenAI ········
KEY DeepSeek ········
KEY Maritaca ········


In [112]:
GPT_5_MINI = {
    "CLIENT": OpenAI(api_key=OPENAI_KEY, base_url=None),
    "MODEL": "gpt-5-mini-2025-08-07",
    "MAX_CHUNKS_PARA_TESTAR": 3
}

GPT_4_NANO = {
    "CLIENT": OpenAI(api_key=OPENAI_KEY, base_url=None),
    "MODEL": "gpt-4.1-nano-2025-04-14",
    "MAX_CHUNKS_PARA_TESTAR": 1
}

DEEPSEEK_CHAT = {
    "CLIENT": OpenAI(api_key=DEEPSEEK_KEY, base_url="https://api.deepseek.com"),
    "MODEL": "deepseek-chat",
    "MAX_CHUNKS_PARA_TESTAR": 3
}

SABIA_3_1 = {
    "CLIENT": OpenAI(api_key=SABIA_API, base_url="https://chat.maritaca.ai/api"),
    "MODEL": "sabia-3.1-2025-05-08"
}

#EXPERIMENTS = [GPT_5_MINI, DEEPSEEK_CHAT, SABIA_3_1]
EXPERIMENTOS = [GPT_4_NANO]

# 1. Carregar as bases de dados

## 1.1. Bases de chunks e questões

Além de carregar as bases de chunks e questões:

1. adiciona uma segunda propriedade na lista de questões para considerar apenas o nível de artigo;
2. cria mapas para recuperar o texto da questão por id e o texto dos chunks por urn;
3. cria uma função auxiliar para recuperar os chunks dado uma lista de urns;

In [113]:
def load_jsonl(path):
    with open(path, 'r', encoding='utf-8') as f:
        return [json.loads(line) for line in f]

chunks_pesquisa = load_jsonl('inputs/chunks_pesquisa.jsonl')
questoes = load_jsonl('inputs/questoes.jsonl')

Adiciona uma segunda propriedade na lista de questões para considerar apenas o nível de artigo:

In [114]:
padrao = re.compile(r'!art\d{1,3}')
for questao in questoes:
    fundamentacao_apenas_art = []
    for urn in questao.get("URN_FUNDAMENTACAO", []):
        match = padrao.search(urn)

        if match:
            # corta exatamente no final de !artX
            fundamentacao_apenas_art.append(urn[:match.end()])
        else:
            fundamentacao_apenas_art.append(urn)
    questao["URN_FUNDAMENTACAO_APENAS_ART"] = list(set(fundamentacao_apenas_art))

In [115]:
# Teste
idx=694
print(questoes[idx]['URN_FUNDAMENTACAO'])
print(questoes[idx]['URN_FUNDAMENTACAO_APENAS_ART'])
print('...')
idx=3
print(questoes[idx]['URN_FUNDAMENTACAO'])
print(questoes[idx]['URN_FUNDAMENTACAO_APENAS_ART'])

['informativo_jurisprudencia_stj_766:aresp 2.130.619-sp']
['informativo_jurisprudencia_stj_766:aresp 2.130.619-sp']
...
['urn:lex:br:federal:lei:2018-08-14;13709!art5_cpt_inc5', 'urn:lex:br:federal:lei:2018-08-14;13709!art5_cpt_inc6', 'urn:lex:br:federal:lei:2018-08-14;13709!art5_cpt_inc7', 'urn:lex:br:federal:lei:2018-08-14;13709!art5_cpt_inc8']
['urn:lex:br:federal:lei:2018-08-14;13709!art5']


Mapas para facilitar o retorno das questões e chunks por ids/urns:

In [116]:
questao_por_id = {q['ID_QUESTAO']:q for q in questoes}
chunk_por_urn = {c['URN']:c for c in chunks_pesquisa}

Função para pegar chunks por urn:

In [117]:
def get_chunks_por_urns(lista_urns):
    return [chunk_por_urn[urn] for urn in lista_urns]

In [118]:
print('\n'.join(questoes[3]['URN_FUNDAMENTACAO']))

print('\n'.join([c['TEXTO'] for c in get_chunks_por_urns(questoes[3]['URN_FUNDAMENTACAO'])]))

urn:lex:br:federal:lei:2018-08-14;13709!art5_cpt_inc5
urn:lex:br:federal:lei:2018-08-14;13709!art5_cpt_inc6
urn:lex:br:federal:lei:2018-08-14;13709!art5_cpt_inc7
urn:lex:br:federal:lei:2018-08-14;13709!art5_cpt_inc8
[ Dispõe sobre a proteção de dados pessoais e altera a Lei nº 12.965, de 23 de abril de 2014 (Marco Civil da Internet). | Art. 5º Para os fins desta Lei, considera-se: ] V – titular: pessoa natural a quem se referem os dados pessoais que são objeto de tratamento;
[ Dispõe sobre a proteção de dados pessoais e altera a Lei nº 12.965, de 23 de abril de 2014 (Marco Civil da Internet). | Art. 5º Para os fins desta Lei, considera-se: ] VI – controlador: pessoa natural ou jurídica, de direito público ou privado, a quem competem as decisões referentes ao tratamento de dados pessoais;
[ Dispõe sobre a proteção de dados pessoais e altera a Lei nº 12.965, de 23 de abril de 2014 (Marco Civil da Internet). | Art. 5º Para os fins desta Lei, considera-se: ] VII – operador: pessoa natural 

## 1.2. Carrega os resultados das pesquisas de chunks realizadas no caderno anterior.

In [119]:
# Para abrir os arquivos depois:
def load_pickle_gzip(path):
    import pickle
    import gzip
    with gzip.open(path, 'rb') as f:
        return pickle.load(f)

resultados_pesquisas_todos_chunks = load_pickle_gzip(NOME_ARQUIVO_RESULTADOS_PESQUISAS_TODOS_CHUNKS)
resultados_pesquisas_apenas_art = load_pickle_gzip(NOME_ARQUIVO_RESULTADOS_PESQUISAS_APENAS_ART)

# 2. Prompts para enviar para os LLMs responderem as questões.

In [120]:
system_prompt = """
Você é um assistente especializado em legislação brasileira.

O usuário apresentará uma questão relacionada ao direito brasileiro e poderá, opcionalmente, fornecer um ou mais contextos de apoio. Esses contextos podem ou não ser relevantes para a resolução da questão, cabendo a você avaliá-los.

A questão poderá ser de múltipla escolha ou do tipo certo/errado.

Seu papel é analisar a questão e fornecer a resposta correta, sem consulta à internet.

A resposta DEVE ser apresentada exclusivamente no formato JSON, contendo obrigatoriamente as seguintes propriedades:

- "EXPLICACAO": texto explicativo que justifique a resposta com base jurídica adequada.
- "RESPOSTA": a resposta final da questão. Caso a questão seja de múltiplica escolha, deverá ser a alternativa (por exemplo, 'A', 'B' etc). Caso a questão seja do tipo certo/errado, deverá ser 'Certo' ou 'Errado'.

Não inclua nenhum texto fora do objeto JSON e sempre apresente as propriedades nesta ordem: primeiro a propriedade EXPLICACAO e, por último, a propriedade RESPOSTA.
""".strip()

print(system_prompt)

Você é um assistente especializado em legislação brasileira.

O usuário apresentará uma questão relacionada ao direito brasileiro e poderá, opcionalmente, fornecer um ou mais contextos de apoio. Esses contextos podem ou não ser relevantes para a resolução da questão, cabendo a você avaliá-los.

A questão poderá ser de múltipla escolha ou do tipo certo/errado.

Seu papel é analisar a questão e fornecer a resposta correta, sem consulta à internet.

A resposta DEVE ser apresentada exclusivamente no formato JSON, contendo obrigatoriamente as seguintes propriedades:

- "EXPLICACAO": texto explicativo que justifique a resposta com base jurídica adequada.
- "RESPOSTA": a resposta final da questão. Caso a questão seja de múltiplica escolha, deverá ser a alternativa (por exemplo, 'A', 'B' etc). Caso a questão seja do tipo certo/errado, deverá ser 'Certo' ou 'Errado'.

Não inclua nenhum texto fora do objeto JSON e sempre apresente as propriedades nesta ordem: primeiro a propriedade EXPLICACAO e,

In [121]:
def get_prompt_usuario(questao, urns_chunks_contexto = []):
    # Monta a lista numerada de contextos
    chunks_contexto = get_chunks_por_urns(urns_chunks_contexto)
    contextos_numerados = "\n".join(
        f"{i + 1}. {chunk['TEXTO']}" for i, chunk in enumerate(chunks_contexto)
    )
    
    user_prompt = """
{questao_com_alternativas}

----- CONTEXTOS DE APOIO -----
{contextos_numerados}
""".strip()

    return user_prompt.format(questao_com_alternativas=questao['ENUNCIADO_COM_ALTERNATIVAS'], contextos_numerados=contextos_numerados)

# 3. Executa os experimentos

## 3.1. Função para carregar e salvar os experimentos em jsonl

Os experimentos serão salvos em um arquivo JSONL com a estrutura abaixo.

Obs.: O motivo da resposta do LLM não será salvo para economizar espaço.

In [122]:
COLUNAS = [
    "MODELO_LLM", # LLM usado para gerar a resposta
    "ID_QUESTAO", # ID da questão
    "MODELO_RAG", # Modelo de RAG usado no contexto (Se não tiver contexto, é vazio. Se o contexto for o do dataset, é 'Gold')
    "TIPO_PESQUISA_CHUNKS", # 'todos_chunks' ou 'apenas
    "NUM_CHUNKS", # Número de chunks usados para o contexto
    "RESPOSTA_LLM", # Resposta do LLM
]

Carrega ou cria o dataframe a partir do JSONL:

In [123]:
def carregar_dataframe():
    if os.path.exists(NOME_ARQUIVO_RESPOSTAS_LLMS):
        df = pd.read_json(NOME_ARQUIVO_RESPOSTAS_LLMS, lines=True)
        df["ID_QUESTAO"] = df["ID_QUESTAO"].astype(str)
    else:
        df = pd.DataFrame(columns=COLUNAS)
    return df

df_resultados_experimentos = carregar_dataframe()

Salvar resultados do experimento.

Para não ter que ficar reescrevendo todo o arquivo toda hora, faz o append no dataframe de resultados e no JSONL.

In [124]:
def adiciona_resultado_experimento(df_resultados, modelo_llm, id_questao, modelo_rag, tipo_pesquisa_chunks, num_chunks, resposta_llm):
    experimento = {
        "MODELO_LLM": modelo_llm,
        "ID_QUESTAO": id_questao,
        "MODELO_RAG": modelo_rag,
        "TIPO_PESQUISA_CHUNKS": tipo_pesquisa_chunks,
        "NUM_CHUNKS": num_chunks,
        "RESPOSTA_LLM": resposta_llm
    }

    df_resultados = pd.concat(
        [df_resultados, pd.DataFrame([experimento])],
        ignore_index=True
    )
    with open(NOME_ARQUIVO_RESPOSTAS_LLMS, "a", encoding="utf-8") as f:
        f.write(json.dumps(experimento, ensure_ascii=False) + "\n")

    return df_resultados

## 3.2 Função para verificar se o experimento já existe

In [125]:
def experimento_ja_existe(df, modelo_llm, id_questao, modelo_rag, tipo_pesquisa_chunks, num_chunks):
    filtro = (
        (df["MODELO_LLM"] == modelo_llm) &
        (df["ID_QUESTAO"] == id_questao) &
        (df["MODELO_RAG"] == modelo_rag) &
        (df["TIPO_PESQUISA_CHUNKS"] == tipo_pesquisa_chunks) &
        (df["NUM_CHUNKS"] == num_chunks)
    )
    return filtro.any()

## 3.3 Função para chamar LLM

In [126]:
def get_answer_llm(experimento, questao, urns_chunks_contexto = []):
    modelo_llm = experimento['MODEL']
    client = experimento['CLIENT']

    prompt_usuario = get_prompt_usuario(questao, urns_chunks_contexto)

    response = client.chat.completions.create(
        model=modelo_llm,
        messages=[
            {"role": "system", "content": system_prompt},
            {"role": "user", "content": prompt_usuario},
        ],
        stream=False
    )
    content = response.choices[0].message.content

    # A resposta do deepseek inicia com ```json e finalizada com ```. Filtra apenas o conteúdo dentro das chaves
    inicio = content.find('{')
    fim = content.rfind('}') + 1
    
    content = content[inicio:fim]

    try:
        retorno_llm = json.loads(content)

        # Se o json não tiver o campo RESPOSTA ou se o campo RESPOSTA não for uma string, é necessário rodar novamente
        if "RESPOSTA" not in retorno_llm.keys() or not isinstance(retorno_llm['RESPOSTA'], str):
            return {"EXPLICACAO": "ERRO_RODAR_NOVAMENTE", "RESPOSTA": "ERRO_RODAR_NOVAMENTE" }

        return retorno_llm
    except:
        return {"EXPLICACAO": "ERRO_RODAR_NOVAMENTE", "RESPOSTA": "ERRO_RODAR_NOVAMENTE" }

## 3.4 Primeiro, executa os experimentos sem nenhum chunk e com todos os chunks necessários para responder a questão.

In [127]:
def executa_experimento_e_atualiza(df_resultados_experimentos, experimento, questao, modelo_rag, tipo_pesquisa_chunks, urns_chunks):
    modelo_llm = experimento['MODEL']
    id_questao = questao['ID_QUESTAO']
    num_chunks = len(urns_chunks)
    
    if not experimento_ja_existe(df_resultados_experimentos, modelo_llm, id_questao, modelo_rag, tipo_pesquisa_chunks, num_chunks):
        json_llm = get_answer_llm(experimento, questao, urns_chunks)
        resposta_llm = json_llm['RESPOSTA']
        df_resultados_experimentos = adiciona_resultado_experimento(df_resultados_experimentos, modelo_llm, id_questao, modelo_rag, tipo_pesquisa_chunks, num_chunks, resposta_llm)

In [128]:
total_porcentagem = len(EXPERIMENTOS)*len(questoes)
with tqdm(total=total_porcentagem) as pbar:
    for experimento in EXPERIMENTOS:
        max_chunks_para_testar = experimento['MAX_CHUNKS_PARA_TESTAR']
        for questao in questoes:
            id_questao = questao['ID_QUESTAO']
            
            # 1) SEM NENHUM CONTEXTO
            modelo_rag = ''
            tipo_pesquisa_chunks = ''
            urns_chunks = []
            executa_experimento_e_atualiza(df_resultados_experimentos, experimento, questao, modelo_rag, tipo_pesquisa_chunks, urns_chunks)
    
            # 2) COM TODO O CONTEXTO DO DATASET CONSIDERANDO TODOS OS CHUNKS
            modelo_rag = 'Gold'
            tipo_pesquisa_chunks = 'todos_chunks'
            urns_chunks = questao['URN_FUNDAMENTACAO']
            executa_experimento_e_atualiza(df_resultados_experimentos, experimento, questao, modelo_rag, tipo_pesquisa_chunks, urns_chunks)
    
            # 3) COM TODO O CONTEXTO DO DATASET CONSIDERANDO TODOS OS CHUNKS APENAS DE ARTIGOS COMPLETOS OU JURISPRUDENCIA
            modelo_rag = 'Gold'
            tipo_pesquisa_chunks = 'apenas_art'
            urns_chunks = questao['URN_FUNDAMENTACAO_APENAS_ART']
            executa_experimento_e_atualiza(df_resultados_experimentos, experimento, questao, modelo_rag, tipo_pesquisa_chunks, urns_chunks)

            # VERIFICA SE É PRA GERAR EXPERIMENTOS COM RAG. SE FOR, ENTRA NO IF E TESTA TAMBÉM COM DIFERENTES RAG
            if max_chunks_para_testar > 0:
                # 4) CONSIDERANDO DE 1 A 3 CHUNKS PARA CADA MODELO DE RAG E CONSIDERANDO TODOS OS CHUNKS
                tipo_pesquisa_chunks = 'todos_chunks'
                modelos_rag_disponiveis_para_questao = resultados_pesquisas_todos_chunks[id_questao].keys()
                for modelo_rag in modelos_rag_disponiveis_para_questao:
                    for n_chunks in range(1, max_chunks_para_testar+1):
                        urns_chunks = list(resultados_pesquisas_todos_chunks[id_questao][modelo_rag]['urn'][0:n_chunks])
                        executa_experimento_e_atualiza(df_resultados_experimentos, experimento, questao, modelo_rag, tipo_pesquisa_chunks, urns_chunks)
                        
                # 5) CONSIDERANDO DE 1 A 3 CHUNKS PARA CADA MODELO DE RAG E CONSIDERANDO CHUNKS DE APENAS ARTIGOS
                tipo_pesquisa_chunks = 'apenas_art'
                modelos_rag_disponiveis_para_questao = resultados_pesquisas_apenas_art[id_questao].keys()
                for modelo_rag in modelos_rag_disponiveis_para_questao:
                    for n_chunks in range(1, max_chunks_para_testar+1):
                        urns_chunks = list(resultados_pesquisas_apenas_art[id_questao][modelo_rag]['urn'][0:n_chunks])
                        executa_experimento_e_atualiza(df_resultados_experimentos, experimento, questao, modelo_rag, tipo_pesquisa_chunks, urns_chunks)
                    
            pbar.update(1)

100%|████████████████████████████████████████████████████████████████████████████████| 700/700 [01:09<00:00, 10.05it/s]
