# 1. Prompt the LLM with only the question (without any context)

In [32]:
import pandas as pd
from getpass import getpass
from openai import OpenAI
from tqdm import tqdm
from groq import Groq
import time
from sklearn.metrics.pairwise import cosine_similarity

In [2]:
OPENAI_KEY = getpass("KEY OpenAI")
DEEPSEEK_KEY = getpass("KEY DeepSeek")
GROQ_API = getpass("KEY Groq")
SABIA_API = getpass("KEY Maritaca")

KEY OpenAI ········
KEY DeepSeek ········
KEY Groq ········
KEY Maritaca ········


In [5]:
dataset_file = "dataset/gdpr-br-qa.jsonl"
embeddings_dataset_file = "dataset/emb_gdpr-br-qa.pkl"
chunks_lgpd_file = "lgpd/chunks_lgpd.pkl"

In [7]:
system_msg_rag = """
Seu papel é resolver questões sobre a LGPD. Para isso, você deverá obedecer às seguintes regras:

1. O usuário irá te passar uma questão que você deverá responder.
2. Essa questão pode ser de dois tipos. Pode ser de múltipla escolha, situação em que você deverá avaliar o enunciado e decidir por uma das alternativas apresentadas, ou pode ser de <CERTO> ou <ERRADO>, situação em que você deverá avaliar se o enunciado está correto ou não. O que diferencia as questões é a presença ou ausência de alternativas. Se tiver alternativas, é de múltipla escolha. Se não houver, é de <CERTO> ou <ERRADO>
3. A sua resposta deve ser direta, sem nenhuma marcação (pontuação, aspas ou qualquer outro caractere além da resposta).
3.1. Se for uma questão de múltiplica escolha, indique apenas a letra que responde ao enunciado.
3.2. Se for uma questão de <CERTO> ou <ERRADO> responda com "Certo" (para certo) ou "Errado" para errado.

Segue alguns trechos da LGPD que podem ajudar na solução da questão:

{trechos}
""".strip()

In [8]:
# Parâmetros dos modelos

RAG_3_GPT_4o_MINI = {
    "EXPERIMENT_NAME": "rag_3_gpt-4o-mini-2024-07-18",
    "CLIENT": OpenAI(api_key=OPENAI_KEY, base_url=None),
    "MODEL": "gpt-4o-mini-2024-07-18",
    "SYSTEM_MSG": system_msg_rag,
    "N_CHUNKS": 3,
}

RAG_3_DEEPSEEK_CHAT = {
    "EXPERIMENT_NAME": "rag_3_deepseek-chat",
    "CLIENT": OpenAI(api_key=DEEPSEEK_KEY, base_url="https://api.deepseek.com"),
    "MODEL": "deepseek-chat",
    "SYSTEM_MSG": system_msg_rag,
    "N_CHUNKS": 3,
}

RAG_3_LLAMA3_3 = {
    "EXPERIMENT_NAME": "rag_3_llama-3.3-70b-versatile",
    "CLIENT": Groq(api_key=GROQ_API),
    "MODEL": "llama-3.3-70b-versatile",
    "SYSTEM_MSG": system_msg_rag,
    "N_CHUNKS": 3,
}

RAG_3_SABIA3 = {
    "EXPERIMENT_NAME": "rag_3_sabia-3-2024-12-11",
    "CLIENT": OpenAI(api_key=SABIA_API, base_url="https://chat.maritaca.ai/api"),
    "MODEL": "sabia-3-2024-12-11",
    "SYSTEM_MSG": system_msg_rag,
    "N_CHUNKS": 3,
}

EXPERIMENTS = [RAG_3_GPT_4o_MINI, RAG_3_DEEPSEEK_CHAT, RAG_3_LLAMA3_3, RAG_3_SABIA3]

In [9]:
# Lê o dataset e os arquivos com embeddings
df_dataset = pd.read_json(dataset_file, lines=True, encoding='utf-8')
df_embeddings_dataset = pd.read_pickle(embeddings_dataset_file)
df_chunks_lgpd = pd.read_pickle(chunks_lgpd_file)

In [10]:
# Função para retornar os chunks mais próximos
def get_chunks(id_questao, n_chunks = 3):
    questao = df_dataset['Formatted Question'][df_dataset.ID == id_questao].values[0]
    emb_questao = df_embeddings_dataset['emb'][df_dataset.ID == id_questao].values[0]

    df_similares = df_chunks_lgpd.copy()
    
    df_similares['similarity'] = df_similares.emb.apply(lambda x: cosine_similarity([x], [emb_questao])[0][0])
    
    df_similares = df_similares.sort_values("similarity", ascending=False)

    return questao, df_similares.chunk.values[:n_chunks]

In [11]:
# Create columns to represent the experiment results
for experiment in EXPERIMENTS:
    experiment_name = experiment['EXPERIMENT_NAME']
    llm_model = experiment['MODEL']

    # Create columns for the experiment results
    if experiment_name not in df_dataset.columns:
        df_dataset[experiment_name] = None

In [30]:
def get_answer_llm(experiment, id_question):
    llm_model = experiment['MODEL']
    client = experiment['CLIENT']
    n_chunks = experiment['N_CHUNKS']
    
    formatted_question, chunks = get_chunks(id_question, n_chunks)

    chunks_str = "\n".join([f"Trecho {i+1}:\n{item}\n" for i, item in enumerate(chunks)])
    system_msg = experiment['SYSTEM_MSG'].format(trechos=chunks_str)
    
    response = client.chat.completions.create(
        model=llm_model,
        messages=[
            {"role": "system", "content": system_msg},
            {"role": "user", "content": formatted_question},
        ],
        stream=False
    )
    content = response.choices[0].message.content
    
    return content

In [39]:
# Run each experiment
min_elapsed_time = 0
for experiment in EXPERIMENTS:
    experiment_name = experiment['EXPERIMENT_NAME']
    llm_model = experiment['MODEL']
    
    print(f"Experiment: {experiment_name}")

    if 'llama' in experiment_name:
        continue
        
    for index, row in tqdm(df_dataset.iterrows(), total=len(df_dataset)):
        start_time = time.time()
        # Run only if we don't have the results
        if pd.isna(row[experiment_name]) or row[experiment_name] == '':
            df_dataset.at[index, experiment_name] = get_answer_llm(experiment, row.ID)
            
            # Update the dataset with the results
            with open(dataset_file, 'w', encoding='utf-8') as f:
                df_dataset.to_json(f, orient='records', lines=True, force_ascii=False)
        
            elapsed_time = time.time() - start_time
            if elapsed_time < min_elapsed_time and 'llama' in experiment_name:
                time.sleep(min_elapsed_time - elapsed_time)

Experiment: rag_3_gpt-4o-mini-2024-07-18


100%|█████████████████████████████████████████████████████████████████████████████| 700/700 [00:00<00:00, 12898.18it/s]


Experiment: rag_3_deepseek-chat


100%|█████████████████████████████████████████████████████████████████████████████| 700/700 [00:00<00:00, 15669.77it/s]


Experiment: rag_3_llama-3.3-70b-versatile
Experiment: rag_3_sabia-3-2024-12-11


100%|████████████████████████████████████████████████████████████████████████████████| 700/700 [10:58<00:00,  1.06it/s]


In [40]:
# Show results for each experiment
for experiment in EXPERIMENTS:
    experiment_name = experiment['EXPERIMENT_NAME']
    avg = (df_dataset['Answer'] == df_dataset[experiment_name]).mean()
    print(f"Experiment: {experiment_name}. Avg: {avg}.")

Experiment: rag_3_gpt-4o-mini-2024-07-18. Avg: 0.8385714285714285.
Experiment: rag_3_deepseek-chat. Avg: 0.9057142857142857.
Experiment: rag_3_llama-3.3-70b-versatile. Avg: 0.03571428571428571.
Experiment: rag_3_sabia-3-2024-12-11. Avg: 0.8842857142857142.
