# Projeto Corujita

## Importando pacotes necessários

In [88]:
import os
from dotenv import load_dotenv, dotenv_values, find_dotenv
from pathlib import Path
import requests

## Incluindo variáveis no environment

In [32]:
# config.env é um arquivo local onde defini minhas chaves
try:
    load_dotenv(Path("config.env"))
    DEEPSEEK_API_KEY = os.environ.get("DEEPSEEK_API_KEY")
    print("API keys loaded.")
    
except:
    print('Error loading API keys.')



API keys loaded.


## Testando chamada para LLM (DeepSeek)

## Carregando documentos de referência via DocumentLoader

In [120]:
import pandas as pd
from langchain_community.vectorstores import FAISS
from langchain_huggingface import HuggingFaceEmbeddings
from langchain.schema import Document

# Load CSV using pandas
file_path="./dataset_corujita_expansao.csv"
df = pd.read_csv(file_path)

# Debug: Check if "Pergunta" column exists
if "Pergunta" not in df.columns:
    raise ValueError("The column 'Pergunta' does not exist in the CSV file. Check column names!")

# Convert DataFrame to LangChain Documents (Embed only 'Pergunta', store other columns as metadata)
processed_documents = [
    Document(
        page_content=row["Pergunta"],  # Embed only "Pergunta"
        metadata=row.to_dict()  # Store full row as metadata
    )
    for _, row in df.iterrows() if pd.notna(row["Pergunta"])  # Avoid NaN values
]

# Debug: Ensure documents are created
if not processed_documents:
    raise ValueError("No valid 'Pergunta' entries found. Ensure the column is populated.")

# Load Hugging Face Embeddings model
embedding_model = HuggingFaceEmbeddings(model_name="sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2")

# Create FAISS vector store using only "Pergunta"
vectorstore = FAISS.from_documents(documents=processed_documents,
                                   embedding=embedding_model,
                                   normalize_L2=True)

# Convert FAISS into a retriever
retriever = vectorstore.as_retriever()


# Query expansion

In [149]:
# Load API key from environment file
load_dotenv(Path("config.env"))
DEEPSEEK_API_KEY = os.environ.get("DEEPSEEK_API_KEY")

if not DEEPSEEK_API_KEY:
    raise ValueError("DEEPSEEK_API_KEY not found. Please set it in your environment variables.")

def call_deepseek_api(api_key, input_text):
    url = "https://api.deepseek.com/v1/chat/completions"  # Adjust if different
    headers = {
        "Content-Type": "application/json",
        "Authorization": f"Bearer {api_key}"
    }
    data = {
        "model": "deepseek-chat",
        "messages": [{"role": "user", "content": input_text}]
    }

    response = requests.post(url, headers=headers, json=data)
    response.raise_for_status()  # Raise error if request failed

    data = response.json()
    
    # Extracting only the response content
    return data["choices"][0]["message"]["content"] if "choices" in data else None

def generate_expanded_query(original_query):
    prompt = f"""
    Dado o contexto de um assistente virtual para o sistema Nova SAT do Ministério Público do Estado do Rio de Janeiro (MPRJ), 
    Expanda a seguinte pergunta do usuário gerando 10 sinônimos, reformulações e variações que poderiam ter sido feitas por outros usuários no passado. 
    
    O objetivo é melhorar a recuperação da resposta correta, garantindo que perguntas semelhantes sejam identificadas como equivalentes. 
    Priorize termos técnicos e expressões usadas no contexto jurídico e administrativo do MPRJ.
    
    Pergunta original: "{original_query}"
    
    Exemplo de query: "Estou com problema no login".
    Exemplo de resposta (resumido): "Estou com problema no login. Não consigo logar na página. Não consigo entrar na nova SAT. (...) O que fazer quando o login está bugado?.

    Responda apenas com as expressões-sinônimos, separadas por ponto. Não acrescente nada mais além disso. Não acrescente números indicadores da lista.
    """
    
    return prompt

def expand_query_with_llm(api_key, original_query):
    prompt = generate_expanded_query(original_query)
    response = call_deepseek_api(api_key, prompt)
    # Assuming the response is a string of comma-separated terms
    expanded_terms = response.split(',')
    return [term.strip() for term in expanded_terms]

def retrieve_documents(api_key, original_query, retriever, expand=False):
    if expand:
        original_query = expand_query_with_llm(api_key, original_query)
        final_query = '. '.join([original_query] + expanded_terms)
        print("User input (modificado): ", final_query)

    else:
        final_query = original_query
        
    relevant_documents = retriever.get_relevant_documents(final_query)
    return relevant_documents
    

In [147]:
pd.read_csv('dataset_corujita.csv').iloc[22].values

array(['23 O que significa quando a SAT está "aguardando aprovação"?',
       'Significa que, apesar de devidamente preenchida pelo servidor do órgão de execução, ainda não houve assinatura do Membro responsável. A autenticação pelo Membro é imprescindível para o atendimento da SAT, já que consta como requisito na Resolução GPGJ nº 2.197/18. Somente após a assinatura do Membro é que a SAT é enviada a este grupo especializado.'],
      dtype=object)

In [154]:
# Define the user's query
input_user = "O que é complementação?"

# Retrieve the most relevant documents
docs = retrieve_documents(DEEPSEEK_API_KEY, input_user, retriever)

# Output the matched questions and their metadata
print(f"User input (original): {input_user}\n")
for doc in docs:
    print(f"Pergunta existente encontrada: {doc.page_content}")
    print(f"Resposta: {doc.metadata['Resposta']}\n")

User input (original): O que é complementação?

Pergunta existente encontrada: No Nova SAT do MPRJ, o que caracteriza a complementaridade?
Resposta: A natureza complementar das atividades do GATE está prevista nos artigos 1º e 9º, inciso II, da Resolução GPGJ nº 2.197/18. Significa dizer que o GATE não se substitui aos órgãos de execução; aos demais órgãos internos do MPRJ; aos órgãos técnicos e/ou com poder de polícia ou regulatório do Poder Executivo ou demais órgãos de controle (interno ou externo); ou aos profissionais cuja prestação de serviços técnicos for necessária para que os investigados cumpram seus deveres legais ou obrigações assumidas perante o MPRJ. Sendo assim, o GATE nunca será o primeiro a atuar no caso concreto. Sua análise sempre irá se basear na manifestação técnica do órgão dotado de poder de polícia, investigativo ou regulatório, inclusive órgãos de controle interno e externo; no laudo pericial; ou na manifestação técnica produzida pelo perito oficial do juízo.



# EXTRA: Aumento do dataset de referência

In [116]:
file_path="./dataset_corujita.csv"
df = pd.read_csv(file_path)

def generate_expansion_prompt(original_question):
    return f"""
    Você é um assistente especializado em reformular perguntas para melhorar a recuperação de informações. 
    Gere **15 reformulações criativas** da seguinte pergunta, mantendo o mesmo significado e o contexto do sistema Nova SAT do MPRJ. 
    As reformulações devem:
    
    - Usar diferentes formas gramaticais (perguntas diretas, indiretas, afirmativas).
    - Variar o tom (mais formal, mais objetiva, mais coloquial).
    - Explorar sinônimos e expressões alternativas.
    - Simular diferentes perfis de usuário (iniciante, avançado, técnico).
    - Simular diferentes emoções do usuário (tom de raiva ou reclamação, tom cordial, etc.)

    Pergunta original: "{original_question}"

    Liste as 15 variações separadas por ponto e vírgula (;), sem numeração ou explicações.
    """

def expand_question_with_llm(api_key, original_question):
    prompt = generate_expansion_prompt(original_question)
    response = call_deepseek_api(api_key, prompt)
    
    # Assumindo que a LLM retorna as perguntas separadas por ";"
    expanded_questions = response.split(";")
    return [q.strip() for q in expanded_questions if q.strip()]

expanded_data = []

for _, row in df.iterrows():
    original_question = row["Pergunta"]
    response = row["Resposta"]
    
    # Expandir a pergunta
    new_questions = expand_question_with_llm(DEEPSEEK_API_KEY, original_question)
    
    # Adicionar todas as variações mantendo a resposta original
    for new_q in new_questions:
        expanded_data.append({"Pergunta": new_q, "Resposta": response})

# Criar um novo DataFrame expandido
df_expanded = pd.DataFrame(expanded_data)

# Salvar como CSV
df_expanded.to_csv("dataset_corujita_expansao.csv", index=False)



In [118]:
df_expanded

Unnamed: 0,Pergunta,Resposta
0,É necessário continuar utilizando o SEI para s...,Não. Todas as solicitações de análise técnica ...
1,Preciso ainda usar o SEI para pedir as análise...,Não. Todas as solicitações de análise técnica ...
2,O SEI ainda é obrigatório para solicitar análi...,Não. Todas as solicitações de análise técnica ...
3,Ainda é preciso recorrer ao SEI para solicitar...,Não. Todas as solicitações de análise técnica ...
4,Solicitar análises no GATE ainda exige o uso d...,Não. Todas as solicitações de análise técnica ...
...,...,...
385,Como proceder para consultar o andamento da SA...,O andamento da SAT ainda não está automatizado...
386,Quero saber como posso acompanhar o andamento ...,O andamento da SAT ainda não está automatizado...
387,Como faço para verificar o progresso da SAT no...,O andamento da SAT ainda não está automatizado...
388,Existe um método para consultar o status da SA...,O andamento da SAT ainda não está automatizado...
