**Projeto LLM - RAG para documento PDF**
---

**Equipe**:

*   Álysson Soares (ass5@cesar.school)
*   Gabriel Leite (gpl@cesar.school)

# Instalações & Importações

In [None]:
!pip install langchain-text-splitters
!pip install langchain-community
!pip install langchain-openai
!pip install langchain-core
!pip install faiss-cpu
!pip install PyPDF

Collecting langchain-community
  Downloading langchain_community-0.3.13-py3-none-any.whl.metadata (2.9 kB)
Collecting dataclasses-json<0.7,>=0.5.7 (from langchain-community)
  Downloading dataclasses_json-0.6.7-py3-none-any.whl.metadata (25 kB)
Collecting httpx-sse<0.5.0,>=0.4.0 (from langchain-community)
  Downloading httpx_sse-0.4.0-py3-none-any.whl.metadata (9.0 kB)
Collecting langchain<0.4.0,>=0.3.13 (from langchain-community)
  Downloading langchain-0.3.13-py3-none-any.whl.metadata (7.1 kB)
Collecting langchain-core<0.4.0,>=0.3.27 (from langchain-community)
  Downloading langchain_core-0.3.28-py3-none-any.whl.metadata (6.3 kB)
Collecting pydantic-settings<3.0.0,>=2.4.0 (from langchain-community)
  Downloading pydantic_settings-2.7.1-py3-none-any.whl.metadata (3.5 kB)
Collecting marshmallow<4.0.0,>=3.18.0 (from dataclasses-json<0.7,>=0.5.7->langchain-community)
  Downloading marshmallow-3.23.2-py3-none-any.whl.metadata (7.1 kB)
Collecting typing-inspect<1,>=0.4.0 (from dataclasses-

In [None]:
from langchain_text_splitters import RecursiveCharacterTextSplitter
from langchain_community.document_loaders import PyPDFLoader
from langchain_openai import OpenAIEmbeddings, ChatOpenAI
from langchain_core.output_parsers import StrOutputParser
from langchain_core.runnables import RunnablePassthrough
from langchain_core.prompts import ChatPromptTemplate
from langchain_community.vectorstores import FAISS
import requests
import getpass
import os

# Desenvolvimento

## Configurando API_KEY

Para utilizar os serviços da OpenAI, será necessário ativar a API_KEY e inserir no código abaixo

In [None]:
os.environ["OPENAI_API_KEY"] = getpass.getpass("Insira sua chave OpenAI API: ")

Insira sua chave OpenAI API: ··········


## Carregando Documento

Foi utilizada a biblioteca PyPDFLoader para ler diretamente o edital do concurso do Dataprev, a leitura foi possivel devido a formatação correta do PDF. Caso o PDF não esteja na formatação correta, teriamos que rodar algum algoritimo de OCR para capturar o texto.

In [None]:
url = "https://github.com/GabrielPLeite/Topicos-Contemporaneos/raw/main/Projeto%20Final/dataprev_edital_0.pdf"
response = requests.get(url)

with open("dataprev_edital_0.pdf", "wb") as file:
    file.write(response.content)

print("Download concluído!")

Download concluído!


In [None]:
# Atualizar para puxar diretamente do github
pdf_path = "/content/dataprev_edital_0.pdf"
loader = PyPDFLoader(pdf_path)
docs = loader.load()

## Dividindo Documentos - Splitting/Chunking

Para preparar os textos para o processamento, foram criados chunks com 1000 caracteres, herdando 200 do anterior para manter o sentido.

In [None]:
# Dividir os documentos em chunks
text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=200)
split_docs = text_splitter.split_documents(docs)

## Indexando - Store

A partir dos chunks criados, foi aplicado o embedding com FAISS para retornar informações através da similaridade.

In [None]:
# Criar embeddings e indexar no FAISS
embeddings = OpenAIEmbeddings()
vectorstore = FAISS.from_documents(split_docs, embeddings)
retriever = vectorstore.as_retriever(search_type="similarity", search_kwargs={"k": 3})

## Buscando e Recuperando Informações - Retrieve

Foi criado o template com as intruções para configurar o comportamento do assistente.

In [None]:
system_template = """Você é um assistente para tarefas de perguntas e respostas. Use os seguintes trechos de contexto recuperados para responder à pergunta. Se você não souber a resposta, apenas diga que não sabe. Use no máximo duas frases e mantenha a resposta concisa e fale apenas o necessário.

Pergunta: {question}

Contexto: {context}

Resposta:
"""

prompt_template = ChatPromptTemplate.from_template(system_template)

Usando o modelo "gpt-4", foi criado o sistema para receber os textos e responder as perguntas a partir dele.

In [None]:
# Definição do modelo
llm = ChatOpenAI(model="gpt-4")

# Construir a pipeline RAG
def format_docs(docs):
    return "\n\n".join(doc.page_content for doc in docs)

rag_chain = (
    {"context": retriever | format_docs, "question": RunnablePassthrough()}
    | prompt_template
    | llm
    | StrOutputParser()
)

## Gerando Respostas - Generate

In [None]:
question = "Quantas vagas existem nesse concurso?"
response = rag_chain.invoke(question)
print("Resposta:", response)

Resposta: Existem 236 vagas nesse concurso.


In [None]:
question = "Dentre as vagas, quantas são para pessoas com deficiência?"
response = rag_chain.invoke(question)
print("Resposta:", response)

Resposta: Ficam reservadas aos candidatos com deficiência, no mínimo, 5% (cinco por cento) do total das vagas que forem providas durante o prazo de validade do Concurso.


In [None]:
question = "Qual é a data da prova?"
response = rag_chain.invoke(question)
print("Resposta:", response)

Resposta: A prova objetiva de múltipla escolha será realizada no dia 17 de novembro de 2024.


In [None]:
question = "Para o cargo de analista de TI, com perfil de analise de negócios de ti, para a o estado de brasilia, existem quantas vagas?"
response = rag_chain.invoke(question)
print("Resposta:", response)

Resposta: Para o cargo de analista de TI, com perfil de análise de negócios de TI, em Brasília, existem 50 vagas.


In [None]:
# Teste
question = input("Digite sua pergunta: ")
response = rag_chain.invoke(question)
print(" ")
print("Resposta:", response)