# PROJETO FINAL TÓPICOS COMTEPORÁNEOS

# ALUNOS
### Gabriel Ferreira de Souza: gfs2@cesar.school
### Arthur de Oliveira Ávila: aoa2@cesar.school


# CONTEXTO A SER EXECUTADO NO PROJETO


### O projeto final da disciplina será composto por um desafio, valendo 10 pontos. Esse desafio têm como objetivo aplicar os conceitos teóricos e práticos aprendidos ao longo do curso.

### O projeto final poderá ser feito em grupos de até 4 pessoas e a entrega deverá ser através de Jupyter Notebooks, através dos links para o Google Colab. Nos arquivos, deverá ser informado em Markdown o nome dos integrantes e todo o processo de escolha e de desenvolvimento dos projetos.

### Construção de um Agent com RAG utilizando LangChain
### Deverá ser desenvolvido agent com acesso a um sistema RAG (Retrieval-Augmented Generation) utilizando a biblioteca LangChain para um ou mais documentos de sua escolha. Podendo ser arquivos PDF, de texto, páginas da web etc. O projeto será avaliado nos seguintes aspectos:
### Escolha do Documento
### Splitting do Documento
### Criação de Vector Store
### Retrieval
### Geração de Respostas
### Prompt do Agent


In [1]:
!pip uninstall -y langchain langchain-core langchain-openai langchain-community langsmith

!pip install -q langchain==0.1.16
!pip install -q langchain-openai==0.0.6
!pip install -q langchain-community==0.0.38
!pip install -q langsmith==0.1.17
!pip install -q faiss-cpu
!pip install -q pypdf



Found existing installation: langchain 1.2.10
Uninstalling langchain-1.2.10:
  Successfully uninstalled langchain-1.2.10
Found existing installation: langchain-core 1.2.13
Uninstalling langchain-core-1.2.13:
  Successfully uninstalled langchain-core-1.2.13
Found existing installation: langchain-openai 1.1.10
Uninstalling langchain-openai-1.1.10:
  Successfully uninstalled langchain-openai-1.1.10
Found existing installation: langchain-community 0.4.1
Uninstalling langchain-community-0.4.1:
  Successfully uninstalled langchain-community-0.4.1
Found existing installation: langsmith 0.7.4
Uninstalling langsmith-0.7.4:
  Successfully uninstalled langsmith-0.7.4
[31mERROR: pip's dependency resolver does not currently take into account all the packages that are installed. This behaviour is the source of the following dependency conflicts.
langchain-classic 1.0.1 requires langchain-core<2.0.0,>=1.2.5, but you have langchain-core 0.1.53 which is incompatible.
langchain-classic 1.0.1 requires l

In [2]:
# IMPOSTAÇÃO NECESSÁRIA PARA EXECUÇÃO
import os
from langchain_openai import ChatOpenAI, OpenAIEmbeddings
from langchain.document_loaders import PyPDFLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.vectorstores import FAISS
from langchain.chains import RetrievalQA
from langchain_core.prompts import ChatPromptTemplate
from langchain.agents import create_tool_calling_agent, AgentExecutor
from langchain_core.tools import tool



In [3]:
# CHAVE API PAGA
os.environ["OPENAI_API_KEY"] = "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"


In [4]:
# REALIZANDO A IMPORTAÇÃO DE UM EXEMPLO DE PDF

from google.colab import files
uploaded = files.upload()


Saving arte_tecnologias_informacao_comunicacao.pdf to arte_tecnologias_informacao_comunicacao.pdf


In [5]:
# CARREGANDO O ARQUIVO

loader = PyPDFLoader("arte_tecnologias_informacao_comunicacao.pdf")
docs = loader.load()


In [6]:
# ESTAMOS REALIZANDO ESSE CONTEXTO PARA DIVIDIR O DOCUMENTO EM PEDAÇÕS MENORES (chunks) PARA O PRÓXIMO PROCESSAMENTO

text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=1000,
    chunk_overlap=200
)

splits = text_splitter.split_documents(docs)

print("Quantidade de chunks:", len(splits))


Quantidade de chunks: 182


In [7]:
# ESTAMOS ELABORANDO UM OBJETO E CONVERTENDO O TEXTO PARA VETORES NUMÉRICOS

embeddings = OpenAIEmbeddings()


In [8]:
# ELABORAÇÃO DE UM BANDO DE DADOS VETORIAL EM MEMORIA USANDO FAISS COM OS DOCUMENTOS JÁ DIVIDIDOS EM CHUNKS E CONVERTIDOS EM EMBEDDINGS

vectorstore = FAISS.from_documents(
    documents=splits,
    embedding=embeddings
)


In [9]:
# ESTAMOS TRANFORMANDO O VETORSTORE( FAISS ) EM UM MECANISMO DE BUSCA RETIVEVER QUE IRÁ RETORNAR OS K DOCUMENTOS MAIS RELEVANTES PARA A NOSSA A CONSULTA

retriever = vectorstore.as_retriever(
    search_kwargs={"k": 3}
)


In [10]:
# ESTAMOS CRIANDO UM MODELO DE LINGUAGEM ( LLM ) QUE IRÁ SER UTILIZADO PARA GERAR AS REPOSTAS DO SISTEMA

llm = ChatOpenAI(
    model="gpt-3.5-turbo",
    temperature=0
)


In [11]:
# ESTAMOS CRIANDO UMA CADEIA DE RAG ONDE POSSA BUSCAR OS DOCUMENTOS RELEVANTES, GERA AS RESPOSTAS E RETORNAR O DOCUMENTO FONTE USADO


rag_chain = RetrievalQA.from_chain_type(
    llm=llm,
    retriever=retriever,
    return_source_documents=True
)


In [12]:
# ESTAMOS TRANSFORMANDO A FUNÇÃO EM FERRAMENTA TOOL PARA QUE POSSA SER USADA POR UM AGENTE, COM CONSULTAS RAG E RESPONDER OS CASOS DOS DOCUMENTOS CARREGADOS


@tool
def consultar_documento(pergunta: str) -> str:
    """
    Use esta ferramenta para responder perguntas sobre o documento carregado.
    """
    resposta = rag_chain.invoke({"query": pergunta})
    return resposta["result"]


In [13]:
# ELABORAÇÃO DO POMPT DO AGENTE - AS INSTRUÇÕES QUE DIZEM AO MODELO COMO IRÁ SE COMPORTAR E QUANDO DEVE USAR A FERRAMENTA


prompt_agente = ChatPromptTemplate.from_messages([
    ("system",
     """Você é um agente especialista no documento carregado.
     Use a ferramenta consultar_documento sempre que a pergunta for relacionada ao conteúdo do documento.
     Responda de forma clara e objetiva."""
    ),
    ("human", "{input}"),
    ("placeholder", "{agent_scratchpad}")
])


In [14]:
# ESTAMOS CRIANDO E ATIVANDO O AGENTE INTELIGENTE COM ACESSO A FERRAMENTA RAG PRONTA PARA DECIDIR QUANDO CONTULTAR O DOCUMENTO AUTOMATICAMENTE


tools = [consultar_documento]

agent = create_tool_calling_agent(
    llm=llm,
    tools=tools,
    prompt=prompt_agente
)

agent_executor = AgentExecutor(
    agent=agent,
    tools=tools,
    verbose=True
)



In [15]:
# Rotina de teste para o documento que foi importado, perguntando do que se trata o PDF

agent_executor.invoke({
    "input": "Sobre o que trata o documento?"
})




[1m> Entering new AgentExecutor chain...[0m
[32;1m[1;3m
Invoking: `consultar_documento` with `{'pergunta': 'Sobre o que trata o documento?'}`


[0m[36;1m[1;3mO documento trata sobre Tecnologias da Informação e Comunicação (TICs), abordando conceitos referentes a tecnologias emergentes nessa área, como convergência digital, internet móvel, TV digital, Bluetooth, infravermelho, RFID, NFC, QR Code, realidade aumentada, inteligência artificial, nanotecnologia e computação quântica. O material é direcionado a estudantes que estão iniciando seus estudos nessa área e busca apresentar os principais conceitos de TICs de forma simples, prática e de fácil entendimento.[0m[32;1m[1;3mO documento trata sobre Tecnologias da Informação e Comunicação (TICs), abordando conceitos referentes a tecnologias emergentes nessa área, como convergência digital, internet móvel, TV digital, Bluetooth, infravermelho, RFID, NFC, QR Code, realidade aumentada, inteligência artificial, nanotecnologia e comp

{'input': 'Sobre o que trata o documento?',
 'output': 'O documento trata sobre Tecnologias da Informação e Comunicação (TICs), abordando conceitos referentes a tecnologias emergentes nessa área, como convergência digital, internet móvel, TV digital, Bluetooth, infravermelho, RFID, NFC, QR Code, realidade aumentada, inteligência artificial, nanotecnologia e computação quântica. O material é direcionado a estudantes que estão iniciando seus estudos nessa área e busca apresentar os principais conceitos de TICs de forma simples, prática e de fácil entendimento.'}

In [None]:
# Explicação do que aprendemos no projeto .

# Aprendemos como fragmentar o documento em chunks e com as tranformações em Embeddings e Armazenamento em FAISS, utilizando a técnica RAG para combinar as buscas Retrieval e geração de respostas com o LLM.
# Processamos documentos, armazenamos em banco vetorial, recuperamos informações relevantes, geramos respostas contextualizadas e operações por meio de um agente com ferramentas para processamento e retorno de informações questionadas ao sistema.