# 07. RAG Parte 3: RetrievalQA

Agora vamos juntar as peças: Docs -> Split -> Vector Store -> Retriever -> LLM -> Resposta.

**Objetivos:**
- Criar uma `create_retrieval_chain` para responder perguntas baseadas nos documentos.

# Explicação Detalhada do Assunto

# 07. RAG Parte 3: RetrievalQA

Neste notebook, vamos consolidar o que aprendemos sobre Retrieval Augmented Generation (RAG) e construir um sistema completo e funcional. Uniremos as peças: documentos, divisão (splitting), armazenamento de vetores (vector store), recuperação (retriever), LLM (Large Language Model) e, finalmente, a resposta!

**Resumo Executivo:**

Este notebook marca o ponto culminante da nossa jornada de RAG. Implementaremos um sistema completo que recebe uma pergunta, busca informações relevantes em uma base de conhecimento, e utiliza um LLM para gerar uma resposta fundamentada. Aprenderemos a orquestrar todos os componentes do pipeline RAG, desde o carregamento e processamento dos documentos até a geração da resposta final.

**Conceitos Chave:**

*   **RAG (Retrieval Augmented Generation):** Uma técnica que combina a capacidade de recuperação de informações de um sistema de busca com a habilidade de geração de texto de um modelo de linguagem. Isso permite que o LLM responda perguntas com base em informações externas, em vez de depender apenas do seu conhecimento pré-existente.
*   **Chains (Correntes):** No contexto do LangChain, Chains são sequências de chamadas a componentes, como LLMs, prompts e utilitários. Elas permitem criar fluxos de trabalho complexos e automatizados. Neste notebook, usaremos chains para orquestrar o processo de recuperação e geração.
*   **Retriever (Recuperador):** Um componente responsável por buscar documentos relevantes em uma base de conhecimento, com base em uma consulta. Usaremos um retriever para encontrar os documentos mais relevantes para responder à pergunta do usuário.
*   **Vector Store (Armazenamento de Vetores):** Uma base de dados especializada em armazenar representações vetoriais de documentos. Isso permite realizar buscas semânticas eficientes, encontrando documentos que são semanticamente similares à consulta, mesmo que não compartilhem palavras-chave exatas.

**Objetivos de Aprendizado:**

Ao completar este notebook, você será capaz de:

*   Construir um pipeline RAG completo usando LangChain.
*   Implementar a função `create_retrieval_chain` para responder a perguntas com base em documentos recuperados.
*   Entender como os diferentes componentes do pipeline RAG interagem entre si.
*   Inspecionar as fontes de informação utilizadas para gerar uma resposta.
*   Adaptar e personalizar o pipeline RAG para diferentes casos de uso.

**Importância no Ecossistema LangChain:**

O RAG é uma das aplicações mais importantes e poderosas do LangChain. Ele permite construir sistemas que podem responder a perguntas complexas, gerar conteúdo personalizado e realizar tarefas de raciocínio, tudo com base em informações externas e atualizadas. Dominar o RAG é fundamental para construir aplicações de IA Generativa robustas e úteis.

Vamos começar!

---


In [1]:
### INJECTION START ###
import os
from dotenv import load_dotenv
import sys
for p in ['.', '..', 'scripts', '../scripts']:
    path = os.path.join(p, '.env')
    if os.path.exists(path):
        load_dotenv(path)
        break
if os.getenv('GOOGLE_API_KEY'):
    os.environ['GOOGLE_API_KEY'] = os.getenv('GOOGLE_API_KEY')
    os.environ['GOOGLE_API_KEY'] = os.getenv('GOOGLE_API_KEY')
### INJECTION END ###

import os
from dotenv import load_dotenv
import sys
# Carrega .env do local ou de pastas comuns
for p in ['.', '..', 'scripts', '../scripts']:
    path = os.path.join(p, '.env')
    if os.path.exists(path):
        load_dotenv(path)
        break
if os.getenv('GOOGLE_API_KEY'):
    os.environ['GOOGLE_API_KEY'] = os.getenv('GOOGLE_API_KEY')
    os.environ['GOOGLE_API_KEY'] = os.getenv('GOOGLE_API_KEY')
### INJECTION END ###

import os
from dotenv import load_dotenv
import sys
# Autenticação automática do script
for p in ['.', '..', 'scripts', '../scripts']:
    path = os.path.join(p, '.env')
    if os.path.exists(path):
        load_dotenv(path)
        break
if os.getenv('GOOGLE_API_KEY'):
    os.environ["GOOGLE_API_KEY"] = os.getenv("GOOGLE_API_KEY")

import os
from dotenv import load_dotenv
load_dotenv()

False

In [2]:
import os
try:
    from google.colab import userdata
except ImportError:
    userdata = None
import getpass

try:
    pass # Script-patched: using env var
except:
    pass # Script-patched: using env var

## 1. Setup Rápido (Load, Split, Index)

Recriando o índice para usar aqui.

In [3]:
from langchain_community.document_loaders import WebBaseLoader
from langchain_text_splitters import RecursiveCharacterTextSplitter
from langchain_google_genai import GoogleGenerativeAIEmbeddings
from langchain_community.vectorstores import FAISS

# 1. Load
loader = WebBaseLoader("https://lilianweng.github.io/posts/2023-06-23-agent/")
docs = loader.load()

# 2. Split
text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=200)
splits = text_splitter.split_documents(docs)

# 3. Index
vectorstore = FAISS.from_documents(splits, GoogleGenerativeAIEmbeddings(model="models/embedding-001"))
retriever = vectorstore.as_retriever()



USER_AGENT environment variable not set, consider setting it to identify your requests.




  from .autonotebook import tqdm as notebook_tqdm

All support for the `google.generativeai` package has ended. It will no longer be receiving 
updates or bug fixes. Please switch to the `google.genai` package as soon as possible.
See README for more details:

https://github.com/google-gemini/deprecated-generative-ai-python/blob/main/README.md

  from google.generativeai.caching import CachedContent  # type: ignore[import]


## 2. Criando a Chain de RAG

Usaremos `create_stuff_documents_chain` (que insere os docs no prompt) e `create_retrieval_chain` (que gerencia a busca).

In [4]:
from langchain.chains import create_retrieval_chain
from langchain.chains.combine_documents import create_stuff_documents_chain
from langchain_core.prompts import ChatPromptTemplate
from langchain_google_genai import ChatGoogleGenerativeAI

llm = ChatGoogleGenerativeAI(model="gemini-2.0-flash", temperature=0)

# Prompt do sistema que receberá o contexto
system_prompt = (
    "Você é um assistente para tarefas de perguntas e respostas. "
    "Use os seguintes pedaços de contexto recuperado para responder à pergunta. "
    "Se você não souber a resposta, diga que não sabe. "
    "Use no máximo três frases e mantenha a resposta concisa."
    "\n\n"
    "{context}"
)

prompt = ChatPromptTemplate.from_messages(
    [
        ("system", system_prompt),
        ("human", "{input}"),
    ]
)

# Chain que combina documentos no prompt
question_answer_chain = create_stuff_documents_chain(llm, prompt)

# Chain final que recupera docs e passa para a chain acima
rag_chain = create_retrieval_chain(retriever, question_answer_chain)

## 3. Testando

Vamos fazer uma pergunta sobre o artigo.

In [5]:
response = rag_chain.invoke({"input": "What is Task Decomposition?"})

print(response["answer"])

A decomposição de tarefas envolve dividir tarefas complexas em etapas menores e mais simples. Isso pode ser feito usando técnicas como Chain of Thought (CoT) ou Tree of Thoughts, ou usando LLMs com prompts simples. Alternativamente, pode ser feito usando instruções específicas da tarefa ou com entradas humanas.


## 4. Inspecionando a Fonte

Podemos ver quais documentos foram usados para gerar a resposta.

In [6]:
for i, doc in enumerate(response["context"]):
    print(f"Documento {i}: {doc.page_content[:100]}...")

Documento 0: Component One: Planning#
A complicated task usually involves many steps. An agent needs to know what...
Documento 1: Task decomposition can be done (1) by LLM with simple prompting like "Steps for XYZ.\n1.", "What are...
Documento 2: Planning

Subgoal and decomposition: The agent breaks down large tasks into smaller, manageable subg...
Documento 3: (3) Task execution: Expert models execute on the specific tasks and log results.
Instruction:

With ...


## Conclusão

Temos um sistema de RAG funcional! Ele recupera informação relevante e responde de forma fundamentada.

No próximo notebook, vamos sair do padrão "pergunta-resposta" e entrar no mundo dos **Agentes**, que podem usar ferramentas para agir.