-----

# **Projeto Capstone: Construindo um Assistente de IA Especialista em RAG com Gemini**

## **Introdução**

Bem-vindo à nossa aula final e ao projeto Capstone\! Consolidaremos aqui todo o conhecimento adquirido para construir um sistema de Geração Aumentada por Recuperação (RAG) de ponta a ponta.

**O Problema:** A empresa de educação Alura deseja criar um chatbot inteligente para auxiliar futuros alunos. Este assistente deve responder a perguntas específicas sobre o conteúdo do curso de RAG, utilizando os próprios PDFs das aulas como sua base de conhecimento. O objetivo é fornecer respostas precisas e confiáveis, baseadas exclusivamente no material didático.

**A Solução:** Construiremos um sistema RAG completo, seguindo os passos e utilizando as ferramentas discutidas nas aulas.

Este notebook irá guiá-lo em cada etapa:

1.  **Configuração do Ambiente:** Instalação das bibliotecas e configuração da chave de API do Google Gemini.
2.  **Fase 1: Pipeline de Ingestão de Dados (ETL)**
      * **Extração (Extract):** Carregar os documentos PDF das aulas.
      * **Transformação (Transform):** Aplicar estratégias de *chunking* adaptativo e gerar *embeddings*.
      * **Carregamento (Load):** Indexar os *chunks* e seus *embeddings* em um banco de dados vetorial, o Chroma.
3.  **Fase 2: Construção de um Sistema de Recuperação Avançado**
      * Implementar **Busca Híbrida (*Hybrid Search*)** para combinar busca lexical (BM25) e semântica.
4.  **Fase 3: Criação de uma Cadeia de Conversação Robusta**
      * Implementar a `ConversationalRetrievalChain`.
      * Integrar **gerenciamento de memória** para manter o contexto do diálogo.
      * Aplicar **transformação de consulta (*Query Transformation*)**, que ocorre internamente na cadeia para refinar as perguntas com base no histórico.
5.  **Fase 4: Avaliação do Sistema com RAGAS**
      * Avaliar a performance do sistema utilizando as métricas específicas do RAGAS, como *Faithfulness*, *Answer Relevancy*, *Context Precision* e *Context Recall*.

Vamos começar\!

-----

### **1. Configuração do Ambiente**

Primeiro, vamos instalar as bibliotecas necessárias e configurar a chave de API.

In [1]:
!pip install langchain langchain-core langchain-community

!pip install langchain-google-genai

!pip install chromadb pypdf rank_bm25

!pip install ragas datasets

Collecting langchain-community
  Downloading langchain_community-0.3.27-py3-none-any.whl.metadata (2.9 kB)
Collecting dataclasses-json<0.7,>=0.5.7 (from langchain-community)
  Downloading dataclasses_json-0.6.7-py3-none-any.whl.metadata (25 kB)
Collecting pydantic-settings<3.0.0,>=2.4.0 (from langchain-community)
  Downloading pydantic_settings-2.10.1-py3-none-any.whl.metadata (3.4 kB)
Collecting httpx-sse<1.0.0,>=0.4.0 (from langchain-community)
  Downloading httpx_sse-0.4.1-py3-none-any.whl.metadata (9.4 kB)
Collecting marshmallow<4.0.0,>=3.18.0 (from dataclasses-json<0.7,>=0.5.7->langchain-community)
  Downloading marshmallow-3.26.1-py3-none-any.whl.metadata (7.3 kB)
Collecting typing-inspect<1,>=0.4.0 (from dataclasses-json<0.7,>=0.5.7->langchain-community)
  Downloading typing_inspect-0.9.0-py3-none-any.whl.metadata (1.5 kB)
Collecting python-dotenv>=0.21.0 (from pydantic-settings<3.0.0,>=2.4.0->langchain-community)
  Downloading python_dotenv-1.1.1-py3-none-any.whl.metadata (24 k

Collecting chromadb
  Downloading chromadb-1.0.15-cp39-abi3-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (7.0 kB)
Collecting pypdf
  Downloading pypdf-5.9.0-py3-none-any.whl.metadata (7.1 kB)
Collecting rank_bm25
  Downloading rank_bm25-0.2.2-py3-none-any.whl.metadata (3.2 kB)
Collecting pybase64>=1.4.1 (from chromadb)
  Downloading pybase64-1.4.2-cp311-cp311-manylinux1_x86_64.manylinux2014_x86_64.manylinux_2_17_x86_64.manylinux_2_5_x86_64.whl.metadata (8.7 kB)
Collecting posthog<6.0.0,>=2.4.0 (from chromadb)
  Downloading posthog-5.4.0-py3-none-any.whl.metadata (5.7 kB)
Collecting onnxruntime>=1.14.1 (from chromadb)
  Downloading onnxruntime-1.22.1-cp311-cp311-manylinux_2_27_x86_64.manylinux_2_28_x86_64.whl.metadata (4.6 kB)
Collecting opentelemetry-api>=1.2.0 (from chromadb)
  Downloading opentelemetry_api-1.35.0-py3-none-any.whl.metadata (1.5 kB)
Collecting opentelemetry-exporter-otlp-proto-grpc>=1.2.0 (from chromadb)
  Downloading opentelemetry_exporter_otlp_proto_grpc-1

**Configurando a Chave de API do Google Gemini**

Para usar os modelos do Google, como o Gemini para geração de texto e os modelos de *embedding*, precisamos configurar nossa chave de API.

In [2]:
import os

os.environ["GOOGLE_API_KEY"] = 'AIzaSyBDc4dXCuYxVb9bXWERnXNX95qmHtXaVxg'

### **2. Fase 1: Pipeline de Ingestão de Dados (ETL)**

Estruturamos nossa base de conhecimento para o sistema RAG.

#### **2.1 Extração (Extract)**

Usaremos `Document Loaders` do LangChain para carregar os PDFs.

*Simulação: Faça o upload de todos os PDFs do curso para um diretório chamado `documentos_curso`.*

In [3]:
from langchain_community.document_loaders import PyPDFDirectoryLoader

loader = PyPDFDirectoryLoader("documentos_curso/")
docs = loader.load()

In [4]:
len(docs)

98

#### **2.2 Transformação (Transform)**

Agora, dividimos os documentos em *chunks* e os convertemos em *embeddings*.

**Chunking Adaptativo:** Usaremos o `RecursiveCharacterTextSplitter` para dividir o texto de forma inteligente.

In [5]:
from langchain.text_splitter import RecursiveCharacterTextSplitter

text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=1500,
    chunk_overlap=200,
    separators=["\n\n", "\n", ". ", " ", ""]
)

chunks = text_splitter.split_documents(docs)

print(f"Total de chunks criados: {len(chunks)}")

Total de chunks criados: 98


**Embeddings de Alta Performance:** A qualidade dos *embeddings* é crucial.  Usaremos os modelos de *embedding* do Google.

In [6]:
from langchain_google_genai import GoogleGenerativeAIEmbeddings

embeddings_model = GoogleGenerativeAIEmbeddings(model="models/embedding-001")

#### **2.3 Carregamento (Load)**

Indexamos os *chunks* e seus *embeddings* em um banco de dados vetorial. Utilizaremos o **Chroma**.

Cria um banco vetorial no Chroma indexando os chunks com o embeddings_model, retornando o objeto vectorstore.
Em seguida imprime uma mensagem confirmando que o banco foi criado com sucesso.

In [7]:
from langchain_community.vectorstores import Chroma

vectorstore = Chroma.from_documents(
    documents=chunks,
    embedding=embeddings_model)

print("Banco de dados criado com sucesso!")

Banco de dados criado com sucesso!


### **3. Fase 2: Construção de um Sistema de Recuperação Avançado**

Vamos criar um recuperador que utilize busca híbrida para encontrar os melhores documentos.

#### **3.1 Busca Híbrida (Hybrid Search)**

A busca híbrida combina a busca semântica (vetorial) com a busca lexical (BM25). Isso aproveita a compreensão de contexto da busca semântica e a precisão em termos exatos da busca lexical.

In [8]:
from langchain.retrievers import BM25Retriever, EnsembleRetriever

# 1. Recuperador Lexical (BM25)
bm25_retriever = BM25Retriever.from_documents(chunks)
bm25_retriever.k = 5

# 2. Recuperador Vetorial (a partir do nosso ChromaDB)
vector_retriever = vectorstore.as_retriever(search_kwargs={"k": 5})


# 3. EnsembleRetriever para combinar os resultados
ensemble_retriever = EnsembleRetriever(
    retrievers=[bm25_retriever, vector_retriever],
    weights=[0.4, 0.6]
)

print("Recuperador de Busca Hibrida Configurado")

Recuperador de Busca Hibrida Configurado


### **4. Fase 3: Criação de uma Cadeia de Conversação Robusta**

Agora, montamos a cadeia que orquestra a interação com o usuário, usando o Gemini como o cérebro do nosso chatbot.

#### **4.1 Cadeia com Memória e Transformação de Consulta**

A `ConversationalRetrievalChain` é perfeita para este caso de uso. Ela gerencia o histórico da conversa para manter o contexto e reescreve a pergunta do usuário para torná-la autônoma, uma forma de **Query Transformation**.

In [9]:
from langchain.chains import ConversationalRetrievalChain
from langchain_google_genai import ChatGoogleGenerativeAI
from langchain.memory import ConversationBufferMemory

llm = ChatGoogleGenerativeAI(model="gemini-1.5-pro-latest", temperature=0)

memory = ConversationBufferMemory(
    memory_key="chat_history",
    output_key="answer",
    return_messages=True)

qa_chain = ConversationalRetrievalChain.from_llm(
    llm=llm,
    retriever=ensemble_retriever,
    memory=memory,
    verbose=False,
    return_source_documents=True
)


  memory = ConversationBufferMemory(


In [10]:
resposta1 = qa_chain.invoke({"question": "O que é chunking adaptativo?"})
print(resposta1['answer'])

Chunking adaptativo é a técnica de dividir documentos longos em pedaços (chunks) de forma inteligente, preservando o contexto semântico. A estratégia de chunking deve ser adaptada ao tipo de dado, como textos contínuos, tabelas, código-fonte ou documentos estruturados, que exigem abordagens diferentes.  Existem diferentes métodos de chunking adaptativo, incluindo: Fixed-Size Chunking, Sliding Window e Recursive Splitting.


In [11]:
resposta2 = qa_chain.invoke({"question": "E quais as principais estratégias?"})
print(resposta2['answer'])

As principais estratégias de chunking adaptativo são:

* **Fixed-Size Chunking:** Divisão por número fixo de tokens ou caracteres.
* **Sliding Window:** Sobreposição (overlap) para manter contexto entre chunks.
* **Recursive Splitting:** Divisão baseada na estrutura semântica do texto.


### **5. Fase 4: Avaliação do Sistema com RAGAS**

Avaliar nosso sistema é essencial para garantir sua qualidade. Usaremos o **RAGAS**, uma biblioteca que fornece métricas específicas para sistemas RAG.

Vamos avaliar com base nas métricas de **Geração** (*Faithfulness*, *Answer Relevancy*) e de **Recuperação** (*Context Precision*, *Context Recall*).

In [12]:
from datasets import Dataset
from ragas import evaluate
from ragas.metrics import (
    faithfulness,
    answer_relevancy,
    context_recall,
    context_precision,
)

# 1. Crie um conjunto de dados para avaliação
perguntas = [
    "O que é RAG e qual problema ele soluciona?",
    "Quais os componentes essenciais do RAG?",
    "Qual a diferença entre busca lexical e semântica?",
    "O que mede a métrica faithfulness do RAGAS?"
]
respostas_ouro = [
    "RAG (Retrieval-Augmented Generation) é uma arquitetura que combina um motor de busca para recuperar informações com um LLM para gerar respostas. Ele soluciona problemas como alucinações e conhecimento desatualizado dos LLMs.",
    "Os componentes essenciais são: Embeddings, Banco de Dados Vetorial, Chunking e um Modelo de Linguagem (LLM).",
    "Busca lexical (como BM25) encontra correspondências exatas de termos, enquanto a busca semântica captura o significado e o contexto, mesmo com palavras diferentes.",
    "A métrica Faithfulness mede se a resposta gerada é suportada e factualmente consistente com os documentos recuperados, evitando alucinações."
]

# 2. Gere as respostas e contextos com a nossa cadeia
respostas_geradas = []
contextos_recuperados = []
for question in perguntas:
    result = qa_chain.invoke({"question": question})
    respostas_geradas.append(result['answer'])
    contextos_recuperados.append([doc.page_content for doc in result['source_documents']])

# 3. Crie o dataset no formato esperado pelo RAGAS
dataset_dict = {
    'question': perguntas,
    'answer': respostas_geradas,
    'contexts': contextos_recuperados,
    'ground_truth': respostas_ouro
}
dataset = Dataset.from_dict(dataset_dict)

# 4. Execute a avaliação, agora usando os modelos do Google
evaluation_result = evaluate(
    dataset=dataset,
    metrics=[
        faithfulness,
        answer_relevancy,
        context_precision,
        context_recall,
    ],
    llm=ChatGoogleGenerativeAI(model="gemini-1.5-pro-latest"),
    embeddings=embeddings_model
)

# 5. Analise os resultados
df_resultados = evaluation_result.to_pandas()
print("\nResultados da Avaliação com RAGAS:")
display(df_resultados)

Evaluating:   0%|          | 0/16 [00:00<?, ?it/s]


Resultados da Avaliação com RAGAS:


Unnamed: 0,user_input,retrieved_contexts,response,reference,faithfulness,answer_relevancy,context_precision,context_recall
0,O que é RAG e qual problema ele soluciona?,[A SOLUÇÃO: RAG \n(RETRIEVAL-AUGMENTED GENERAT...,RAG (Retrieval-Augmented Generation) combina a...,RAG (Retrieval-Augmented Generation) é uma arq...,1.0,0.818787,0.777778,1.0
1,Quais os componentes essenciais do RAG?,[A SOLUÇÃO: RAG \n(RETRIEVAL-AUGMENTED GENERAT...,Os componentes essenciais do RAG são a **busca...,"Os componentes essenciais são: Embeddings, Ban...",1.0,0.968929,0.0,0.0
2,Qual a diferença entre busca lexical e semântica?,[alura\nHybrid Search (Busca Híbrida)\nBusca s...,A busca lexical encontra correspondências exat...,Busca lexical (como BM25) encontra correspondê...,1.0,0.922263,1.0,1.0
3,O que mede a métrica faithfulness do RAGAS?,[alura\nMétricas de Geração\nO RAGAS fornece m...,"A métrica ""faithfulness"" (factualidade) mede s...",A métrica Faithfulness mede se a resposta gera...,1.0,0.819228,0.2,1.0


## **Conclusão do Projeto Capstone**

Parabéns\! Você construiu um sistema RAG completo, desde a ingestão de documentos até a avaliação de performance, utilizando o ecossistema do Google Gemini.

Neste projeto, nós:

1.  **Estruturamos um pipeline de ingestão de dados (ETL)**, processando PDFs para alimentar nosso sistema.
2.  **Implementamos um sistema de recuperação avançado**, utilizando busca híbrida para maximizar a relevância dos documentos recuperados.
3.  **Desenvolvemos uma cadeia de conversação com memória**, capaz de manter diálogos coerentes e contextuais.
4.  **Avaliamos nosso sistema de forma quantitativa com o RAGAS**, uma prática essencial para entender e melhorar a performance de qualquer aplicação de IA em produção.

Este assistente de IA demonstra o poder da arquitetura RAG quando implementada com as melhores práticas discutidas em aula, resultando em um chatbot especialista, preciso e confiável.