# Aula 7: Técnicas Avançadas de RAG

## O que vamos aprender:
- **Hybrid Search**: Combinar a busca por palavra-chave (BM25) com a busca semântica (FAISS) para obter o melhor dos dois mundos, usando o `EnsembleRetriever`.
- **Multi-vector RAG**: Lidar com documentos complexos criando representações diferentes (resumos e chunks brutos) para uma recuperação mais inteligente com o `MultiVectorRetriever`.



## 0. Configuração

Instalamos as bibliotecas e configuramos a chave de API do Google.

In [1]:
!pip install langchain langchain-google-genai langchain-community faiss-cpu rank_bm25

Defaulting to user installation because normal site-packages is not writeable
Collecting rank_bm25
  Downloading rank_bm25-0.2.2-py3-none-any.whl.metadata (3.2 kB)
Downloading rank_bm25-0.2.2-py3-none-any.whl (8.6 kB)
Installing collected packages: rank_bm25
Successfully installed rank_bm25-0.2.2


In [3]:
import os

os.environ['GOOGLE_API_KEY'] = 'AIzaSyAUx0wPEDlS-2NNVh9TGaWMvJ_HTUtiMGw'

In [4]:
from langchain.schema import Document  # Importa a classe Document (texto + metadados)
from langchain_google_genai import ChatGoogleGenerativeAI, GoogleGenerativeAIEmbeddings  # LLM Gemini e embeddings

# Componentes principais
llm = ChatGoogleGenerativeAI(model="gemini-1.5-pro-latest", temperature=0)  # Instancia o Gemini 1.5 Pro determinístico
embeddings = GoogleGenerativeAIEmbeddings(model="models/embedding-001")  # Modelo de embeddings do Gemini v001

# Documentos de exemplo para os testes
docs = [
    Document(
        page_content="O erro HTTP 404 Not Found ocorre quando o servidor não encontra o recurso solicitado. Isso pode ser causado por uma URL digitada incorretamente ou um link quebrado.",
        metadata={"source": "doc_http_404"}
    ),
    Document(
        page_content="SSH, ou Secure Shell, é um protocolo que permite acesso remoto seguro a servidores. Para conectar, utilize a porta padrão 22 e um cliente SSH.",
        metadata={"source": "doc_ssh_acesso_remoto"}
    ),
    Document(
        page_content="Para visualizar os contêineres em execução no Docker, use o comando 'docker ps'. Caso apareça o erro 'Cannot connect to the Docker daemon', verifique se o serviço do Docker está ativo.",
        metadata={"source": "doc_docker_comandos"}
    ),
    Document(
        page_content="A política de férias corporativa garante 30 dias de descanso por ano. O colaborador deve acessar o portal interno de RH e preencher o formulário 'FRM-01-FERIAS' para formalizar o pedido.",
        metadata={"source": "doc_ferias_com_formulario"}
    ),
    Document(
        page_content="Para solicitar férias, os colaboradores devem acessar o sistema de RH e seguir as etapas descritas no manual, preenchendo o formulário correto para liberação.",
        metadata={"source": "doc_ferias_sem_nome_formulario"}
    )
]

  from .autonotebook import tqdm as notebook_tqdm


## 1. Hybrid Search com `EnsembleRetriever`

A busca vetorial é ótima para semântica, mas ruim para palavras-chave. A busca por palavra-chave (BM25) é o oposto. A busca híbrida une as duas. O `EnsembleRetriever` do LangChain faz isso de forma elegante.

**Cenário**: O usuário busca pelo termo exato "FRM-01-FERIAS". Uma busca puramente vetorial pode não dar o devido peso a esse código específico.

In [5]:
from langchain.retrievers import BM25Retriever, EnsembleRetriever
from langchain_community.vectorstores import FAISS

# Retriever de palavra-chave (Esparso)
bm25_retriever = BM25Retriever.from_documents(docs)
bm25_retriever.k = 2

# Retriever Vetorial (Denso)
faiss_vectorstore = FAISS.from_documents(docs, embeddings)
faiss_retriever = faiss_vectorstore.as_retriever(search_kwargs={"k": 2})

# Ensemble Retriever

ensemble_retriever = EnsembleRetriever(
    retrievers=[bm25_retriever, faiss_retriever],
    weights=[0.5, 0.5]
)

In [7]:
# --- Teste de Recuperação ----------------------------------------------------------
query_keyword = "Como peço férias usando o formulário FRM-01-FERIAS?"

def show_results(titulo, docs, termo="FRM-01-FERIAS"):
    print(f"\n--- {titulo} ---")
    for i, d in enumerate(docs, 1):
        src = d.metadata.get("source", "sem_source")
        print(f"    {d.page_content[:120]}...")  # descomente se quiser ver o início do texto

print(f"--- Buscando por: '{query_keyword}' ---")

# Busca vetorial (FAISS)
docs_faiss = faiss_retriever.invoke(query_keyword)
show_results("Resultados da busca vetorial (FAISS)", docs_faiss)

# Busca híbrida (BM25 + FAISS via EnsembleRetriever)
docs_ensemble = ensemble_retriever.invoke(query_keyword)
show_results("Resultados da busca híbrida (EnsembleRetriever)", docs_ensemble)

# Análise automática simples
faiss_top    = docs_faiss[0].metadata.get("source")
ensemble_top = docs_ensemble[0].metadata.get("source")



--- Buscando por: 'Como peço férias usando o formulário FRM-01-FERIAS?' ---

--- Resultados da busca vetorial (FAISS) ---
    A política de férias corporativa garante 30 dias de descanso por ano. O colaborador deve acessar o portal interno de RH ...
    Para solicitar férias, os colaboradores devem acessar o sistema de RH e seguir as etapas descritas no manual, preenchend...

--- Resultados da busca híbrida (EnsembleRetriever) ---
    A política de férias corporativa garante 30 dias de descanso por ano. O colaborador deve acessar o portal interno de RH ...
    Para solicitar férias, os colaboradores devem acessar o sistema de RH e seguir as etapas descritas no manual, preenchend...


## 2. Multi-vector RAG com `MultiVectorRetriever`

Para documentos longos ou complexos, "embedar" chunks pequenos pode fazer com que o RAG perca o contexto geral. O RAG Multi-vetor resolve isso criando e buscando em resumos dos documentos primeiro, e só depois recuperando os chunks brutos para a geração da resposta.

**Cenário**: Temos um documento longo e queremos que a busca inicial considere o contexto geral do documento, não apenas pequenos trechos.

In [9]:
import uuid
from langchain.storage import InMemoryStore
from langchain.retrievers.multi_vector import MultiVectorRetriever
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain_core.prompts import ChatPromptTemplate

# Documento longo para o exemplo
doc_longo = [
    Document(
        page_content="""                                                     )
    Introdução à Segurança Cibernética (2024)...
    ...
    Uma das técnicas de ataque mais comuns é o Phishing...
    ...
    Conclusão: Manter-se atualizado... A autenticação de dois fatores (2FA) deve ser obrigatória.
    """,
        metadata={"source": "guia_seguranca_ciber.pdf", "ano": 2024}
    )
]

# 1. Splitter para dividir o documento em chunks
text_splitter = RecursiveCharacterTextSplitter(chunk_size=300)
doc_chunks = text_splitter.split_documents(doc_longo)

# 2. Gerador de Resumos
def generate_summaries(docs, llm_model):
    """Gera resumos para uma lista de documentos."""
    prompt = ChatPromptTemplate.from_template(
        "Resuma o seguinte documento em uma frase: {documento}"
    )
    chain = prompt | llm_model
    summaries = chain.batch([{"documento": doc.page_content} for doc in docs])
    return [s.content for s in summaries]



In [10]:
## Configurando o MultiVectorRetriever

doc_ids = [str(uuid.uuid4()) for _ in doc_chunks]

summary_chunks = generate_summaries(doc_chunks, llm)

store = InMemoryStore()
store.mset(list(zip(doc_ids, doc_chunks)))

# Cria vetor-store para os resumos, carregando o id de origem do metadado

summary_vectorstore = FAISS.from_texts(
    summary_chunks,
    embeddings,
 metadatas=[{"doc_id": doc_ids[i]} for i in range(len(summary_chunks))]
)

# Retriever que busca no vetor-store e devolve chunk completo via store

multi_vector_retriever = MultiVectorRetriever(
    vectorstore=summary_vectorstore,
    docstore=store,
    id_key="doc_id",
    search_kwargs={'k': 1}
)



Retrying langchain_google_genai.chat_models._chat_with_retry.<locals>._chat_with_retry in 2.0 seconds as it raised ResourceExhausted: 429 You exceeded your current quota, please check your plan and billing details. For more information on this error, head to: https://ai.google.dev/gemini-api/docs/rate-limits. [violations {
  quota_metric: "generativelanguage.googleapis.com/generate_content_free_tier_requests"
  quota_id: "GenerateRequestsPerDayPerProjectPerModel-FreeTier"
  quota_dimensions {
    key: "model"
    value: "gemini-1.5-pro"
  }
  quota_dimensions {
    key: "location"
    value: "global"
  }
}
violations {
  quota_metric: "generativelanguage.googleapis.com/generate_content_free_tier_requests"
  quota_id: "GenerateRequestsPerMinutePerProjectPerModel-FreeTier"
  quota_dimensions {
    key: "model"
    value: "gemini-1.5-pro"
  }
  quota_dimensions {
    key: "location"
    value: "global"
  }
}
violations {
  quota_metric: "generativelanguage.googleapis.com/generate_content_

ResourceExhausted: 429 You exceeded your current quota, please check your plan and billing details. For more information on this error, head to: https://ai.google.dev/gemini-api/docs/rate-limits. [violations {
  quota_metric: "generativelanguage.googleapis.com/generate_content_free_tier_requests"
  quota_id: "GenerateRequestsPerDayPerProjectPerModel-FreeTier"
  quota_dimensions {
    key: "model"
    value: "gemini-1.5-pro"
  }
  quota_dimensions {
    key: "location"
    value: "global"
  }
}
violations {
  quota_metric: "generativelanguage.googleapis.com/generate_content_free_tier_requests"
  quota_id: "GenerateRequestsPerMinutePerProjectPerModel-FreeTier"
  quota_dimensions {
    key: "model"
    value: "gemini-1.5-pro"
  }
  quota_dimensions {
    key: "location"
    value: "global"
  }
}
violations {
  quota_metric: "generativelanguage.googleapis.com/generate_content_free_tier_input_token_count"
  quota_id: "GenerateContentInputTokensPerModelPerMinute-FreeTier"
  quota_dimensions {
    key: "model"
    value: "gemini-1.5-pro"
  }
  quota_dimensions {
    key: "location"
    value: "global"
  }
}
, links {
  description: "Learn more about Gemini API quotas"
  url: "https://ai.google.dev/gemini-api/docs/rate-limits"
}
, retry_delay {
  seconds: 12
}
]

In [11]:
# --- Teste de Recuperação ---
query_resumo = "qual a principal defesa contra ataques cibernéticos?"

retrieved_docs = multi_vector_retriever.invoke(query_resumo)

print(f"--- Buscando por: '{query_resumo}' ---\n")
print("--- Documento Original Recuperado via Resumo (MultiVectorRetriever) ---")
if retrieved_docs:
    print(retrieved_docs[0].page_content)
else:
    print("No documents were retrieved.")

print("\n💡 **Análise**: A busca foi feita nos resumos, que capturam a essência de cada parte do documento. "
      "Ao encontrar o resumo relevante sobre 'defesas', o retriever nos entregou o chunk original detalhado sobre "
      "o assunto, contendo a resposta precisa.")

NameError: name 'multi_vector_retriever' is not defined

## 📚 Resumo Prático da Aula 7

- **Hybrid Search (`EnsembleRetriever`)**: Use quando suas buscas precisarem ser boas tanto em significado (semântica) quanto em palavras-chave (léxica). Essencial para buscas com códigos, siglas ou nomes próprios.
- **Multi-vector RAG (`MultiVectorRetriever`)**: A escolha ideal para documentos longos e complexos. Permite uma busca inicial mais inteligente em resumos, seguida pela recuperação de chunks detalhados para a geração da resposta.
