# üîç RAG na Pr√°tica: Criando uma IA que Realmente Sabe das Coisas!

## M√≥dulo 10 - LangChain v0.3 Course

Fala, pessoal! Pedro Nunes Guth aqui! üöÄ

Bora colocar a m√£o na massa e implementar nosso primeiro RAG completo! Nos m√≥dulos anteriores a gente viu:
- Como fazer document loading e splitting (M√≥dulo 8)
- Como criar embeddings e vector stores (M√≥dulo 9)
- Chains e prompts (M√≥dulos 4 e 6)

Agora √© hora de juntar tudo isso numa implementa√ß√£o RAG que vai fazer sua IA parecer que tem PhD em qualquer assunto!

**T√°, mas o que √© RAG mesmo?** ü§î

Imagina que voc√™ tem um amigo super inteligente, mas que s√≥ sabe coisas at√© 2021. A√≠ voc√™ d√° pra ele um monte de livros atualizados e fala: "√ì, antes de responder qualquer coisa, d√° uma olhada nesses livros aqui". Isso √© RAG!

**RAG = Retrieval Augmented Generation**
- **Retrieval**: Busca informa√ß√µes relevantes
- **Augmented**: Aumenta o conhecimento da IA
- **Generation**: Gera respostas baseadas nessas informa√ß√µes

![](https://s3.us-east-1.amazonaws.com/turing.education/notebooks/imagens/langchain-modulo-10_img_01.png)

## üìö Como Funciona o RAG na Pr√°tica?

O RAG √© tipo aquele sistema de atendimento ao cliente que funciona de verdade (raridade, n√©?):

1. **Voc√™ faz uma pergunta** üó£Ô∏è
2. **O sistema busca nos documentos** üîç
3. **Encontra as partes relevantes** üìÑ
4. **Monta uma resposta baseada nisso** ü§ñ

A diferen√ßa √© que aqui funciona mesmo! üòÇ

### Fluxo Matem√°tico do RAG:

Para uma query $q$, o RAG funciona assim:

$$\text{resposta} = \text{LLM}(q + \text{retrieve}(q, D))$$

Onde:
- $q$ = sua pergunta
- $D$ = base de documentos
- $\text{retrieve}(q, D)$ = documentos mais relevantes para $q$

### Etapas Detalhadas:

1. **Embedding da Query**: $e_q = \text{embedding}(q)$
2. **Busca por Similaridade**: $\text{sim}(e_q, e_d) = \frac{e_q \cdot e_d}{||e_q|| \cdot ||e_d||}$
3. **Sele√ß√£o dos Top-k**: $D_{top} = \text{top_k}(\text{sim}(e_q, D))$
4. **Gera√ß√£o**: $\text{resposta} = \text{LLM}(\text{prompt} + D_{top} + q)$

In [None]:
# Bora instalar as depend√™ncias que vamos precisar!
!pip install langchain langchain-google-genai langchain-community faiss-cpu python-dotenv -q

print("Liiindo! Tudo instalado! üöÄ")

In [None]:
# Imports necess√°rios - j√° conhecemos esses caras dos m√≥dulos anteriores!
import os
from dotenv import load_dotenv

# LangChain components que j√° vimos
from langchain_google_genai import ChatGoogleGenerativeAI, GoogleGenerativeAIEmbeddings
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain_community.vectorstores import FAISS
from langchain.chains import RetrievalQA
from langchain.prompts import PromptTemplate
from langchain_community.document_loaders import TextLoader
from langchain.schema import Document

# Para visualiza√ß√£o
import matplotlib.pyplot as plt
import numpy as np

print("Imports feitos! Vamos que vamos! üí™")

In [None]:
# Configura√ß√£o da API do Google (lembra do M√≥dulo 2?)
load_dotenv()

# Se voc√™ n√£o tem o arquivo .env, descomente e cole sua API key aqui:
# os.environ["GOOGLE_API_KEY"] = "sua_api_key_aqui"

# Verificando se t√° tudo certo
if "GOOGLE_API_KEY" not in os.environ:
    print("‚ùå Opa! Faltou a API key do Google!")
    print("Configure no .env ou descomente a linha acima")
else:
    print("‚úÖ API key configurada! Bora pro RAG!")

## üèóÔ∏è Construindo nosso RAG - Passo 1: Preparando os Documentos

Lembra do M√≥dulo 8? Vamos usar aqueles conceitos de document loading e splitting!

**Dica!** üí° O splitting √© super importante! Se voc√™ cortar os documentos muito pequenos, perde contexto. Muito grandes, fica confuso. √â tipo cortar um bolo - tem que ser na medida certa!

Vamos criar alguns documentos de exemplo sobre tecnologia brasileira:

In [None]:
# Criando documentos de exemplo sobre tecnologia brasileira
# (Na vida real, voc√™ carregaria de arquivos, APIs, etc.)

documentos_exemplo = [
    """A Nubank foi fundada em 2013 por David V√©lez, Cristina Junqueira e Edward Wible. 
    A empresa revolucionou o mercado financeiro brasileiro com seu cart√£o de cr√©dito roxo 
    e aplicativo mobile. Em 2021, a empresa fez IPO na NYSE e se tornou o banco digital 
    mais valioso da Am√©rica Latina, com mais de 70 milh√µes de clientes.""",
    
    """O Pix foi lan√ßado pelo Banco Central do Brasil em novembro de 2020. √â um sistema 
    de pagamentos instant√¢neos que funciona 24 horas por dia, 7 dias por semana. 
    O Pix permite transfer√™ncias de dinheiro em at√© 10 segundos e se tornou o meio 
    de pagamento mais popular do Brasil, processando bilh√µes de transa√ß√µes por m√™s.""",
    
    """A Stone Pagamentos foi fundada em 2012 e se tornou uma das principais empresas 
    de meios de pagamento do Brasil. A empresa oferece m√°quinas de cart√£o (maquininhas), 
    solu√ß√µes de software e servi√ßos financeiros para pequenas e m√©dias empresas. 
    Est√° listada na NASDAQ desde 2018.""",
    
    """O iFood √© a maior plataforma de delivery de comida da Am√©rica Latina, fundada em 2011. 
    A empresa conecta restaurantes, entregadores e consumidores atrav√©s de seu aplicativo. 
    Durante a pandemia de COVID-19, o iFood expandiu significativamente e hoje opera 
    em mais de 1000 cidades brasileiras.""",
    
    """A 99 (anteriormente 99Taxis) foi fundada em 2012 e se tornou a principal 
    concorrente brasileira da Uber. Em 2018, foi adquirida pela chinesa Didi Chuxing 
    por 1 bilh√£o de d√≥lares. A empresa oferece servi√ßos de transporte por aplicativo 
    e delivery, sendo l√≠der em v√°rias cidades brasileiras."""
]

print(f"Criamos {len(documentos_exemplo)} documentos de exemplo sobre tech brasileira! üáßüá∑")
print(f"Primeiro documento tem {len(documentos_exemplo[0])} caracteres")

In [None]:
# Transformando em Document objects (padr√£o do LangChain)
# Lembra disso do M√≥dulo 8?

documents = []
for i, texto in enumerate(documentos_exemplo):
    doc = Document(
        page_content=texto,
        metadata={"source": f"tech_brasileira_doc_{i}", "tipo": "startup"}
    )
    documents.append(doc)

print(f"‚úÖ Convertidos {len(documents)} textos para Document objects!")
print(f"Exemplo de metadata: {documents[0].metadata}")

In [None]:
# Splitting dos documentos (M√≥dulo 8 feelings!)
# Configura√ß√µes importantes para um bom RAG

text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=200,        # Tamanho de cada chunk
    chunk_overlap=50,      # Sobreposi√ß√£o entre chunks
    length_function=len,   # Como medir o tamanho
    separators=["\n\n", "\n", ".", " ", ""]  # Como quebrar o texto
)

# Fazendo o split
split_docs = text_splitter.split_documents(documents)

print(f"üìÑ Documentos originais: {len(documents)}")
print(f"üî™ Chunks ap√≥s splitting: {len(split_docs)}")
print(f"\nüìã Exemplo de chunk:")
print(f"Conte√∫do: {split_docs[0].page_content[:100]}...")
print(f"Metadata: {split_docs[0].metadata}")

## üß† Passo 2: Criando Embeddings e Vector Store

Agora vem a parte que vimos no M√≥dulo 9! Vamos transformar nossos textos em vetores num√©ricos.

**T√°, mas por que vetores?** ü§î

√â tipo transformar palavras em coordenadas num mapa gigante. Palavras parecidas ficam perto, palavras diferentes ficam longe. Assim o computador consegue entender "proximidade sem√¢ntica"!

**Dica!** üí° O modelo de embedding √© crucial! Modelos diferentes v√£o dar vetores diferentes. No LangChain v0.3, temos v√°rias op√ß√µes. Aqui vamos usar o Google!

In [None]:
# Criando o modelo de embeddings (lembra do M√≥dulo 9?)
embeddings = GoogleGenerativeAIEmbeddings(
    model="models/embedding-001"
)

print("üß† Modelo de embeddings criado!")

# Testando com um texto simples
teste_embedding = embeddings.embed_query("Nubank √© um banco digital")
print(f"üìä Dimens√£o do vetor: {len(teste_embedding)}")
print(f"üî¢ Primeiros 5 valores: {teste_embedding[:5]}")

# Cada palavra vira um vetor de 768 n√∫meros! Liiindo!

In [None]:
# Criando o Vector Store com FAISS
# FAISS = Facebook AI Similarity Search (agora Meta AI)
# √â uma biblioteca super eficiente para busca por similaridade!

print("üèóÔ∏è Criando vector store... Isso pode demorar um pouco!")

vector_store = FAISS.from_documents(
    documents=split_docs,
    embedding=embeddings
)

print("‚úÖ Vector store criado com sucesso!")
print(f"üìö Armazenados {len(split_docs)} chunks como vetores")

# Testando uma busca simples
resultados = vector_store.similarity_search("Nubank cart√£o roxo", k=2)
print(f"\nüîç Teste de busca por 'Nubank cart√£o roxo':")
for i, doc in enumerate(resultados):
    print(f"  {i+1}. {doc.page_content[:80]}...")

## üéØ Visualizando a Similaridade dos Embeddings

Bora ver como fica a similaridade entre diferentes queries e nossos documentos! √â tipo ver o "mapa da proximidade sem√¢ntica".

In [None]:
# Vamos testar diferentes queries e ver as similaridades
queries_teste = [
    "cart√£o de cr√©dito roxo",
    "pagamento instant√¢neo",
    "delivery de comida",
    "transporte por aplicativo",
    "m√°quina de cart√£o"
]

# Para cada query, vamos buscar os documentos mais similares
resultados_similaridade = []

for query in queries_teste:
    # Busca com score de similaridade
    docs_com_score = vector_store.similarity_search_with_score(query, k=3)
    
    # Guardando os scores
    scores = [score for _, score in docs_com_score]
    resultados_similaridade.append(scores)
    
    print(f"üîç Query: '{query}'")
    for i, (doc, score) in enumerate(docs_com_score):
        print(f"  Top {i+1} (score: {score:.3f}): {doc.page_content[:60]}...")
    print()

In [None]:
# Visualizando os scores de similaridade
fig, ax = plt.subplots(figsize=(12, 8))

# Preparando dados para o gr√°fico
x_pos = np.arange(len(queries_teste))
width = 0.25

# Plotando os top 3 resultados para cada query
for i in range(3):
    scores_pos = [resultado[i] for resultado in resultados_similaridade]
    ax.bar(x_pos + i*width, scores_pos, width, 
           label=f'Top {i+1}', alpha=0.8)

ax.set_xlabel('Queries de Teste')
ax.set_ylabel('Score de Similaridade (menor = mais similar)')
ax.set_title('üìä Scores de Similaridade por Query\n(Quanto menor, mais similar!)')
ax.set_xticks(x_pos + width)
ax.set_xticklabels(queries_teste, rotation=45, ha='right')
ax.legend()
ax.grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

print("üí° Lembre-se: no FAISS, scores MENORES indicam MAIOR similaridade!")

## ü§ñ Passo 3: Criando o Modelo de Chat

Agora vamos criar nosso modelo de linguagem! Lembra do M√≥dulo 2? Vamos usar o Gemini que j√° conhecemos bem!

**Dica!** üí° Para RAG, configura√ß√µes como temperatura e max_tokens s√£o importantes. Queremos respostas precisas baseadas nos documentos, ent√£o temperatura baixa √© ideal!

In [None]:
# Criando o modelo de chat (nosso velho conhecido do M√≥dulo 2!)
llm = ChatGoogleGenerativeAI(
    model="gemini-2.0-flash-exp",  # Modelo mais recente
    temperature=0.1,               # Baixa para ser mais preciso
    max_tokens=512                 # Controle do tamanho da resposta
)

print("ü§ñ Modelo de chat criado!")
print(f"Model: {llm.model}")
print(f"Temperature: {llm.temperature}")
print(f"Max tokens: {llm.max_tokens}")

# Teste r√°pido
teste_resposta = llm.invoke("Ol√°! Como voc√™ est√°?")
print(f"\nüß™ Teste: {teste_resposta.content}")

## üìù Passo 4: Criando um Prompt Template Eficiente

Agora vem a parte crucial! Lembra do M√≥dulo 4 sobre Prompt Templates? Vamos criar um prompt que:
1. Instruir a IA sobre como usar os documentos
2. Dar contexto relevante
3. Fazer a pergunta do usu√°rio

**Dica!** üí° Um bom prompt de RAG √© tipo uma receita de bolo: tem que ter todos os ingredientes na ordem certa!

In [None]:
# Criando um prompt template espec√≠fico para RAG
# Isso √© arte! Um prompt bem feito faz toda a diferen√ßa

rag_prompt_template = """
Voc√™ √© um assistente especializado em tecnologia e startups brasileiras.

Use APENAS as informa√ß√µes fornecidas no contexto abaixo para responder √† pergunta.
Se a informa√ß√£o n√£o estiver no contexto, diga que n√£o tem essa informa√ß√£o dispon√≠vel.

Seja preciso, objetivo e baseie sua resposta exclusivamente no contexto fornecido.

CONTEXTO:
{context}

PERGUNTA: {question}

RESPOSTA:
"""

# Criando o PromptTemplate (lembra do M√≥dulo 4?)
rag_prompt = PromptTemplate(
    template=rag_prompt_template,
    input_variables=["context", "question"]
)

print("üìù Prompt template para RAG criado!")
print("\nüéØ Vari√°veis do prompt:", rag_prompt.input_variables)

# Testando o formato do prompt
exemplo_prompt = rag_prompt.format(
    context="Nubank foi fundada em 2013...",
    question="Quando foi fundado o Nubank?"
)
print(f"\nüìã Exemplo de prompt formatado:\n{exemplo_prompt[:200]}...")

## ‚ö° Passo 5: Montando a Chain RAG Completa

Agora √© a hora da verdade! Vamos juntar tudo que vimos nos m√≥dulos anteriores numa chain RAG!

**O que vai rolar:**
1. Recebe a pergunta
2. Busca documentos relevantes no vector store
3. Monta o prompt com contexto + pergunta
4. Envia pro LLM
5. Retorna a resposta baseada nos documentos

√â tipo montar um hamb√∫rguer: cada camada tem sua fun√ß√£o! üçî

In [None]:
# Criando a chain RAG completa!
# Isso aqui √© a magia acontecendo - todos os m√≥dulos anteriores se juntando!

rag_chain = RetrievalQA.from_chain_type(
    llm=llm,                           # Nosso modelo de chat
    chain_type="stuff",                # Tipo de chain ("stuff" = coloca tudo junto)
    retriever=vector_store.as_retriever(  # Nosso retriever
        search_type="similarity",      # Tipo de busca
        search_kwargs={"k": 3}         # Quantos documentos buscar
    ),
    chain_type_kwargs={
        "prompt": rag_prompt            # Nosso prompt customizado
    },
    return_source_documents=True       # Retorna os documentos usados
)

print("üîó Chain RAG criada com sucesso!")
print("‚úÖ Componentes conectados:")
print("  - LLM: Gemini 2.0 Flash")
print("  - Vector Store: FAISS")
print("  - Embeddings: Google")
print("  - Prompt: Customizado para RAG")
print("  - Retriever: Top 3 documentos mais similares")

## üöÄ Testando Nosso RAG na Pr√°tica!

Chegou a hora da verdade! Vamos fazer perguntas pro nosso RAG e ver se ele consegue responder baseado nos documentos.

**Dica!** üí° Observe que as respostas v√£o citar informa√ß√µes espec√≠ficas dos documentos que carregamos!

In [None]:
# Primeira pergunta: sobre o Nubank
pergunta1 = "Quando foi fundado o Nubank e quem foram os fundadores?"

print(f"ü§î Pergunta: {pergunta1}")
print("\nüîç Buscando informa√ß√µes...")

resposta1 = rag_chain({"query": pergunta1})

print(f"\nü§ñ Resposta: {resposta1['result']}")
print(f"\nüìö Documentos consultados:")
for i, doc in enumerate(resposta1['source_documents']):
    print(f"  {i+1}. Fonte: {doc.metadata['source']}")
    print(f"     Trecho: {doc.page_content[:80]}...\n")

In [None]:
# Segunda pergunta: sobre o Pix
pergunta2 = "O que √© o Pix e quando foi lan√ßado?"

print(f"ü§î Pergunta: {pergunta2}")
print("\nüîç Buscando informa√ß√µes...")

resposta2 = rag_chain({"query": pergunta2})

print(f"\nü§ñ Resposta: {resposta2['result']}")
print(f"\nüìö Documentos consultados:")
for i, doc in enumerate(resposta2['source_documents']):
    print(f"  {i+1}. {doc.page_content[:100]}...\n")

In [None]:
# Terceira pergunta: testando os limites
pergunta3 = "Qual √© a capital do Jap√£o?"

print(f"ü§î Pergunta: {pergunta3}")
print("\nüîç Buscando informa√ß√µes...")

resposta3 = rag_chain({"query": pergunta3})

print(f"\nü§ñ Resposta: {resposta3['result']}")
print("\nüí° Repare que o RAG n√£o inventa informa√ß√µes que n√£o est√£o nos documentos!")
print("Isso √© uma caracter√≠stica MUITO importante do RAG bem implementado.")

## üìä Analisando a Performance do RAG

Vamos criar algumas m√©tricas simples para entender como nosso RAG est√° se saindo!

In [None]:
# Vamos testar v√°rias perguntas e analisar os resultados
perguntas_teste = [
    "Quando foi fundado o Nubank?",
    "O que √© o Pix?", 
    "Quem fundou a Stone?",
    "Em que ano o iFood foi criado?",
    "Quanto a Didi pagou pela 99?",
    "Qual a cor do cart√£o do Nubank?",
    "Como funciona o delivery do iFood?"
]

resultados_teste = []
tempos_resposta = []

print("üß™ Testando m√∫ltiplas perguntas...\n")

import time

for i, pergunta in enumerate(perguntas_teste):
    print(f"  {i+1}/7 - Testando: {pergunta[:40]}...")
    
    # Medindo tempo de resposta
    inicio = time.time()
    resultado = rag_chain({"query": pergunta})
    fim = time.time()
    
    tempo = fim - inicio
    tempos_resposta.append(tempo)
    
    # Analisando a resposta
    resposta = resultado['result']
    num_docs = len(resultado['source_documents'])
    tamanho_resposta = len(resposta)
    
    resultados_teste.append({
        'pergunta': pergunta,
        'resposta': resposta,
        'tempo': tempo,
        'num_docs': num_docs,
        'tamanho': tamanho_resposta
    })

print("\n‚úÖ Testes conclu√≠dos!")
print(f"üìä Tempo m√©dio de resposta: {np.mean(tempos_resposta):.2f} segundos")
print(f"üìè Tamanho m√©dio das respostas: {np.mean([r['tamanho'] for r in resultados_teste]):.0f} caracteres")

In [None]:
# Visualizando a performance
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(15, 6))

# Gr√°fico 1: Tempos de Resposta
ax1.bar(range(len(tempos_resposta)), tempos_resposta, color='skyblue', alpha=0.8)
ax1.set_xlabel('Pergunta #')
ax1.set_ylabel('Tempo (segundos)')
ax1.set_title('‚è±Ô∏è Tempos de Resposta do RAG')
ax1.grid(True, alpha=0.3)

# Gr√°fico 2: Tamanho das Respostas
tamanhos = [r['tamanho'] for r in resultados_teste]
ax2.bar(range(len(tamanhos)), tamanhos, color='lightcoral', alpha=0.8)
ax2.set_xlabel('Pergunta #')
ax2.set_ylabel('Caracteres')
ax2.set_title('üìè Tamanho das Respostas')
ax2.grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

# Estat√≠sticas
print(f"üìà Estat√≠sticas do RAG:")
print(f"  ‚è±Ô∏è Tempo m√©dio: {np.mean(tempos_resposta):.2f}s (¬±{np.std(tempos_resposta):.2f}s)")
print(f"  üìè Resposta m√©dia: {np.mean(tamanhos):.0f} chars (¬±{np.std(tamanhos):.0f} chars)")
print(f"  üöÄ Tempo m√≠nimo: {np.min(tempos_resposta):.2f}s")
print(f"  üêå Tempo m√°ximo: {np.max(tempos_resposta):.2f}s")

## üîß Configura√ß√µes Avan√ßadas do RAG

Agora que temos um RAG funcionando, vamos ver algumas configura√ß√µes avan√ßadas que podem melhorar muito a performance!

**Configura√ß√µes importantes:**
- **k (n√∫mero de documentos)**: Quantos chunks buscar
- **score_threshold**: Filtro de qualidade
- **search_type**: Tipo de busca (similarity, mmr, etc.)

**Dica!** üí° Nem sempre mais documentos = melhor resposta. √Äs vezes, poucos documentos relevantes s√£o melhores que muitos medianos!

In [None]:
# Testando diferentes configura√ß√µes de k (n√∫mero de documentos)
ks_para_testar = [1, 2, 3, 5]
pergunta_teste = "O que voc√™ sabe sobre o Nubank?"

print(f"üß™ Testando diferentes valores de k com a pergunta: '{pergunta_teste}'\n")

for k in ks_para_testar:
    print(f"üìä Testando k={k}:")
    
    # Criando retriever com k espec√≠fico
    retriever_k = vector_store.as_retriever(
        search_type="similarity",
        search_kwargs={"k": k}
    )
    
    # Chain tempor√°ria com esse k
    chain_temp = RetrievalQA.from_chain_type(
        llm=llm,
        chain_type="stuff",
        retriever=retriever_k,
        chain_type_kwargs={"prompt": rag_prompt},
        return_source_documents=True
    )
    
    resultado = chain_temp({"query": pergunta_teste})
    
    print(f"  üìù Resposta ({len(resultado['result'])} chars): {resultado['result'][:100]}...")
    print(f"  üìö Documentos usados: {len(resultado['source_documents'])}\n")

In [None]:
# Testando busca com MMR (Maximum Marginal Relevance)
# MMR ajuda a diversificar os resultados, evitando documentos muito similares

print("üîç Comparando busca por Similarity vs MMR\n")

pergunta_mmr = "Me fale sobre startups de pagamento no Brasil"

# Busca por similaridade normal
retriever_similarity = vector_store.as_retriever(
    search_type="similarity",
    search_kwargs={"k": 3}
)

# Busca com MMR
retriever_mmr = vector_store.as_retriever(
    search_type="mmr",
    search_kwargs={
        "k": 3,
        "lambda_mult": 0.7  # Balance entre relev√¢ncia e diversidade
    }
)

# Testando similarity
docs_similarity = retriever_similarity.get_relevant_documents(pergunta_mmr)
print("üìä Busca por Similarity:")
for i, doc in enumerate(docs_similarity):
    print(f"  {i+1}. {doc.page_content[:60]}...")

print("\nüéØ Busca por MMR (mais diversificada):")
docs_mmr = retriever_mmr.get_relevant_documents(pergunta_mmr)
for i, doc in enumerate(docs_mmr):
    print(f"  {i+1}. {doc.page_content[:60]}...")

print("\nüí° MMR tenta trazer documentos relevantes MAS diversos!")

## üéì Exerc√≠cio Pr√°tico: Seu Primeiro RAG Customizado

Agora √© sua vez! Vamos criar um RAG sobre um tema diferente.

**Desafio:** üèÜ
1. Crie documentos sobre **futebol brasileiro** 
2. Configure um RAG com esses documentos
3. Teste perguntas sobre times, jogadores, etc.
4. Compare diferentes configura√ß√µes de k

**Dica!** üí° Use o c√≥digo que j√° vimos como base. Mude apenas os documentos e teste!

In [None]:
# SEU C√ìDIGO AQUI!
# Crie documentos sobre futebol brasileiro

documentos_futebol = [
    # TODO: Adicione pelo menos 4 documentos sobre:
    # - Times brasileiros
    # - Jogadores famosos 
    # - Copas do Mundo
    # - Campeonatos
    
    """O Pel√©, cujo nome real √© Edson Arantes do Nascimento, √© considerado 
    o maior jogador de futebol de todos os tempos. Nascido em 1940, 
    jogou no Santos FC e na Sele√ß√£o Brasileira, conquistando 3 Copas do Mundo 
    (1958, 1962, 1970). Marcou mais de 1000 gols na carreira.""",
    
    # Adicione mais documentos aqui...
]

print("‚öΩ Exerc√≠cio: Crie seus documentos de futebol aqui!")
print("üìù Dica: Siga o mesmo padr√£o que usamos para tech brasileira")

# Complete o resto da implementa√ß√£o!

## üìà Melhorias Avan√ßadas para RAG

Agora que voc√™ j√° domina o b√°sico, vamos ver algumas t√©cnicas avan√ßadas que podem turbinar seu RAG!

### T√©cnicas Avan√ßadas:

1. **Re-ranking**: Reordenar resultados com modelo adicional
2. **Query Expansion**: Expandir a query original
3. **Hybrid Search**: Combinar busca sem√¢ntica + keyword
4. **Metadata Filtering**: Filtrar por metadados
5. **Multi-hop RAG**: RAG com m√∫ltiplas etapas

**Dica!** üí° Cada t√©cnica resolve um problema espec√≠fico. N√£o use todas de uma vez!

In [None]:
# Exemplo: Filtros por Metadata
# Vamos buscar apenas documentos de um tipo espec√≠fico

print("üîç Testando filtros por metadata...\n")

# Primeiro, vamos ver os metadados dispon√≠veis
print("üìã Metadados dispon√≠veis nos documentos:")
for i, doc in enumerate(split_docs[:3]):
    print(f"  Doc {i+1}: {doc.metadata}")

# Busca com filtro (simulando que temos documentos de tipos diferentes)
# Na vida real, voc√™ poderia filtrar por data, autor, categoria, etc.

pergunta_filtro = "Me fale sobre bancos digitais"

# Busca normal (sem filtro)
resultados_normais = vector_store.similarity_search(pergunta_filtro, k=3)

print(f"\nüîç Busca normal para: '{pergunta_filtro}'")
for i, doc in enumerate(resultados_normais):
    print(f"  {i+1}. Fonte: {doc.metadata.get('source', 'N/A')}")
    print(f"     Conte√∫do: {doc.page_content[:80]}...\n")

print("üí° Em projetos reais, voc√™ pode filtrar por data, categoria, autor, etc.!")

## üèóÔ∏è Fluxo Completo do RAG - Diagrama

Vamos visualizar todo o processo que implementamos:

In [None]:
# Criando um diagrama do fluxo RAG
from IPython.display import HTML

diagrama_rag = """
<div class="mermaid">
graph TD
    A[üë§ Usu√°rio faz pergunta] --> B[üîç Embedding da pergunta]
    B --> C[üìä Busca no Vector Store]
    C --> D[üìÑ Top-k documentos mais similares]
    D --> E[üìù Monta prompt com contexto]
    E --> F[ü§ñ LLM gera resposta]
    F --> G[‚úÖ Resposta baseada nos documentos]
    
    H[üìö Base de Documentos] --> I[‚úÇÔ∏è Text Splitting]
    I --> J[üß† Embeddings dos chunks]
    J --> K[üíæ Armazenamento no FAISS]
    K --> C
    
    style A fill:#e1f5fe
    style G fill:#e8f5e8
    style F fill:#fff3e0
    style C fill:#f3e5f5
</div>
"""

print("üéØ Fluxo Completo do RAG que Implementamos:")
print("")
print("üì• ETAPA 1 - PREPARA√á√ÉO (offline):")
print("  1. Carregar documentos")
print("  2. Fazer text splitting")
print("  3. Gerar embeddings")
print("  4. Armazenar no vector store")
print("")
print("üîÑ ETAPA 2 - CONSULTA (runtime):")
print("  1. Usu√°rio faz pergunta")
print("  2. Embedding da pergunta")
print("  3. Busca similaridade no vector store")
print("  4. Recupera top-k documentos")
print("  5. Monta prompt com contexto")
print("  6. LLM gera resposta")
print("  7. Retorna resposta + fontes")

HTML(diagrama_rag)

## üö® Problemas Comuns e Solu√ß√µes

Todo RAG tem seus desafios. Vamos ver os mais comuns e como resolver:

### Problemas T√≠picos:

1. **Chunk Size Ruim**: Peda√ßos muito grandes ou pequenos
2. **Embeddings Inadequados**: Modelo n√£o captura bem o dom√≠nio
3. **Prompt Mal Feito**: LLM n√£o entende como usar o contexto
4. **Muitos/Poucos Documentos**: k muito alto/baixo
5. **Qualidade dos Docs**: Documentos com informa√ß√£o ruim

**Dica!** üí° RAG √© mais arte que ci√™ncia. Tem que testar e ajustar!

In [None]:
# Exemplo: Diagn√≥stico de problemas comuns
print("ü©∫ Diagn√≥stico do nosso RAG:\n")

# 1. An√°lise do chunk size
tamanhos_chunks = [len(doc.page_content) for doc in split_docs]
print(f"üìè An√°lise dos Chunks:")
print(f"  - Tamanho m√©dio: {np.mean(tamanhos_chunks):.0f} chars")
print(f"  - Menor chunk: {np.min(tamanhos_chunks)} chars")
print(f"  - Maior chunk: {np.max(tamanhos_chunks)} chars")
print(f"  - Total de chunks: {len(split_docs)}")

if np.mean(tamanhos_chunks) < 100:
    print("  ‚ö†Ô∏è AVISO: Chunks muito pequenos podem perder contexto!")
elif np.mean(tamanhos_chunks) > 1000:
    print("  ‚ö†Ô∏è AVISO: Chunks muito grandes podem confundir o LLM!")
else:
    print("  ‚úÖ Tamanho dos chunks parece adequado!")

# 2. An√°lise da distribui√ß√£o
print(f"\nüìä Distribui√ß√£o dos tamanhos:")
hist, bins = np.histogram(tamanhos_chunks, bins=5)
for i in range(len(hist)):
    print(f"  {bins[i]:.0f}-{bins[i+1]:.0f} chars: {hist[i]} chunks")

# 3. Teste de qualidade das buscas
print(f"\nüéØ Teste de qualidade:")
query_teste = "Nubank"
docs_teste = vector_store.similarity_search_with_score(query_teste, k=3)

scores = [score for _, score in docs_teste]
print(f"  - Scores de similaridade: {[f'{s:.3f}' for s in scores]}")
print(f"  - Diferen√ßa max-min: {max(scores) - min(scores):.3f}")

if max(scores) - min(scores) < 0.1:
    print("  ‚ö†Ô∏è AVISO: Scores muito pr√≥ximos - documentos podem ser muito similares!")
else:
    print("  ‚úÖ Boa varia√ß√£o nos scores de similaridade!")

## üéä Resumo: O que Aprendemos sobre RAG!

Cara, que jornada! üöÄ Implementamos um RAG completo do zero!

### ‚úÖ O que fizemos:
1. **Carregamos e processamos documentos** (M√≥dulo 8 vibes)
2. **Criamos embeddings e vector store** (M√≥dulo 9 power)
3. **Configuramos LLM e prompts** (M√≥dulos 2, 4, 6 unidos!)
4. **Montamos a chain RAG completa**
5. **Testamos e otimizamos**
6. **Analisamos performance**

### üß† Conceitos principais:
- **RAG = Retrieval + Augmented + Generation**
- **Similaridade sem√¢ntica** com embeddings
- **Chunk size** √© cr√≠tico
- **Prompt engineering** para RAG
- **k (n√∫mero de documentos)** afeta qualidade

### üîÆ Pr√≥ximos passos (M√≥dulo 11):
No pr√≥ximo m√≥dulo vamos ver **Agents e Tools** - imagina um RAG que pode usar ferramentas externas! ü§Ø

![](https://s3.us-east-1.amazonaws.com/turing.education/notebooks/imagens/langchain-modulo-10_img_02.png)

In [None]:
# Teste final: vamos fazer uma pergunta complexa!
pergunta_final = "Compare as diferentes empresas de tecnologia brasileira mencionadas nos documentos"

print(f"üéØ TESTE FINAL: {pergunta_final}\n")

resposta_final = rag_chain({"query": pergunta_final})

print(f"ü§ñ Resposta Final:")
print(resposta_final['result'])

print(f"\nüìö Documentos consultados: {len(resposta_final['source_documents'])}")
print(f"üìä Tamanho da resposta: {len(resposta_final['result'])} caracteres")

print("\nüéâ Parab√©ns! Voc√™ implementou seu primeiro RAG com LangChain v0.3!")
print("üöÄ Agora voc√™ pode criar IAs que sabem de qualquer assunto!")
print("üìñ Nos pr√≥ximos m√≥dulos vamos ver Agents, Tools e muito mais!")
print("\nüí™ Bora continuar essa jornada incr√≠vel!")

## üèãÔ∏è Exerc√≠cio Final: Desafio RAG Completo

**Seu desafio:** üèÜ

Implemente um RAG sobre **culin√°ria brasileira** com:
1. Pelo menos 5 documentos sobre pratos t√≠picos
2. Metadata com regi√£o (Norte, Sul, etc.)
3. Teste diferentes valores de k
4. Compare similarity vs MMR
5. Crie visualiza√ß√µes dos resultados

**Bonus:** üåü
- Adicione filtros por regi√£o
- Teste diferentes chunk sizes
- Calcule m√©tricas de performance

**Dica!** üí° Use todo o c√≥digo que vimos como refer√™ncia. Voc√™ j√° tem tudo que precisa!

Liiindo! Agora voc√™ √© um expert em RAG! üéä