## 1. Configura√ß√£o Inicial

In [1]:
import warnings
import json
import numpy as np
from dotenv import load_dotenv
from openai import OpenAI

# Importando fun√ß√µes do m√≥dulo local
from embedding_utils import (
    get_embedding,
    cosine_similarity,
)

warnings.filterwarnings("ignore")

# Carrega vari√°veis do arquivo .env
load_dotenv()

print("‚úÖ Bibliotecas importadas com sucesso!")

‚úÖ Bibliotecas importadas com sucesso!


In [2]:
# Cliente OpenAI
client = OpenAI()

print("‚úÖ Cliente OpenAI configurado!")

‚úÖ Cliente OpenAI configurado!


## 2. Carregando Base de Conhecimento

Vamos carregar os embeddings e chunks que geramos no notebook anterior.

In [3]:
# Carregando embeddings e metadados salvos
embeddings_chunks = np.load("embeddings_chunks.npy")
with open("metadados_chunks.json", "r", encoding="utf-8") as f:
    metadados = json.load(f)

# Carregando os chunks de texto
with open("chunks.json", "r", encoding="utf-8") as f:
    todos_chunks = json.load(f)

print(f"‚úÖ Base de conhecimento carregada!")
print(f"   üìö {len(todos_chunks)} chunks dispon√≠veis")
print(f"   üìê Dimens√£o dos embeddings: {embeddings_chunks.shape[1]}")

‚úÖ Base de conhecimento carregada!
   üìö 337 chunks dispon√≠veis
   üìê Dimens√£o dos embeddings: 3072


## 3. Sistema RAG B√°sico

Vamos criar as fun√ß√µes principais do RAG.

In [4]:
def buscar_contexto(pergunta: str, top_k: int = 3) -> list:
    """
    Busca os chunks mais relevantes para uma pergunta.

    Args:
        pergunta: A pergunta em linguagem natural
        top_k: N√∫mero de chunks a retornar

    Returns:
        Lista de dicion√°rios com chunk, fonte e similaridade
    """
    # Gera embedding da pergunta
    emb_pergunta = get_embedding(client, pergunta)

    # Calcula similaridade com todos os chunks
    resultados = []
    for i, emb_chunk in enumerate(embeddings_chunks):
        sim = cosine_similarity(emb_pergunta, emb_chunk)
        resultados.append(
            {
                "chunk": todos_chunks[i],
                "fonte": metadados[i]["pagina"],
                "url": metadados[i]["url"],
                "similaridade": sim,
            }
        )

    # Ordena por similaridade (maior primeiro)
    resultados.sort(key=lambda x: x["similaridade"], reverse=True)

    return resultados[:top_k]


print("‚úÖ Fun√ß√£o de busca definida!")

‚úÖ Fun√ß√£o de busca definida!


In [5]:
def gerar_resposta_rag(
    pergunta: str, top_k: int = 3, modelo: str = "gpt-4o-mini"
) -> dict:
    """
    Gera uma resposta usando RAG (Retrieval Augmented Generation).

    Args:
        pergunta: A pergunta do usu√°rio
        top_k: N√∫mero de chunks de contexto a usar
        modelo: Modelo da OpenAI a usar

    Returns:
        Dicion√°rio com resposta, contexto usado e fontes
    """
    # 1. RETRIEVAL - Busca contexto relevante
    contextos = buscar_contexto(pergunta, top_k=top_k)

    # 2. AUGMENTED - Monta o prompt com contexto
    contexto_texto = "\n\n".join(
        [f"[Fonte: {c['fonte']}]\n{c['chunk']}" for c in contextos]
    )

    prompt_sistema = """Voc√™ √© um assistente especializado em responder perguntas com base em informa√ß√µes fornecidas.

REGRAS:
1. Responda APENAS com base no contexto fornecido
2. Se a informa√ß√£o n√£o estiver no contexto, diga "N√£o encontrei essa informa√ß√£o na base de conhecimento"
3. Cite as fontes quando poss√≠vel
4. Seja conciso e direto
5. Responda em portugu√™s"""

    prompt_usuario = f"""CONTEXTO:
{contexto_texto}

PERGUNTA: {pergunta}

RESPOSTA:"""

    # 3. GENERATION - Gera resposta com LLM
    resposta = client.chat.completions.create(
        model=modelo,
        messages=[
            {"role": "system", "content": prompt_sistema},
            {"role": "user", "content": prompt_usuario},
        ],
        temperature=0.3,  # Baixa temperatura para respostas mais factuais
        max_tokens=500,
    )

    return {
        "pergunta": pergunta,
        "resposta": resposta.choices[0].message.content,
        "contextos": contextos,
        "fontes": list(set([c["fonte"] for c in contextos])),
    }


print("‚úÖ Sistema RAG pronto!")

‚úÖ Sistema RAG pronto!


In [12]:
def perguntar(pergunta: str, mostrar_contexto: bool = False, top_k: int = 3) -> dict:
    """
    Interface amig√°vel para fazer perguntas ao sistema RAG.
    """
    print(f"\n{'‚ïê' * 70}")
    print(f"‚ùì PERGUNTA: {pergunta}")
    print(f"{'‚ïê' * 70}")

    resultado = gerar_resposta_rag(pergunta, top_k=top_k)

    print(f"\nüí¨ RESPOSTA:")
    print(f"{resultado['resposta']}")

    print(f"\nüìö FONTES: {', '.join(resultado['fontes'])}")

    if mostrar_contexto:
        print(f"\n{'‚îÄ' * 70}")
        print("üìÑ CONTEXTO UTILIZADO:")
        for i, ctx in enumerate(resultado["contextos"], 1):
            print(f"\n[{i}] {ctx['fonte']} (similaridade: {ctx['similaridade']:.1%})")
            print(f"    {ctx['chunk'][:150]}...")

    return resultado


print("‚úÖ Interface de perguntas pronta!")

‚úÖ Interface de perguntas pronta!


## 4. Testando o Sistema RAG

In [7]:
# Teste 1: Pergunta sobre f√≠sica
perguntar(
    "Quem foi campe√£o mundial ap√≥s disputa de p√™naltis na final", mostrar_contexto=True
)


‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê
‚ùì PERGUNTA: Quem foi campe√£o mundial ap√≥s disputa de p√™naltis na final
‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê

üí¨ RESPOSTA:
A Argentina foi campe√£ mundial ap√≥s a disputa de p√™naltis na final da Copa do Mundo FIFA de 2022.

üìö FONTES: Zinedine Zidane, Lionel Messi

‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
üìÑ CONTEXTO UTILIZADO:

[1] Lionel Messi (similaridade: 53.4%)
    [Lionel Messi] A final da Copa do Mundo FIFA de 2022, dispu

{'pergunta': 'Quem foi campe√£o mundial ap√≥s disputa de p√™naltis na final',
 'resposta': 'A Argentina foi campe√£ mundial ap√≥s a disputa de p√™naltis na final da Copa do Mundo FIFA de 2022.',
 'contextos': [{'chunk': '[Lionel Messi] A final da Copa do Mundo FIFA de 2022, disputada em 18 de dezembro, no Est√°dio Lusail, no Catar, entrou para a hist√≥ria como uma das decis√µes mais marcantes do futebol mundial. Diante de mais de 88 mil espectadores e de uma audi√™ncia global estimada em 1,42 bilh√£o de telespectadores, Argentina e Fran√ßa protagonizaram um confronto caracterizado por sucessivas reviravoltas, atua√ß√µes individuais de destaque e um desfecho amplamente descrito como dram√°tico. A equipe comandada por Lionel Scaloni dominou o primeiro tempo. Aos 23 minutos, Lionel Messi abriu o placar ao converter um p√™nalti, ap√≥s falta cometida sobre √Ångel Di Mar√≠a. Aos 36 minutos Di Mar√≠a concluiu um r√°pido contra-ataque iniciado por Messi, fazendo 2‚Äì0 ainda antes do intervalo.

In [None]:
# Teste 2: Pergunta sobre futebol
perguntar("Quantas Bolas de Ouro o Messi ganhou?")

In [8]:
# Teste 3: Pergunta sobre biologia
perguntar(
    "Qual cientista teve problemas de sa√∫de relacionados ao cora√ß√£o?",
    mostrar_contexto=True,
)


‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê
‚ùì PERGUNTA: Qual cientista teve problemas de sa√∫de relacionados ao cora√ß√£o?
‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê

üí¨ RESPOSTA:
Albert Einstein teve problemas de sa√∫de relacionados ao cora√ß√£o, pois entrou em colapso com uma condi√ß√£o card√≠aca grave durante uma viagem a Davos, Su√≠√ßa, em mar√ßo de 1928. [Fonte: Albert Einstein]

üìö FONTES: Charles Darwin, Albert Einstein

‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
üìÑ CONTEXTO U

{'pergunta': 'Qual cientista teve problemas de sa√∫de relacionados ao cora√ß√£o?',
 'resposta': 'Albert Einstein teve problemas de sa√∫de relacionados ao cora√ß√£o, pois entrou em colapso com uma condi√ß√£o card√≠aca grave durante uma viagem a Davos, Su√≠√ßa, em mar√ßo de 1928. [Fonte: Albert Einstein]',
 'contextos': [{'chunk': '[Albert Einstein] No entanto, recusou e escreveu em sua resposta que estava "profundamente comovido" e "ao mesmo tempo triste e envergonhado", pois n√£o poderia aceit√°-la: "Toda a minha vida eu tenho lidado com quest√µes objetivas, da√≠ me falta tanto a aptid√£o natural e a experi√™ncia para lidar corretamente com as pessoas e para o exerc√≠cio da fun√ß√£o oficial. Eu estou muito triste com essas circunst√¢ncias, porque a minha rela√ß√£o com o povo judeu se tornou o meu la√ßo humano mais forte, uma vez que eu consegui compreender a clareza sobre a nossa posi√ß√£o prec√°ria entre as na√ß√µes do mundo". No ver√£o de 1950, seus m√©dicos descobriram que um aneuri

In [13]:
# Teste 4: Pergunta que requer s√≠ntese de m√∫ltiplas fontes
perguntar("Quais cientistas tiveram problemas de sa√∫de significativos?", top_k=5)


‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê
‚ùì PERGUNTA: Quais cientistas tiveram problemas de sa√∫de significativos?
‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê

üí¨ RESPOSTA:
Os cientistas que tiveram problemas de sa√∫de significativos foram:

1. **Charles Darwin** - Apresentou problemas incapacitantes no est√¥mago, incluindo v√¥mitos, palpita√ß√µes e outros sintomas, que se intensificavam durante per√≠odos de estresse.

2. **Isaac Newton** - Sofreu um colapso nervoso em 1693, que incluiu comportamentos estranhos, como o envio de cartas acusat√≥rias a amigos.

3. **Albert Einstein** - Embora n√£o sejam descritos problemas de sa√∫de significativos em seu

{'pergunta': 'Quais cientistas tiveram problemas de sa√∫de significativos?',
 'resposta': 'Os cientistas que tiveram problemas de sa√∫de significativos foram:\n\n1. **Charles Darwin** - Apresentou problemas incapacitantes no est√¥mago, incluindo v√¥mitos, palpita√ß√µes e outros sintomas, que se intensificavam durante per√≠odos de estresse.\n\n2. **Isaac Newton** - Sofreu um colapso nervoso em 1693, que incluiu comportamentos estranhos, como o envio de cartas acusat√≥rias a amigos.\n\n3. **Albert Einstein** - Embora n√£o sejam descritos problemas de sa√∫de significativos em seus √∫ltimos dias, ele passou por uma aut√≥psia ap√≥s sua morte, onde seu c√©rebro foi removido para preserva√ß√£o. \n\n(Fonte: Charles Darwin, Isaac Newton, Albert Einstein)',
 'contextos': [{'chunk': '[Charles Darwin] No resto de sua vida, ele apresentou problemas incapacitantes no est√¥mago, desencadeando v√¥mitos, palpita√ß√µes, fur√∫nculos, tremedeiras e outros sintomas. Os epis√≥dios se intensificavam durante 

## 5. RAG com Hist√≥rico de Conversa

Vamos criar uma vers√£o mais avan√ßada que mant√©m o hist√≥rico da conversa.

In [None]:
class ChatRAG:
    """
    Chatbot RAG com mem√≥ria de conversa.
    """

    def __init__(self, modelo: str = "gpt-4o-mini", top_k: int = 3):
        self.modelo = modelo
        self.top_k = top_k
        self.historico = []
        self.prompt_sistema = """Voc√™ √© um assistente especializado em responder perguntas com base em informa√ß√µes fornecidas.

REGRAS:
1. Responda APENAS com base no contexto fornecido
2. Se a informa√ß√£o n√£o estiver no contexto, diga "N√£o encontrei essa informa√ß√£o na base de conhecimento"
3. Cite as fontes quando relevante
4. Seja conciso e direto
5. Responda em portugu√™s
6. Considere o hist√≥rico da conversa para entender refer√™ncias como "ele", "ela", "isso""""

    def chat(self, pergunta: str) -> str:
        """
        Envia uma mensagem e recebe a resposta.
        """
        # Busca contexto
        contextos = buscar_contexto(pergunta, top_k=self.top_k)

        contexto_texto = "\n\n".join([
            f"[Fonte: {c['fonte']}]\n{c['chunk']}"
            for c in contextos
        ])

        # Monta mensagem com contexto
        mensagem_usuario = f"""CONTEXTO RELEVANTE:
{contexto_texto}

PERGUNTA DO USU√ÅRIO: {pergunta}"""

        # Adiciona ao hist√≥rico
        self.historico.append({"role": "user", "content": mensagem_usuario})

        # Gera resposta
        mensagens = [{"role": "system", "content": self.prompt_sistema}] + self.historico[-10:]  # √öltimas 10 mensagens

        resposta = client.chat.completions.create(
            model=self.modelo,
            messages=mensagens,
            temperature=0.3,
            max_tokens=500
        )

        resposta_texto = resposta.choices[0].message.content

        # Adiciona resposta ao hist√≥rico
        self.historico.append({"role": "assistant", "content": resposta_texto})

        return resposta_texto

    def limpar_historico(self):
        """Limpa o hist√≥rico de conversa."""
        self.historico = []
        print("üóëÔ∏è Hist√≥rico limpo!")

    def mostrar_historico(self):
        """Mostra o hist√≥rico de conversa."""
        print("\nüìú HIST√ìRICO DA CONVERSA:")
        print("‚ïê" * 50)
        for msg in self.historico:
            role = "üë§ Voc√™" if msg["role"] == "user" else "ü§ñ Assistente"
            # Para mensagens do usu√°rio, mostra apenas a pergunta
            if msg["role"] == "user":
                pergunta = msg["content"].split("PERGUNTA DO USU√ÅRIO:")[-1].strip()
                print(f"\n{role}: {pergunta}")
            else:
                print(f"\n{role}: {msg['content'][:200]}..." if len(msg['content']) > 200 else f"\n{role}: {msg['content']}")


# Instanciando o chatbot
chat = ChatRAG()
print("‚úÖ ChatRAG inicializado!")

In [None]:
# Conversa com contexto
print("üí¨", chat.chat("Quem foi Albert Einstein?"))

In [None]:
# Pergunta de follow-up usando "ele"
print("üí¨", chat.chat("Onde ele nasceu?"))

In [None]:
# Outra pergunta de follow-up
print("üí¨", chat.chat("E qual foi sua principal contribui√ß√£o para a f√≠sica?"))

In [None]:
# Ver hist√≥rico
chat.mostrar_historico()

## 6. Compara√ß√£o: Com RAG vs Sem RAG

Vamos ver a diferen√ßa entre perguntar ao LLM diretamente vs usar RAG.

In [None]:
def comparar_rag_vs_direto(pergunta: str):
    """
    Compara a resposta do RAG com a resposta direta do LLM.
    """
    print(f"\n{'‚ïê' * 70}")
    print(f"‚ùì PERGUNTA: {pergunta}")
    print(f"{'‚ïê' * 70}")

    # Resposta DIRETA (sem RAG)
    resposta_direta = client.chat.completions.create(
        model="gpt-4o-mini",
        messages=[{"role": "user", "content": pergunta}],
        temperature=0.3,
        max_tokens=300,
    )

    # Resposta com RAG
    resultado_rag = gerar_resposta_rag(pergunta)

    print(f"\nüî¥ SEM RAG (conhecimento geral do modelo):")
    print(f"{resposta_direta.choices[0].message.content}")

    print(f"\nüü¢ COM RAG (baseado na nossa base de conhecimento):")
    print(f"{resultado_rag['resposta']}")
    print(f"\n   üìö Fontes: {', '.join(resultado_rag['fontes'])}")

In [None]:
# Teste: Pergunta espec√≠fica sobre nossa base
comparar_rag_vs_direto("Em que cidade Messi iniciou sua carreira profissional?")

In [None]:
# Teste: Pergunta sobre detalhes espec√≠ficos
comparar_rag_vs_direto("Qual foi a causa da morte de Einstein?")

## 7. Experimente voc√™ mesmo!

Fa√ßa suas pr√≥prias perguntas usando o sistema RAG.

In [None]:
# Limpe o hist√≥rico para uma nova conversa
chat.limpar_historico()

In [None]:
# Digite suas perguntas aqui!
print("üí¨", chat.chat("Sua pergunta aqui"))

## üí° O que aprendemos?

1. **RAG completo** - Combina√ß√£o de busca sem√¢ntica + LLM para respostas contextualizadas
2. **Prompt engineering** - Como estruturar prompts para respostas mais precisas
3. **Hist√≥rico de conversa** - Manter contexto entre perguntas
4. **RAG vs Direto** - Vantagens de usar RAG para perguntas espec√≠ficas

### üöÄ Pr√≥ximos passos para um sistema de produ√ß√£o:

1. **Vector Database** - Usar Pinecone, Weaviate, Chroma ou FAISS para escalar
2. **Reranking** - Usar modelos de reranking para melhorar a precis√£o
3. **Chunking avan√ßado** - Estrat√©gias como recursive splitting, semantic chunking
4. **Avalia√ß√£o** - M√©tricas como RAGAS para avaliar qualidade das respostas
5. **Streaming** - Respostas em tempo real para melhor UX
6. **Hybrid Search** - Combinar busca sem√¢ntica com busca por keywords (BM25)