# RAG: Fundamentos e RAG ing√™nuo

 > Aviso: Este post foi traduzido para o portugu√™s usando um modelo de tradu√ß√£o autom√°tica. Por favor, me avise se encontrar algum erro.

Neste post vamos a ver em que consiste a t√©cnica de `RAG` (`Retrieval Augmented Generation`) e como se pode implementar em um modelo de linguagem. Al√©m disso, o faremos com a arquitetura de RAG mais b√°sica, chamada `naive RAG`.

Para que saia gr√°tis, em vez de usar uma conta da OpenAI (como voc√™ ver√° na maioria dos tutoriais) vamos usar o `API inference` do Hugging Face, que tem um free tier de 1000 requests por dia, que para fazer este post √© mais do que suficiente.

## Configura√ß√£o da `API Inference` do Hugging Face

Para poder usar a `API Inference` da HuggingFace, o primeiro que voc√™ precisa √© ter uma conta na HuggingFace. Uma vez que voc√™ tenha, voc√™ deve ir at√© [Access tokens](https://huggingface.co/settings/keys) nas configura√ß√µes do seu perfil e gerar um novo token.

Tem que dar um nome. No meu caso, vou cham√°-lo de `rag-fundamentals` e ativar a permiss√£o `Make calls to serverless Inference API`. Isso criar√° um token que precisamos copiar.

Para gerenciar o token, vamos a criar um arquivo no mesmo caminho em que estamos trabalhando chamado ".env" e vamos colocar o token que copiamos no arquivo da seguinte maneira:

``` bash
RAG_FUNDAMENTOS_T√âCNICAS_AVAN√áADAS_TOKEN="hf_...."
```

Agora, para obter o token, precisamos ter o `dotenv` instalado, que podemos instalar atrav√©s de

```bash
pip install python-dotenv
```

E executamos o seguinte

In [1]:
import os
import dotenv

dotenv.load_dotenv()

RAG_FUNDAMENTALS_ADVANCE_TECHNIQUES_TOKEN = os.getenv("RAG_FUNDAMENTALS_ADVANCE_TECHNIQUES_TOKEN")

Agora que temos um token, criamos um cliente. Para isso, precisamos ter a biblioteca `huggingface_hub` instalada. A instalamos atrav√©s do conda ou pip.

``` bash
conda install -c conda-forge huggingface_hub
```

o

```bash
pip install --upgrade huggingface_hub
```

Agora temos que escolher qual modelo vamos usar. Voc√™ pode ver os modelos dispon√≠veis na p√°gina de [Supported models](https://huggingface.co/docs/api-inference/supported-models) da documenta√ß√£o da `API Inference` do Hugging Face.

Como na hora de escrever o post, o melhor dispon√≠vel √© `Qwen2.5-72B-Instruct`, vamos usar esse modelo.

In [2]:
MODEL = "Qwen/Qwen2.5-72B-Instruct"

Agora podemos criar o cliente

In [3]:
from huggingface_hub import InferenceClient

client = InferenceClient(api_key=RAG_FUNDAMENTALS_ADVANCE_TECHNIQUES_TOKEN, model=MODEL)
client

<InferenceClient(model='Qwen/Qwen2.5-72B-Instruct', timeout=None)>

Fazemos um teste para ver se funciona

In [4]:
message = [
	{ "role": "user", "content": "Hola, qu√© tal?" }
]

stream = client.chat.completions.create(
	messages=message, 
	temperature=0.5,
	max_tokens=1024,
	top_p=0.7,
	stream=False
)

response = stream.choices[0].message.content
print(response)

¬°Hola! Estoy bien, gracias por preguntar. ¬øC√≥mo est√°s t√∫? ¬øEn qu√© puedo ayudarte hoy?


## O que √© `RAG`?

`RAG` s√£o as siglas de `Retrieval Augmented Generation`, √© uma t√©cnica criada para obter informa√ß√µes de documentos. Embora os LLMs possam ser muito poderosos e ter muito conhecimento, nunca ser√£o capazes de responder sobre documentos privados, como relat√≥rios da sua empresa, documenta√ß√£o interna, etc. Por isso foi criado o `RAG`, para poder usar esses LLMs nessa documenta√ß√£o privada.

![O que √© RAG?](https://pub-fb664c455eca46a2ba762a065ac900f7.r2.dev/RAG.webp)

A ideia consiste em um usu√°rio fazer uma pergunta sobre essa documenta√ß√£o privada, o sistema √© capaz de obter a parte da documenta√ß√£o onde est√° a resposta para essa pergunta, passa-se ao LLM a pergunta e a parte da documenta√ß√£o e o LLM gera a resposta para o usu√°rio.

### Como a informa√ß√£o √© armazenada?

√â sabido, e se voc√™ n√£o sabia, eu te conto agora, que os LLMs t√™m um limite de informa√ß√£o que pode ser passada para eles, a isso se chama janela de contexto. Isso √© devido √†s arquiteturas internas dos LLMs que, no momento, n√£o v√™m ao caso. Mas o importante √© que n√£o se pode passar um documento e uma pergunta assim, porque √© prov√°vel que o LLM n√£o seja capaz de processar toda essa informa√ß√£o.

Nos casos em que se passa mais informa√ß√µes do que o contexto da janela permite, geralmente acontece que o LLM n√£o presta aten√ß√£o ao final da entrada. Imagine que voc√™ pergunte ao LLM algo sobre seu documento, essa informa√ß√£o esteja no final do documento e o LLM n√£o a leia.

Por isso, o que se faz √© dividir a documenta√ß√£o em blocos chamados `chunk`s. De modo que a documenta√ß√£o √© armazenada em um monte de `chunk`s, que s√£o peda√ßos dessa documenta√ß√£o. Assim, quando o usu√°rio faz uma pergunta, o `chunk` no qual est√° a resposta para essa pergunta √© passado ao LLM.

Al√©m de dividir a documenta√ß√£o em `chunk`s, esses s√£o convertidos em embeddings, que s√£o representa√ß√µes num√©ricas dos `chunk`s. Isso √© feito porque os LLMs na verdade n√£o entendem texto, mas sim n√∫meros, e os `chunk`s s√£o convertidos em n√∫meros para que o LLM possa entender. Se quiser entender mais sobre os embeddings, voc√™ pode ler meu post sobre [transformers](https://www.maximofn.com/transformers) no qual explico como funcionam os transformers, que √© a arquitetura por tr√°s dos LLMs. Voc√™ tamb√©m pode ler meu post sobre [ChromaDB](https://www.maximofn.com/chromadb) onde explico como os embeddings s√£o armazenados em um banco de dados vetorial. E seria interessante voc√™ ler meu post sobre a biblioteca [HuggingFace Tokenizers](https://www.maximofn.com/hugging-face-tokenizers) na qual se explica como o texto √© tokenizado, que √© o passo anterior √† gera√ß√£o dos embeddings.

![RAG - embeddings](https://pub-fb664c455eca46a2ba762a065ac900f7.r2.dev/RAG-embeddings.webp)

### Como obter o `chunk` correto?

Dissemos que a documenta√ß√£o √© dividida em `chunk`s e que o `chunk` contendo a resposta √† pergunta do usu√°rio √© passado para o LLM. Mas, como saber em qual `chunk` est√° a resposta? Para isso, a pergunta do usu√°rio √© convertida em um embedding, e calcula-se a similaridade entre o embedding da pergunta e os embeddings dos `chunk`s. Dessa forma, o `chunk` com maior similaridade √© o que √© passado para o LLM.

![](https://pub-fb664c455eca46a2ba762a065ac900f7.r2.dev/rag-chunk_retreival.webp)

### Vamos revisar o que √© `RAG`

De um lado temos o `retrieval`, que √© obter o `chunk` correto da documenta√ß√£o, do outro lado temos o `augmented`, que √© passar ao LLM a pergunta do usu√°rio e o `chunk` e, por √∫ltimo, temos o `generation`, que √© obter a resposta gerada pelo LLM.

## Base de dados vetorial

Vimos que a documenta√ß√£o √© dividida em `chunk`s e armazenada em um banco de dados vetorial, por isso precisamos usar um. Para este post, vou usar [ChromaDB](https://www.trychroma.com/), que √© um banco de dados vetorial bastante usado e, al√©m disso, tenho um [post](https://www.maximofn.com/chromadb) no qual explico como ele funciona.

Ent√£o primeiro precisamos instalar a biblioteca do ChromaDB, para isso a instalamos com Conda ou com pip

```bash
conda install conda-forge::chromadb
```

o

```bash
pip install chromadb
```

### Fun√ß√£o de embedding

Como dissemos, tudo vai se basear em embeddings. Portanto, o primeiro passo √© criar uma fun√ß√£o para obter embeddings de um texto. Vamos usar o modelo `sentence-transformers/all-MiniLM-L6-v2`.

In [5]:
import chromadb.utils.embedding_functions as embedding_functions

EMBEDDING_MODEL = "sentence-transformers/all-MiniLM-L6-v2"
      
huggingface_ef = embedding_functions.HuggingFaceEmbeddingFunction(
    api_key=RAG_FUNDAMENTALS_ADVANCE_TECHNIQUES_TOKEN,
    model_name=EMBEDDING_MODEL
)

Testamos a fun√ß√£o de embedding

In [6]:
embedding = huggingface_ef(["Hello, how are you?",])
embedding[0].shape

(384,)

Obtemos um embedding de dimens√£o 384. Embora a miss√£o deste post n√£o seja explicar os embeddings, em resumo, nossa fun√ß√£o de embedding categorizou a frase `Hello, how are you?` em um espa√ßo de 384 dimens√µes.

### Cliente ChromaDB

Agora que temos nossa fun√ß√£o de embedding, podemos criar um cliente de ChromaDB.

Primeiro criamos uma pasta onde ser√° salva a base de dados vetorial

In [7]:
from pathlib import Path
      
chroma_path = Path("chromadb_persisten_storage")
chroma_path.mkdir(exist_ok=True)

Agora criamos o cliente

In [8]:
from chromadb import PersistentClient

chroma_client = PersistentClient(path = str(chroma_path))

### Cole√ß√£o

Quando temos o cliente do ChromaDB, o pr√≥ximo passo √© criar uma cole√ß√£o. Uma cole√ß√£o √© um conjunto de vetores, no nosso caso os `chunks` da documenta√ß√£o.

O criamos indicando a fun√ß√£o de embedding que vamos usar

In [9]:
collection_name = "document_qa_collection"
collection = chroma_client.get_or_create_collection(name=collection_name, embedding_function=huggingface_ef)

## Carregamento de documentos

Agora que criamos a base de dados vetorial, temos que dividir a documenta√ß√£o em `chunks` e salv√°-los na base de dados vetorial.

### Fun√ß√£o de carregamento de documentos

Primeiro criamos uma fun√ß√£o para carregar todos os documentos `.txt` de um diret√≥rio

In [10]:
def load_one_document_from_directory(directory, file):
    with open(os.path.join(directory, file), "r") as f:
        return {"id": file, "text": f.read()}

def load_documents_from_directory(directory):
    documents = []
    for file in os.listdir(directory):
        if file.endswith(".txt"):
            documents.append(load_one_document_from_directory(directory, file))
    return documents


### Fun√ß√£o para dividir a documenta√ß√£o em `chunk`s

Uma vez que temos os documentos, os dividimos em `chunk`s

In [11]:
def split_text(text, chunk_size=1000, chunk_overlap=20):
    chunks = []
    start = 0
    while start < len(text):
        end = start + chunk_size
        chunks.append(text[start:end])
        start = end - chunk_overlap
    return chunks


### Fun√ß√£o para gerar embeddings de um `chunk`

Agora que temos os `chunk`s, geramos os `embedding`s de cada um deles.

Vamos ver por qu√™, mas para gerar os embeddings vamos fazer isso de maneira local e n√£o atrav√©s da API do Hugging Face. Para isso, precisamos ter instalado [PyTorch](https://pytorch.org) e `sentence-transformers`, para isso fazemos

``` bash
pip install -U sentence-transformers
```

In [12]:
from sentence_transformers import SentenceTransformer
import torch

device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

embedding_model = SentenceTransformer(EMBEDDING_MODEL).to(device)

def get_embeddings(text):
    try:
        embedding = embedding_model.encode(text, device=device)
        return embedding
    except Exception as e:
        print(f"Error: {e}")
        exit(1)

Vamos testar agora essa fun√ß√£o de embeddings localmente

In [13]:
text = "Hello, how are you?"
embedding = get_embeddings(text)
embedding.shape

(384,)

Vemos que obtemos um embedding da mesma dimens√£o que quando o faz√≠amos com a API do Hugging Face

O modelo `sentence-transformers/all-MiniLM-L6-v2` tem apenas 22M de par√¢metros, portanto voc√™ ser√° capaz de execut√°-lo em qualquer GPU. Mesmo se n√£o tiver uma GPU, voc√™ poder√° execut√°-lo em uma CPU.

O LLM que vamos a usar para gerar as respostas, que √© o `Qwen2.5-72B-Instruct`, como seu nome indica, √© um modelo de 72B de par√¢metros, por isso este modelo n√£o pode ser executado em qualquer GPU e em uma CPU seria impens√°vel devido √† lentid√£o. Por isso, este LLM ser√° usado atrav√©s da API, mas na hora de gerar os `embedding`s podemos fazer isso localmente sem problema.

### Documentos com os quais vamos testar

Para fazer todas essas verifica√ß√µes, baixei o conjunto de dados [aws-case-studies-and-blogs](https://www.kaggle.com/datasets/harshsinghal/aws-case-studies-and-blogs) e o coloquei na pasta `rag-txt_dataset`. Com os seguintes comandos, explico como baix√°-lo e descompact√°-lo.

Criamos a pasta onde vamos baixar os documentos

In [30]:
!mkdir rag_txt_dataset

Baixamos o `.zip` com os documentos

In [1]:
!curl -L -o ./rag_txt_dataset/archive.zip https://www.kaggle.com/api/v1/datasets/download/harshsinghal/aws-case-studies-and-blogs

  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
  0     0    0     0    0     0      0      0 --:--:-- --:--:-- --:--:--     0
100 1430k  100 1430k    0     0  1082k      0  0:00:01  0:00:01 --:--:-- 2440k


Descompactamos o .zip

In [2]:
!unzip rag_txt_dataset/archive.zip -d rag_txt_dataset

Archive:  rag_txt_dataset/archive.zip
  inflating: rag_txt_dataset/23andMe Case Study _ Life Sciences _ AWS.txt  
  inflating: rag_txt_dataset/36 new or updated datasets on the Registry of Open Data_ AI analysis-ready datasets and more _ AWS Public Sector Blog.txt  
  inflating: rag_txt_dataset/54gene _ Case Study _ AWS.txt  
  inflating: rag_txt_dataset/6sense Case Study.txt  
  inflating: rag_txt_dataset/ADP Developed an Innovative and Secure Digital Wallet in a Few Months Using AWS Services _ Case Study _ AWS.txt  
  inflating: rag_txt_dataset/AEON Case Study.txt  
  inflating: rag_txt_dataset/ALTBalaji _ Amazon Web Services.txt  
  inflating: rag_txt_dataset/AWS Case Study - Ineos Team UK.txt  
  inflating: rag_txt_dataset/AWS Case Study - StreamAMG.txt  
  inflating: rag_txt_dataset/AWS Case Study_ Creditsafe.txt  
  inflating: rag_txt_dataset/AWS Case Study_ Immowelt.txt  
  inflating: rag_txt_dataset/AWS Customer Case Study _ Kepler Provides Effective Monitoring of Elderly Care 

Apagamos o .zip

In [3]:
!rm rag_txt_dataset/archive.zip

Vamos ver o que ficou.

In [4]:
!ls rag_txt_dataset

'23andMe Case Study _ Life Sciences _ AWS.txt'
'36 new or updated datasets on the Registry of Open Data_ AI analysis-ready datasets and more _ AWS Public Sector Blog.txt'
'54gene _ Case Study _ AWS.txt'
'6sense Case Study.txt'
'Accelerate Time to Business Value Using Amazon SageMaker at Scale with NatWest Group _ Case Study _ AWS.txt'
'Accelerate Your Analytics Journey on AWS with DXC Analytics and AI Platform _ AWS Partner Network (APN) Blog.txt'
'Accelerating customer onboarding using Amazon Connect _ NCS Case Study _ AWS.txt'
'Accelerating Migration at Scale Using AWS Application Migration Service with 3M Company _ Case Study _ AWS.txt'
'Accelerating Time to Market Using AWS and AWS Partner AccelByte _ Omeda Studios Case Study _ AWS.txt'
'Achieving Burstable Scalability and Consistent Uptime Using AWS Lambda with TiVo _ Case Study _ AWS.txt'
'Acrobits Uses Amazon Chime SDK to Easily Create Video Conferencing Application Boosting Collaboration for Global Users _ Acrobits Case Study _

A criar os `chunk`s!

Listamos os documentos com a fun√ß√£o que hav√≠amos criado

In [14]:
dataset_path = "rag_txt_dataset"
documents = load_documents_from_directory(dataset_path)

Verificamos que fizemos tudo certo.

In [15]:
for document in documents[0:10]:
    print(document["id"])

Run Jobs at Scale While Optimizing for Cost Using Amazon EC2 Spot Instances with ActionIQ _ ActionIQ Case Study _ AWS.txt
Recommend and dynamically filter items based on user context in Amazon Personalize _ AWS Machine Learning Blog.txt
Windsor.txt
Bank of Montreal Case Study _ AWS.txt
The Mill Adventure Case Study.txt
Optimize software development with Amazon CodeWhisperer _ AWS DevOps Blog.txt
Announcing enhanced table extractions with Amazon Textract _ AWS Machine Learning Blog.txt
THREAD _ Life Sciences _ AWS.txt
Deep Pool Optimizes Software Quality Control Using Amazon QuickSight _ Deep Pool Case Study _ AWS.txt
Upstox Saves 1 Million Annually Using Amazon S3 Storage Lens _ Upstox Case Study _ AWS.txt


Agora criamos os `chunk`s.

In [16]:
chunked_documents = []
for document in documents:
    chunks = split_text(document["text"])
    for i, chunk in enumerate(chunks):
        chunked_documents.append({"id": f"{document['id']}_{i}", "text": chunk})

In [17]:
len(chunked_documents)

3611

Como podemos ver, h√° 3611 `chunk`s. Como o limite di√°rio da API do Hugging Face s√£o 1000 chamadas na conta gratuita, se quisermos criar embeddings de todos os `chunk`s, acabar√≠amos com as chamadas dispon√≠veis e ainda n√£o poder√≠amos criar embeddings de todos os `chunk`s

Reiteramos, este modelo de embeddings √© muito pequeno, apenas 22M de par√¢metros, portanto pode ser executado em quase qualquer computador, mais r√°pido ou mais devagar, mas pode ser.

Como s√≥ vamos a criar os embeddings dos `chunk`s uma vez, mesmo que n√£o tenhamos um computador muito potente e leve muito tempo, apenas ser√° executado uma vez. Depois, quando quisermos fazer perguntas sobre a documenta√ß√£o, a√≠ sim geraremos os embeddings do prompt com a API do Hugging Face e usaremos o LLM com a API. Portanto, s√≥ teremos que passar pelo processo de gerar os embeddings dos `chunk`s uma vez.

Geramos os embeddings dos `chunk`s

√öltima biblioteca que precisaremos instalar. Como o processo de gera√ß√£o dos embeddings dos `chunk`s ser√° lento, vamos instalar o `tqdm` para mostrar uma barra de progresso. Instalamos com conda ou pip, conforme sua prefer√™ncia.

```bash
conda install conda-forge::tqdm
```

o

```bash
pip install tqdm
```

Geramos os embeddings dos `chunk`s

In [19]:
import tqdm

progress_bar = tqdm.tqdm(chunked_documents)

for chunk in progress_bar:
    embedding = get_embeddings(chunk["text"])
    if embedding is not None:
        chunk["embedding"] = embedding
    else:
        print(f"Error with document {chunk['id']}")

100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 3611/3611 [00:16<00:00, 220.75it/s]


Vemos um exemplo

In [60]:
from random import randint

idx = randint(0, len(chunked_documents))
print(f"Chunk id: {chunked_documents[idx]['id']},\n\ntext: {chunked_documents[idx]['text']},\n\nembedding shape: {chunked_documents[idx]['embedding'].shape}")

Chunk id: BNS Group Case Study _ Amazon Web Services.txt_0,

text: Reducing Virtual Machines from 40 to 12
The founders of BNS had been contemplating a migration from the company‚Äôs on-premises data center to the public cloud and observed a growing demand for cloud-based operations among current and potential BNS customers.
Fran√ßais
Configures security according to cloud best practices
Clive Pereira, R&D director at BNS Group, explains, ‚ÄúThe database that records Praisal‚Äôs SMS traffic resides in Praisal‚Äôs AWS environment. Praisal can now run complete analytics across its data and gain insights into what‚Äôs happening with its SMS traffic, which is a real game-changer for the organization.‚Äù¬† 
Espa√±ol
 AWS ISV Accelerate Program
 Receiving Strategic, Foundational Support from ISV Specialists
 Learn More
The value that AWS places on the ISV stream sealed the deal in our choice of cloud provider.‚Äù 
Êó•Êú¨Ë™û
  Contact Sales 
BNS is an Australian software provider focused on s

### Carregar os `chunk`s na base de dados vetorial

Uma vez que temos todos os chunks gerados, os carregamos na base de dados vetorial. Voltamos a usar `tqdm` para mostrar uma barra de progresso, pois isso tamb√©m ser√° lento.

In [22]:
import tqdm

progress_bar = tqdm.tqdm(chunked_documents)

for chunk in progress_bar:
    collection.upsert(
        ids=[chunk["id"]],
        documents=chunk["text"],
        embeddings=chunk["embedding"],
    )

100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 3611/3611 [00:59<00:00, 60.77it/s]


## Perguntas

Agora que temos a base de dados vetorial, podemos fazer perguntas √† documenta√ß√£o. Para isso, precisamos de uma fun√ß√£o que nos retorne o `chunk` correto.

### Obter o `chunk` correto

Agora precisamos de uma fun√ß√£o que nos retorne o `chunk` correto, vamos cri√°-la.

In [50]:
def get_top_k_documents(query, k=5):
    results = collection.query(query_texts=query, n_results=k)
    return results

Por √∫ltimo, criamos uma `query`.

Para gerar a query, escolhi aleatoriamente o documento `Using Amazon EC2 Spot Instances and Karpenter to Simplify and Optimize Kubernetes Infrastructure _ Neeva Case Study _ AWS.txt`, passei-o para um LLM e pedi que gerasse uma pergunta sobre o documento. A pergunta que foi gerada √©

```
Como a Neeva utilizou o Karpenter e as Inst√¢ncias Spot do Amazon EC2 para melhorar a gest√£o da sua infraestrutura e otimiza√ß√£o de custos?
```

Ent√£o obtemos os `chunks` mais relevantes diante dessa pergunta.

In [51]:
query = "How did Neeva use Karpenter and Amazon EC2 Spot Instances to improve its infrastructure management and cost optimization?"
top_chunks = get_top_k_documents(query=query, k=5)

Vamos a ver quais `chunk`s nos foram retornados

In [52]:
for i in range(len(top_chunks["ids"][0])):
    print(f"Rank {i+1}: {top_chunks['ids'][0][i]}, distance: {top_chunks['distances'][0][i]}")

Rank 1: Using Amazon EC2 Spot Instances and Karpenter to Simplify and Optimize Kubernetes Infrastructure _ Neeva Case Study _ AWS.txt_0, distance: 0.29233667254447937
Rank 2: Using Amazon EC2 Spot Instances and Karpenter to Simplify and Optimize Kubernetes Infrastructure _ Neeva Case Study _ AWS.txt_5, distance: 0.4007825255393982
Rank 3: Using Amazon EC2 Spot Instances and Karpenter to Simplify and Optimize Kubernetes Infrastructure _ Neeva Case Study _ AWS.txt_1, distance: 0.4317566752433777
Rank 4: Using Amazon EC2 Spot Instances and Karpenter to Simplify and Optimize Kubernetes Infrastructure _ Neeva Case Study _ AWS.txt_6, distance: 0.43832334876060486
Rank 5: Using Amazon EC2 Spot Instances and Karpenter to Simplify and Optimize Kubernetes Infrastructure _ Neeva Case Study _ AWS.txt_4, distance: 0.44625571370124817


Como eu havia dito, o documento que havia escolhido aleatoriamente era `Using Amazon EC2 Spot Instances and Karpenter to Simplify and Optimize Kubernetes Infrastructure _ Neeva Case Study _ AWS.txt` e, como se pode ver, os `chunk`s que nos foram devolvidos s√£o desse documento. Ou seja, de mais de 3000 `chunk`s que havia no banco de dados, ele foi capaz de me devolver os `chunk`s mais relevantes para aquela pergunta, parece que isso funciona!

### Gerar a resposta

Como j√° temos os `chunk`s mais relevantes, passamo-los ao LLM, juntamente com a pergunta, para que ele gere uma resposta.

In [58]:
def generate_response(query, relevant_chunks, temperature=0.5, max_tokens=1024, top_p=0.7, stream=False):
    context = "\n\n".join([chunk for chunk in relevant_chunks])
    prompt = f"You are an assistant for question-answering. You have to answer the following question:\n\n{query}\n\nAnswer the question with the following information:\n\n{context}"
    message = [
        { "role": "user", "content": prompt }
    ]
    stream = client.chat.completions.create(
        messages=message, 
        temperature=temperature,
        max_tokens=max_tokens,
        top_p=top_p,
        stream=stream,
    )
    response = stream.choices[0].message.content
    return response

Testamos a fun√ß√£o

In [59]:
response = generate_response(query, top_chunks["documents"][0])
print(response)

Neeva, a cloud-native, ad-free search engine founded in 2019, has leveraged Karpenter and Amazon EC2 Spot Instances to significantly improve its infrastructure management and cost optimization. Here‚Äôs how:

### Early Collaboration with Karpenter
In late 2021, Neeva began working closely with the Karpenter team, experimenting with and contributing fixes to an early version of Karpenter. This collaboration allowed Neeva to integrate Karpenter with its Kubernetes dashboard, enabling the company to gather valuable metrics on usage and performance.

### Combining Spot Instances and On-Demand Instances
Neeva runs its jobs on a large scale, which can lead to significant costs. To manage these costs effectively, the company adopted a combination of Amazon EC2 Spot Instances and On-Demand Instances. Spot Instances allow Neeva to bid on unused EC2 capacity, often at a fraction of the On-Demand price, while On-Demand Instances provide the necessary reliability for critical pipelines.

### Flexi

Quando pedi ao LLM para gerar uma pergunta sobre o documento, tamb√©m pedi que me fornecesse a resposta correta. Esta √© a resposta que o LLM me deu.

``` text
A Neeva utilizou o Karpenter e as Inst√¢ncias Spot do Amazon EC2 para melhorar sua gest√£o de infraestrutura e otimiza√ß√£o de custos de v√°rias maneiras:

Gest√£o Simplificada de Inst√¢ncias:

Karpenter: Ao adotar o Karpenter, a Neeva simplificou o processo de provisionamento e gerenciamento de recursos computacionais para seus clusters do Amazon EKS. O Karpenter provisiona e desprovisiona inst√¢ncias automaticamente com base na carga de trabalho, eliminando a necessidade de configura√ß√µes manuais e reduzindo a complexidade de compreens√£o das diferentes inst√¢ncias computacionais.
Inst√¢ncias Spot: A Neeva utilizou Inst√¢ncias Spot do Amazon EC2, que s√£o capacidade ociosa do EC2 dispon√≠vel com um desconto significativo (at√© 90% de economia de custos). Isso permitiu √† empresa controlar os custos enquanto atendia aos seus requisitos de desempenho.
Escalabilidade Aumentada:

Karpenter: A capacidade do Karpenter de escalar recursos dinamicamente permitiu que a Neeva iniciasse novas inst√¢ncias rapidamente, permitindo que a empresa iterasse com maior velocidade e realizasse mais experimentos em menos tempo.
Inst√¢ncias Spot: O uso de Inst√¢ncias Spot proporcionou flexibilidade e diversifica√ß√£o de inst√¢ncias, facilitando o escalonamento dos recursos de computa√ß√£o da Neeva de forma eficiente.
Produtividade Melhorada:

Karpenter: Ao democratizar as altera√ß√µes de infraestrutura, o Karpenter permitiu que qualquer engenheiro modificasse as configura√ß√µes do Kubernetes, reduzindo a depend√™ncia de expertise especializada. Isso economizou at√© 100 horas por semana de tempo de espera em administra√ß√£o de sistemas para a equipe da Neeva.
Inst√¢ncias Spot: A capacidade de provisionar e desprovisionar rapidamente Inst√¢ncias Spot reduziu os atrasos no pipeline de desenvolvimento, garantindo que os trabalhos n√£o ficassem travados devido √† falta de recursos dispon√≠veis.
Efici√™ncia de Custo:

Karpenter: As melhores pr√°ticas do Karpenter para inst√¢ncias Spot, incluindo flexibilidade e diversifica√ß√£o de inst√¢ncias, ajudaram a Neeva a usar essas inst√¢ncias de forma mais eficaz, permanecendo dentro do or√ßamento.
Inst√¢ncias Spot: A economia de custos com o uso de Inst√¢ncias Spot permitiu que a Neeva executasse trabalhos em larga escala, como indexa√ß√£o, quase pelo mesmo custo, mas em uma fra√ß√£o do tempo. Por exemplo, a Neeva reduziu seus trabalhos de indexa√ß√£o de 18 horas para apenas 3 horas.
Melhor Utiliza√ß√£o de Recursos:

Karpenter: O Karpenter proporcionou melhor visibilidade sobre o uso de recursos de computa√ß√£o, permitindo que a Neeva rastreasse e otimizasse seu consumo de recursos mais de perto.
Inst√¢ncias Spot: A combina√ß√£o do Karpenter e das Inst√¢ncias Spot permitiu que a Neeva executasse modelos de linguagem grandes de forma mais eficiente, melhorando a experi√™ncia de pesquisa para seus usu√°rios.
Em resumo, a ado√ß√£o do Karpenter e das Inst√¢ncias Spot do Amazon EC2 pela Neeva melhorou significativamente sua gest√£o de infraestrutura, otimiza√ß√£o de custos e efici√™ncia geral no desenvolvimento, permitindo que a empresa oferecesse melhores experi√™ncias de pesquisa sem an√∫ncios aos seus usu√°rios.
```

E esta tem sido a resposta gerada pelo nosso `RAG`

``` text
Neeva, um mecanismo de busca nativo em nuvem e sem an√∫ncios fundado em 2019, aproveitou o Karpenter e as Inst√¢ncias Spot do Amazon EC2 para melhorar significativamente sua gest√£o de infraestrutura e otimiza√ß√£o de custos. Eis como:

### Colabora√ß√£o Inicial com o Karpenter
No final de 2021, a Neeva come√ßou a trabalhar em estreita colabora√ß√£o com a equipe do Karpenter, experimentando e contribuindo com corre√ß√µes para uma vers√£o inicial do Karpenter. Essa colabora√ß√£o permitiu que a Neeva integrasse o Karpenter ao seu painel do Kubernetes, possibilitando √† empresa coletar m√©tricas valiosas sobre uso e desempenho.

### Combinando Inst√¢ncias Spot e Inst√¢ncias On-Demand
A Neeva executa seus trabalhos em larga escala, o que pode levar a custos significativos. Para gerenciar esses custos de forma eficaz, a empresa adotou uma combina√ß√£o de Amazon EC2 Spot Instances e On-Demand Instances. As Spot Instances permitem que a Neeva lance lances sobre capacidade EC2 n√£o utilizada, frequentemente por uma fra√ß√£o do pre√ßo On-Demand, enquanto as On-Demand Instances fornecem a necess√°ria confiabilidade para pipelines cr√≠ticos.

### Flexibilidade e Diversifica√ß√£o de Inst√¢ncias
De acordo com Mohit Agarwal, engenheiro de infraestrutura s√™nior da Neeva, a ado√ß√£o de melhores pr√°ticas para Inst√¢ncias Spot pelo Karpenter, incluindo flexibilidade e diversifica√ß√£o de inst√¢ncias, foi crucial. Esta abordagem garante que a Neeva possa ajustar dinamicamente seus recursos de computa√ß√£o para atender √†s cargas de trabalho vari√°veis, minimizando custos.

### Melhor Escalabilidade e Agilidade
Ao usar o Karpenter para provisionar recursos de infraestrutura para seus clusters do Amazon EKS, a Neeva alcan√ßou v√°rios benef√≠cios importantes:
- **Escalabilidade**: O Neeva pode escalar seus recursos de computa√ß√£o para cima ou para baixo conforme necess√°rio, garantindo que sempre tenha a capacidade necess√°ria para lidar com suas cargas de trabalho.
- **Agilidade**: A empresa pode iterar rapidamente e democratizar as mudan√ßas de infraestrutura, reduzindo o tempo gasto com a administra√ß√£o do sistema em at√© 100 horas por semana.

### Ciclos de Desenvolvimento Aprimorados
A integra√ß√£o do Karpenter e das Inst√¢ncias Spot tamb√©m acelerou os ciclos de desenvolvimento da Neeva. A empresa agora pode lan√ßar novos recursos e melhorias mais rapidamente, o que √© essencial para manter uma vantagem competitiva no mercado de motores de busca.

### Economia de Custos e Controle Or√ßament√°rio
Usando Inst√¢ncias Spot, a Neeva tem sido capaz de permanecer dentro do seu or√ßamento enquanto atende aos seus requisitos de desempenho. Esta otimiza√ß√£o de custos √© cr√≠tica para uma empresa que prioriza experi√™ncias centradas no usu√°rio e n√£o possui incentivos concorrentes de publicidade.

### Planos Futuros
A Neeva est√° comprometida em continuar sua inova√ß√£o e expans√£o. A empresa planeja lan√ßar em novas regi√µes e melhorar ainda mais seu mecanismo de busca, tudo isso mantendo a efici√™ncia de custos. Como Mohit Agarwal observa, "A maior parte do nosso computa√ß√£o √© ou ser√° gerenciada usando Karpenter a partir de agora."

### Conclus√£o
Ao aproveitar o Karpenter e as Inst√¢ncias Spot do Amazon EC2, a Neeva n√£o apenas otimizou seus custos de infraestrutura, mas tamb√©m melhorou sua escalabilidade, agilidade e velocidade de desenvolvimento. Essa abordagem estrat√©gica posicionou a Neeva para oferecer experi√™ncias de pesquisa de alta qualidade e sem an√∫ncios aos seus usu√°rios, mantendo um forte foco no controle de custos e inova√ß√£o.
```

Podemos concluir ent√£o que o `RAG` funcionou corretamente!!!

## Limites de naive RAG

Como dissemos, hoje explicamos `naive RAG`, que √© a arquitetura mais simples do RAG, mas tem suas limita√ß√µes.

![Arquitetura RAG ing√™nua](https://pub-fb664c455eca46a2ba762a065ac900f7.r2.dev/naive_RAG_architecture.webp)

As limita√ß√µes desta arquitetura s√£o:

### Limites na busca de informa√ß√µes (retriever)

* Conhecimento limitado do contexto e da documenta√ß√£o: Quando o sistema de RAG ing√™nuo busca os chunks, ele procura aqueles que t√™m um significado sem√¢ntico similar ao prompt, mas n√£o √© capaz de saber quais s√£o os mais relevantes para a pergunta do usu√°rio, ou quais s√£o os que possuem informa√ß√µes mais atualizadas, ou se sua informa√ß√£o √© mais correta do que a de outros chunks. Por exemplo, se um usu√°rio perguntar sobre os problemas dos ado√ßantes no sistema digestivo, o RAG ing√™nuo pode retornar documentos sobre ado√ßantes ou sobre o sistema digestivo, mas n√£o √© capaz de saber que os documentos sobre o sistema digestivo s√£o os mais relevantes para a pergunta do usu√°rio. Outro exemplo √© se o usu√°rio perguntar sobre os √∫ltimos avan√ßos em IA, mas o RAG ing√™nuo n√£o √© capaz de saber quais s√£o os √∫ltimos papers da base de dados.

* N√£o h√° uma sincroniza√ß√£o entre o retrieval e o gerador. Como vimos, s√£o dois sistemas independentes; de um lado, o retrieval busca os documentos mais semelhantes √† pergunta do usu√°rio, e esses documentos s√£o passados ao gerador, que gera uma resposta.

* Escalabilidade ineficiente para grandes bancos de dados. Como a recupera√ß√£o busca os documentos com maior similaridade sem√¢ntica em todo o banco de dados, quando este fica muito grande, podemos ter tempos de busca muito longos.

* Pouca adapta√ß√£o √† pergunta do usu√°rio. Se o usu√°rio fizer uma pergunta que envolve v√°rios documentos, ou seja, n√£o h√° nenhum documento que contenha toda a informa√ß√£o da pergunta do usu√°rio, o sistema recuperar√° todos esses documentos e os passar√° ao gerador, que pode us√°-los ou n√£o. Ou, em um caso pior, pode deixar de incluir algum documento relevante para gerar a resposta.

### Limites na gera√ß√£o de respostas (generator)

* O modelo poderia alucinar respostas mesmo ao fornecer informa√ß√µes relevantes.

* O modelo pode estar limitado por quest√µes relacionadas a √≥dio, discrimina√ß√£o, etc.

Para superar estes limites, costuma-se utilizar t√©cnicas como o

* Pr√©-recupera√ß√£o: Que inclui t√©cnicas para melhorar a indexa√ß√£o, tornando a busca de informa√ß√µes mais eficiente. Ou t√©cnicas como a melhoria da pergunta do usu√°rio para que o retrieval possa encontrar os documentos mais relevantes.

* P√≥s-recupera√ß√£o: Aqui s√£o usadas t√©cnicas como o re-rank dos documentos, que √© uma t√©cnica utilizada para melhorar a busca por informa√ß√µes relevantes.