# Geração Aumentada por Recuperação (RAG)

*Retrieval-Augmented Generation* (RAG) é uma técnica que "enriquece" o contexto fornecido a um Modelo de Linguagem de Grande Escala (LLM) antes do processamento do prompt. Essa abordagem permite que o modelo se concentre nas informações apresentadas, gerando respostas mais precisas e contextualmente relevantes.

Um exemplo prático de RAG é o [NotebookLM](https://notebooklm.google), uma ferramenta do Google projetada para analisar grandes quantidades de texto em arquivos, facilitando a extração de insights ([veja nosso vídeo](https://youtu.be/9Ab5iXh_5c8) sobre isso).

## Arquitetura RAG

De forma resumida, o processo começa com a extração de uma "consulta" (*query*) do prompt inicial. Esta consulta é então utilizada para realizar uma busca em um banco de dados vetorial, que atua como a "fonte de conhecimento", de onde são extraídas informações relevantes para enriquecer o contexto.

Após a recuperação e integração dessas informações adicionais, o prompt enriquecido é enviado ao LLM, que gera a resposta final. O diagrama abaixo ilustra essa arquitetura de forma visual.

![A imagem apresenta um diagrama de fluxo que descreve um processo de interação com um modelo de linguagem de grande escala (LLM).](https://docs.aws.amazon.com/images/sagemaker/latest/dg/images/jumpstart/jumpstart-fm-rag.jpg)

[Fonte da imagem](https://aws.amazon.com/pt/what-is/retrieval-augmented-generation/)

In [None]:
# Instala o llama_index, que é um middleware popular usado em muitas aplicações de GenAI
%pip install llama_index langchain

In [10]:
from pathlib import Path

# Terminal ANSI colors
BOLD = "\033[1m"; RESET = "\033[0m"; GREEN = "\033[32m"; BLUE = "\033[34m"; RED = "\033[31m"

# Verificar se dados existem
data_zip = Path("./data/aws-case-studies-and-blogs/files.zip")
source_dir = Path("./data/aws-case-studies-and-blogs/files")
if not source_dir.exists():
    source_dir.mkdir(parents=True)

if not next(source_dir.iterdir(), None):
    if data_zip.exists():
        print(f"{GREEN}Descompactando dataset...{RESET}")
        import zipfile
        with zipfile.ZipFile(data_zip, "r") as zip_ref:
            zip_ref.extractall(source_dir)
        print(f"{GREEN}Descompactação concluída.{RESET}")
    else:
        print(f"{RED}Não encontrei os arquivos do dataset.{RESET}")



[32mDescompactando arquivos...[0m
[32mDescompactação concluída.[0m


In [2]:
from llama_index.core import VectorStoreIndex, SimpleDirectoryReader


documents = SimpleDirectoryReader("./data/aws-case-studies-and-blogs/files").load_data()
print(f"{GREEN}{BOLD}Carreguei {len(documents)} documentos.{RESET}")

index = VectorStoreIndex.from_documents(documents)

[32m[1mCarreguei 347 documentos.[0m


In [7]:
query_engine = index.as_query_engine()
response = query_engine.query("Como eu poderia gerar muitas imagens?")
print(response)

By utilizing Amazon SageMaker Real-Time Inference functionality, you can generate a large number of images quickly and efficiently. This service allows for the creation of images based on text prompts in a matter of seconds, enabling the generation of a high volume of unique and high-quality images for users.
