# Primeiro Pipeline RAG

Para construir pipelines de pesquisa modernos com LLMs, é necessário duas coisas: componentes poderosos e uma maneira fácil de reuni-los. O pipeline Haystack foi criado para essa finalidade e permite projetar e dimensionar interações com LLMs. [É possível ver como criar pipelines nesse link](https://docs.haystack.deepset.ai/docs/creating-pipelines).

Ao conectar três componentes, um Retriever, um PromptBuilder e um Generator, é possível construir o primeiro pipeline de Retrieval Augmented Generation (RAG) com Haystack.

No código abaixo o Haystack responde a perguntas sobre os documentos fornecidos usando a abordagem RAG 👇

## 1. Retrieval Augmented Generation (RAG)

### O que é um Pipeline Retrieval Augmented Generation (RAG)?

Um Pipeline RAG, ou Retrieval Augmented Generation, é como uma receita culinária que usa um livro de receitas para melhorar o prato que está sendo preparado. Imagine que você está cozinhando uma lasanha. Você tem uma ideia básica de como fazer, mas para garantir que fique deliciosa, você consulta várias receitas em um livro de receitas, seleciona as melhores dicas e técnicas de cada uma e as incorpora à sua lasanha. 

No mundo da inteligência artificial, o Pipeline RAG funciona de maneira semelhante. Quando um sistema de IA é solicitado a gerar uma resposta para uma pergunta ou a completar um texto, ele primeiro consulta ("retrieval") uma grande base de dados ou documentos para encontrar informações relevantes, assim como você procuraria em um livro de receitas. Em seguida, usa essas informações encontradas para gerar ("generation") uma resposta ou continuação do texto que não só é relevante e informativa, mas também enriquecida pelas informações extraídas, da mesma forma que sua lasanha é enriquecida pelas técnicas e dicas das várias receitas consultadas. 

Esse processo permite que o sistema de IA produza respostas mais precisas, detalhadas e contextualmente ricas, porque ele está baseando suas gerações não apenas no que "sabe" internamente, mas também no que pode encontrar e aprender com fontes externas de informação.

### Exemplos de RAG

É possível diferenciar entre sistemas de inteligência artificial (IA) que usam o método Retrieval Augmented Generation (RAG) e aqueles que não usam, focando em exemplos representativos de cada categoria:

#### IA que usa RAG:

- **Facebook AI’s BlenderBot**: Este chatbot foi projetado para ter conversas mais engajadas e informadas, incorporando informações de diversas fontes externas para enriquecer suas respostas durante uma conversa. Ao buscar informações relevantes em tempo real, o BlenderBot pode fornecer respostas mais precisas e detalhadas sobre uma ampla gama de tópicos.

- **KILT (Knowledge Intensive Language Tasks) da Hugging Face**: Embora o KILT em si seja um benchmark projetado para avaliar sistemas de IA em tarefas que exigem acesso a conhecimento externo, muitos sistemas avaliados por este benchmark usam técnicas semelhantes ao RAG para buscar e integrar informações externas para melhorar o desempenho em tarefas como question answering, fact checking, e mais.

#### IA que não usa RAG:

- **GPT-3 (e versões anteriores, como GPT-2) da OpenAI**: Estes modelos de linguagem são treinados para gerar texto baseando-se unicamente no que aprenderam durante o treinamento, sem buscar informações externas no momento da geração. Eles geram respostas com base em padrões de linguagem e conhecimento incorporado durante o treinamento em um vasto corpus de texto.

- **BERT da Google**: Este modelo é amplamente usado para entender a linguagem natural em tarefas como compreensão de texto e classificação de sentimentos. BERT analisa e entende o texto baseando-se no contexto das palavras, mas não busca informações externas para gerar suas respostas ou análises.

A principal diferença entre esses dois grupos é a capacidade de buscar e utilizar informações externas em tempo real. Modelos que utilizam RAG se beneficiam da integração de dados externos para fornecer respostas mais ricas e contextualmente informadas, enquanto modelos que não utilizam RAG dependem estritamente do conhecimento pré-treinado incorporado durante o processo de aprendizado da máquina.

### O GPT-4 utiliza RAG?


Não, o GPT-4, assim como suas versões anteriores, não usa o método Retrieval Augmented Generation (RAG) diretamente em seu funcionamento padrão. O GPT-4 é uma evolução dos modelos de linguagem autoregressivos desenvolvidos pela OpenAI, projetado para gerar texto de forma coerente e contextualmente relevante com base em um prompt fornecido pelo usuário. Ele gera respostas com base no vasto conjunto de dados em que foi treinado, sem buscar ativamente informações externas durante o processo de geração de resposta.

Isso significa que, embora o GPT-4 possa fornecer informações que parecem estar "buscando" conhecimento externo, ele na verdade está se baseando no conhecimento que foi incorporado nele durante o treinamento. O modelo não tem a capacidade de acessar ou consultar informações em tempo real ou buscar dados de fontes externas no momento da interação. Ele gera respostas com base em padrões de linguagem, informações, e conhecimento pré-treinado que aprendeu durante sua fase de treinamento.

## 2. Instalação

Primeiro, é necessário a instalação do Haystack e a integração do Chroma (para o armazenamento de documentos):

In [1]:
pip install haystack-ai chroma-haystack

Note: you may need to restart the kernel to use updated packages.


## 3. Abordagens de Construção das Pipelines

A diferença fundamental entre os dois códigos do Quick Start do Haystack reside na abordagem de construção das pipelines de indexação e de recuperação/resposta a perguntas (RAG, Retrieval-Augmented Generation). Diferenças principais:

### Abordagem Simplificada

In [4]:
# Abordagem simplificada

import os
import urllib.request
from dotenv import load_dotenv
from haystack import Pipeline, PredefinedPipeline

load_dotenv()
api_key = os.environ['OPENAI_API_KEY']

urllib.request.urlretrieve("https://www.gutenberg.org/cache/epub/7785/pg7785.txt", "davinci.txt")  

indexing_pipeline =  Pipeline.from_template(PredefinedPipeline.INDEXING)
indexing_pipeline.run(data={"sources": ["davinci.txt"]})

rag_pipeline =  Pipeline.from_template(PredefinedPipeline.RAG)

query = "How old was he when he died?"
result = rag_pipeline.run(data={"prompt_builder": {"query":query}, "text_embedder": {"text": query}})
print(result["llm"]["replies"][0])

Calculating embeddings: 100%|██████████| 2/2 [00:42<00:00, 21.19s/it]
Insert of existing embedding ID: d33987463a24c325ea594307e4da30102305c09b5a529056b7c1c2db5677d833
Add of existing embedding ID: d33987463a24c325ea594307e4da30102305c09b5a529056b7c1c2db5677d833
Insert of existing embedding ID: e471effeb69e7c686510df375987a20824475332fbeeef16842549414ff173e0
Add of existing embedding ID: e471effeb69e7c686510df375987a20824475332fbeeef16842549414ff173e0
Insert of existing embedding ID: 2fe49708b8bdade00e8ef589035917254c5d18914cfedeee1ac053e7f9372d75
Add of existing embedding ID: 2fe49708b8bdade00e8ef589035917254c5d18914cfedeee1ac053e7f9372d75
Insert of existing embedding ID: 59f1aaf910fd118d6f9157454b75a356b44489bf2993d2ecbf6e5813da31996f
Add of existing embedding ID: 59f1aaf910fd118d6f9157454b75a356b44489bf2993d2ecbf6e5813da31996f
Insert of existing embedding ID: 2a175620e921b84aeaec6a6fb9faa18d2526c46bb1faac083cc273519b717d59
Add of existing embedding ID: 2a175620e921b84aeaec6a6fb9faa1

He was about 67 years old when he passed away.


#### Simplicidade (Código 1)
- Utiliza uma abordagem mais simplificada, aproveitando pipelines predefinidas (PredefinedPipeline) para o processo de indexação (INDEXING) e a pipeline RAG.
- Menos configurável em termos de componentes individuais, já que se baseia em configurações padrão para as tarefas de indexação e RAG fornecidas pelo framework.
- Ideal para prototipagem rápida ou para quem está começando a explorar o Haystack, pois reduz a complexidade de configuração e setup.

### Abordagem Flexível

In [3]:
# Abordagem flexível

import os
import urllib.request
from haystack import Pipeline
from dotenv import load_dotenv
from haystack_integrations.document_stores.chroma import ChromaDocumentStore
from haystack.components.converters import TextFileToDocument
from haystack.components.preprocessors import DocumentCleaner, DocumentSplitter
from haystack.components.embedders import OpenAIDocumentEmbedder, OpenAITextEmbedder
from haystack.components.writers import DocumentWriter
from haystack_integrations.components.retrievers.chroma import ChromaEmbeddingRetriever
from haystack.components.builders import PromptBuilder
from haystack.components.generators import OpenAIGenerator

load_dotenv()
api_key = os.environ['OPENAI_API_KEY']

urllib.request.urlretrieve("https://www.gutenberg.org/cache/epub/7785/pg7785.txt", "davinci.txt")  

document_store = ChromaDocumentStore(persist_path=".")

text_file_converter = TextFileToDocument()
cleaner = DocumentCleaner()
splitter = DocumentSplitter()
embedder = OpenAIDocumentEmbedder()
writer = DocumentWriter(document_store)

indexing_pipeline = Pipeline()
indexing_pipeline.add_component("converter", text_file_converter)
indexing_pipeline.add_component("cleaner", cleaner)
indexing_pipeline.add_component("splitter", splitter)
indexing_pipeline.add_component("embedder", embedder)
indexing_pipeline.add_component("writer", writer)

indexing_pipeline.connect("converter.documents", "cleaner.documents")
indexing_pipeline.connect("cleaner.documents", "splitter.documents")
indexing_pipeline.connect("splitter.documents", "embedder.documents")
indexing_pipeline.connect("embedder.documents", "writer.documents")
indexing_pipeline.run(data={"sources": ["davinci.txt"]})

text_embedder = OpenAITextEmbedder()
retriever = ChromaEmbeddingRetriever(document_store)
template = """Given these documents, answer the question.
              Documents:
              {% for doc in documents %}
                  {{ doc.content }}
              {% endfor %}
              Question: {{query}}
              Answer:"""
prompt_builder = PromptBuilder(template=template)
llm = OpenAIGenerator()

rag_pipeline = Pipeline()
rag_pipeline.add_component("text_embedder", text_embedder)
rag_pipeline.add_component("retriever", retriever)
rag_pipeline.add_component("prompt_builder", prompt_builder)
rag_pipeline.add_component("llm", llm)

rag_pipeline.connect("text_embedder.embedding", "retriever.query_embedding")
rag_pipeline.connect("retriever.documents", "prompt_builder.documents")
rag_pipeline.connect("prompt_builder", "llm")

query = "How old was he when he died?"
result = rag_pipeline.run(data={"prompt_builder": {"query":query}, "text_embedder": {"text": query}})
print(result["llm"]["replies"][0])

Calculating embeddings: 100%|██████████| 2/2 [00:01<00:00,  1.12it/s]
Insert of existing embedding ID: d33987463a24c325ea594307e4da30102305c09b5a529056b7c1c2db5677d833
Add of existing embedding ID: d33987463a24c325ea594307e4da30102305c09b5a529056b7c1c2db5677d833
Insert of existing embedding ID: e471effeb69e7c686510df375987a20824475332fbeeef16842549414ff173e0
Add of existing embedding ID: e471effeb69e7c686510df375987a20824475332fbeeef16842549414ff173e0
Insert of existing embedding ID: 2fe49708b8bdade00e8ef589035917254c5d18914cfedeee1ac053e7f9372d75
Add of existing embedding ID: 2fe49708b8bdade00e8ef589035917254c5d18914cfedeee1ac053e7f9372d75
Insert of existing embedding ID: 59f1aaf910fd118d6f9157454b75a356b44489bf2993d2ecbf6e5813da31996f
Add of existing embedding ID: 59f1aaf910fd118d6f9157454b75a356b44489bf2993d2ecbf6e5813da31996f
Insert of existing embedding ID: 2a175620e921b84aeaec6a6fb9faa18d2526c46bb1faac083cc273519b717d59
Add of existing embedding ID: 2a175620e921b84aeaec6a6fb9faa1

Leonardo da Vinci was 67 years old when he died.


#### Flexibilidade (Código 2)
- Constrói uma pipeline de indexação e uma pipeline RAG de forma explícita e configurável, permitindo a customização de cada componente, como conversores de documentos, limpeza, divisão de documentos, embutidores (embedders) e recuperadores (retrievers).
- Utiliza componentes específicos para uma personalização mais detalhada, como ChromaDocumentStore para armazenamento de documentos, OpenAIDocumentEmbedder e OpenAITextEmbedder para embutir documentos e textos com modelos da OpenAI, e OpenAIGenerator para geração de respostas.
- Proporciona maior controle sobre o processo de indexação e a construção de respostas, adequando-se a necessidades mais complexas ou específicas de projetos.

### Resumo

- O ***código 1*** oferece uma maneira rápida e simplificada de implementar funcionalidades de busca e geração de respostas com menos código e configuração.
- o **código 2** oferece flexibilidade e customização, permitindo aos desenvolvedores ajustar detalhadamente o comportamento de cada etapa do processo, ideal para casos de uso mais complexos ou quando se necessita de otimizações específicas.

Ambos os códigos demonstram a capacidade do Haystack de facilitar a implementação de sistemas de busca semântica e de geração de respostas a partir de grandes volumes de texto, mas escolher entre um ou outro depende do nível de customização desejado e da complexidade do projeto.

## 4. Fluxograma

<p align="center">
  <img src="../data/docs-data/overview/construa-seu-primeiro-pipeline-rag-indexacao.png" alt="Construa seu primeiro pipeline RAG - Pipeline de indexação">
  <img src="../data/docs-data/overview/construa-seu-primeiro-pipeline-rag-rag.png" alt="Construa seu primeiro pipeline RAG - Pipeline de RAG">
</p>