# Primeiro Pipeline RAG

Para construir pipelines de pesquisa modernos com LLMs, √© necess√°rio duas coisas: componentes poderosos e uma maneira f√°cil de reuni-los. O pipeline Haystack foi criado para essa finalidade e permite projetar e dimensionar intera√ß√µes com LLMs. [√â poss√≠vel ver como criar pipelines nesse link](https://docs.haystack.deepset.ai/docs/creating-pipelines).

Ao conectar tr√™s componentes, um Retriever, um PromptBuilder e um Generator, √© poss√≠vel construir o primeiro pipeline de Retrieval Augmented Generation (RAG) com Haystack.

No c√≥digo abaixo o Haystack responde a perguntas sobre os documentos fornecidos usando a abordagem RAG üëá

## 1. Retrieval Augmented Generation (RAG)

### O que √© um Pipeline Retrieval Augmented Generation (RAG)?

Um Pipeline RAG, ou Retrieval Augmented Generation, √© como uma receita culin√°ria que usa um livro de receitas para melhorar o prato que est√° sendo preparado. Imagine que voc√™ est√° cozinhando uma lasanha. Voc√™ tem uma ideia b√°sica de como fazer, mas para garantir que fique deliciosa, voc√™ consulta v√°rias receitas em um livro de receitas, seleciona as melhores dicas e t√©cnicas de cada uma e as incorpora √† sua lasanha. 

No mundo da intelig√™ncia artificial, o Pipeline RAG funciona de maneira semelhante. Quando um sistema de IA √© solicitado a gerar uma resposta para uma pergunta ou a completar um texto, ele primeiro consulta ("retrieval") uma grande base de dados ou documentos para encontrar informa√ß√µes relevantes, assim como voc√™ procuraria em um livro de receitas. Em seguida, usa essas informa√ß√µes encontradas para gerar ("generation") uma resposta ou continua√ß√£o do texto que n√£o s√≥ √© relevante e informativa, mas tamb√©m enriquecida pelas informa√ß√µes extra√≠das, da mesma forma que sua lasanha √© enriquecida pelas t√©cnicas e dicas das v√°rias receitas consultadas. 

Esse processo permite que o sistema de IA produza respostas mais precisas, detalhadas e contextualmente ricas, porque ele est√° baseando suas gera√ß√µes n√£o apenas no que "sabe" internamente, mas tamb√©m no que pode encontrar e aprender com fontes externas de informa√ß√£o.

### Exemplos de RAG

√â poss√≠vel diferenciar entre sistemas de intelig√™ncia artificial (IA) que usam o m√©todo Retrieval Augmented Generation (RAG) e aqueles que n√£o usam, focando em exemplos representativos de cada categoria:

#### IA que usa RAG:

- **Facebook AI‚Äôs BlenderBot**: Este chatbot foi projetado para ter conversas mais engajadas e informadas, incorporando informa√ß√µes de diversas fontes externas para enriquecer suas respostas durante uma conversa. Ao buscar informa√ß√µes relevantes em tempo real, o BlenderBot pode fornecer respostas mais precisas e detalhadas sobre uma ampla gama de t√≥picos.

- **KILT (Knowledge Intensive Language Tasks) da Hugging Face**: Embora o KILT em si seja um benchmark projetado para avaliar sistemas de IA em tarefas que exigem acesso a conhecimento externo, muitos sistemas avaliados por este benchmark usam t√©cnicas semelhantes ao RAG para buscar e integrar informa√ß√µes externas para melhorar o desempenho em tarefas como question answering, fact checking, e mais.

#### IA que n√£o usa RAG:

- **GPT-3 (e vers√µes anteriores, como GPT-2) da OpenAI**: Estes modelos de linguagem s√£o treinados para gerar texto baseando-se unicamente no que aprenderam durante o treinamento, sem buscar informa√ß√µes externas no momento da gera√ß√£o. Eles geram respostas com base em padr√µes de linguagem e conhecimento incorporado durante o treinamento em um vasto corpus de texto.

- **BERT da Google**: Este modelo √© amplamente usado para entender a linguagem natural em tarefas como compreens√£o de texto e classifica√ß√£o de sentimentos. BERT analisa e entende o texto baseando-se no contexto das palavras, mas n√£o busca informa√ß√µes externas para gerar suas respostas ou an√°lises.

A principal diferen√ßa entre esses dois grupos √© a capacidade de buscar e utilizar informa√ß√µes externas em tempo real. Modelos que utilizam RAG se beneficiam da integra√ß√£o de dados externos para fornecer respostas mais ricas e contextualmente informadas, enquanto modelos que n√£o utilizam RAG dependem estritamente do conhecimento pr√©-treinado incorporado durante o processo de aprendizado da m√°quina.

### O GPT-4 utiliza RAG?


N√£o, o GPT-4, assim como suas vers√µes anteriores, n√£o usa o m√©todo Retrieval Augmented Generation (RAG) diretamente em seu funcionamento padr√£o. O GPT-4 √© uma evolu√ß√£o dos modelos de linguagem autoregressivos desenvolvidos pela OpenAI, projetado para gerar texto de forma coerente e contextualmente relevante com base em um prompt fornecido pelo usu√°rio. Ele gera respostas com base no vasto conjunto de dados em que foi treinado, sem buscar ativamente informa√ß√µes externas durante o processo de gera√ß√£o de resposta.

Isso significa que, embora o GPT-4 possa fornecer informa√ß√µes que parecem estar "buscando" conhecimento externo, ele na verdade est√° se baseando no conhecimento que foi incorporado nele durante o treinamento. O modelo n√£o tem a capacidade de acessar ou consultar informa√ß√µes em tempo real ou buscar dados de fontes externas no momento da intera√ß√£o. Ele gera respostas com base em padr√µes de linguagem, informa√ß√µes, e conhecimento pr√©-treinado que aprendeu durante sua fase de treinamento.

## 2. Instala√ß√£o

Primeiro, √© necess√°rio a instala√ß√£o do Haystack e a integra√ß√£o do Chroma (para o armazenamento de documentos):

In [1]:
pip install haystack-ai chroma-haystack

Note: you may need to restart the kernel to use updated packages.


## 3. Abordagens de Constru√ß√£o das Pipelines

A diferen√ßa fundamental entre os dois c√≥digos do Quick Start do Haystack reside na abordagem de constru√ß√£o das pipelines de indexa√ß√£o e de recupera√ß√£o/resposta a perguntas (RAG, Retrieval-Augmented Generation). Diferen√ßas principais:

### Abordagem Simplificada

In [4]:
# Abordagem simplificada

import os
import urllib.request
from dotenv import load_dotenv
from haystack import Pipeline, PredefinedPipeline

load_dotenv()
api_key = os.environ['OPENAI_API_KEY']

urllib.request.urlretrieve("https://www.gutenberg.org/cache/epub/7785/pg7785.txt", "davinci.txt")  

indexing_pipeline =  Pipeline.from_template(PredefinedPipeline.INDEXING)
indexing_pipeline.run(data={"sources": ["davinci.txt"]})

rag_pipeline =  Pipeline.from_template(PredefinedPipeline.RAG)

query = "How old was he when he died?"
result = rag_pipeline.run(data={"prompt_builder": {"query":query}, "text_embedder": {"text": query}})
print(result["llm"]["replies"][0])

Calculating embeddings: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 2/2 [00:42<00:00, 21.19s/it]
Insert of existing embedding ID: d33987463a24c325ea594307e4da30102305c09b5a529056b7c1c2db5677d833
Add of existing embedding ID: d33987463a24c325ea594307e4da30102305c09b5a529056b7c1c2db5677d833
Insert of existing embedding ID: e471effeb69e7c686510df375987a20824475332fbeeef16842549414ff173e0
Add of existing embedding ID: e471effeb69e7c686510df375987a20824475332fbeeef16842549414ff173e0
Insert of existing embedding ID: 2fe49708b8bdade00e8ef589035917254c5d18914cfedeee1ac053e7f9372d75
Add of existing embedding ID: 2fe49708b8bdade00e8ef589035917254c5d18914cfedeee1ac053e7f9372d75
Insert of existing embedding ID: 59f1aaf910fd118d6f9157454b75a356b44489bf2993d2ecbf6e5813da31996f
Add of existing embedding ID: 59f1aaf910fd118d6f9157454b75a356b44489bf2993d2ecbf6e5813da31996f
Insert of existing embedding ID: 2a175620e921b84aeaec6a6fb9faa18d2526c46bb1faac083cc273519b717d59
Add of existing embedding ID: 2a175620e9

He was about 67 years old when he passed away.


#### Simplicidade (C√≥digo 1)
- Utiliza uma abordagem mais simplificada, aproveitando pipelines predefinidas (PredefinedPipeline) para o processo de indexa√ß√£o (INDEXING) e a pipeline RAG.
- Menos configur√°vel em termos de componentes individuais, j√° que se baseia em configura√ß√µes padr√£o para as tarefas de indexa√ß√£o e RAG fornecidas pelo framework.
- Ideal para prototipagem r√°pida ou para quem est√° come√ßando a explorar o Haystack, pois reduz a complexidade de configura√ß√£o e setup.

### Abordagem Flex√≠vel

In [3]:
# Abordagem flex√≠vel

import os
import urllib.request
from haystack import Pipeline
from dotenv import load_dotenv
from haystack_integrations.document_stores.chroma import ChromaDocumentStore
from haystack.components.converters import TextFileToDocument
from haystack.components.preprocessors import DocumentCleaner, DocumentSplitter
from haystack.components.embedders import OpenAIDocumentEmbedder, OpenAITextEmbedder
from haystack.components.writers import DocumentWriter
from haystack_integrations.components.retrievers.chroma import ChromaEmbeddingRetriever
from haystack.components.builders import PromptBuilder
from haystack.components.generators import OpenAIGenerator

load_dotenv()
api_key = os.environ['OPENAI_API_KEY']

urllib.request.urlretrieve("https://www.gutenberg.org/cache/epub/7785/pg7785.txt", "davinci.txt")  

document_store = ChromaDocumentStore(persist_path=".")

text_file_converter = TextFileToDocument()
cleaner = DocumentCleaner()
splitter = DocumentSplitter()
embedder = OpenAIDocumentEmbedder()
writer = DocumentWriter(document_store)

indexing_pipeline = Pipeline()
indexing_pipeline.add_component("converter", text_file_converter)
indexing_pipeline.add_component("cleaner", cleaner)
indexing_pipeline.add_component("splitter", splitter)
indexing_pipeline.add_component("embedder", embedder)
indexing_pipeline.add_component("writer", writer)

indexing_pipeline.connect("converter.documents", "cleaner.documents")
indexing_pipeline.connect("cleaner.documents", "splitter.documents")
indexing_pipeline.connect("splitter.documents", "embedder.documents")
indexing_pipeline.connect("embedder.documents", "writer.documents")
indexing_pipeline.run(data={"sources": ["davinci.txt"]})

text_embedder = OpenAITextEmbedder()
retriever = ChromaEmbeddingRetriever(document_store)
template = """Given these documents, answer the question.
              Documents:
              {% for doc in documents %}
                  {{ doc.content }}
              {% endfor %}
              Question: {{query}}
              Answer:"""
prompt_builder = PromptBuilder(template=template)
llm = OpenAIGenerator()

rag_pipeline = Pipeline()
rag_pipeline.add_component("text_embedder", text_embedder)
rag_pipeline.add_component("retriever", retriever)
rag_pipeline.add_component("prompt_builder", prompt_builder)
rag_pipeline.add_component("llm", llm)

rag_pipeline.connect("text_embedder.embedding", "retriever.query_embedding")
rag_pipeline.connect("retriever.documents", "prompt_builder.documents")
rag_pipeline.connect("prompt_builder", "llm")

query = "How old was he when he died?"
result = rag_pipeline.run(data={"prompt_builder": {"query":query}, "text_embedder": {"text": query}})
print(result["llm"]["replies"][0])

Calculating embeddings: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 2/2 [00:01<00:00,  1.12it/s]
Insert of existing embedding ID: d33987463a24c325ea594307e4da30102305c09b5a529056b7c1c2db5677d833
Add of existing embedding ID: d33987463a24c325ea594307e4da30102305c09b5a529056b7c1c2db5677d833
Insert of existing embedding ID: e471effeb69e7c686510df375987a20824475332fbeeef16842549414ff173e0
Add of existing embedding ID: e471effeb69e7c686510df375987a20824475332fbeeef16842549414ff173e0
Insert of existing embedding ID: 2fe49708b8bdade00e8ef589035917254c5d18914cfedeee1ac053e7f9372d75
Add of existing embedding ID: 2fe49708b8bdade00e8ef589035917254c5d18914cfedeee1ac053e7f9372d75
Insert of existing embedding ID: 59f1aaf910fd118d6f9157454b75a356b44489bf2993d2ecbf6e5813da31996f
Add of existing embedding ID: 59f1aaf910fd118d6f9157454b75a356b44489bf2993d2ecbf6e5813da31996f
Insert of existing embedding ID: 2a175620e921b84aeaec6a6fb9faa18d2526c46bb1faac083cc273519b717d59
Add of existing embedding ID: 2a175620e9

Leonardo da Vinci was 67 years old when he died.


#### Flexibilidade (C√≥digo 2)
- Constr√≥i uma pipeline de indexa√ß√£o e uma pipeline RAG de forma expl√≠cita e configur√°vel, permitindo a customiza√ß√£o de cada componente, como conversores de documentos, limpeza, divis√£o de documentos, embutidores (embedders) e recuperadores (retrievers).
- Utiliza componentes espec√≠ficos para uma personaliza√ß√£o mais detalhada, como ChromaDocumentStore para armazenamento de documentos, OpenAIDocumentEmbedder e OpenAITextEmbedder para embutir documentos e textos com modelos da OpenAI, e OpenAIGenerator para gera√ß√£o de respostas.
- Proporciona maior controle sobre o processo de indexa√ß√£o e a constru√ß√£o de respostas, adequando-se a necessidades mais complexas ou espec√≠ficas de projetos.

### Resumo

- O ***c√≥digo 1*** oferece uma maneira r√°pida e simplificada de implementar funcionalidades de busca e gera√ß√£o de respostas com menos c√≥digo e configura√ß√£o.
- o **c√≥digo 2** oferece flexibilidade e customiza√ß√£o, permitindo aos desenvolvedores ajustar detalhadamente o comportamento de cada etapa do processo, ideal para casos de uso mais complexos ou quando se necessita de otimiza√ß√µes espec√≠ficas.

Ambos os c√≥digos demonstram a capacidade do Haystack de facilitar a implementa√ß√£o de sistemas de busca sem√¢ntica e de gera√ß√£o de respostas a partir de grandes volumes de texto, mas escolher entre um ou outro depende do n√≠vel de customiza√ß√£o desejado e da complexidade do projeto.

## 4. Fluxograma

<p align="center">
  <img src="../data/docs-data/overview/construa-seu-primeiro-pipeline-rag-indexacao.png" alt="Construa seu primeiro pipeline RAG - Pipeline de indexa√ß√£o">
  <img src="../data/docs-data/overview/construa-seu-primeiro-pipeline-rag-rag.png" alt="Construa seu primeiro pipeline RAG - Pipeline de RAG">
</p>