<h1 align="center"><font color="yellow">Quatro maneiras de Question-Answering in LangChain</font></h1>

<font color="yellow">Data Scientist.: Dr.Eddy Giusepe Chirinos Isidro</font>

Este script est√° baseado nos trabalhos da [Sophia Yang]()

# Contextualizando

Converse com seus longos documentos `PDF`: load_qa_chain, RetrievalQA, VectorstoreIndexCreator, ConversationalRetrievalChain.


Voc√™ est√° interessado em conversar com seus pr√≥prios documentos, seja um `arquivo de texto`, um `PDF` ou um `site`? O `LangChain` torna mais f√°cil para voc√™ responder a perguntas com seus documentos. Mas voc√™ sabia que existem pelo menos `4` maneiras de responder a perguntas no LangChain? Nesta postagem do blog, exploraremos quatro maneiras diferentes de responder a perguntas e as v√°rias op√ß√µes que voc√™ pode considerar para seus casos de uso.

S√≥ lembrando que √© `LangChain`, na opini√£o de `Sophia Yang`, √© a maneira mais f√°cil de interagir com modelos de linguagem e criar aplicativos. √â uma ferramenta de c√≥digo aberto que envolve muitos `LLMs` e ferramentas. 

Ok, agora vamos come√ßar a responder perguntas em documentos externos.


# Configurando a API da OpenAI e importando as Bibliotecas necess√°rias

Observe que a [API OpenAI](https://platform.openai.com/account) n√£o √© gratuita. Voc√™ precisar√° configurar as informa√ß√µes de cobran√ßa para poder usar a `API OpenAI`. Como alternativa, voc√™ pode usar modelos do `HuggingFace Hub` ou de outros lugares.


In [None]:
#%pip install langchain==0.0.137 openai chromadb tiktoken pypdf

In [3]:
# Isto √© quando usas o arquivo .env:
from dotenv import load_dotenv
import os
print('Carregando a minha chave Key: ', load_dotenv())
Eddy_API_KEY_OpenAI = os.environ['OPENAI_API_KEY'] 

Carregando a minha chave Key:  True


In [4]:
from langchain.chains import RetrievalQA # Tem que atualizar --> pip install langchai==0.0.137
from langchain.llms import OpenAI
from langchain.document_loaders import TextLoader
from langchain.document_loaders import PyPDFLoader
from langchain.indexes import VectorstoreIndexCreator
from langchain.text_splitter import CharacterTextSplitter
from langchain.embeddings import OpenAIEmbeddings
from langchain.vectorstores import Chroma


# Carregando Documentos

O `LangChain` suporta muitos [carregadores de documentos](https://python.langchain.com/en/latest/modules/indexes/document_loaders.html), como `Notion`, `YouTube` e `Figma`. Neste exemplo, gostaria de conversar com meu arquivo `PDF`. Assim, usei o `PyPDFLoader` para carregar meu arquivo.

Eu recomendo usar um PDF pequeno. Eu usei, s√≥ para demonstra√ß√£o mesmo, um boleto de pagamento da minha conta de energia e um boleto de pagamento de mensalidade da minha faculdade que cont√©m uma p√°gina cada boleto (voc√™ pode usar qualquer outro documento). Meu boleto cont√©m certas entidades e em base a elas farei certas perguntas! 


In [5]:
# Verificamos nosso Modelo Instanciado:

llm = OpenAI()
print(llm("Conte-me uma piada."))




O que o oceano disse para o outro oceano? Nada, ele s√≥ estava ondulando.


In [6]:
# Carregando meu documento (Boleto de energia):
from langchain.document_loaders import PyPDFLoader

# loader = PyPDFLoader("./Karina_boleto_FACULDADE.pdf")  # PDF apenas com uma p√°gina
loader = PyPDFLoader("./Eddy_Running_the_Vale_API.pdf")
documents = loader.load()

In [7]:
documents

[Document(page_content='UFES - L abVISIO - V aleS.A.\nInstanciando a API de An√°lise de\nComunica√ß√£o de Voz (ACV)\nData Scientist.: Dr.Eddy Giusepe Chirinos Isidro\n9 de mar√ßo de 2023\n1', metadata={'source': './Eddy_Running_the_Vale_API.pdf', 'page': 0}),
 Document(page_content='Resumo\nNeste conciso tutorial aprenderemos a instanciar a nossa API de An√°lise\nde Comunica√ß√£o de Voz (ACV) da Vale. Mostrarei os passos necess√°rios\ne suficientes para poder executar a nossa ferramenta, comandos √∫teis de\nDockeriza√ß√£o, a como expor um servi√ßo local na Internet com ngrok e o\nuso de outras principais funcionalidades.\n2', metadata={'source': './Eddy_Running_the_Vale_API.pdf', 'page': 1}),
 Document(page_content='Conte ¬¥udo\n1 Introdu√ß√£o 4\n2 Objetivo 5\n3 Principais passos para instanciar a API da Vale 6\n3.1 Ngrok . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6\n3.1.1 Instalando o Ngrok . . . . . . . . . . . . . . . . . . . . . . . . . . 6\n3.2 doc

# M√©todo 1: <font color="red">load_qa_chain</font>

`load_qa_chain` fornece a interface mais gen√©rica para responder a perguntas. Ele carrega uma cadeia que voc√™ pode fazer `QA` para seus documentos de entrada e usa `TODO o texto` nos documentos.

`chain_type="stuff"` n√£o funcionar√° porque o n√∫mero de tokens excede o limite (isso para o caso do PDF da Sophia). Podemos tentar outros tipos de cadeia como `"map_reduce"`.

In [50]:
from langchain.chains.question_answering import load_qa_chain


chain = load_qa_chain(llm=OpenAI(),
                      chain_type="stuff"
                     )


query = "A pesquisa foi feita em que universidade?"

chain.run(input_documents=documents,
          question=query
         )


' A pesquisa foi feita na UFES.'

<font color="orange">Ele tamb√©m permite que voc√™ fa√ßa QA em um conjunto de documentos:</font>

In [None]:
### Para v√°rios Documentos:
# loaders = [....]
# documents = []
# for loader in loaders:
#     documents.extend(loader.load())

<font color="red">ü§î Mas e se meu documento for muito longo e ultrapassar o limite de token?</font>

Existem duas maneiras de corrigi-lo:

## <font color="pink">Solu√ß√£o 1: Tipo de Cadeia (chain)</font>

O padr√£o `chain_type="stuff"` usa `TODO` o texto dos documentos no prompt. Se voc√™ tiver um arquivo muito grande (`tal como fez Sophia Yang, com um PDF de `50` p√°ginas`) n√£o funcionar√° porque excede o `limite de token` e causa erros de limita√ß√£o de taxa. √â por isso que para o exemplo da Sophia Yang, ela teve que usar outro tipo de cadeia, por exemplo `"map_reduce"`. 

A seguir vamos estudar outros tipos de cadeias:

ü§© `map_reduce:` Separa os textos em lotes (<font color="red">por exemplo</font>, voc√™ pode definir o tamanho do lote em `llm=OpenAI(batch_size=5)`), alimenta cada lote com a pergunta para o `LLM` separadamente e apresenta a resposta final com base nas respostas de cada lote.

ü§© `refine:` Separa os textos em lotes, alimenta o primeiro lote para o LLM e alimenta a resposta e o segundo lote para o LLM. Ele refina a resposta passando por todos os lotes.

ü§© `map_rerank:` ele separa os textos em lotes, alimenta cada lote para o LLM, retorna uma pontua√ß√£o de como responde completamente √† pergunta e apresenta a resposta final com base nas respostas com pontua√ß√£o mais alta de cada lote.

## <font color="pink">Solu√ß√£o 2: Recupera√ß√£o QA (`RetrievalQA`)</font>

Um problema com o uso de `TODO` o texto √© que pode ser `muito caro` porque voc√™ est√° alimentando todos os textos para a `API OpenAI` e a `API` √© cobrada pelo n√∫mero de tokens. Uma solu√ß√£o melhor √© recuperar os blocos (`chunks`) de texto relevantes primeiro e usar apenas os blocos de texto relevantes no modelo de linguagem. A seguir, examinarei os detalhes do `RetrievalQA`.

# M√©todo 2: <font color="red">RetrievalQA</font>

<font color="orange">A cadeia `RetrievalQA` realmente usa `load_qa_chain` sob o cap√¥. Recuperamos o peda√ßo de texto mais relevante e o alimentamos no modelo de linguagem.</font>

Op√ß√µes (posteriormente descreveremos cada um delas):

* [Embeddings](https://python.langchain.com/en/latest/reference/modules/embeddings.html)

* [TextSplitter](https://python.langchain.com/en/latest/modules/indexes/text_splitters.html)

* [VectorStore](https://python.langchain.com/en/latest/modules/indexes/vectorstores.html)

* [Retrievers](https://python.langchain.com/en/latest/modules/indexes/retrievers.html)

  * [search_type](https://python.langchain.com/en/latest/modules/indexes/vectorstores/examples/chroma.html#mmr): "similarity" or "mmr"


* [Chain Type](https://python.langchain.com/en/latest/modules/chains/index_examples/question_answering.html): "stuff", "map reduce", "refine", "map_rerank"   




<font color="orange">A seguir vamos ver o como funciona, RetrievalQA:</font>


In [6]:
# Dividir os documentos em chunks:
text_splitter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=0)
texts = text_splitter.split_documents(documents)


# Selecione qual EMBEDDINGS quer usar:
embeddings = OpenAIEmbeddings()

# Crie o vectorestore para usar como √≠ndice (index):
db = Chroma.from_documents(texts, embeddings)


# Exponha este √≠ndice em uma interface de recupera√ß√£o:
retriever = db.as_retriever(search_type="similarity", search_kwargs={"k":1})


# Crie uma cadeia para responder perguntas:
qa = RetrievalQA.from_chain_type(
    llm=OpenAI(),
    chain_type="stuff",
    retriever=retriever,
    return_source_documents=True)

query = "Para que usam ngrok?"
result = qa({"query": query})


Using embedded DuckDB without persistence: data will be transient


<font color="orange">No resultado, podemos ver a resposta e dois documentos de origem porque definimos `k como 2`, o que significa que estamos interessados ‚Äã‚Äãapenas em obter dois chunks de texto relevantes.</font>

In [7]:
result

{'query': 'Para que usam ngrok?',
 'result': ' Ngrok √© usado para criar um t√∫nel seguro, atr√°s de Network Address Translation (NAT) e Firewalls, que exp√µem servi√ßos locais (do computador) para a Internet, de forma f√°cil e segura.',
 'source_documents': [Document(page_content='3 Principais passos para instanciar a API daVale\nA seguir farei uma explana√ß√£o dos principais passos para executar a nossa aplica√ß√£o.\n3.1 N grok\nBasicamente, Ngrok √© uma ferramenta CLI (Comand Line Interface) que te permite\ncriar um t√∫nel seguro, atr√°s de Network Address Translation (NAT) e Firewalls, que\nexp√µem servi√ßos locais (do nosso computador) para a Internet, tudo isso de forma\nf√°cil e segura. A seguinte imagem, Figura 3.1, descreve o uso do ngrok [1]:\nFigura 3.1: Ngrok expondo um servi√ßo local para a Internet.\n3.1.1 I nstalando o Ngrok\nO Ngrok √© multiplataforma, ou seja, pode ser instalado no Linux ,Mac OS ou no\nWindows . Ent√£o, para usar o Ngrok o primeiro a fazer √© criar uma

In [8]:
result['result']

' Ngrok √© usado para criar um t√∫nel seguro, atr√°s de Network Address Translation (NAT) e Firewalls, que exp√µem servi√ßos locais (do computador) para a Internet, de forma f√°cil e segura.'

## <font color="red">Usando similaridade com score no CHROMA</font>

In [22]:
# Dividir os documentos em chunks:
text_splitter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=0)
texts = text_splitter.split_documents(documents)


# Selecione qual EMBEDDINGS quer usar:
embeddings = OpenAIEmbeddings()

# Crie o vectorestore para usar como √≠ndece (index):
db = Chroma.from_documents(texts, embeddings)



docs_score = db.similarity_search_with_score("O que √© system prune?")

docs_score

Using embedded DuckDB without persistence: data will be transient


[(Document(page_content='‚Ä¢Para executar o seguinte comando devemos estar no diret√≥rio onde se encontra\no arquivo docker-compose.yml . Ver a Figura 3.3, acima.\n$ docker compose build\nEste comando e basicamente usado para construir ou reconstruir as imagens\nDocker definidas no arquivo docker-compose.yml.\n‚Ä¢O seguinte comando √© usado para construir, criar ou recriar e executar con-\nt√™ineres para os servi√ßos definidos no arquivo docker-compose.yml , tamb√©m\nconfigura as redes e os volumes especificados em dito arquivo.\n$ docker compose up\nEste comando al√©m de iniciar os cont√™ineres em um modo interativo e exibir\na sa√≠da do console para cada cont√™iner, permite que voc√™ monitore o status do\ncont√™iner, visualize eventuais erros e saiba quando o servi√ßo estiver pronto para\nuso.\n√â importante aprender, tamb√©m, como parar nossa aplica√ß√£o. Ent√£o, para interromper\nos cont√™ineres de maneira segura, voc√™ pode executar (em outro terminal) o seguinte\ncomando:\n$ dock

In [23]:
max_value = max(docs_score, key=lambda x: x[1])
max_value

(Document(page_content='Resumo\nNeste conciso tutorial aprenderemos a instanciar a nossa API de An√°lise\nde Comunica√ß√£o de Voz (ACV) da Vale. Mostrarei os passos necess√°rios\ne suficientes para poder executar a nossa ferramenta, comandos √∫teis de\nDockeriza√ß√£o, a como expor um servi√ßo local na Internet com ngrok e o\nuso de outras principais funcionalidades.\n2', metadata={'source': './Eddy_Running_the_Vale_API.pdf', 'page': 1}),
 0.4965440034866333)

## Op√ß√µes

Existem v√°rias op√ß√µes para voc√™ escolher neste processo:


ü§ó [embeddings](https://python.langchain.com/en/latest/reference/modules/embeddings.html): No exemplo, usamos `OpenAI Embeddings`. Mas existem muitas outras op√ß√µes de Embeddings, como `Cohere Embeddings` e `HuggingFaceEmbeddings` de modelos espec√≠ficos.

ü§ó [TextSplitter](https://python.langchain.com/en/latest/modules/indexes/text_splitters.html): Usamos o `Character Text Splitter` no exemplo em que o texto √© dividido por um √∫nico caractere. Voc√™ tamb√©m pode usar diferentes divisores de texto e diferentes `tokens` mencionados neste documento.

ü§ó [VectorStore](https://python.langchain.com/en/latest/modules/indexes/vectorstores.html): Usamos o `Chroma` como nosso `banco de dados de vetores`, onde armazenamos nossos vetores de texto incorporados. Outras op√ß√µes populares s√£o `FAISS`, `Mulvus` e `Pinecone`.

ü§ó [Retrievers](https://python.langchain.com/en/latest/modules/indexes/retrievers.html): usamos um `VectoreStoreRetriver`, que √© apoiado por um `VectorStore`. Para recuperar o texto, existem dois tipos de pesquisa que voc√™ pode escolher: [search_type](https://python.langchain.com/en/latest/modules/indexes/vectorstores/examples/chroma.html#mmr):"similarity" ou ‚Äúmmr‚Äù. `search_type="similarity"` usa pesquisa de similaridade no objeto retriever, onde seleciona vetores de blocos (chunk) de texto que s√£o mais similares ao vetor de pergunta. `search_type="mmr"` usa a pesquisa de `relev√¢ncia marginal m√°xima` (mmr - maximum marginal relevance) onde otimiza a similaridade para query `AND` a diversidade entre os documentos selecionados.

ü§ó [Chain Type](https://python.langchain.com/en/latest/modules/chains/index_examples/question_answering.html): igual ao `m√©todo 1`. Voc√™ tamb√©m pode definir o tipo de cadeia como uma das quatro op√ß√µes: `‚Äústuff‚Äù`, `‚Äúmap reduce‚Äù`, `‚Äúrefine‚Äù`, `‚Äúmap_rerank‚Äù`.



# M√©todo 3: <font color="red">VectorstoreIndexCreator</font>

`VectorstoreIndexCreator` √© um `wrapper` em torno da funcionalidade acima. √â exatamente o mesmo sob o cap√¥, mas apenas exp√µe uma interface de n√≠vel superior para permitir que voc√™ comece em tr√™s linhas de c√≥digo:

In [54]:
index = VectorstoreIndexCreator().from_loaders([loader])

query = "Qual foi o objetivo do trabalho de pesquisa?"

index.query(llm=OpenAI(),
            question=query,
            chain_type="map_reduce"
           )


Using embedded DuckDB without persistence: data will be transient


' O objetivo do trabalho de pesquisa foi conhecer e aplicar os comandos necess√°rios para instanciar a aplica√ß√£o da Vale, que realiza a segmenta√ß√£o de um √°udio (Diarization), a transcri√ß√£o de um √°udio (speech-to-text) e a identifica√ß√£o de quem fala num determinado trecho de √°udio (Speaker Identification).'

<font color="orange">Claro, voc√™ tamb√©m pode especificar diferentes op√ß√µes neste `wrapper`:

</font>

In [58]:
index = VectorstoreIndexCreator(
    # Dividir os documentos em chunks
    text_splitter=CharacterTextSplitter(chunk_size=1000, chunk_overlap=0),
    # Selecione os Embeddings que quer usar:
    embedding=OpenAIEmbeddings(),
    # Use Chroma como o vectorestore para indexar e pesquisar Embeddings:
    vectorstore_cls=Chroma
).from_loaders([loader])


query = "Quem foi o Cientista de Dados?"

index.query(llm=OpenAI(),
            question=query,
            chain_type= "map_rerank" #"stuff" # Usando `map_reduce` n√£o trouxe resposta a minha pergunta.` 
           )




Using embedded DuckDB without persistence: data will be transient


' Dr.Eddy Giusepe Chirinos Isidro'

# M√©todo 4: <font color="red">ConversationalRetrievalChain</font>

`ConversationalRetrievalChain` √© muito semelhante ao `m√©todo 2 RetrievalQA`. Ele adicionou um par√¢metro adicional `chat_history` para passar no hist√≥rico do bate-papo, que pode ser usado para perguntas de acompanhamento.

```
ConversationalRetrievalChain = mem√≥ria de conversa√ß√£o + RetrievalQAChain
```

<font color="yellow">Se voc√™ quiser que seu modelo de linguagem tenha uma mem√≥ria da conversa anterior, use este m√©todo.</font> 


No meu exemplo a seguir, perguntei para que foi importante aprender certos comandos no trabalho de pesquisa?. Como ele tem todo o hist√≥rico do chat, me trouxe uma boa resposta.

In [3]:
from langchain.chains import ConversationalRetrievalChain


# Carregamos nosso documento:
loader = PyPDFLoader("./Eddy_Running_the_Vale_API.pdf")
documents = loader.load()

# Dividir os Documentosem Chunks:
text_splitter = CharacterTextSplitter(chunk_size=1000,
                                      chunk_overlap=0
                                     )

texts = text_splitter.split_documents(documents)


# Seleciono os Embeddings que queremos usar:
embeddings = OpenAIEmbeddings()

# Criamos o vectorestore para usar como √≠ndice:
db = Chroma.from_documents(texts, embeddings)

# Exponha este √≠ndice em uma interface de recupera√ß√£o:
retriever = db.as_retriever(search_type="similarity",
                            search_kwargs={"k":2}
                           )

# Criamos uma cadeia (chain) para responder a perguntas:  
qa = ConversationalRetrievalChain.from_llm(OpenAI(),
                                           retriever
                                          )


Using embedded DuckDB without persistence: data will be transient


In [4]:
chat_history = []

query = "Qual foi o objetivo do trabalho de pesquisa?"
result = qa({"question": query, "chat_history": chat_history})


In [5]:
result

{'question': 'Qual foi o objetivo do trabalho de pesquisa?',
 'chat_history': [],
 'answer': ' Conhecer e aplicar os comandos necess√°rios para instanciar a aplica√ß√£o da Vale.'}

In [6]:
result['answer']

' Conhecer e aplicar os comandos necess√°rios para instanciar a aplica√ß√£o da Vale.'

In [7]:
chat_history = [(query, result["answer"])]

query = "Com os comandos aprendidos se instanciou o que?"
result = qa({"question": query, "chat_history": chat_history})

In [8]:
chat_history

[('Qual foi o objetivo do trabalho de pesquisa?',
  ' Conhecer e aplicar os comandos necess√°rios para instanciar a aplica√ß√£o da Vale.')]

In [9]:
result["answer"]

' A API de An√°lise de Comunica√ß√£o de Voz (ACV) da Vale.'

# Conclus√£o

<font color="orange">Agora voc√™ conhece quatro maneiras de responder a perguntas com `LLMs` no `LangChain`. Em resumo, `load_qa_chain` usa todos os textos e aceita v√°rios documentos; O `RetrievalQA` usa **load_qa_chain** sob o cap√¥, mas recupera primeiro os blocos de texto relevantes; `VectorstoreIndexCreator` √© o mesmo que **RetrievalQA** com uma interface de n√≠vel superior; `ConversationalRetrievalChain` √© √∫til quando voc√™ deseja passar seu `hist√≥rico de bate-papo` para o modelo.</font>


Thanks God!