# Explicando Retrieval Augmented Generation

Neste exemplo, vamos carregar um PDF com prospecto de um fundo de investimento para utilizá-lo como base de conhecimento para tratamentos de dúvidas.

Utilizaremos os modelos da OpenAI para gerar embeddings e respostas.

Os dados vetorizados serão armazenados no Astra/Cassandra para busca baseada na similaridade de vetores (Vector Search).

## Configurando ambiente

Inicialmente, vamos instalar e configurar o ambiente para execução dos modelos

In [None]:
pip install langchain llama-index openai cassio --upgrade 

In [None]:
# Carregando variáveis de ambiente
from dotenv import load_dotenv, find_dotenv
import os
load_dotenv(find_dotenv(), override=True)

## Conectando ao Astra/Cassandra

Para utilizar o Cassandra como Vector DB, crie um banco de dados com suporte a vvector search em astra.datastax.com, gere um token de conexão e identifique o seu DB ID. Com isso, execute o comando abaixo para criar a conexão

In [None]:
import cassio

cassio.init(token=os.environ["ASTRA_DB_APPLICATION_TOKEN"], database_id=os.environ["ASTRA_DB_ID"])

Pronto!

A conexão com o Astra é muito simples e você já pode armazenar seus documentos.

## Setup LangChain, Cassandra e OpenAI

In [None]:
# Importando o índice, separadores de texto, e auxiliares para processamendo dos documentos
from langchain.indexes.vectorstore import VectorStoreIndexWrapper
from langchain.indexes.vectorstore import VectorstoreIndexCreator
from langchain.text_splitter import (
    CharacterTextSplitter,
    RecursiveCharacterTextSplitter,
)
from langchain.docstore.document import Document
from langchain.document_loaders import PyPDFLoader, PyPDFDirectoryLoader

### Embeddings

Vamos converter nossa base de documentos em embeddings. 

Se você não sabe o que são embeddings, assista aqui: https://www.youtube.com/watch?v=fvRyziDmvoA

Utilizaremos o LangChain para simplificar a leitura dos PDFs, geração de chunks e posterior utilização dos dados.

In [None]:
# Neste exemplo, vou utilizar os embeddings da OpenAI.
# Aqui, importamos o LLM e os Embeddings
from langchain.llms import OpenAI
from langchain.embeddings import OpenAIEmbeddings
llm = OpenAI(temperature=0.5)
embedding_generator = OpenAIEmbeddings()

### Definindo o Index/Tabela do Cassandra que vai armazenar os dados

In [None]:
# O LangChain possui suporte ao Cassandra, então vamos utilizá-lo
# (vamos usar o Astra, que é o Cassandra como serviço)
# Criando o índice no Astra

from langchain.vectorstores.cassandra import Cassandra
table_name = 'vs_investment'
keyspace = 'demo'

In [144]:
# Se necessário, execute este comando para limpar a tabela com os dados
#CassVectorStore.clear()

## Criando o index e carregando

O método IndexCreator executa a criação da tabela e vincula qual modelo de embeddings será utilizado no índice

In [None]:
index_creator = VectorstoreIndexCreator(
    vectorstore_cls=Cassandra,
    embedding=embedding_generator,
    text_splitter=RecursiveCharacterTextSplitter(
        chunk_size=1000,
        chunk_overlap=30,
    ),
    vectorstore_kwargs={
        'session': cassio.config.resolve_session(),
        'keyspace': 'demo',
        'table_name': table_name,
    },
)

In [232]:
# Carregando os dados de um fundo de investimento específico
loader = PyPDFDirectoryLoader('./funds')
#loader = PyPDFLoader("./funds/RealInvFIM0623.pdf")
index = index_creator.from_loaders([loader])

In [None]:
# Carregando os dados de um fundo de investimento específico
#loader = PyPDFDirectoryLoader('./funds')
loader = PyPDFLoader("./funds/RealInvFIM0623.pdf")
index = index_creator.from_loaders([loader])

### Se o seu índice já estiver carregado...

... você pode referenciá-lo desta maneira.

In [None]:
CassVectorStore = Cassandra(
    session= cassio.config.resolve_session(),
    keyspace= 'demo',
    table_name= table_name,
    embedding=embedding_generator
)

index = VectorStoreIndexWrapper(
    vectorstore=CassVectorStore
)

### Conferindo os dados gravados

Faremos uma query no Vector Store para conferir como os dados foram gravados

In [265]:
cqlSelect = f"""SELECT * FROM {keyspace}.{table_name} 
WHERE metadata_s['source'] = './funds/RealInvFIM0623.pdf'
LIMIT 3;"""
rows = cassio.config.resolve_session().execute(cqlSelect)
for row_i, row in enumerate(rows):
    print(f'\n{"-"*50}')
    print(f'\nRow {row_i}:')
    print(f'    document_id:      {row.row_id}')
    print(f'    embedding_vector: {str(row.vector)[:64]} ...')
    print(f'    metadata_blob:    {row.metadata_s}')
    print(f'    document:         {row.body_blob} ...')

print('\n...')

NoHostAvailable: ('Unable to complete the operation against any hosts', {})

# Utilizando o documento para responder uma pergunta

O LangChain possui métodos que buscam documentos similares no index e compõem um prompt para gerar a resposta a uma pergunta.

Este método são o ``ìndex.query`` e ``index.query_with_sources``.

A diferença entre estes métodos é o tipo de RetrievalChain que são utilizados por cada um.


In [233]:
import langchain
langchain.debug = False
langchain.verbose = True

QUERY = "Recomende fundos com baixo risco e com retirada em d+1?"

print("\nResposta com o query_with_sources:")
print(index.query_with_sources(question=QUERY))


Resposta com o query_with_sources:


[1m> Entering new RetrievalQAWithSourcesChain chain...[0m


[1m> Entering new StuffDocumentsChain chain...[0m


[1m> Entering new LLMChain chain...[0m
Prompt after formatting:
[32;1m[1;3mGiven the following extracted parts of a long document and a question, create a final answer with references ("SOURCES"). 
If you don't know the answer, just say that you don't know. Don't try to make up an answer.
ALWAYS return a "SOURCES" part in your answer.

QUESTION: Which state/country's law governs the interpretation of the contract?
Content: This Agreement is governed by English law and the parties submit to the exclusive jurisdiction of the English courts in  relation to any dispute (contractual or non-contractual) concerning this Agreement save that either party may apply to any court for an  injunction or other relief to protect its Intellectual Property Rights.
Source: 28-pl
Content: No Waiver. Failure or delay in exercising any right or remedy 

In [230]:
import langchain
langchain.debug = False
langchain.verbose = True

QUERY = "Qual o risco do fundo?"

print("Resposta com o query:")
print(index.query(question=QUERY))

print("\nResposta com o query_with_sources:")
print(index.query_with_sources(question=QUERY))

Resposta com o query:


[1m> Entering new RetrievalQA chain...[0m


[1m> Entering new StuffDocumentsChain chain...[0m


[1m> Entering new LLMChain chain...[0m
Prompt after formatting:
[32;1m[1;3mUse the following pieces of context to answer the question at the end. If you don't know the answer, just say that you don't know, don't try to make up an answer.

garantia junto às centrais depositárias, mas pode investir  em fundos de investimento que podem estar  expostos aos riscos  decorrentes de aplicações 
em ativos que incorram  em depósito de margem de garantia. As informações apresentadas são  provenientes dos fundos  investidos geridos por 
instituições ligadas.As estratégias de investimento do fundo podem resultar  em perdas superiores ao capital aplicado e na consequente  obrigação do cotista de aportar 
recursos adicionais para cobrir  o prejuízo do fundo.

garantia junto às centrais depositárias, mas pode investir  em fundos de investimento que podem estar  expostos aos r

Estes métodos funcionam bem, mas na vida real precisaremos de mais flexibilidade e detalhamento no comportamento do LLM, modificando o prompt para fornecer mais instruções, ou filtrando documentos que queremos que sejam considerados.

Por isso, o melhor é usarmos as mesmas Chains utilizadas acima, mas agora podendo especificar mais detalhes. 

Vamos ver como fazer isso.

## Q/A passo a passo

### Buscando documentos pela similaridade

A busca pelos documentos que vão preencher o contexto pode utilizar estratégias distintas.

Iniciaremos com a busca por similaridade de vetores.

In [234]:
matchesSim = CassVectorStore.search(QUERY, search_type='similarity', k=4)
for i, doc in enumerate(matchesSim):
    print(f'[{i:2}]: "{doc.page_content}"')

[ 0]: "de 
07/2022
  a 
06/2023
. A taxa de despesas pode variar 
de período para período e reduz a rentabilidade do 
fundo.  O quadro com a descrição das despesas do 
fundo
 
pode ser encontrado em 
www.bradescobemdtvm.com.br
.
Ações
98,5985% do patrimônio líquido.
Operações compromissadas lastreadas em títulos públicos 
federais
0,2515% do patrimônio líquido.
Menor risco
Maior risco"
[ 1]: "líquido ao ano.
Taxa de entrada Não há
Taxa de saída Para resgatar  suas  cotas  do fundo, 
com conversão de cotas no primeiro  
dia útil   da solicitação de resgate, o  
investidor paga uma taxa de 5,00% do valor de  resgate, que é  deduzida 
diretamente do valor a ser  recebido.
Taxa de performance 20,00% do que exceder 100,00% do  
CDI
Taxa total  de despesas As despesas  pagas  pelo fundo  
representaram 2,26% do seu  
patrimônio líquido  diário médio  no 
período que vai de julho de 2022  a 
junho de 2023. A  taxa de  despesas  
pode variar de período para período  
e reduz a rentabilidade do

## Utilizando a Chain com prompt personalizado
Vamos usar estes documentos para preencher o prompt. Note que nos próximos passos iremos importar as Chains e também definir o prompt que queremos utilizar.

In [235]:
from langchain.chains.retrieval_qa.base import RetrievalQA
from langchain import PromptTemplate

In [236]:
prompt_template = """
Given the following extracted parts of a long document and a question, create a final answer with references ("SOURCES"). 
If you don't know the answer, just say that you don't know. Don't try to make up an answer.
ALWAYS return a "SOURCES" part in your answer. Answer in Portuguese.


QUESTION: {question}
=========
{summaries}
=========
FINAL ANSWER:"""
PROMPT = PromptTemplate(
    template=prompt_template, input_variables=["summaries", "question"]
)

In [237]:
retrieverSim = CassVectorStore.as_retriever(
    search_type='similarity',
    search_kwargs={
        'k': 5,
        #'filter': {"source": "./funds/RealInvFIM0623.pdf"}
    },
)
# Create a "RetrievalQA" chain
chainSim = RetrievalQA.from_chain_type(
    llm=llm,
    retriever=retrieverSim,
    chain_type_kwargs={
        'prompt': PROMPT,
        'document_variable_name': 'summaries'
    }
)
# Run it and print results
responseSim = chainSim.run(QUERY)
print(responseSim)



[1m> Entering new RetrievalQA chain...[0m


[1m> Entering new StuffDocumentsChain chain...[0m


[1m> Entering new LLMChain chain...[0m
Prompt after formatting:
[32;1m[1;3m
Given the following extracted parts of a long document and a question, create a final answer with references ("SOURCES"). 
If you don't know the answer, just say that you don't know. Don't try to make up an answer.
ALWAYS return a "SOURCES" part in your answer. Answer in Portuguese.


QUESTION: Recomende fundos com baixo risco e com retirada em d+1?
de 
07/2022
  a 
06/2023
. A taxa de despesas pode variar 
de período para período e reduz a rentabilidade do 
fundo.  O quadro com a descrição das despesas do 
fundo
 
pode ser encontrado em 
www.bradescobemdtvm.com.br
.
Ações
98,5985% do patrimônio líquido.
Operações compromissadas lastreadas em títulos públicos 
federais
0,2515% do patrimônio líquido.
Menor risco
Maior risco

líquido ao ano.
Taxa de entrada Não há
Taxa de saída Para resgatar  suas  cotas  do 

In [172]:
# manual creation of the "retriever" with the 'similarity' search type
retrieverMMR = CassVectorStore.as_retriever(
    search_type='mmr',
    search_kwargs={
        'k': 5,
        'fetch_k': 10,
        'filter': {"source": "./funds/RealInvFIM0623.pdf"}
    },
    return_source_documents=True
)

# Create a "RetrievalQA" chain
chainMMR = RetrievalQA.from_chain_type(
    llm=llm,
    retriever=retrieverMMR,
    chain_type_kwargs={
        'prompt': PROMPT,
        'document_variable_name': 'summaries'
    }
)
# Run it and print results
responseSim = chainMMR.run(QUERY)
print(responseSim)



[1m> Entering new RetrievalQA chain...[0m


[1m> Entering new StuffDocumentsChain chain...[0m


[1m> Entering new LLMChain chain...[0m
Prompt after formatting:
[32;1m[1;3m
Given the following extracted parts of a long document and a question, create a final answer with references ("SOURCES"). 
If you don't know the answer, just say that you don't know. Don't try to make up an answer.
ALWAYS return a "SOURCES" part in your answer.


QUESTION: QUal o risco do fundo?
garantia junto às centrais depositárias, mas pode investir  em fundos de investimento que podem estar  expostos aos riscos  decorrentes de aplicações 
em ativos que incorram  em depósito de margem de garantia. As informações apresentadas são  provenientes dos fundos  investidos geridos por 
instituições ligadas.As estratégias de investimento do fundo podem resultar  em perdas superiores ao capital aplicado e na consequente  obrigação do cotista de aportar 
recursos adicionais para cobrir  o prejuízo do fundo.

os ri

## Adicionando memória

In [188]:
from langchain.memory import CassandraChatMessageHistory
from langchain.memory import ConversationSummaryBufferMemory
memory_table_name = 'astra_agent_memory'

In [242]:

def get_answer(conversation_id, q):
    prompt_template = """
    Given the following extracted parts of a long document and a question, create a final answer in a very short format. 
    If you don't know the answer, just say that you don't know. Don't try to make up an answer.
    Answer in Portuguese.


    QUESTION: {question}
    =========
    {summaries}
    =========
    FINAL ANSWER:"""

    PROMPT = PromptTemplate(
        template=prompt_template, input_variables=["summaries", "question"]
    )

    message_history = CassandraChatMessageHistory(
        session_id=conversation_id,
        session= cassio.config.resolve_session(),
        keyspace= cassio.config.resolve_keyspace(),
        ttl_seconds=3600,
        table_name=memory_table_name
    )

    memory = ConversationSummaryBufferMemory(
        llm=llm,
        chat_memory=message_history,
        max_token_limit=50,
        buffer=""
    )

    retrieverSim = CassVectorStore.as_retriever(
        search_type='similarity_score_threshold',
        search_kwargs={
            'k': 5,
            'filter': {"source": "./funds/RealInvFIM0623.pdf"},
            "score_threshold": .8
        },
    )
    
    # Create a "RetrievalQA" chain
    chainSim = RetrievalQA.from_chain_type(
        llm=llm,
        retriever=retrieverSim,
        memory=memory,
        chain_type_kwargs={
            'prompt': PROMPT,
            'document_variable_name': 'summaries'
        }
    )
    
    # Run it and print results
    answer = chainSim.run(q)

    return answer

langchain.debug = True
langchain.verbose = False
res = get_answer('my_conv2',"Simule a aplicação de 1000")
print("="*20)
print(res)

[32;1m[1;3m[chain/start][0m [1m[1:chain:RetrievalQA] Entering Chain run with input:
[0m{
  "query": "Simule a aplicação de 1000",
  "history": ""
}
[32;1m[1;3m[chain/start][0m [1m[1:chain:RetrievalQA > 3:chain:StuffDocumentsChain] Entering Chain run with input:
[0m[inputs]
[32;1m[1;3m[chain/start][0m [1m[1:chain:RetrievalQA > 3:chain:StuffDocumentsChain > 4:chain:LLMChain] Entering Chain run with input:
[0m{
  "question": "Simule a aplicação de 1000",
  "summaries": "Assumindo que a última  taxa total de despesas divulgada se  mantenha constante e que  o fundo tenha rentabilidade bruta hipotética de 10% ao ano nos  \npróximos 3 e 5 anos, o retorno após  as despesas terem sido descontadas, considerando a mesma aplicação inicial de R$ 1.000,00 (mil reais), é \napresentado na  tabela abaixo:\nSIMULAÇÃO DAS DESPESAS 2026 2028\nSaldo bruto  acumulado  (hipotético - rentabilidade bruta anual de 10%) R$ 1.331,00 R$ 1.610,51\nDespesas previstas (se a  TAXA  TOTAL  DE DESPESAS se

In [264]:
from langchain.chains import ConversationalRetrievalChain

def get_answer(conversation_id, q):
    prompt_template = """
    Given the following extracted parts of a long document and a question, create a final answer in a very short format. 
    If you don't know the answer, just say that you don't know. Don't try to make up an answer.
    Answer in Portuguese.


    QUESTION: {question}
    =========
    Chat History:
    ========
    {chat_history}
    ========
    {summaries}
    =========
    FINAL ANSWER:"""

    PROMPT = PromptTemplate(
        template=prompt_template, input_variables=["summaries", "question","chat_history"]
    )

    message_history = CassandraChatMessageHistory(
        session_id=conversation_id,
        session= cassio.config.resolve_session(),
        keyspace= cassio.config.resolve_keyspace(),
        ttl_seconds=3600,
        table_name=memory_table_name
    )

    memory = ConversationSummaryBufferMemory(
        llm=llm,
        chat_memory=message_history,
        max_token_limit=50,
        buffer="",
        return_messages=True,
        memory_key="chat_history"
    )

    retrieverSim = CassVectorStore.as_retriever(
        search_type='similarity_score_threshold',
        search_kwargs={
            'k': 5,
            'filter': {"source": "./funds/RealInvFIM0623.pdf"},
            "score_threshold": .8
        },
    )

    qa = ConversationalRetrievalChain.from_llm(
        llm=llm,
        retriever = retrieverSim,
        memory=memory
    )

    answer = qa({"question": q})
    
    return answer

langchain.debug = False
langchain.verbose = True
res = get_answer('my_conv3',"Qual o rendimento?")
print("="*20)
print(res)



[1m> Entering new ConversationalRetrievalChain chain...[0m

[1m> Finished chain.[0m


[1m> Entering new LLMChain chain...[0m
Prompt after formatting:
[32;1m[1;3mProgressively summarize the lines of conversation provided, adding onto the previous summary returning a new summary.

EXAMPLE
Current summary:
The human asks what the AI thinks of artificial intelligence. The AI thinks artificial intelligence is a force for good.

New lines of conversation:
Human: Why do you think artificial intelligence is a force for good?
AI: Because artificial intelligence will help humans reach their full potential.

New summary:
The human asks what the AI thinks of artificial intelligence. The AI thinks artificial intelligence is a force for good because it will help humans reach their full potential.
END OF EXAMPLE

Current summary:


New lines of conversation:
Human: Simule a aplicação de 1000
AI:  Esta simulação não implica uma promessa de que os valores reais ou esperados das despesas ou do

In [254]:
message_history = CassandraChatMessageHistory(
        session_id='my_conv1',
        session= cassio.config.resolve_session(),
        keyspace= cassio.config.resolve_keyspace(),
        ttl_seconds=3600,
        table_name=memory_table_name
    )

memory = ConversationSummaryBufferMemory(
        llm=llm,
        chat_memory=message_history,
        max_token_limit=50,
        buffer="",
        return_messages=True
    )

AttributeError: 'ConversationSummaryBufferMemory' object has no attribute 'messages'