# Chatbot - Q&A sobre mulheres importantes para o mundo.

Esse notebook implementa um chatbot simples de perguntas e respostas que utiliza um retriever conectado a um LLM e que responde uma pergunta de acordo com as perguntas e respostas do dataset armazenado em um VectorStore.

**Projeto feito para o WorkShop ADAs.**

**Autora:** Fernanda Bufon

**Inspiração:** [Código do Github](https://github.com/codebasics/langchain/tree/main/3_project_codebasics_q_and_a).

### Instalando e Importanto as Bibliotecas:

In [None]:
!pip install langchain python-dotenv streamlit tiktoken faiss-cpu protobuf langchain-google-genai rich langchain-community> /dev/null

In [None]:
!pip install -Uq langchain-community

In [None]:
from google.colab import userdata
from langchain_google_genai import ChatGoogleGenerativeAI
from rich import print
from rich.panel import Panel
from langchain.chains import RetrievalQA
from langchain.document_loaders.csv_loader import CSVLoader
from langchain_google_genai import GoogleGenerativeAIEmbeddings
from langchain.vectorstores import FAISS
from langchain.prompts import PromptTemplate


## Setando a API-KEY:

Certifique-se de obter uma chave de API no [MakerSuite](https://makersuite.google.com/) e armazená-la em uma variável de ambiente ou no Google Colab.


Essa chave nos dá acesso ao modelo da Google.

In [None]:
api_key = 'AIzaSyAaNE0JqVF4a3ls4Q-v3bNpT6nKcwhe86k'

## Baixando e entendendo os dados disponíveis:

Baixando os arquivos do Drive.

In [None]:
!gdown 18stefpeOzC0Op72gZs-c7q9JRnlErQIs

Downloading...
From: https://drive.google.com/uc?id=18stefpeOzC0Op72gZs-c7q9JRnlErQIs
To: /content/qa_women.csv
  0% 0.00/48.7k [00:00<?, ?B/s]100% 48.7k/48.7k [00:00<00:00, 79.1MB/s]


In [None]:
import pandas as pd
data = "/content/qa_women.csv"

In [None]:
data = pd.read_csv(data)

In [None]:
data.head(5)

Unnamed: 0,question,answer
0,quem e daiane dos santos?,daiane dos santos e uma ginasta artistica bras...
1,qual foi a principal conquista de daiane dos s...,a principal conquista de daiane foi a medalha ...
2,em que modalidade daiane dos santos se destacou?,"ela se destacou na ginastica artistica, especi..."
3,daiane dos santos foi a primeira brasileira a ...,daiane dos santos foi a primeira brasileira a ...
4,qual foi o feito historico de daiane dos santo...,ela fez historia ao se tornar campea mundial d...


In [None]:
data.tail(5)

Unnamed: 0,question,answer
276,quando marie curie faleceu?,marie curie faleceu em 4 de julho de 1934.
277,o que causou a morte de marie curie?,"marie curie morreu de anemia aplastica, causad..."
278,como marie curie contribuiu para a ciencia dur...,"durante a primeira guerra mundial, marie curie..."
279,em que ano marie curie foi laureada com o segu...,ela foi laureada com o segundo premio nobel em...
280,quem e telma woerle?,Professora do Instituto de Informatica da Univ...


O `CSVLoader` é uma ferramenta fornecida pela biblioteca Langchain. O método `load()` carrega os dados do arquivo CSV em documentos que podem ser utilizados posteriormente no processo de recuperação (retrieval) para encontrar as informações relevantes e gerar respostas a partir delas.

In [None]:
loader = CSVLoader(file_path='/content/qa_women.csv', source_column="question", encoding="ISO-8859-1")

# Armazenar os dados do loader na variável data
data = loader.load()

In [None]:
data[1]

Document(metadata={'source': 'qual foi a principal conquista de daiane dos santos no esporte?', 'row': 1}, page_content='question: qual foi a principal conquista de daiane dos santos no esporte?\nanswer: a principal conquista de daiane foi a medalha de ouro no campeonato mundial de ginastica em 2003.')

In [None]:
data[1].page_content

'question: qual foi a principal conquista de daiane dos santos no esporte?\nanswer: a principal conquista de daiane foi a medalha de ouro no campeonato mundial de ginastica em 2003.'

Como podemos observar, nossos dados estão organizados em **documentos**. No `Langchain`, um `Document` é uma estrutura que encapsula um pedaço de texto junto com suas metadados. Ele é utilizado para organizar e armazenar informações de maneira que possam ser processadas eficientemente por modelos de linguagem e sistemas de recuperação de informações.

In [None]:
len(data)

281

## Embeddings:

Temos que transofrmar as perguntas e respostas em algo que o computador entenda para que seja possível calcular a similaridade entre eles. Para retornar os documentos mais semelhantes, geralmente é feito a similaridade do cosseno entre vetores ou o agrupamento em um espaço vetorial. Portanto, precisamos de uma função que transforme nossa frase em um vetor que represente as características principais dela.

A biblioteca `langchain`possui integração com várias ferramentas que fazem essa transformação, ou seja, que criam os **embeddings** das frases.

In [None]:
# Initialize instructor embeddings using the Hugging Face model
embeddings = GoogleGenerativeAIEmbeddings(model="models/embedding-001", google_api_key = api_key)

e = embeddings.embed_query("Quem foi Ada?")

Para gerar os embeddings, estamos utilizando o modelo do google `embedding-001`, que é um modelo que foi treinado para transformar textos em vetores de maneira que frases semanticamente semelhantes gerem vetores próximos entre si.

In [None]:
len(e)

768

Como podemos observar, nossa pergunta agora é um vetor de 768 posições.

In [None]:
e[:5]

[0.03649556264281273,
 -0.032195139676332474,
 -0.042180150747299194,
 0.0017108566826209426,
 0.02810833416879177]

## Criando um vector database:

Um VectorStore (ou banco de vetores) é uma estrutura de dados que armazena vetores gerados a partir dos embeddings. Esses vetores representam as informações de maneira que o sistema possa realizar buscas eficientes por similaridade entre as perguntas e os documentos armazenados. Usamos um VectorStore para garantir que, ao receber uma pergunta, o sistema possa encontrar os documentos mais relevantes com base nos vetores correspondentes.

In [None]:
vectordb = FAISS.from_documents(documents=data,
                                 embedding=embeddings)

O FAISS (Facebook AI Similarity Search) é uma implementação popular de um vector database usada no Langchain, que permite armazenar e consultar embeddings rapidamente.

## Criando um Retriever:

Um retriever é responsável por buscar documentos relevantes a partir de uma vector database, com base em uma pergunta ou query fornecida. O retriever utiliza a similaridade entre os vetores de embeddings para encontrar os documentos mais adequados, retornando aqueles com a maior similaridade (ou seja, aqueles que provavelmente contêm as respostas desejadas).


Quando uma query (consulta) é fornecida, o retriever converte essa query em um vetor de embeddings usando o mesmo modelo de embeddings que foi aplicado aos documentos previamente indexados no banco de vetores.

In [None]:
# Qual threshold devo colocar?
retriever = vectordb.as_retriever(score_threshold = 0.7)

Agora que criamos um retriever responsável por retornar os documentos com score de similaridade acima de 0.7, vamos testar suas respostas:

In [None]:
# Exemplo: Quem é Daiane dos santos? O que ela fazia? O que ela ganhou em 2003? Onde ela nasceu?

responses = retriever.invoke("Quem é Daiane dos santos? O que ela fazia? O que ela ganhou em 2003? Onde ela nasceu?") # .invoke é responsável por enviar a query para o retriever.
responses

[Document(metadata={'source': 'quem e daiane dos santos?', 'row': 0}, page_content='question: quem e daiane dos santos?\nanswer: daiane dos santos e uma ginasta artistica brasileira, conhecida por suas conquistas internacionais no esporte.'),
 Document(metadata={'source': 'qual foi a principal conquista de daiane dos santos no esporte?', 'row': 1}, page_content='question: qual foi a principal conquista de daiane dos santos no esporte?\nanswer: a principal conquista de daiane foi a medalha de ouro no campeonato mundial de ginastica em 2003.'),
 Document(metadata={'source': 'daiane dos santos foi a primeira ginasta brasileira a conseguir o que em uma competicao internacional?', 'row': 10}, page_content='question: daiane dos santos foi a primeira ginasta brasileira a conseguir o que em uma competicao internacional?\nanswer: ela foi a primeira ginasta brasileira a conquistar uma medalha de ouro em uma competicao mundial de ginastica.'),
 Document(metadata={'source': 'em quais jogos olimpic

In [None]:
responses[0]

Document(metadata={'source': 'quem e daiane dos santos?', 'row': 0}, page_content='question: quem e daiane dos santos?\nanswer: daiane dos santos e uma ginasta artistica brasileira, conhecida por suas conquistas internacionais no esporte.')

## Instanciando um LLM:

O Retriever está funcionando e está retornando os documentos mais parecidos com as nossas perguntas. Contudo, ele não nos dá uma resposta, apenas retorna documentos. E, quando fizemos mais de uma pergunta, ele nos retorna os documentos parecidos (e não a resposta em si que queremos).

Por isso, vamos conectar nosso Retriever a um LLM, que vai receber a pergunta (nossa query), olhar os documentos que contém perguntas parecidas e as respostas dessas perguntas para gerar uma resposta melhor, com uma linguagem mais natural.

Vamos utilizar o modelo Gemini do Google. Seu uso é limitado, porém gratuito. Ao instanciá-lo, temos os seguintes parâmetros:

- `api_key`: A chave de API necessária para autenticação e uso do modelo do Google.
- `model`: O nome do modelo a ser utilizado (neste caso, "gemini-1.5-pro").
- `temperature`: Controla a aleatoriedade das respostas geradas pelo modelo, ou seja, o quão "ousado" e "criativo" o modelo será. Valores mais baixos resultam em respostas mais determinísticas.
- `max_tokens`: O número máximo de tokens que a resposta pode ter. Quando definido como `None`, o limite é determinado automaticamente pelo modelo.
- `timeout`: O tempo máximo de espera para o processamento de uma consulta.
- `max_retries`: O número máximo de tentativas que o sistema faz em caso de falhas durante a geração da resposta.


In [None]:
# Modelos disponíveis: gemini-1.5-flash gemini-1.5-pro
# Temperature: Qual número entre 0 e 1 devemos escolher e quais as implicações dessa escolha?

llm = ChatGoogleGenerativeAI(
    api_key = api_key,
    model="gemini-1.5-flash",
    temperature=0.4,
    max_tokens=None,
    timeout=None,
    max_retries=2,
)

Vamos testar se nosso LLM está funcionando corretamente:

In [None]:
response = llm.invoke([{"role": "user", "content": "Fale mais sobre você."}])

No contexto da API de um modelo de linguagem como o Google Generative AI, a estrutura `{"role": "user", "content": "..."}` é utilizada para definir a natureza da interação e o conteúdo da mensagem.

- **`role`:** O campo `"role"` indica o papel do participante na interação. No caso `"role": "user"`, significa que a mensagem foi enviada pelo usuário. Outros papéis possíveis podem incluir `"assistant"` (resposta gerada pelo modelo) ou `"system"` (instruções ou contexto fornecido ao modelo).
  
- **`content`:** O campo `"content"` contém o texto da mensagem em si, ou seja, a consulta ou a pergunta que o usuário está fazendo.

Essa estrutura é importante porque permite ao modelo entender o contexto da interação e diferenciar entre o que foi enviado pelo usuário e o que deve ser gerado como resposta. Isso ajuda o modelo a responder de maneira adequada com base nas instruções e consultas fornecidas.

Vamos utilizar o Panel.fit para deixar a saída formatada de um jeito mais legível:

In [None]:
# O 'response' provavelmente é um objeto de mensagem, então acessamos o conteúdo diretamente.
content = response.content  # Acessa o conteúdo da mensagem

# Criando um painel para formatar a resposta com borda
print(Panel.fit(content, title="Resposta do LLM", border_style="green"))

## Integrando LLM com o Retriever:

Agora, vamos criar uma "cadeia" (chain) do LangChain, por meio do RetrievalQA.

Em Langchain, uma cadeia (chain) é uma sequência de etapas ou operações conectadas que processam dados de forma integrada e sequencial. Cada etapa da cadeia recebe uma entrada, processa essa entrada de acordo com a lógica definida, e passa a saída para a próxima etapa.

O RetrievalQA integra um LLM com um retriever. Ele faz o processo de busca de documentos relevantes usando o retriever e, em seguida, utiliza o LLM para processar os documentos e gerar uma resposta final com base nos dados recuperados.

In [None]:
from langchain.chains import RetrievalQA

# Teste o chain_type = "stuff" ou "map_reduce"


chain = RetrievalQA.from_chain_type(llm=llm,
                            chain_type="stuff",
                            retriever=retriever,
                            input_key="query",
                            return_source_documents=True,
                            chain_type_kwargs=None)

Os parâmetros da cadeia são:

* `llm`: O modelo de linguagem (LLM) usado para gerar a resposta final a partir dos documentos recuperados.
* `chain_type`: Define como os documentos serão processados. `"stuff"` indica que todos os documentos são empacotados juntos em um único prompt para o LLM.
* `retriever`: O componente que busca documentos relevantes para a consulta feita pelo usuário.
* `input_key`: Especifica a chave que contém a consulta do usuário. Aqui, é chamada de `"query"`.
* `return_source_documents`: Se definido como `True`, retorna os documentos utilizados pelo LLM para gerar a resposta, além da própria resposta.
* `chain_type_kwargs`: Parâmetros adicionais para ajustar o comportamento da cadeia, como limites de tokens ou configurações específicas.

Vamos testar se nosso modelo está funcionando:

In [None]:
# Exemplo: Quem é Daiane dos santos? O que ela fazia? O que ela ganhou em 2003? Onde ela nasceu?
response = chain.invoke("Quem é Daiane dos santos? O que ela fazia? O que ela ganhou em 2003? Onde ela nasceu")
print(response)

## Melhorando a visualização da resposta:

In [None]:
# Extraia a query e o result
query = response['query']
result = response['result']

# Exibir a query e o result com as palavras em negrito
formatted_text = f"\n[bold]Query:[/bold] {query}\n\n[bold]Result:[/bold] {result}"

# Exibir o painel formatado
print(Panel.fit(formatted_text, title="Resposta do LLM", border_style="green"))

## Criando um chatbot que aceita mais de uma pergunta por meio de um loop.

Agora, chegou a hora de integrarmos tudo em um código que faça com que o processo seja mais interativo.

In [None]:
# Loop para perguntas contínuas
while True:
    # Solicita a pergunta do usuário
    pergunta = input("Digite sua pergunta (ou 'sair' para encerrar): ")

    # Verifica se o usuário deseja sair
    if pergunta.lower() == 'sair':
        print("Encerrando o sistema de perguntas.")
        break

    # Invoca o sistema de QA com a pergunta
    response = chain.invoke(pergunta)

    # Extraia a query e o result
    query = response['query']
    result = response['result']

    # Exibir a query e o result com as palavras em negrito
    formatted_text = f"\n[bold]Query:[/bold] {query}\n\n[bold]Result:[/bold] {result}"

    # Exibir o painel formatado
    print(Panel.fit(formatted_text, title="Resposta do LLM", border_style="green"))


Digite sua pergunta (ou 'sair' para encerrar): quem é daiane dos santos?


Digite sua pergunta (ou 'sair' para encerrar): quem é fernanda bufon?


Digite sua pergunta (ou 'sair' para encerrar): quem é gustavo lima?


Digite sua pergunta (ou 'sair' para encerrar): faça um código que some dois números


Digite sua pergunta (ou 'sair' para encerrar): sair


Nosso LLM está utilizando nossos documentos retornados pelo retriever para dar as respostas. Contudo, temos um grande problema: **alucinações**.

Quando o LLM não encontra nada relacionado ao documento, ele pode inventar alguma informação falsa. Além disso, pode ser que o modelo responda perguntas ou comandos que não estão no escopo do nosso chatbot. Para evitar esses problemas, utilizamos o **prompt_template**.

Primeiramente, vamos criar nosso prompt, que é essencial para orientar o modelo de linguagem sobre como processar as informações retornadas pelo retriever. O prompt funciona como um conjunto de instruções claras que definem como o modelo deve interpretar os documentos recuperados e formular sua resposta.

In [None]:
prompt_template = """
Dado o CONTEXTO fornecido e a PERGUNTA, gere uma resposta com base exclusivamente neste contexto. Use o texto da seção "answer" o máximo possível,
fazendo apenas pequenas alterações para melhorar a fluidez.
Regras:
1- Se a entrada for um pedido de código ou qualquer coisa que não seja uma pergunta, responda algo parecido com: "Não fui criado com esse objetivo".
2- Se o contexto não for suficiente ou não houver correspondência relevante, diga algo parecido com: "Não tenho informações suficientes para responder".
3- Se a pergunta contiver erros de digitação e não retornar resultados, responda algo parecido com: "Verifique se há erros de digitação e tente novamente".
4- Não invente respostas. Limite-se ao conteúdo do contexto.
5- Se houver um nome incorreto ou incompleto na pergunta, forneça a resposta disponível no contexto.
CONTEXTO: {context}
PERGUNTA: {question}
"""

# Obs: aqui, estamos deixando claro que o prompt vai mudar de acordo com o contexto e com a pergunta.
PROMPT = PromptTemplate(
    template=prompt_template, input_variables=["context", "question"]
)
chain_type_kwargs = {"prompt": PROMPT}

- O **`PromptTemplate`** organiza nosso prompt, especificando as variáveis a serem preenchidas (`context` e `question`).

- O **`chain_type_kwargs`** é um dicionário que passa esse `PROMPT` para a cadeia (chain) quando ela for executada, permitindo que o LLM gere a resposta baseada no template preenchido com o contexto e a pergunta.

In [None]:
from langchain.chains import RetrievalQA

# Aqui, o chain vai incluir o prompt com a question e o context de forma interna
chain2 = RetrievalQA.from_chain_type(llm=llm,
                            chain_type="stuff",
                            retriever=retriever,
                            input_key="query",
                            return_source_documents=True,
                            chain_type_kwargs=chain_type_kwargs)

Agora temos um chatbot que é focado em responder perguntas sobre mulheres importantes para a sociedade e que não alucina se não souber a resposta de algo.

In [None]:
# Loop para perguntas contínuas
while True:
    # Solicita a pergunta do usuário
    pergunta = input("Digite sua pergunta (ou 'sair' para encerrar): ")

    # Verifica se o usuário deseja sair
    if pergunta.lower() == 'sair':
        print("Encerrando o sistema de perguntas.")
        break

    # Invoca o sistema de QA com a pergunta
    response = chain2.invoke(pergunta)

    # Extraia a query e o result
    query = response['query']
    result = response['result']

    # Exibir a query e o result com as palavras em negrito
    formatted_text = f"\n[bold]Query:[/bold] {query}\n\n[bold]Result:[/bold] {result}"

    # Exibir o painel formatado
    print(Panel.fit(formatted_text, title="Resposta do LLM", border_style="green"))


Digite sua pergunta (ou 'sair' para encerrar): quem é gustavo lima?


Digite sua pergunta (ou 'sair' para encerrar): quem foi Ada?


Digite sua pergunta (ou 'sair' para encerrar): o que a Carmem Miramda fazia?


Digite sua pergunta (ou 'sair' para encerrar): faça um código em python que some dois números


Digite sua pergunta (ou 'sair' para encerrar): onde tarsila do amaral nasceu?


Digite sua pergunta (ou 'sair' para encerrar): quem foi tarsila do amaral?


Digite sua pergunta (ou 'sair' para encerrar): o que ganhou dayane dos santos?


Digite sua pergunta (ou 'sair' para encerrar): sair
