## üìå Como Configurar um Chatbot Estruturado com RAG no LangChain

Agora, vamos configurar um pipeline de RAG para seu chatbot.

### Passo 1: Criando a Base de Conhecimento (LOCAL)

Agora, vamos configurar um pipeline de RAG para seu chatbot.



In [None]:
!pip install faiss-cpu

In [None]:
!pip install tiktoken

In [1]:
from langchain_community.vectorstores import FAISS
from langchain_community.embeddings import OllamaEmbeddings
from langchain.schema import Document

# Criando documentos para o FAISS
documentos = [
    Document(page_content="Nosso suporte est√° dispon√≠vel de segunda a sexta, das 9h √†s 18h."),
    Document(page_content="O reembolso pode ser solicitado em at√© 7 dias ap√≥s a compra."),
    Document(page_content="Para falar com um atendente, envie um e-mail para suporte@empresa.com."),
]

# Usando embeddings locais com Ollama (modelo Mistral)
vectorstore = FAISS.from_documents(documentos, OllamaEmbeddings(model="mistral"))

print("Banco de vetores criado com sucesso usando Mistral!")


  vectorstore = FAISS.from_documents(documentos, OllamaEmbeddings(model="mistral"))


Banco de vetores criado com sucesso usando Mistral!


‚úÖ Isso cria um banco de vetores com informa√ß√µes do suporte ao cliente.

### Passo 2: Criando o Chatbot RAG (LOCAL)

Agora, criamos um agente que busca respostas antes de responder:

In [2]:
from langchain.chains import RetrievalQA
from langchain_community.llms import Ollama  # Import correto para Ollama

llm = Ollama(model="mistral")

# Criando a cadeia de perguntas e respostas com recupera√ß√£o de contexto
qa = RetrievalQA.from_chain_type(
    llm=llm,
    retriever=vectorstore.as_retriever()
)

# Fazendo uma pergunta ao chatbot
pergunta = "Qual o hor√°rio de atendimento?"
resposta = qa.run(pergunta)

print("Resposta do Chatbot:", resposta)


  llm = Ollama(model="mistral")
  resposta = qa.run(pergunta)


Resposta do Chatbot:  O hor√°rio de atendimento √© de segunda a sexta, das 9h √†s 18h.


### Passo 2.1: Criando o Chatbot RAG (VIA API)

Agora, criamos um agente que busca respostas antes de responder:

#### Conclus√£o

Qual LLM Escolher?

![taela_llm](taela_llm.png)

- ‚úÖ Se precisar de um chatbot local, v√° de Mistral 7B ou LLaMA 3.
- ‚úÖ Se precisar de alta precis√£o, use GPT-4 Turbo ou Cohere API.

### Passo 2.1: Criando o Chatbot RAG (VIA API)

Agora, criamos um agente que busca respostas antes de responder:

In [3]:
import os
from langchain_community.llms import HuggingFaceHub
from langchain_community.vectorstores import FAISS
from langchain_community.embeddings import OllamaEmbeddings  # ou SentenceTransformersEmbeddings
from langchain.chains import RetrievalQA
from langchain.schema import Document


# 2. Instanciar o modelo LLM via Hugging Face
llm = HuggingFaceHub(
    repo_id="mistralai/Mistral-7B-Instruct-v0.2",
    model_kwargs={"temperature": 0.7, "max_length": 512},
    huggingfacehub_api_token=os.getenv("HUGGINGFACEHUB_API_TOKEN")
)

# 3. Criar os documentos de conhecimento
documentos = [
    Document(page_content="Nosso suporte est√° dispon√≠vel de segunda a sexta, das 9h √†s 18h."),
    Document(page_content="O reembolso pode ser solicitado em at√© 7 dias ap√≥s a compra."),
    Document(page_content="Para falar com um atendente, envie um e-mail para suporte@empresa.com."),
]

# 4. Gerar embeddings e criar o FAISS
embedding_function = OllamaEmbeddings(model="mistral")  # ou outro modelo local
vectorstore = FAISS.from_documents(documentos, embedding=embedding_function)

# 5. Criar o pipeline RAG com RetrievalQA
qa_chain = RetrievalQA.from_chain_type(
    llm=llm,
    retriever=vectorstore.as_retriever(),
    return_source_documents=True
)

# 6. Fazer uma pergunta
pergunta = "Como posso entrar em contato com o suporte?"
resposta = qa_chain.invoke(pergunta)

print("üîé Resposta:", resposta["result"])
print("üìÑ Fonte(s):", [doc.page_content for doc in resposta["source_documents"]])


  llm = HuggingFaceHub(
  from .autonotebook import tqdm as notebook_tqdm


üîé Resposta: Use the following pieces of context to answer the question at the end. If you don't know the answer, just say that you don't know, don't try to make up an answer.

Nosso suporte est√° dispon√≠vel de segunda a sexta, das 9h √†s 18h.

O reembolso pode ser solicitado em at√© 7 dias ap√≥s a compra.

Para falar com um atendente, envie um e-mail para suporte@empresa.com.

Question: Como posso entrar em contato com o suporte?
Helpful Answer: Voc√™ pode entrar em contato com o suporte enviando um e-mail para suporte@empresa.com. O suporte est√° dispon√≠vel de segunda a sexta, das 9h √†s 18h. Se voc√™ quiser solicitar um reembolso, fa√ßa isso dentro dos 7 primeiros dias ap√≥s a compra.
üìÑ Fonte(s): ['Nosso suporte est√° dispon√≠vel de segunda a sexta, das 9h √†s 18h.', 'O reembolso pode ser solicitado em at√© 7 dias ap√≥s a compra.', 'Para falar com um atendente, envie um e-mail para suporte@empresa.com.']


‚ùì O embedding precisa ser feito com modelo local?
N√£o. Voc√™ pode usar modelos de embeddings remotos tamb√©m! üöÄ

LangChain permite que voc√™ escolha entre modelos locais ou via API para gerar os vetores de embedding. Tudo depende de custo, privacidade, velocidade e conectividade.

Se quiser usar embeddings da Hugging Face tamb√©m (em vez do OllamaEmbeddings), troque para:



In [None]:
from langchain_community.embeddings import HuggingFaceEmbeddings
embedding_function = HuggingFaceEmbeddings(model_name="all-MiniLM-L6-v2")

‚úÖ Resumo: posso usar...

![tabela.png](tabela.png)

#### üöÄ Agora voc√™ tem:

Um modelo remoto (HuggingFaceHub) ou local (Mistral).

Embeddings locais ou remotos.

Um pipeline completo de RAG.

Pronto para integrar com imagem, consulta com cliente final e muito mais!

## Passo 3: Personaliza√ß√£o de Chatbots

Por que personalizar um chatbot?

- Humaniza√ß√£o no atendimento.
- Manter a identidade e o tom da marca.
- Transmitir confian√ßa e profissionalismo.

üìå Exemplo:

Compare as duas frases de uma I.A.:

‚ùå Gen√©rico: ‚ÄúN√£o sei, tente outra pergunta.‚Äù

‚úÖ Profissional: ‚ÄúAinda n√£o tenho essa informa√ß√£o, mas posso te encaminhar ao setor respons√°vel. Deseja prosseguir?‚Äù

### 3.1 Criando um Perfil de Funcion√°rio para o Chatbot 

Estrat√©gia: Vamos criar um prompt-base com instru√ß√µes claras para a LLM responder como um funcion√°rio da empresa.

Exemplo de system_prompt personalizado:

In [None]:
system_prompt = """
Voc√™ √© um atendente virtual da empresa TechSolutions. 
Seu papel √© responder de forma clara, educada e objetiva, 
como se fosse um funcion√°rio treinado no setor de suporte ao cliente.

- Use uma linguagem formal e acolhedora.
- Se a resposta n√£o for encontrada na base de conhecimento, oriente o usu√°rio a entrar em contato pelo e-mail suporte@techsolutions.com.
- Nunca invente informa√ß√µes. Seja honesto e direto.
"""


‚úÖ VERS√ÉO 1 Usando LLM local com Ollama (modelo mistral)

```python
from langchain_community.llms import Ollama
from langchain.chains import ConversationalRetrievalChain
from langchain.prompts import ChatPromptTemplate

# 1. Usando modelo local com Ollama (instale e rode com: `ollama run mistral`)
llm = Ollama(model="mistral")

# 2. Definindo o prompt personalizado
system_prompt = "Voc√™ √© um assistente inteligente que sempre responde em portugu√™s."

prompt_template = ChatPromptTemplate.from_messages([
    ("system", system_prompt),
    ("human", "{question}")
])
...
```



‚úÖ VERS√ÉO 2 ‚Äì Usando LLM da Hugging Face (mistralai/Mistral-7B-Instruct-v0.2)

```python
from langchain_community.llms import HuggingFaceHub
from langchain.chains import ConversationalRetrievalChain
from langchain.prompts import ChatPromptTemplate
import os

# 1. Instanciar o LLM via Hugging Face Hub
llm = HuggingFaceHub(
    repo_id="mistralai/Mistral-7B-Instruct-v0.2",
    model_kwargs={"temperature": 0, "max_length": 512},
    huggingfacehub_api_token=os.getenv("HUGGINGFACEHUB_API_TOKEN")
)

# 2. Prompt personalizado
system_prompt = "Voc√™ √© um assistente inteligente que sempre responde em portugu√™s."

prompt_template = ChatPromptTemplate.from_messages([
    ("system", system_prompt),
    ("human", "{question}")
])
...
```

### 3.2 Personalizando as Respostas com a Base de Conhecimento



‚úÖ VERS√ÉO 1 ‚Äì Usando embeddings locais com Ollama (modelo mistral)

```python
from langchain_community.vectorstores import FAISS
from langchain_community.embeddings import OllamaEmbeddings
from langchain.schema import Document

# Documentos de entrada
documentos = [
    Document(page_content="Prezados clientes, nosso prazo de reembolso √© de at√© 7 dias √∫teis ap√≥s a solicita√ß√£o."),
    Document(page_content="O atendimento funciona de segunda a sexta-feira, das 9h √†s 18h."),
    Document(page_content="Para segunda via de boleto, entre em contato pelo nosso portal ou e-mail.")
]

# Embeddings com modelo local via Ollama (precisa rodar: `ollama run mistral`)
embedding_function = OllamaEmbeddings(model="mistral")

# Cria√ß√£o do vetor FAISS
vectorstore = FAISS.from_documents(documentos, embedding=embedding_function)


‚úÖ VERS√ÉO 2 ‚Äì Usando embeddings da Hugging Face via API (ex: all-MiniLM-L6-v2)

```python
from langchain_community.vectorstores import FAISS
from langchain_community.embeddings import HuggingFaceInferenceAPIEmbeddings
from langchain.schema import Document
import os

# Configure sua chave da Hugging Face
os.environ["HUGGINGFACEHUB_API_TOKEN"] = "sua_chave_aqui"

# Documentos de entrada
documentos = [
    Document(page_content="Prezados clientes, nosso prazo de reembolso √© de at√© 7 dias √∫teis ap√≥s a solicita√ß√£o."),
    Document(page_content="O atendimento funciona de segunda a sexta-feira, das 9h √†s 18h."),
    Document(page_content="Para segunda via de boleto, entre em contato pelo nosso portal ou e-mail.")
]

# Embeddings via Hugging Face API (modelo leve e gratuito)
embedding_function = HuggingFaceInferenceAPIEmbeddings(
    api_key=os.getenv("HUGGINGFACEHUB_API_TOKEN"),
    model_name="sentence-transformers/all-MiniLM-L6-v2"
)

# Cria√ß√£o do vetor FAISS
vectorstore = FAISS.from_documents(documentos, embedding=embedding_function)

```


### 3.3 Finaliza√ß√£o com mont√°gem da cadeia com contexto + estilo profissional

‚úÖ O chatbot agora responder√° com base na base de conhecimento e no tom de voz definido.

In [None]:
from langchain.memory import ConversationBufferMemory
from langchain.chains import ConversationalRetrievalChain

memory = ConversationBufferMemory(memory_key="chat_history", return_messages=True)

chatbot = ConversationalRetrievalChain.from_llm(
    llm=llm,
    retriever=vectorstore.as_retriever(),
    memory=memory,
    combine_docs_chain_kwargs={"prompt": prompt_template}
)


C√≥digo finalizado:

‚úÖ VERS√ÉO 1 ‚Äì Usando LLM local com Ollama + embeddings com Ollama

In [None]:
from langchain_community.llms import Ollama
from langchain_community.embeddings import OllamaEmbeddings
from langchain_community.vectorstores import FAISS
from langchain.memory import ConversationBufferMemory
from langchain.chains import ConversationalRetrievalChain
from langchain.prompts import ChatPromptTemplate
from langchain.schema import Document

# 1. LLM local via Ollama
llm = Ollama(model="mistral", temperature=0)

# 2. Embeddings com modelo local via Ollama
embedding_function = OllamaEmbeddings(model="mistral")

# 3. Base de conhecimento
documentos = [
    Document(page_content="Prezados clientes, nosso prazo de reembolso √© de at√© 7 dias √∫teis ap√≥s a solicita√ß√£o."),
    Document(page_content="O atendimento funciona de segunda a sexta-feira, das 9h √†s 18h."),
    Document(page_content="Para segunda via de boleto, entre em contato pelo nosso portal ou e-mail.")
]
vectorstore = FAISS.from_documents(documentos, embedding_function)

# 4. Mem√≥ria da conversa
memory = ConversationBufferMemory(memory_key="chat_history", return_messages=True)

# 5. Prompt
system_prompt = "Voc√™ √© um atendente educado e eficiente que responde sempre em portugu√™s."
prompt_template = ChatPromptTemplate.from_messages([
    ("system", system_prompt),
    ("human", "{question}")
])

# 6. Cadeia de conversa com RAG
chatbot = ConversationalRetrievalChain.from_llm(
    llm=llm,
    retriever=vectorstore.as_retriever(),
    memory=memory,
    combine_docs_chain_kwargs={"prompt": prompt_template}
)

# 7. Consulta
pergunta = "Como posso pedir a segunda via do boleto?"
resposta = chatbot.invoke({"question": pergunta})
print("üß† Resposta:", resposta["answer"])


‚úÖ VERS√ÉO 2 ‚Äì Usando LLM da Hugging Face (via API) + embeddings via HF API

In [None]:
import os
from langchain_community.llms import HuggingFaceHub
from langchain_community.embeddings import HuggingFaceInferenceAPIEmbeddings
from langchain_community.vectorstores import FAISS
from langchain.memory import ConversationBufferMemory
from langchain.chains import ConversationalRetrievalChain
from langchain.prompts import ChatPromptTemplate
from langchain.schema import Document

# 1. Configurar chave da Hugging Face
os.environ["HUGGINGFACEHUB_API_TOKEN"] = "sua_chave_aqui"

# 2. LLM da Hugging Face (API)
llm = HuggingFaceHub(
    repo_id="mistralai/Mistral-7B-Instruct-v0.2",
    model_kwargs={"temperature": 0, "max_length": 512},
    huggingfacehub_api_token=os.getenv("HUGGINGFACEHUB_API_TOKEN")
)

# 3. Embeddings via HF Inference API
embedding_function = HuggingFaceInferenceAPIEmbeddings(
    api_key=os.getenv("HUGGINGFACEHUB_API_TOKEN"),
    model_name="sentence-transformers/all-MiniLM-L6-v2"
)

# 4. Base de documentos
documentos = [
    Document(page_content="Prezados clientes, nosso prazo de reembolso √© de at√© 7 dias √∫teis ap√≥s a solicita√ß√£o."),
    Document(page_content="O atendimento funciona de segunda a sexta-feira, das 9h √†s 18h."),
    Document(page_content="Para segunda via de boleto, entre em contato pelo nosso portal ou e-mail.")
]
vectorstore = FAISS.from_documents(documentos, embedding_function)

# 5. Mem√≥ria de conversa√ß√£o
memory = ConversationBufferMemory(memory_key="chat_history", return_messages=True)

# 6. Prompt personalizado
system_prompt = "Voc√™ √© um atendente educado e eficiente que responde sempre em portugu√™s."
prompt_template = ChatPromptTemplate.from_messages([
    ("system", system_prompt),
    ("human", "{question}")
])

# 7. Cadeia conversacional RAG
chatbot = ConversationalRetrievalChain.from_llm(
    llm=llm,
    retriever=vectorstore.as_retriever(),
    memory=memory,
    combine_docs_chain_kwargs={"prompt": prompt_template}
)

# 8. Pergunta do usu√°rio
pergunta = "Como posso pedir a segunda via do boleto?"
resposta = chatbot.invoke({"question": pergunta})
print("üß† Resposta:", resposta["answer"])
