## 📌 Rodando Modelos LLM Locais com LLaMA e LangChain

- Para rodar LLMs no próprio computador sem depender de APIs.

- Instalando o Ollama (para rodar LLaMA localmente)

### Passo a passo para isntalar o ollama localmente:


- Acesse o site https://ollama.com
- Baixe o instalador de LLMs
- Instale na máquina
- Escolha a LLM que irá usar
- Instale a LLM no bash do Ollama

In [None]:
!pip install langchain langchain-community

#### 🔹 Mistral 7B / Mixtral

- Pontos fortes: Ótimo para conversação e respostas estruturadas.
- Onde encontrar: Disponível no Ollama (ollama pull mistral).
- Ideal para: Chatbots empresariais e suporte técnico.

Como usar no LangChain:

In [None]:
from langchain.llms import Ollama

# Inicializando a LLM local
llm = Ollama(model="mistral")
resposta = llm("Quem descobriu o Brasil?")
print(resposta)


#### 🔹 LLaMA 3 (Meta)

- Pontos fortes: Ótima compreensão de contexto e menor consumo de memória.
- Onde encontrar: Disponível via Ollama (ollama pull llama3).

Como usar no LangChain:


In [None]:
from langchain.llms import Ollama

# Inicializando a LLM local
llm = Ollama(model="llama3")
resposta = llm("O que é NLP?")
print(resposta)

## 📌 Como Configurar um Chatbot Estruturado com RAG no LangChain

Agora, vamos configurar um pipeline de RAG para seu chatbot.

### Passo 1: Criando a Base de Conhecimento

Agora, vamos configurar um pipeline de RAG para seu chatbot.



In [None]:
!pip install faiss-cpu

In [None]:
!pip install tiktoken

In [None]:
from langchain_community.vectorstores import FAISS
from langchain_community.embeddings import OllamaEmbeddings
from langchain.schema import Document

# Criando documentos para o FAISS
documentos = [
    Document(page_content="Nosso suporte está disponível de segunda a sexta, das 9h às 18h."),
    Document(page_content="O reembolso pode ser solicitado em até 7 dias após a compra."),
    Document(page_content="Para falar com um atendente, envie um e-mail para suporte@empresa.com."),
]

# Usando embeddings locais com Ollama (modelo Mistral)
vectorstore = FAISS.from_documents(documentos, OllamaEmbeddings(model="mistral"))

print("Banco de vetores criado com sucesso usando Mistral!")


✅ Isso cria um banco de vetores com informações do suporte ao cliente.

### Passo 2: Criando o Chatbot RAG

Agora, criamos um agente que busca respostas antes de responder:

In [None]:
from langchain.chains import RetrievalQA
from langchain_community.llms import Ollama  # Import correto para Ollama

llm = Ollama(model="mistral")

# Criando a cadeia de perguntas e respostas com recuperação de contexto
qa = RetrievalQA.from_chain_type(
    llm=llm,
    retriever=vectorstore.as_retriever()
)

# Fazendo uma pergunta ao chatbot
pergunta = "Qual o horário de atendimento?"
resposta = qa.run(pergunta)

print("Resposta do Chatbot:", resposta)


#### Conclusão

Qual LLM Escolher?

![taela_llm](taela_llm.png)

- ✅ Se precisar de um chatbot local, vá de Mistral 7B ou LLaMA 3.
- ✅ Se precisar de alta precisão, use GPT-4 Turbo ou Cohere API.

proxima aula chroma - vetorizador