## Ollama

拟借助 Ollama 搭建本地大模型，使用 open-webui 进行 RAG 操作。

阅读 ollama 文档，预计可使用以下功能：
- Generate a completion
- Generate Embeddings

关于 Ollama 的使用，这里纠正一个误区。`ollama run model` 命令会进入 CLI 交互模式，此时可以与大模型进行对话。

但如果只是需要调用模型 API，执行 `ollama serve` 即可。此时 ollama 会监听本地的 11434 端口，并提供 RESTful API。直接按照[API 文档](https://github.com/ollama/ollama/blob/main/docs/api.md)发起请求，ollama 会加载模型到 GPU 进行计算。

此外，如果一段时间内没有请求，**模型会自动卸载**。

## API

[ollama 局域网访问配置](https://github.com/ollama/ollama/blob/main/docs/faq.md#how-do-i-configure-ollama-server)

In [2]:
import requests
import json

In [17]:
url_generate = "http://172.16.33.242:11434/api/generate"
def get_response(url, data):
    response = requests.post(url, json=data)
    response_dict = json.loads(response.text)
    response_content = response_dict["response"]
    return response_content

data = {
    "model": "llama3.1",
    "prompt": "中国的首都是哪？",
    "stream": False
}


res = get_response(url_generate,data)
print(res)

北京


## LangChain

LangChain 是一个用于开发由大型语言模型(LLMs)支持的应用程序的框架。

In [14]:
from langchain_community.document_loaders import WebBaseLoader
from langchain_community.document_loaders import UnstructuredMarkdownLoader

# 指定《奥德赛》在Project Gutenberg上的URL
odyssey_url = "http://whr.085404.xyz/基础指南/Linux docs for the newers.html"

# 实例化WebBaseLoader并加载文档
#loader = WebBaseLoader(odyssey_url)
loader = UnstructuredMarkdownLoader(
    file_path='mk_dataset/RAG/漆黑的魅影攻略.md',
    mode='single'
)
data = loader.load()

In [15]:
print(data)



In [34]:
from langchain_text_splitters import RecursiveCharacterTextSplitter

# 实例化文本分割器，设置每块的字符数
# chunk_overlap参数设置为0意味着文本块之间没有重叠
text_splitter = RecursiveCharacterTextSplitter(chunk_size=10, chunk_overlap=0)

# 分割文档
all_splits = text_splitter.split_documents(data)

In [35]:
from langchain_community.embeddings import OllamaEmbeddings
from langchain_chroma import Chroma

# 实例化嵌入模型
oembed = OllamaEmbeddings(base_url="http://localhost:11434", model="nomic-embed-text")

# 使用文档块创建向量数据库
vectorstore = Chroma.from_documents(documents=all_splits, embedding=oembed)

In [36]:
def format_docs(docs):
    return "\n\n".join(doc.page_content for doc in docs)

In [42]:
from langchain_core.prompts import ChatPromptTemplate
from langchain_community.llms.ollama import Ollama
from langchain_core.runnables import RunnableParallel, RunnablePassthrough
from langchain_core.output_parsers import  StrOutputParser

template = """Answer the question based only on the following context.
{context}

Question: {question}
"""
prompt = ChatPromptTemplate.from_template(template)
model = Ollama(base_url="http://localhost:11434", model="qwen2")

retriever = vectorstore.as_retriever()
setup_and_retrieval = RunnableParallel(
    {
        "context": retriever | format_docs,
        "question": RunnablePassthrough()
    }
)
chain = setup_and_retrieval | prompt | model | StrOutputParser()

chain.invoke("遗忘老人在哪？")

'根据提供的上下文，“遗忘老人”位于水静市的一个超级市场的右侧。'