In [1]:
import sys
sys.path.append("../../libs")
from models import *

In [2]:
!pip install ollama chromadb



In [3]:
import ollama
import chromadb
from chromadb.utils.embedding_functions import OllamaEmbeddingFunction
from langchain.document_loaders.text import TextLoader
from langchain_core.documents import Document
from langchain.text_splitter import RecursiveCharacterTextSplitter


In [4]:
chromadb_client = chromadb.PersistentClient(path="./chroma_db_txt")

In [5]:
embedding_function = OllamaEmbeddingFunction(
    model_name="nomic-embed-text:latest",
    url="http://localhost:11434/api/embeddings",
)

In [6]:
try:
    collection = chromadb_client.create_collection(
        name="txt_data",
        embedding_function=embedding_function,
    )
    print("collection created")
except chromadb.errors.UniqueConstraintError as e:
    print("collection exists, get it directly")
    collection = chromadb_client.get_collection(
        name="txt_data",
        embedding_function=embedding_function,
    )

collection created


In [7]:
data = TextLoader(file_path="test.txt", encoding="utf-8").load()
splitter = RecursiveCharacterTextSplitter()
documents = splitter.split_documents(data)
len(documents)

338

In [8]:
# documents = [line for line in data.split("\n")[1:] if line.strip() != '']
for idx, doc in enumerate(documents):
    collection.add(
        documents=[doc.page_content],
        ids=[str(idx)]
    )

In [11]:
query = "诺伍德的建筑师讲了什么"
query_embedding = embedding_function([query])
results = collection.query(
    query_embeddings=query_embedding,
    n_results=10,
)

In [13]:
related_documents = results["documents"][0]
if not related_documents:
    answer = "no related data found"
else:
    context = "\n".join(related_documents)
    prompt = f"根据以下上下文： \n{context}\n回答: {query}"
    response = ollama.generate(model="deepseek-r1:1.5b", prompt=prompt)
    answer = response['response']
print(answer)


<think>
好，我现在需要解决福尔摩斯在“诺伍德的建筑师讲了什么”这个问题。首先，我得回顾一下整个案件的背景，看看福尔摩斯如何推断出 clue 是谁。

福尔摩斯在与老管家约翰·罗恩和布里南·赫利奥里关于老吉尔的一段对话中提到线索，其中提到苏格兰场的杰克森家庭。 clue 是他们中的一个，而福尔摩斯通过推理排除了约翰·罗恩和布里南·赫利奥里，剩下的是亚伦·德比特。这可能是因为 clue 是他们中的一个。

接下来，福尔摩斯需要回忆老吉尔的故事，包括老家的结构、福尔摩斯的过去以及家族的历史。根据福尔摩斯的话，“我已经说过，在这些事情中是重要的，所以我必须告诉你们，所以……” 这部分提示 clue 可能在其中提到的事情里。

福尔摩斯还提到了福尔摩斯和苏格兰场的矛盾，这可能涉及到 clue 的时间线，即在他们之间发生的冲突。因此， clue 应与福尔摩斯对这些事件的认知有关。

综合以上信息，福尔摩斯可能推断出 clue 是亚伦·德比特，因为这是一个与老吉尔和苏格兰场相关的线索，并且 clue 是他们中的一个，而且 clue 也被描述为“在一些事情中是重要的，所以我必须告诉你们，所以……” 这部分暗示 clue 有特定的历史背景。

最终，福尔摩斯推断 clue 应该是亚伦·德比特，这与老吉尔的案件以及苏格兰场的冲突直接相关。
</think>

**福尔摩斯推断出 clue 是亚伦·德比特。**

在“诺伍德的建筑师讲了什么”这一段中，福尔摩斯通过分析案件的关键线索和老吉尔的故事，推测 clue 应为亚伦·德比特。 clue 是苏格兰场的杰克森家庭成员，而亚伦·德比特正是杰克森家族的重要人物之一。

**推断过程：**

1. **案件背景与线索**：福尔摩斯知道 clue 是福尔摩斯对苏格兰场案件的分析， clue 提到一些关键的数据和证据。
2. **老吉尔与苏格兰场的关系**：老吉尔和苏格兰场有密切的关系， clue 中提到了苏格兰场的地理位置和历史背景。
3. **福尔摩斯的历史角色**：福尔摩斯之前处理过老吉尔案件，并涉及苏格兰场及其成员的情况。 clue 是一个重要的线索，在福尔摩斯的分析中被提及。
4. **亚伦·德比特的身份**：亚伦·德比特是杰克森家族的重要人物，符合 clue 提到的 clue（与苏格兰场和老吉尔有关）。

因此， clue 为