In [1]:
from datasets import load_dataset
from datasets import Dataset
from langchain_core.documents import Document
from langchain_chroma import Chroma
from langchain_huggingface import HuggingFaceEmbeddings

In [2]:
embedding_path = "../Dmeta-embedding-zh"

In [3]:
def get_dataset() -> Dataset:
    train_dataset = Dataset.load_from_disk("./train_dataset")
    return train_dataset

In [4]:
def to_doc(row: dict) -> Document:
    return Document(
        row["question"], metadata=row
    )

In [5]:
def get_embedding() -> HuggingFaceEmbeddings:
    return HuggingFaceEmbeddings(model_name=embedding_path)

In [6]:
def get_db() -> Chroma:
    db = Chroma.from_documents(
        [to_doc(row) for row in get_dataset()],
        get_embedding()
    )
    return db

In [7]:
db = get_db()

In [8]:
db.similarity_search("你好", k=2)

[Document(metadata={'answer': 'A', 'options': 'A: 新药\nB: 阿司匹林\nC: 抗腹泻药\nD: 除痰药', 'problem': '有以下药品及其对应的治愈和加重某些症状的信息：\n\n- 阿司匹林可以治愈头痛、中度疼痛和中度关节炎。\n- 阿司匹林与可待因的组合物可以治愈严重疼痛。\n- 止咳药可以治愈咳嗽。\n- 疼痛消失药可以治愈严重疼痛。\n- 抗腹泻药可以治愈腹泻。\n- 除痰药可以治愈咳嗽和鼻塞。\n- 青霉素可以治愈肺炎。\n- 消腹泻与止吐药可以治愈腹泻和恶心。\n- 新药可以治愈头痛和中度疼痛。\n- 鼻塞加治药可以治愈鼻塞。\n\n同时，以下药品对某些病状有副作用：\n- 阿司匹林可能加重哮喘和消化性溃疡。\n- 抗腹泻药可能加重发热。\n- 除痰药可能加重高血压、心脏病、糖尿病和青光眼。\n- 青霉素可能加重哮喘。\n- 消腹泻与止吐药可能加重糖尿病和发热。\n\n阿里抱怨头痛并患有消化性溃疡。考虑这些信息，请回答以下选择题：', 'question': '选择题 1：\n阿里应该服用哪种药物？', 'reasoning': '要解答这个问题，我们首先要了解题目中的前提条件以及各选项药物的特点。题目中提到阿里抱怨头痛并且患有消化性溃疡。我们需要找到一种药物既能治疗阿里当前的症状（头痛），又能避免加重他的消化性溃疡症状。\n\n首先，根据题目信息，我们可以列出以下几个关键点：\n1. **阿司匹林**：可以治愈头痛、中度疼痛和中度关节炎，但可能会加重哮喘和消化性溃疡。\n2. **新药**：可以治愈头痛和中度疼痛，且没有提及会加重任何已知病症。\n3. **抗腹泻药**：可能会加重发热，并不适用于治疗头痛或消化性溃疡。\n4. **除痰药**：可能会加重哮喘、高血压、心脏病、糖尿病和青光眼，不适用于治疗头痛或消化性溃疡。\n\n根据这些信息，我们可以逐步分析排除选项：\n- **选项B（阿司匹林）**：虽然可以治疗头痛，但它可能会加重阿里已有的消化性溃疡症状，因此不是最佳选择。\n- **选项C（抗腹泻药）**：主要针对腹泻，对于治疗头痛无用，并且可能会加重发热，与题目条件不符。\n- **选项D（除痰药）**：可能会加重阿里已有的哮喘症状（由于消化性溃疡与哮喘不同类疾病，此处考虑的是题目中明