# 中医辨证系统实现

# 1.作业背景

   慢性淋巴细胞白血病患者的症状表现复杂多样，需要构建一个智能辨证系统实现症状到证型、治法的自动匹配。本作业要求学生自主设计解决方案，完成从数据读取到结果生成的全流程实现。

# 2.作业目标

   理解中医辨证的基本原理与方法

   掌握数据读取、处理与写入的全流程操作

   探索不同的症状-证型-治法匹配策略

   实现可扩展、可解释的辨证系统

# 3.作业要求

1. 数据准备

    使用提供的result.csv文件作为数据源，包含患者症状描述
    
    文件路径：result.csv
    
    数据格式：CSV格式，包含序号、症状两列
    
2. 解决方案设计

    开放设计空间：可采用规则引擎、机器学习模型或其他创新方法

# 4.作业实现Baseline

In [1]:
import json
import requests
import sys


## 4.1 调用文心 LLM 生成诊断结果

In [2]:
import csv
import json
import re
from openai import OpenAI
import time

# 配置大模型API参数
client = OpenAI(
    api_key="dab88b90d1466275d34b5af41eab74d4aff5768d",
    base_url="https://aistudio.baidu.com/llm/lmapi/v3"
)


In [3]:
def parse_response(content):
    """
    解析大模型返回的响应内容
    处理包含代码块的JSON响应
    """
    # 检查是否包含代码块
    # print(content)
    code_block_pattern = re.compile(r"```json\s*(.*?)\s*```", re.DOTALL)
    # print(code_block_pattern)
    match = code_block_pattern.search(content)

    if match:
        json_str = match.group(1).strip()
        try:
            return json.loads(json_str)
        except json.JSONDecodeError:
            print(f"JSON解析失败: {json_str}")
            return None
    else:
        try:
            return json.loads(content)
        except json.JSONDecodeError:
            print(f"直接JSON解析失败: {content}")
            return None


In [4]:
def call_large_model(symptoms):
    """
    调用ERNIE X1大模型进行证型治法生成
    返回结构化JSON结果
    """
    system_prompt = """
    你是一位经验丰富的中医专家，请根据患者症状描述判断：
    1. 证型：需符合慢性淋巴细胞白血病中医辨证标准
    2. 治法：需与证型对应且符合中医治疗原则
    请用JSON格式输出：{"证型":"", "治法":""}
    """

    messages = [
        {"role": "system", "content": system_prompt},
        {"role": "user", "content": f"患者症状：{symptoms}"}
    ]

    try:

        response = client.chat.completions.create(
            model="ernie-4.5-0.3b",
            messages=messages,
            max_completion_tokens=512,
            temperature=0.3,
            top_p=0.7
        )

        # 解析响应内容
        content = response.choices[0].message.content
        result = parse_response(content)

        if result:
            # print(result)
            return result
        else:
            return {"证型": "未知", "治法": "待定"}

    except Exception as e:
        print(f"API调用异常: {str(e)}")
        return {"证型": "未知", "治法": "待定"}


In [5]:
# 读取result.csv文件中的症状数据
train_data = './datasets/68f201a04e0f8ad44a62069b-momodel/train_data.csv'
symptoms_data = []
ZX = []  # 证型
ZF = []  # 治法

with open(train_data, 'r', encoding='utf-8') as f:
    reader = csv.reader(f)
    header = next(reader)
    for row in reader:
        symptoms_data.append(row[1])  # 提取症状列
        ZX.append(row[2])  # 提取症状列
        ZF.append(row[3])  # 提取症状列



根据症状生成相应的证型及治法

In [6]:
# 生成新的结果数据
predict_zx = []
predict_zf = []

def predict(symptom):
    model_result = call_large_model(symptom)
    return model_result['证型'], model_result['治法']


for symptom in symptoms_data:
    zx, zf = predict(symptom)
    predict_zx.append(zx), predict_zf.append(zf)
    time.sleep(0.2)  # 调用间隔，避免过快请求导致API限制


查看输出的证型，治法

In [7]:
predict_zx


['脾虚湿盛证',
 '脾大',
 '脾虚血瘀证',
 '脾肾阳虚型',
 '脾肾两虚证',
 '脾大',
 '脾肾两虚证',
 '脾虚血瘀证',
 '脾大',
 '脾虚血瘀证',
 '脾大',
 '脾肾两虚',
 '脾肾两虚',
 '脾虚血瘀证',
 '脾虚血瘀证',
 '慢性淋巴细胞白血病',
 '脾肾两虚证']

In [8]:
predict_zf


['健脾祛湿',
 '健脾益气，化痰散结',
 '健脾益气，活血化瘀',
 '温阳化浊，健脾补肾',
 '健脾益气，补肾壮阳',
 '健脾益气，活血化瘀',
 '健脾益气，补肾壮阳',
 '健脾益气，活血化瘀',
 '健脾益气',
 '健脾益气，活血化瘀',
 '健脾益气',
 '健脾益气，补肾壮阳',
 '健脾益气，补肾壮阳',
 '健脾益气，活血化瘀',
 '健脾益气，活血化瘀',
 '活血化瘀，软坚散结',
 '健脾益气，补肾填精']

## 4.2 评估生成结果

调用 embedding 模型接口，生成文本嵌入表示

In [9]:
def get_embedding(text):
    """
    获取文本的向量表示
    """
    url = "https://qianfan.baidubce.com/v2/embeddings"
    payload = json.dumps({
        "model": "bge-large-zh",
        "input": [text]
    })
    headers = {
        'Content-Type': 'application/json',
        'Authorization': 'Bearer bce-v3/ALTAK-5tfX41HMR5wReJjGJL1pP/ec6d6701e0a9b84dd4951ce977f2a9bc5c624d53'
    }

    try:
        response = requests.post(url, headers=headers, data=payload, timeout=10)
        response.raise_for_status()
        data = response.json()
        return data['data'][0]['embedding']
    except Exception as e:
        print(json.dumps({
            "code": 1,
            "errorMsg": f"Embedding API error: {str(e)}",
            "score": 0.0,
            "data": [{"score": 0}]
        }, ensure_ascii=False), flush=True)


测试嵌入编码效果

In [10]:
get_embedding('how old are you')


[0.007433876860886812,
 -0.01789677143096924,
 -0.039918627589941025,
 0.013522123917937279,
 0.014957955107092857,
 -0.021420607343316078,
 -0.021858980879187584,
 -0.022713553160429,
 0.001575656933709979,
 -0.011139840818941593,
 -0.006772168911993504,
 0.005861244164407253,
 0.0018689919961616397,
 -0.025401990860700607,
 -0.0020830349531024694,
 0.030022569000720978,
 0.00415931036695838,
 0.021804261952638626,
 -0.021151699125766754,
 -0.03930334374308586,
 0.022360999137163162,
 0.0126893799751997,
 -0.02890598401427269,
 0.023218544200062752,
 -0.012401784770190716,
 0.007879512384533882,
 0.01714157871901989,
 0.026372337713837624,
 -0.016260575503110886,
 0.0161662008613348,
 -0.003412923775613308,
 -0.0018679519416764379,
 -0.002342158928513527,
 0.0043382602743804455,
 0.008925257250666618,
 0.002113720867782831,
 -0.012430524453520775,
 -0.0016784417675808072,
 -0.011901947669684887,
 -0.036185454577207565,
 -0.01459258422255516,
 -0.010690301656723022,
 0.0006162162753753

计算文本相似度

In [11]:
from sklearn.metrics.pairwise import cosine_similarity
import numpy as np

def calculate_similarity(text1, text2):
    """
    计算两个文本的相似度
    """
    if not text1.strip() or not text2.strip():
        return 0.0
    try:
        emb1 = get_embedding(text1)
        emb2 = get_embedding(text2)
        sim = cosine_similarity(
            np.array(emb1).reshape(1, -1),
            np.array(emb2).reshape(1, -1)
        )
        return float(sim[0][0])
    except Exception as e:
        print(json.dumps({
            "code": 1,
            "errorMsg": f"Similarity calculation error: {str(e)}",
            "score": 0.0,
            "data": [{"score": 0}]
        }, ensure_ascii=False), flush=True)


计算证型、治法真实值与预测值的余弦相似度，取平均作为最终分数。

In [12]:
def score(predict_zx, predict_zf):
    ZX_score = []
    ZF_score = []
    for i in range(len(predict_zx)):

        zheng_xing_sub = predict_zx[i].strip()
        zheng_xing_gro = ZX[i].strip()
        zhi_fa_sub = predict_zf[i].strip()
        zhi_fa_gro = ZF[i].strip()

        sim_x = calculate_similarity(zheng_xing_sub, zheng_xing_gro)
        sim_f = calculate_similarity(zhi_fa_sub, zhi_fa_gro)

        ZX_score.append(sim_x)
        ZF_score.append(sim_f)

    zx_mean = np.mean(ZX_score) if ZX_score else 0.0
    zf_mean = np.mean(ZF_score) if ZF_score else 0.0

    final_score = ((zx_mean + zf_mean) / 2) * 100  # 百分制
    return final_score


In [13]:
final_score = score(predict_zx, predict_zf)
print(final_score)


88.68360800836707


# 5. 作业评分

**作业要求**：    
                         
1. 根据提供的大模型 API，实现中医辨证诊断助手，该助手根据输入的症状描述，输出相应的症型和治法。


**注意事项：**
1. 点击左侧栏`提交作业`后点击`生成文件`则只需勾选 `predict()`及必要的相关函数的cell。
2. 请导入必要的包和第三方库 (包括此文件中曾经导入过的)。
3. `predict()`函数的输入和输出请**不要改动**。

============================  **模型推理代码答题区域**  ============================
<br>
在下方的代码块中编写 **模型预测** 部分的代码，请勿在别的位置作答

In [14]:
from openai import OpenAI
#  实现大模型调用方法

#  进行推理输出相应内容
def predict(symptom):
    """
    :param symptom: str, 症状描述
    :return zx_predict, zf_predict：str, 依次为症型，治法描述
    """
    #  根据输入的症状，使用大模型推理相应的内容


    return zx_predict, zf_predict
