#### **1. 导入模块**

导入 Python 标准库和本项目自定义库

In [1]:
# 标准库
import os
import sys

# 将上级目录加入系统路径
# 以便导入项目自定义库
sys.path.append(os.path.abspath('..'))

# 自定义库
from src.llm_client import LLMClient

#### **2. 加载模型**

加载大模型 API 接口

In [2]:
# 模型名称
# 可选模型：
# 大模型：deepseek-v3.2 | kimi-k2.5 | glm-4.7 | qwen3-max
model = 'kimi-k2.5'

# 采样温度系数
# 控制生成结果的多样性
# 取值越高，生成结果更多样
# 反之，生成结果更确定
# 取值范围：[0, 2)
# 默认系数：0.1
temperature = 0.1

# 是否开启思考模式
# 若开启：enable_thinking =True
# 模型会输出完整推理过程
# 生成更长文本，消耗更多 Token
# 默认模式：不开启
enable_thinking = False

# 初始化大模型 API 接口
# 登录阿里云百炼平台：https://bailian.console.aliyun.com/
# 申请调用大模型服务的 API-Key
# 并在 config 文件中设置 LLM_API_KEY=sk-********
# 新注册用户可免费调用部分模型的 API
# 登录后在模型服务页面查看免费模型列表
client = LLMClient(
    model=model,
    temperature=temperature,
    enable_thinking=enable_thinking,
)

#### **3. 文本格式输出**

大模型文本格式输出：以多语种分词为例

In [3]:
# === 多语种分词提示词：普通模式 ===

# 可替换提示词中的中文文本
# 测试其他语种的分词效果
basic_prompt = """
You are a professional corpus linguist specialized in multilingual tokenization.

Your task is to tokenize the given text.

Text: 北风如刀，满地冰霜。
"""

In [4]:
# === 调用大模型 API：开始分词 ===

# --- 注意 ---
# 为节省 API 调用成本
# 大模型生成内容保存于本地缓存 data/llm_cache
# 完成首次调用后，再次调用只需从本地数据库读取生成结果

# 若需测试 API 连接是否正常
# 可修改提示词后，重新标注

# 设置 json_output=False
# 输出文本格式的分词结果
client.get_response(
    prompt=basic_prompt,
    json_output=False,
)

"I'll tokenize this Classical Chinese text, analyzing it at multiple levels.\n\n## Character-level Tokenization\n\n```\n北 | 风 | 如 | 刀 | ， | 满 | 地 | 冰 | 霜 | 。\n```\n\n## Word/Phrase-level Tokenization (Semantic Units)\n\n```\n北风 | 如 | 刀 | ， | 满地 | 冰霜 | 。\n```\n\nOr with more granular analysis:\n```\n[北风] [如] [刀] ， [满地] [冰霜] 。\n```\n\n## Detailed Analysis\n\n| Token | POS | Gloss |\n|-------|-----|-------|\n| 北风 (běifēng) | N | north wind |\n| 如 (rú) | V/SIM | like, as |\n| 刀 (dāo) | N | knife, blade |\n| 满地 (mǎndì) | ADV+NP | covering the ground |\n| 冰霜 (bīngshuāng) | N | frost and ice |\n\n## Structural Note\n\nThis is a **couplet-style** sentence (对偶句):\n- 北风如刀 ‖ 满地冰霜\n- Subject-Predicate ‖ Adverbial-Noun Phrase\n\nThe comma marks a caesura between two balanced four-character phrases, typical of Classical Chinese literary prose."

#### **4. JSON 格式输出**

大模型 JSON 格式输出：以多语种分词为例

In [5]:
# === 多语种分词提示词：JSON 模式 ===

# 可替换提示词中的中文文本
# 测试其他语种的分词效果
json_prompt = """
"You are a professional corpus linguist specialized in multilingual tokenization.

Your task is to tokenize the given text.
    
Return result in a JSON list.

Text: 北风如刀，满地冰霜。
"""

In [6]:
# === 调用大模型 API：开始分词 ===

# --- 注意 ---
# 为节省 API 调用成本
# 大模型生成内容保存于本地缓存 data/llm_cache
# 完成首次调用后，再次调用只需从本地数据库读取生成结果

# 若需测试 API 连接是否正常
# 可修改提示词后，重新标注

# 设置 json_output=True
# 输出 JSON 格式的分词结果
client.get_response(
    prompt=json_prompt,
    json_output=True,
)

['北风', '如', '刀', '，', '满地', '冰霜', '。']