In [17]:
"""
现代汉语拼音标注引擎（轻量级教学版）
环境要求：Python 3.8+，仅需pypinyin和jieba两个依赖库
"""

import re
from collections import defaultdict
from pypinyin import pinyin, Style, load_phrases_dict, load_single_dict
from outils import load_cn_json, dump_cn_json, dump_cn_json_compact
import jieba

In [3]:
with open("xiandaihaiyuchangyongcibiao.txt", "r", encoding="utf-8") as f:
    content = f.readlines()

In [11]:
# 制作中文词语到拼音的映射
ciyin = {}  # 词语拼音映射表，将中文词语映射到它的拼音
n0 = 0
for line in content:
    raws = line.rstrip("\n").split("\t")
    cy = []
    for yin in raws[1].split("'"):
        if len(yin) and yin[-1] in "0123456789":
            cy.append((yin[:-1], int(yin[-1])))
        else:
            cy.append((yin, 0))
            n0 += 1
    ciyin[raws[0]] = cy

dump_cn_json_compact("frequent_word_pinyin.json", ciyin)

In [12]:
len(ciyin)

55735

In [18]:
def contains_lowercase_letter(s):
    """
    判断字符串中是否包含小写英文字母
    :param s: 输入字符串
    :return: 如果包含小写英文字母，返回True；否则返回False
    """
    for char in s:
        if char.islower():
            return True
    return False

# 示例测试
test_strings = ["Hello", "WORLD", "12345", "abc", "迸发jin!", "A1b2C3"]
for test in test_strings:
    print(f"'{test}' 是否包含小写英文字母: {contains_lowercase_letter(test)}")

'Hello' 是否包含小写英文字母: True
'WORLD' 是否包含小写英文字母: False
'12345' 是否包含小写英文字母: False
'abc' 是否包含小写英文字母: True
'迸发jin!' 是否包含小写英文字母: True
'A1b2C3' 是否包含小写英文字母: True


In [27]:
ciyin = load_cn_json("frequent_word_pinyin.json")
len(ciyin)

55810

In [42]:
with open("upchars.txt", "r", encoding="utf-8") as f:
    content = f.readlines()

ziyin = {}
codeyin = {}
codezi = {}
valen = {}
for line in content[2:]:
    if line.startswith("U"):
        raws = line.rstrip("\n").split(":")
        val = raws[0]
        raws = raws[1].split("#")
        yin = tuple([a.strip() for a in raws[0].strip().split(",")])
        zi = raws[1].strip()
        codeyin[val] = yin
        ziyin[zi] = yin
        codezi[val] = zi

dump_cn_json_compact("large_ziyin.json", ziyin)
dump_cn_json_compact("large_ziyin_by_unicode.json", codeyin)
dump_cn_json_compact("large_hanzi_by_unicode.json", codezi)

In [42]:
with open("upwords.txt", "r", encoding="utf-8") as f:
    content = f.readlines()

n = 2
comments = []
ciyin = {}
for line in content[n:]:
    n += 1
    raws = [a.strip() for a in line.rstrip("\n").split(":")]
    ci = raws[0]
    yin = [a.strip() for a in raws[1].split("#")[0].strip().split(" ")]
    ciyin[ci] = yin
    if "#" in line:
        comments.append(line)

len(ciyin), len(comments)

(377960, 1)

In [3]:
ciyin = load_cn_json("large_ciyin.json")
ciyin["有的放矢"]

[['you', 3], ['di', 4], ['fang', 4], ['shi', 3]]

In [48]:
def standard_to_numbered(pinyin_str, fen=False):
    """
    将标准拼音格式（如“zhōng”）转换为字母加数字的格式（如“zhong1”）
    输入：
    pinyin_str (str): 标准拼音字符串
    fen (bool): 是否将输出分开
    输出：
    无音调拼音加数字（str）或 (拼音,数字) 元组（(str, int)）
    """
    tone_map = {
        'ā': 'a1', 'á': 'a2', 'ǎ': 'a3', 'à': 'a4',
        'ē': 'e1', 'é': 'e2', 'ě': 'e3', 'è': 'e4',
        'ī': 'i1', 'í': 'i2', 'ǐ': 'i3', 'ì': 'i4',
        'ō': 'o1', 'ó': 'o2', 'ǒ': 'o3', 'ò': 'o4',
        'ū': 'u1', 'ú': 'u2', 'ǔ': 'u3', 'ù': 'u4',
        'ǖ': 'v1', 'ǘ': 'v2', 'ǚ': 'v3', 'ǜ': 'v4',
        "ń": 'n2', "ň": 'n3', "ǹ": 'n4',
        "m̄": "m1", "ḿ": "m2", "m̀": 'm4'
    }

    for tone_char, replacement in tone_map.items():
        if tone_char in pinyin_str:
            if fen:
                return (pinyin_str.replace(tone_char, replacement[0]).replace("ü", "v"), int(replacement[1]))
            else:
                return pinyin_str.replace(tone_char, replacement[0]).replace("ü", "v") + replacement[1]
    
    if fen:
        return (pinyin_str.replace("ü", "v"), 0)
    else:
        return pinyin_str.replace("ü", "v") + "0"

# print(standard_to_numbered("hǎo"))

def check_numbered_pinyin(s):
    if "a" in s:
        pies = s.split("a")
        if len(pies) > 2:
            return False
        for c in pies[0]:
            if c in ("e", "o", "v"):
                return False
        for c in pies[1]:
            if c in ("e", "v", "u"):
                return False
    if "o" in s:
        pies = s.split("o")
        if len(pies) > 2:
            return False
        for c in pies[0]:
            if c in ("e", "v"):
                return False
        for c in pies[1]:
            if c in ("a", "e", "i", "v"):
                return False
    if "u" in s:
        pies = s.split("u")
        if len(pies) > 2:
            return False
        for c in pies[0]:
            if c in ("e", "v"):
                return False
        for c in pies[1]:
            if c in ("e", "v", "u"):
                return s[0] in ("j", "q", "x") and c == "e"
    return True

def merge_numbered(s, n=0):
    return s + str(n)

def numbered_to_standard(pinyin_str):
    # 检查是否符合拼音规则
    if not check_numbered_pinyin(pinyin_str):
        print("不符合规则")
        return pinyin_str
    
    # 轻声：结尾没有数字或数字不是1234
    if not pinyin_str[-1] in "0123456789":
        return pinyin_str.replace("v", "ü")
    elif not pinyin_str[-1] in "1234":
        return pinyin_str[:-1].replace("v", "ü")
    else:
        tone = int(pinyin_str[-1]) - 1  # 1234
        tone_map = {
            "a": ('ā','á','ǎ','à'),
            "e": ('ē','é','ě','è'),
            "i": ('ī','í','ǐ','ì'),
            "o": ('ō','ó','ǒ','ò'),
            "u": ('ū','ú','ǔ','ù'),
            "v": ('ǖ','ǘ','ǚ','ǜ'),
            "n": ("n","ń","ň","ǹ"),
            "m": ("m̄","ḿ","m","m̀")
        }

        for c in pinyin_str:  # 如果有a或e则标在上面
            if c in ("a", "e"):
                return pinyin_str[:-1].replace(c, tone_map[c][tone]).replace("v", "ü")
        for c in pinyin_str:  # 否则如果有o就标在o上面（ou, io）
            if c == "o":
                return pinyin_str[:-1].replace(c, tone_map[c][tone]).replace("v", "ü")
        for c in pinyin_str:  # 否则如果有i或u就标在上面（i, u, iu, ui），并列时标在后
            if c in ("i", "u"):
                if "i" in pinyin_str and "u" in pinyin_str:
                    return pinyin_str[:-1].replace("iu", "i"+tone_map["u"][tone]).replace("ui", "u"+tone_map["i"][tone]).replace("v", "ü")
                return pinyin_str[:-1].replace(c, tone_map[c][tone]).replace("v", "ü")
        for c in pinyin_str:  # 否则如果有v就标在v上面
            if c == "v":
                return pinyin_str[:-1].replace(c, tone_map[c][tone])
        for c in pinyin_str:  # 否则标在n或m上面
            if c in ("n", "m"):
                return pinyin_str[:-1].replace(c, tone_map[c][tone])
        return pinyin_str[:-1]  # 语法正确
         
# samples = ["huai2", "xue4", "hua1", "zhuang4", "lie4", "lve", "liao3", "huo3", "lei2", "hui5", "kong4", "xiong1", "mao4", "liu6", "biang1", "jiao4", "jia3", "ke1", "bo1", "lu4", "yin2", "ma0", "mai2", "xie4", "xiu1", "xv1", "xiang2", "ng2", "nv3", "m2"]
# for sample in samples:
#     out = numbered_to_standard(sample)
#     back = standard_to_numbered(out, fen=True)
#     print(sample, "-->", out, "-->", back)

ciyin_numbered = {}
for ci, yins in ciyin.items():
    ciyin_numbered[ci] = [standard_to_numbered(yin, fen=True) for yin in yins]

len(ciyin_numbered)

377960

In [57]:
dump_cn_json_compact("large_ciyin.json", ciyin_numbered)

In [18]:
path_xx = "../src/小学/阅读课文.json"
lessons = load_cn_json(path_xx)
# lessons_list = [lessons[k] for k in lessons.keys()]


# 中文标点 = "，。！？“”‘’；：……、《》（）~"
# worded_texts = {}

# for idx, lesson in lessons.items():
#     worded_texts[idx] = []
#     if lesson["format"] == "散文":
#         for text in lesson["content"]:
#             worded_texts[idx].append(jieba.lcut(re.sub(f"[{中文标点}]", "", re.sub(r"\\apost{.+?}", "", text)), cut_all=False))
#     elif lesson["format"] == "书信":
#         for text in lesson["content"]:
#             if not len(text):
#                 break
#             worded_texts[idx].append(jieba.lcut(re.sub(f"[{中文标点}]", "", re.sub(r"\\apost{.+?}", "", text)), cut_all=False))
#     elif lesson["format"] == "诗歌":
#         for part in lesson["content"]:
#             for text in part:
#                 worded_texts[idx].append(jieba.lcut(re.sub(f"[{中文标点}]", "", re.sub(r"\\apost{.+?}", "", text)), cut_all=False))



In [None]:
from pypinyin import pinyin, Style

pinyin(["数", "数不清", "数数看", "掠过", "能量"], style=Style.TONE, heteronym=True)

In [47]:
# yins = []
# for para in worded_texts["杏儿熟了"]:
    # print(para)
    # for text in para:
    #     yins = pinyin(text, style=Style.TONE, heteronym=False)
    #     print(text, "\t\t", " ".join([yin[0] for yin in yins]))
    # print("--")

# len(yins), len(para)

title = "难忘的一课"
seq = ""
i = 0
for para in lessons[title]["content"]:
    seq += para
    i += 1
    print(para)

抗日战争胜利以后，我在台湾一家航业公司的轮船上工作。
有一次，我们的船停泊在高雄港\apost{fn1}。我上了岸，穿过市区，向郊外走去。不记得走了多远，看到前面有一所乡村小学，白色的围墙，门外栽着一排树。
校园里很静，我走近一间教室，站在窗外，见一位年轻的台湾教师正在教孩子们学习祖国的文字。他用粉笔在黑板上一笔一画地写着：
“我是中国人，我爱中国。”
他写得很认真，也很吃力。台湾“光复”不久，不少教师也是重新学习祖国文字的。
接着，他先用闽南语\apost{fn2}，然后又用还不太熟练的国语，带着孩子们一遍一遍地读。老师和孩子们都显得那么严肃认真，又那么富有感情。好像每个字音，都发自他们火热而真挚的心。
我被这动人的情景吸引住了。怀着崇高的敬意，我悄悄地从后门走进教室，在最后一排空位上坐下，和孩子们一起，跟着那位教师，大声地、整齐地、一遍又一遍地朗读着：
“我是中国人，我爱中国。”
老师和孩子们发现了我，但是，好像谁也没有感到意外。从那一双双眼睛里，可以看出大家对我是欢迎的。课在继续，大家读得更起劲了。
下课了，孩子们把我围了起来。
老师也走了过来。他热情地和我握了握手，说；“我的国语讲得不好，是初学的。你知道，在日本统治时期，我们上的都是日本人办的学校，讲国语是不准许的。”
“我觉得，你今天这一课上得好极了！你教得很有感情，孩子们学得也很有感情。”
接着，这位老师一定要领我去看一看他们的小礼堂。
说是礼堂，不过是一间比较宽敞的屋子。
他指着礼堂两面墙上新画的几幅中国历代伟人像，说：“这里原来画的都是日本人，现在‘光复’了，画上了我们中国自己的伟人。”我看到上面有孔子，有诸葛亮，有郑成功\apost{fn3}，还有孙中山。看着看着，我的眼睛不觉湿润了。这是多么强烈的民族精神，多么深厚的爱国情意啊！
我紧紧地握着这位年轻的台湾教师的手，激动地重复着他刚才教给孩子们的那句话：“我是中国人，我爱中国。”还有什么别的话比这句最简单的话，更能表达我此时的全部感情呢？


In [38]:
n = 257
seq[n-5:n+5]

'海的颜色由绿变蓝，由'

In [20]:
pinyin_prompt = """你是一个辅助中小学语文教学研究机构的人工智能。现在有这样一个问题：中小学语文教学中有大量的中文文本需要标注拼音。这些文本以小学和初中水平的高水平散文、诗歌和小说片段为主，作为课文和阅读材料使用。暂时不考虑文言文、古诗文和方言的问题，仅针对标准高水平的现代白话文进行拼音标注。
现在请你直接为以下将课文转为拼音，并评估你对结果的置信度。如果有对某个字的标注结果感到不确定，请在全部标注完后单独列出。
具体格式为：返回两个结果。第一个结果为把课文的汉字转成拼音的拼音序列。以每个字的拼音为单位，之间用空格隔开。原地保留原文的标点符号。第二个结果是附带的表格，陈列对标注结果感到不确定的字的置信度信息。请你设定一个置信度评价方式和下限，你觉得你对哪些字转化的拼音信心不够，就把它放进表格里。表格以逗号分隔（csv格式），一共5列，列名为：字, 所在位置, 拼音, 置信度, 是否多音字。其中”所在位置“表示这个字在原文中是第几个字（包含标点符号）。
要转化的课文正文如下："""

In [14]:
import jieba
import re
import numpy as np

def load_textbook(path):
    textbook = load_cn_json(path)
    
    nx = np.sort(np.array([text['numero'] for _, text in textbook.items()]))
    lessons = []
    for i in nx:
        for _, text in textbook.items():
            if text['numero'] == i:
                lessons.append(text)
    for lesson in lessons:
        lesson["numero"] = int((lesson["numero"] + 1) / 10)

    return lessons

# path_sz = "../src/小学/发蒙识字.json"
# lessons = load_textbook(path_sz)
path_xx = "../src/小学/阅读课文.json"
lessons = load_cn_json(path_xx)
lesson = lessons[14]
print(lesson["title"])

中文标点 = "，。！？“”‘’；：……、《》（）~"

words = []
for text in lesson["content"]:
    words.append(jieba.lcut(re.sub(f"[{中文标点}]", "", text), cut_all=False))

words

工农兵


[['工人', '力量', '大'],
 ['农民', '力量', '大'],
 ['士兵', '力量', '大'],
 ['好好学习', '天天向上'],
 ['团结起来', '保卫国家'],
 ['中国', '人民', '大团结', '世界', '人民', '大团结']]

In [7]:
words

[['工人', '力量', '大', '。'],
 ['农民', '力量', '大', '。'],
 ['士兵', '力量', '大', '。'],
 ['好好学习', '，', '天天向上', '。'],
 ['团结起来', '，', '保卫国家', '。'],
 ['中国', '人民', '大团结', '，', '世界', '人民', '大团结', '。']]

In [5]:
with open("gemini_result.txt", "r", encoding="utf-8") as f:
    content = f.readlines()
    res_gm = []
    for line in content:
        if len(line) > 1:
            res_gm.append(line[:-1].split(" "))

with open("ds_result.txt", "r", encoding="utf-8") as f:
    content = f.readlines()
    res_ds = []
    for line in content:
        if len(line) > 1:
            res_ds.append(line[:-1].split(" "))

res_ds

[['wǒ',
  'men',
  'jiā',
  'yuàn',
  'zi',
  'lǐ',
  'yǒu',
  'yī',
  'kē',
  'dà',
  'xìng',
  'shù',
  '。',
  'měi',
  'nián',
  'dào',
  'le',
  'mài',
  'shōu',
  'shí',
  'jié',
  '，',
  'shù',
  'shàng',
  'jiù',
  'jié',
  'mǎn',
  'le',
  'huáng',
  'dēng',
  'dēng',
  'de',
  'xìng',
  'r',
  '。',
  'cóng',
  'wǒ',
  'jiā',
  'mén',
  'qián',
  'lù',
  'guò',
  'de',
  'rén',
  '，',
  'zǒng',
  'yào',
  'wàng',
  'wang',
  'nà',
  'kē',
  'xìng',
  'shù',
  '，',
  'xiàn',
  'mù',
  'dì',
  'shuō',
  'dào',
  '：“',
  'hē',
  '，',
  'hǎo',
  'xìng',
  'r',
  'ya',
  '！”'],
 ['xìng',
  'shù',
  'shì',
  'nǎi',
  'nai',
  'qīn',
  'shǒu',
  'zāi',
  'de',
  '。',
  'tīng',
  'nǎi',
  'nai',
  'shuō',
  '，',
  'zāi',
  'xìng',
  'shù',
  'de',
  'shí',
  'hòu',
  'hái',
  'méi',
  'yǒu',
  'wǒ',
  'ne',
  '。',
  'yǒu',
  'yī',
  'huí',
  '，',
  'wǒ',
  'wēi',
  'yī',
  'zài',
  'nǎi',
  'nai',
  'de',
  'huái',
  'lǐ',
  'wèn',
  'tā',
  '：“',
  'nǎi',
  'nai',
  '，',
  'zán',
  'm

In [2]:
import ssl
print(ssl.OPENSSL_VERSION)

OpenSSL 3.0.15 3 Sep 2024


In [2]:
import requests

url = "https://api.siliconflow.cn/v1/chat/completions"

payload = {
    "model": "deepseek-ai/DeepSeek-V3",
    "messages": [
        {
            "role": "user",
            "content": "中国大模型行业2025年将会迎来哪些机遇和挑战？"
        }
    ],
    "stream": False,
    "max_tokens": 512,
    "stop": ["null"],
    "temperature": 0.7,
    "top_p": 0.7,
    "top_k": 50,
    "frequency_penalty": 0.5,
    "n": 1,
    "response_format": {"type": "text"},
    "tools": [
        {
            "type": "function",
            "function": {
                "description": "<string>",
                "name": "<string>",
                "parameters": {},
                "strict": False
            }
        }
    ]
}
headers = {
    "Authorization": "Bearer sk-cvhaokjrvhdscwoxqntyyzvkmnrozlsdrdomyebiwkqfisct",
    "Content-Type": "application/json"
}

response = requests.request("POST", url, json=payload, headers=headers, proxies=None)

print(response.text)

{"id":"0194df5a1ada87ba9623a6dd5d0b3c88","object":"chat.completion","created":1738914011,"model":"deepseek-ai/DeepSeek-V3","choices":[{"index":0,"message":{"role":"assistant","content":"中国大模型行业在2025年将迎来一系列机遇和挑战，这些机遇和挑战主要来自于技术进步、市场需求、政策支持以及国际竞争等多个方面。\n\n### 机遇\n\n1. **技术进步**：随着人工智能技术的不断进步，大模型的能力将得到显著提升。深度学习、自然语言处理、计算机视觉等领域的创新将为大模型的发展提供强大的技术支撑。\n\n2. **市场需求增长**：随着数字化转型的深入，各行各业对大模型的需求将持续增长。特别是在金融、医疗、教育、制造等领域，大模型的应用将更加广泛。\n\n3. **政策支持**：中国政府高度重视人工智能和大数据产业的发展，未来可能会出台更多支持政策，为大模型行业的发展提供良好的政策环境。\n\n4. **国际合作与交流**：随着全球化的发展，中国大模型行业将有更多机会参与国际合作与交流，学习借鉴国际先进经验，提升自身竞争力。\n\n### 挑战\n\n1. **技术瓶颈**：尽管技术进步为大模型的发展提供了动力，但在算法优化、数据处理、模型训练等方面仍存在技术瓶颈需要突破。\n\n2. **数据安全与隐私保护**：大模型的训练和应用需要大量的数据，如何在保证数据安全和用户隐私的前提下有效利用数据是一个重要挑战。\n\n3. **人才短缺**：大模型的研发和应用需要大量高素质的人才，目前中国在这方面还存在一定的短缺问题。\n\n4. **国际竞争加剧**：随着全球范围内对大模型的重视程度不断提高，国际竞争将更加激烈。中国大模型行业需要在技术创新、应用拓展等方面不断提升自身实力以应对国际竞争。\n\n综上所述，中国大模型行业在2025年将面临巨大的发展机遇和挑战。通过持续的技术创新、市场拓展、政策支持和人才培养等措施，有望推动行业的健康快速发展。"},"finish_reason":"stop"}],"usage":{"prompt_tokens":66,"completion_toke

In [16]:
if response.status_code == 200:
    # 将响应内容解析为JSON
    return_data = response.json()
    # print(list(return_data.keys()))
    print("结束方式：", return_data["choices"][0]["finish_reason"])
    print(return_data["choices"][0]["message"]["content"])


结束方式： stop
中国大模型行业在2025年将迎来一系列机遇和挑战，这些机遇和挑战主要来自于技术进步、市场需求、政策支持以及国际竞争等多个方面。

### 机遇

1. **技术进步**：随着人工智能技术的不断进步，大模型的能力将得到显著提升。深度学习、自然语言处理、计算机视觉等领域的创新将为大模型的发展提供强大的技术支撑。

2. **市场需求增长**：随着数字化转型的深入，各行各业对大模型的需求将持续增长。特别是在金融、医疗、教育、制造等领域，大模型的应用将更加广泛。

3. **政策支持**：中国政府高度重视人工智能和大数据产业的发展，未来可能会出台更多支持政策，为大模型行业的发展提供良好的政策环境。

4. **国际合作与交流**：随着全球化的发展，中国大模型行业将有更多机会参与国际合作与交流，学习借鉴国际先进经验，提升自身竞争力。

### 挑战

1. **技术瓶颈**：尽管技术进步为大模型的发展提供了动力，但在算法优化、数据处理、模型训练等方面仍存在技术瓶颈需要突破。

2. **数据安全与隐私保护**：大模型的训练和应用需要大量的数据，如何在保证数据安全和用户隐私的前提下有效利用数据是一个重要挑战。

3. **人才短缺**：大模型的研发和应用需要大量高素质的人才，目前中国在这方面还存在一定的短缺问题。

4. **国际竞争加剧**：随着全球范围内对大模型的重视程度不断提高，国际竞争将更加激烈。中国大模型行业需要在技术创新、应用拓展等方面不断提升自身实力以应对国际竞争。

综上所述，中国大模型行业在2025年将面临巨大的发展机遇和挑战。通过持续的技术创新、市场拓展、政策支持和人才培养等措施，有望推动行业的健康快速发展。


In [4]:
import ssl
print(ssl.OPENSSL_VERSION)

OpenSSL 3.0.15 3 Sep 2024
