Fix 修正STPhrases中的简体字形错误 by TerryTian-tech · Pull Request #1228 · BYVoid/OpenCC

TerryTian-tech · 2026-05-17T04:34:38Z

修正STPhrases中的简体字形错误，确保STPhrases中的简体词汇得以正确命中转换规则：

简体“内”误写为繁体“內”（共 31 处）

将简体词头中的“內”修正为标准简体“内”，并调整词条位置。

党內 → 党内；党內人士 → 党内人士；党內初选 → 党内初选
互不干涉內政 → 互不干涉内政；从外向內 → 从外向内
子宫內膜 → 子宫内膜；室內乐团 → 室内乐团
同旁內角 → 同旁内角；向內走 → 向内走
竹野內丰 → 竹野内丰；贝尔托內 → 贝尔托内
蒙特內哥罗 → 蒙特内哥罗；颅盖內出血 → 颅盖内出血
（以及内分泌系统、内外向包办、内心里等 13 处位置调整）

简体“册”误写为繁体“冊”（共 6 处）

万用手冊 → 万用手册
参考手冊 → 参考手册
旅游手冊 → 旅游手册
第几冊 → 第几册；几冊 → 几册
冊叶 → 册叶

简体“净”误写为繁体“淨”（共 9 处）

不干不淨 → 不干不净
扫干淨 → 扫干净；拖干淨 → 拖干净；推干淨儿 → 推干净儿
收拾干淨 → 收拾干净；整齐干淨 → 整齐干净
洗干淨 → 洗干净；舔干淨 → 舔干净
消灭淨尽 → 消灭净尽

简体“够”误写为繁体“夠”（共 6 处）

受夠了 → 受够了；只夠到 → 只够到；只夠在 → 只够在
才能夠 → 才能够；睡个夠 → 睡个够；夠面子 → 够面子

简体“教”误写为繁体“敎”（共 4 处）

台中敎育大学 → 台中教育大学
台湾敎育学院 → 台湾教育学院
启发式敎学法 → 启发式教学法
注入式敎学法 → 注入式教学法

简体“沉/深沉”误写为繁体“沈”（共 9 处）

昏沈 → 昏沉；浮沈 → 浮沉；消沈 → 消沉
深沈 → 深沉；深沈不露 → 深沉不露
破釜沈舟 → 破釜沉舟；耳沈 → 耳沉
黑沈沈 → 黑沉沉；暗沈沈 → 暗沉沉

繁体偏旁/异体字直接混入简体侧（共 23 处）

乾兌 → 乾兑；向溼性 → 向湿性；修濬 → 修浚
以貍致鼠 → 以狸致鼠；玉面貍 → 玉面狸
吴嶽修 → 吴岳修；潘嶽白发 → 潘岳白发
苏公隄 → 苏公堤；荡垢涤汙 → 荡垢涤污
珐瑯彩 → 珐琅彩；科尼賽克 → 科尼赛克
老人癡呆症 → 老人痴呆症；牛表牛觔 → 牛表牛斤
牛骥同一皁 → 牛骥同一皂；牵籐带叶 → 牵藤带叶
气燄万丈 → 气焰万丈；甕尽杯干 → 瓮尽杯干
熏鑪 → 熏炉；风溼性心脏病 → 风湿性心脏病
采椽不斲 → 采椽不斫；门皁 → 门皂
虮蝨相吊 → 虮虱相吊；耕前耡后 → 耕前锄后
胡耈 → 胡耇；致冷劑 → 致冷剂

简体“家/家伙”误写为“傢”（共 4 处）

小傢伙 → 小家伙；烟傢伙 → 烟家伙
过傢伙 → 过家伙；有把傢伙 → 有把家伙

“为(為)”误用繁体“爲”（共 7 处）

发爲 → 发为；合爲 → 合为；后爲 → 后为
才爲 → 才为；极爲 → 极为；签爲 → 签为
汇爲 → 汇为

其他字形规范化与Unicode扩展汉字（共 9 处）

尤云殢雨 → 尤云𣨼雨；殢云尤雨 → 𣨼云尤雨
周顗 → 周𫖮；灰面鵟鹰 → 灰面𫛭鹰
坛騞 → 坛𬴃；秋篠宫 → 秋筱宫
托鉢 → 托钵；暗箭明鎗 → 暗箭明枪
经济槓杆 → 经济杠杆

chatgpt-codex-connector

💡 Codex Review

Here are some automated review suggestions for this pull request.

Reviewed commit: cd41897638

ℹ️ About Codex in GitHub

Codex has been enabled to automatically review pull requests in this repo. Reviews are triggered when you

Open a pull request for review
Mark a draft as ready
Comment "@codex review".

If Codex has suggestions, it will comment; otherwise it will react with 👍.

When you sign up for Codex through ChatGPT, Codex can also answer questions or update the PR, like "@codex address that feedback".

danny0838 · 2026-05-17T04:42:33Z

有些沒改完整，例如「內出血」

frankslin · 2026-05-17T09:58:28Z

没改完的「內」可以下一轮再修理，吕后 和 明窗净几 各重复了一遍需要去除。

另外增加了 4 个不在 BMP 内的字；是否探讨一下这四个字是否值得加入白名单？

𫖮 U+2B5AE
𬴃 U+2CD03
𣨼 U+23A3C
𫛭 U+2B6ED

TerryTian-tech · 2026-05-17T10:16:48Z

没改完的「內」可以下一轮再修理，吕后 和 明窗净几 各重复了一遍需要去除。

另外增加了 4 个不在 BMP 内的字；是否探讨一下这四个字是否值得加入白名单？

𫖮 U+2B5AE

𬴃 U+2CD03

𣨼 U+23A3C

𫛭 U+2B6ED

𫖮、𬴃、𫛭都在内地的《通用规范汉字表》的三级字表中，序号分别为7367、7456、7408。“𣨼”为类推简化字，不在《通用规范汉字表》中，但是《现代汉语词典》第7版有这个类推简化字的条目，因此也可以在出版时用于简体文本，此处使用亦是考虑能更好地命中简体文本中的这个词来进行转换。

将已经删除的几个讹误字形增补回词库，这几个内地输入法容易错

TerryTian-tech · 2026-05-17T10:53:59Z

没改完的「內」可以下一轮再修理，吕后 和 明窗净几 各重复了一遍需要去除。

另外增加了 4 个不在 BMP 内的字；是否探讨一下这四个字是否值得加入白名单？

𫖮 U+2B5AE

𬴃 U+2CD03

𣨼 U+23A3C

𫛭 U+2B6ED

刚才试了一下，这几个字形内地的输入法也容易打错成繁体字形，编辑了一下提交，保留原本的讹误，同时再增补这几个字的标准简体形式。

chatgpt-codex-connector

💡 Codex Review

Here are some automated review suggestions for this pull request.

Reviewed commit: d420bf1a9e

ℹ️ About Codex in GitHub

Codex has been enabled to automatically review pull requests in this repo. Reviews are triggered when you

Open a pull request for review
Mark a draft as ready
Comment "@codex review".

If Codex has suggestions, it will comment; otherwise it will react with 👍.

When you sign up for Codex through ChatGPT, Codex can also answer questions or update the PR, like "@codex address that feedback".

frankslin · 2026-05-18T02:15:25Z

这四个字都已经超出 BMP + Ext A，不过另外三个因为属于《通用规范汉字表》，现实里确实有人使用，而且我验证了手机上系统默认字体都能正常显示，说明已经进入现代字体/编码生态了。

U+23A3C（𣨼）则不太一样。电脑上不安装特殊字体时，无法正常渲染，Google 检索下来目前也主要出现在字典、字表等资料里，实际文本使用比较罕见。OpenCC 惯例上也是很少加这一种。

所以我目前倾向于：

另外三个可以先加入；
U+23A3C 暂缓，等看到更多实际文本使用案例再加入。

danny0838 · 2026-05-18T02:25:53Z

s2t 是簡轉繁，無論簡體文本使用哪種字，使用者預期的不就是能否正確轉換為標準正體嗎？

在我看來，把實際上較常見的「殢」和理論上更正確的「𣨼」都加入就好了。

要煩惱的是 t2s 的部分，目前做法是一律自動轉「𣨼」，至於是否要加限制，那就是自訂詞表與之前 #217 的問題了。

TerryTian-tech · 2026-05-18T03:14:27Z

这四个字都已经超出 BMP + Ext A，不过另外三个因为属于《通用规范汉字表》，现实里确实有人使用，而且我验证了手机上系统默认字体都能正常显示，说明已经进入现代字体/编码生态了。

U+23A3C（𣨼）则不太一样。电脑上不安装特殊字体时，无法正常渲染，Google 检索下来目前也主要出现在字典、字表等资料里，实际文本使用比较罕见。OpenCC 惯例上也是很少加这一种。

所以我目前倾向于：

另外三个可以先加入；

U+23A3C 暂缓，等看到更多实际文本使用案例再加入。

这个字在OpenCC的繁转简字表里也有，如果不使用的话，繁转简的字表、词库是不是也要相应修订？我其实并不坚持要用这个字，只是不用的话可能要做更多的修改。

frankslin · 2026-05-18T03:36:54Z

你们说的都对，刚刚确认了「殢」和「𣨼」已经通过 STCharacters.txt / TSCharacters.txt 实现了双向字符级转换，所以这个 PR 并不是第一次让「𣨼」产生转换效果：

OpenCC/data/dictionary/STCharacters.txt

Line 2933 in 161df5a

𣨼殢

OpenCC/data/dictionary/TSCharacters.txt

Line 1041 in 161df5a

殢𣨼

https://opencc.js.org/compare?t=%E6%AE%A2+%E6%AE%A2%E4%BA%91%E5%B0%A4%E9%9B%A8+%F0%A3%A8%BC+%F0%A3%A8%BC%E4%BA%91%E5%B0%A4%E9%9B%A8

换言之，如下测试在 PR 前后都会通过：

    {
      "id": "BYVoid_OpenCC_PR_1228",
      "input": "殢 殢云尤雨 𣨼 𣨼云尤雨",
      "expected": {
        "s2t": "殢 殢雲尤雨 殢 殢雲尤雨",
        "t2s": "𣨼 𣨼云尤雨 𣨼 𣨼云尤雨"
      }
    }

既然这里的字符级转换已经存在，本次 PR 对「𣨼」的实质影响主要是让相关 phrase 在分词和最长匹配时保持完整命中。加入 identity 条目（如「殢雲尤雨 -> 殢雲尤雨」）也不会改变转换结果，这个词条不太容易因不分词产生转换错误。

综上，保留目前版本 PR 中这些 STPhrases 条目是合理的，如果没有其他的问题或 regression 我觉得可以合并。

#217 提到的简体字转换结果阅读体验问题也仍然存在，没有决定后续方向。之前加的非 BMP 白名单测试中排除了 characters 表，是因为字符表里已经有了较多的非 BMP 字符；测试可以用来提醒 phrase/variant 词典中新出现的非 BMP 字，算是着手研究 #217 的第一步。

Fix 修正STPhrases中的简体字形错误

cd41897

chatgpt-codex-connector Bot reviewed May 17, 2026

View reviewed changes

Comment thread data/dictionary/STPhrases.txt

Comment thread data/dictionary/STPhrases.txt Outdated

Fix duplicate STPhrases entries

7f5e8c1

Add new phrases with traditional characters to STPhrases

d420bf1

将已经删除的几个讹误字形增补回词库，这几个内地输入法容易错

chatgpt-codex-connector Bot reviewed May 17, 2026

View reviewed changes

Comment thread data/dictionary/STPhrases.txt

Comment thread data/dictionary/STPhrases.txt

Add new phrase '尤云殢雨' to STPhrases.txt

27d89ed

frankslin merged commit 0e21f31 into BYVoid:master May 18, 2026
31 checks passed

Add a test for 殢/𣨼 conversion to preserve existing behaviors

0daa550

frankslin mentioned this pull request May 18, 2026

關於 PR #1228 的反饋意見 #1230

Closed

TerryTian-tech mentioned this pull request May 19, 2026

Fix 內、沈、潘岳白髮、采椽不斲 #1232

Merged

skyuns mentioned this pull request May 20, 2026

關於"毀、凌、炉、仇、布"的修改討論 #1236

Open

Uh oh!

Conversation

TerryTian-tech commented May 17, 2026

Uh oh!

chatgpt-codex-connector Bot left a comment

Choose a reason for hiding this comment

💡 Codex Review

Uh oh!

Uh oh!

Uh oh!

danny0838 commented May 17, 2026

Uh oh!

frankslin commented May 17, 2026

Uh oh!

TerryTian-tech commented May 17, 2026

Uh oh!

TerryTian-tech commented May 17, 2026

Uh oh!

chatgpt-codex-connector Bot left a comment

Choose a reason for hiding this comment

💡 Codex Review

Uh oh!

Uh oh!

Uh oh!

frankslin commented May 18, 2026

Uh oh!

danny0838 commented May 18, 2026

Uh oh!

TerryTian-tech commented May 18, 2026

Uh oh!

frankslin commented May 18, 2026

Uh oh!

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

3 participants