Skip to content

Fix 修正STPhrases中的简体字形错误#1228

Merged
frankslin merged 5 commits into
BYVoid:masterfrom
TerryTian-tech:master
May 18, 2026
Merged

Fix 修正STPhrases中的简体字形错误#1228
frankslin merged 5 commits into
BYVoid:masterfrom
TerryTian-tech:master

Conversation

@TerryTian-tech
Copy link
Copy Markdown
Contributor

修正STPhrases中的简体字形错误,确保STPhrases中的简体词汇得以正确命中转换规则:

  1. 简体“内”误写为繁体“內”(共 31 处)

将简体词头中的“內”修正为标准简体“内”,并调整词条位置。

  • 党內 → 党内;党內人士 → 党内人士;党內初选 → 党内初选
  • 互不干涉內政 → 互不干涉内政;从外向內 → 从外向内
  • 子宫內膜 → 子宫内膜;室內乐团 → 室内乐团
  • 同旁內角 → 同旁内角;向內走 → 向内走
  • 竹野內丰 → 竹野内丰;贝尔托內 → 贝尔托内
  • 蒙特內哥罗 → 蒙特内哥罗;颅盖內出血 → 颅盖内出血
  • (以及内分泌系统、内外向包办、内心里等 13 处位置调整)
  1. 简体“册”误写为繁体“冊”(共 6 处)
  • 万用手冊 → 万用手册
  • 参考手冊 → 参考手册
  • 旅游手冊 → 旅游手册
  • 第几冊 → 第几册;几冊 → 几册
  • 冊叶 → 册叶
  1. 简体“净”误写为繁体“淨”(共 9 处)
  • 不干不淨 → 不干不净
  • 扫干淨 → 扫干净;拖干淨 → 拖干净;推干淨儿 → 推干净儿
  • 收拾干淨 → 收拾干净;整齐干淨 → 整齐干净
  • 洗干淨 → 洗干净;舔干淨 → 舔干净
  • 消灭淨尽 → 消灭净尽
  1. 简体“够”误写为繁体“夠”(共 6 处)
  • 受夠了 → 受够了;只夠到 → 只够到;只夠在 → 只够在
  • 才能夠 → 才能够;睡个夠 → 睡个够;夠面子 → 够面子
  1. 简体“教”误写为繁体“敎”(共 4 处)
  • 台中敎育大学 → 台中教育大学
  • 台湾敎育学院 → 台湾教育学院
  • 启发式敎学法 → 启发式教学法
  • 注入式敎学法 → 注入式教学法
  1. 简体“沉/深沉”误写为繁体“沈”(共 9 处)
  • 昏沈 → 昏沉;浮沈 → 浮沉;消沈 → 消沉
  • 深沈 → 深沉;深沈不露 → 深沉不露
  • 破釜沈舟 → 破釜沉舟;耳沈 → 耳沉
  • 黑沈沈 → 黑沉沉;暗沈沈 → 暗沉沉
  1. 繁体偏旁/异体字直接混入简体侧(共 23 处)
  • 乾兌 → 乾兑;向溼性 → 向湿性;修濬 → 修浚
  • 以貍致鼠 → 以狸致鼠;玉面貍 → 玉面狸
  • 吴嶽修 → 吴岳修;潘嶽白发 → 潘岳白发
  • 苏公隄 → 苏公堤;荡垢涤汙 → 荡垢涤污
  • 珐瑯彩 → 珐琅彩;科尼賽克 → 科尼赛克
  • 老人癡呆症 → 老人痴呆症;牛表牛觔 → 牛表牛斤
  • 牛骥同一皁 → 牛骥同一皂;牵籐带叶 → 牵藤带叶
  • 气燄万丈 → 气焰万丈;甕尽杯干 → 瓮尽杯干
  • 熏鑪 → 熏炉;风溼性心脏病 → 风湿性心脏病
  • 采椽不斲 → 采椽不斫;门皁 → 门皂
  • 虮蝨相吊 → 虮虱相吊;耕前耡后 → 耕前锄后
  • 胡耈 → 胡耇;致冷劑 → 致冷剂
  1. 简体“家/家伙”误写为“傢”(共 4 处)
  • 小傢伙 → 小家伙;烟傢伙 → 烟家伙
  • 过傢伙 → 过家伙;有把傢伙 → 有把家伙
  1. “为(為)”误用繁体“爲”(共 7 处)
  • 发爲 → 发为;合爲 → 合为;后爲 → 后为
  • 才爲 → 才为;极爲 → 极为;签爲 → 签为
  • 汇爲 → 汇为
  1. 其他字形规范化与Unicode扩展汉字(共 9 处)
  • 尤云殢雨 → 尤云𣨼雨;殢云尤雨 → 𣨼云尤雨
  • 周顗 → 周𫖮;灰面鵟鹰 → 灰面𫛭鹰
  • 坛騞 → 坛𬴃;秋篠宫 → 秋筱宫
  • 托鉢 → 托钵;暗箭明鎗 → 暗箭明枪
  • 经济槓杆 → 经济杠杆

Copy link
Copy Markdown

@chatgpt-codex-connector chatgpt-codex-connector Bot left a comment

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

💡 Codex Review

Here are some automated review suggestions for this pull request.

Reviewed commit: cd41897638

ℹ️ About Codex in GitHub

Codex has been enabled to automatically review pull requests in this repo. Reviews are triggered when you

  • Open a pull request for review
  • Mark a draft as ready
  • Comment "@codex review".

If Codex has suggestions, it will comment; otherwise it will react with 👍.

When you sign up for Codex through ChatGPT, Codex can also answer questions or update the PR, like "@codex address that feedback".

Comment thread data/dictionary/STPhrases.txt
Comment thread data/dictionary/STPhrases.txt Outdated
@danny0838
Copy link
Copy Markdown
Contributor

有些沒改完整,例如「內出血」

@frankslin
Copy link
Copy Markdown
Collaborator

没改完的「內」可以下一轮再修理,吕后明窗净几 各重复了一遍需要去除。

另外增加了 4 个不在 BMP 内的字;是否探讨一下这四个字是否值得加入白名单?

  • 𫖮 U+2B5AE
  • 𬴃 U+2CD03
  • 𣨼 U+23A3C
  • 𫛭 U+2B6ED

@TerryTian-tech
Copy link
Copy Markdown
Contributor Author

没改完的「內」可以下一轮再修理,吕后明窗净几 各重复了一遍需要去除。

另外增加了 4 个不在 BMP 内的字;是否探讨一下这四个字是否值得加入白名单?

  • 𫖮 U+2B5AE
  • 𬴃 U+2CD03
  • 𣨼 U+23A3C
  • 𫛭 U+2B6ED

𫖮、𬴃、𫛭都在内地的《通用规范汉字表》的三级字表中,序号分别为7367、7456、7408。“𣨼”为类推简化字,不在《通用规范汉字表》中,但是《现代汉语词典》第7版有这个类推简化字的条目,因此也可以在出版时用于简体文本,此处使用亦是考虑能更好地命中简体文本中的这个词来进行转换。

将已经删除的几个讹误字形增补回词库,这几个内地输入法容易错
@TerryTian-tech
Copy link
Copy Markdown
Contributor Author

没改完的「內」可以下一轮再修理,吕后明窗净几 各重复了一遍需要去除。

另外增加了 4 个不在 BMP 内的字;是否探讨一下这四个字是否值得加入白名单?

  • 𫖮 U+2B5AE
  • 𬴃 U+2CD03
  • 𣨼 U+23A3C
  • 𫛭 U+2B6ED

刚才试了一下,这几个字形内地的输入法也容易打错成繁体字形,编辑了一下提交,保留原本的讹误,同时再增补这几个字的标准简体形式。

Copy link
Copy Markdown

@chatgpt-codex-connector chatgpt-codex-connector Bot left a comment

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

💡 Codex Review

Here are some automated review suggestions for this pull request.

Reviewed commit: d420bf1a9e

ℹ️ About Codex in GitHub

Codex has been enabled to automatically review pull requests in this repo. Reviews are triggered when you

  • Open a pull request for review
  • Mark a draft as ready
  • Comment "@codex review".

If Codex has suggestions, it will comment; otherwise it will react with 👍.

When you sign up for Codex through ChatGPT, Codex can also answer questions or update the PR, like "@codex address that feedback".

Comment thread data/dictionary/STPhrases.txt
Comment thread data/dictionary/STPhrases.txt
@frankslin
Copy link
Copy Markdown
Collaborator

这四个字都已经超出 BMP + Ext A,不过另外三个因为属于《通用规范汉字表》,现实里确实有人使用,而且我验证了手机上系统默认字体都能正常显示,说明已经进入现代字体/编码生态了。

U+23A3C(𣨼)则不太一样。电脑上不安装特殊字体时,无法正常渲染,Google 检索下来目前也主要出现在字典、字表等资料里,实际文本使用比较罕见。OpenCC 惯例上也是很少加这一种。

所以我目前倾向于:

  • 另外三个可以先加入;
  • U+23A3C 暂缓,等看到更多实际文本使用案例再加入。

@danny0838
Copy link
Copy Markdown
Contributor

s2t 是簡轉繁,無論簡體文本使用哪種字,使用者預期的不就是能否正確轉換為標準正體嗎?

在我看來,把實際上較常見的「殢」和理論上更正確的「𣨼」都加入就好了。

要煩惱的是 t2s 的部分,目前做法是一律自動轉「𣨼」,至於是否要加限制,那就是自訂詞表與之前 #217 的問題了。

@TerryTian-tech
Copy link
Copy Markdown
Contributor Author

这四个字都已经超出 BMP + Ext A,不过另外三个因为属于《通用规范汉字表》,现实里确实有人使用,而且我验证了手机上系统默认字体都能正常显示,说明已经进入现代字体/编码生态了。

U+23A3C(𣨼)则不太一样。电脑上不安装特殊字体时,无法正常渲染,Google 检索下来目前也主要出现在字典、字表等资料里,实际文本使用比较罕见。OpenCC 惯例上也是很少加这一种。

所以我目前倾向于:

  • 另外三个可以先加入;
  • U+23A3C 暂缓,等看到更多实际文本使用案例再加入。

这个字在OpenCC的繁转简字表里也有,如果不使用的话,繁转简的字表、词库是不是也要相应修订?我其实并不坚持要用这个字,只是不用的话可能要做更多的修改。

@frankslin
Copy link
Copy Markdown
Collaborator

你们说的都对,刚刚确认了「殢」和「𣨼」已经通过 STCharacters.txt / TSCharacters.txt 实现了双向字符级转换,所以这个 PR 并不是第一次让「𣨼」产生转换效果:



https://opencc.js.org/compare?t=%E6%AE%A2+%E6%AE%A2%E4%BA%91%E5%B0%A4%E9%9B%A8+%F0%A3%A8%BC+%F0%A3%A8%BC%E4%BA%91%E5%B0%A4%E9%9B%A8

换言之,如下测试在 PR 前后都会通过:

    {
      "id": "BYVoid_OpenCC_PR_1228",
      "input": "殢 殢云尤雨 𣨼 𣨼云尤雨",
      "expected": {
        "s2t": "殢 殢雲尤雨 殢 殢雲尤雨",
        "t2s": "𣨼 𣨼云尤雨 𣨼 𣨼云尤雨"
      }
    }

既然这里的字符级转换已经存在,本次 PR 对「𣨼」的实质影响主要是让相关 phrase 在分词和最长匹配时保持完整命中。加入 identity 条目(如「殢雲尤雨 -> 殢雲尤雨」)也不会改变转换结果,这个词条不太容易因不分词产生转换错误。

综上,保留目前版本 PR 中这些 STPhrases 条目是合理的,如果没有其他的问题或 regression 我觉得可以合并。

#217 提到的简体字转换结果阅读体验问题也仍然存在,没有决定后续方向。之前加的非 BMP 白名单测试中排除了 characters 表,是因为字符表里已经有了较多的非 BMP 字符;测试可以用来提醒 phrase/variant 词典中新出现的非 BMP 字,算是着手研究 #217 的第一步。

@frankslin frankslin merged commit 0e21f31 into BYVoid:master May 18, 2026
31 checks passed
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment

Labels

None yet

Projects

None yet

Development

Successfully merging this pull request may close these issues.

3 participants