Fix 修正STPhrases中的简体字形错误#1228
Conversation
There was a problem hiding this comment.
💡 Codex Review
Here are some automated review suggestions for this pull request.
Reviewed commit: cd41897638
ℹ️ About Codex in GitHub
Codex has been enabled to automatically review pull requests in this repo. Reviews are triggered when you
- Open a pull request for review
- Mark a draft as ready
- Comment "@codex review".
If Codex has suggestions, it will comment; otherwise it will react with 👍.
When you sign up for Codex through ChatGPT, Codex can also answer questions or update the PR, like "@codex address that feedback".
|
有些沒改完整,例如「內出血」 |
|
没改完的「內」可以下一轮再修理, 另外增加了 4 个不在 BMP 内的字;是否探讨一下这四个字是否值得加入白名单?
|
𫖮、𬴃、𫛭都在内地的《通用规范汉字表》的三级字表中,序号分别为7367、7456、7408。“𣨼”为类推简化字,不在《通用规范汉字表》中,但是《现代汉语词典》第7版有这个类推简化字的条目,因此也可以在出版时用于简体文本,此处使用亦是考虑能更好地命中简体文本中的这个词来进行转换。 |
将已经删除的几个讹误字形增补回词库,这几个内地输入法容易错
刚才试了一下,这几个字形内地的输入法也容易打错成繁体字形,编辑了一下提交,保留原本的讹误,同时再增补这几个字的标准简体形式。 |
There was a problem hiding this comment.
💡 Codex Review
Here are some automated review suggestions for this pull request.
Reviewed commit: d420bf1a9e
ℹ️ About Codex in GitHub
Codex has been enabled to automatically review pull requests in this repo. Reviews are triggered when you
- Open a pull request for review
- Mark a draft as ready
- Comment "@codex review".
If Codex has suggestions, it will comment; otherwise it will react with 👍.
When you sign up for Codex through ChatGPT, Codex can also answer questions or update the PR, like "@codex address that feedback".
|
这四个字都已经超出 BMP + Ext A,不过另外三个因为属于《通用规范汉字表》,现实里确实有人使用,而且我验证了手机上系统默认字体都能正常显示,说明已经进入现代字体/编码生态了。 U+23A3C(𣨼)则不太一样。电脑上不安装特殊字体时,无法正常渲染,Google 检索下来目前也主要出现在字典、字表等资料里,实际文本使用比较罕见。OpenCC 惯例上也是很少加这一种。 所以我目前倾向于:
|
|
s2t 是簡轉繁,無論簡體文本使用哪種字,使用者預期的不就是能否正確轉換為標準正體嗎? 在我看來,把實際上較常見的「殢」和理論上更正確的「𣨼」都加入就好了。 要煩惱的是 t2s 的部分,目前做法是一律自動轉「𣨼」,至於是否要加限制,那就是自訂詞表與之前 #217 的問題了。 |
这个字在OpenCC的繁转简字表里也有,如果不使用的话,繁转简的字表、词库是不是也要相应修订?我其实并不坚持要用这个字,只是不用的话可能要做更多的修改。 |
|
你们说的都对,刚刚确认了「殢」和「𣨼」已经通过 STCharacters.txt / TSCharacters.txt 实现了双向字符级转换,所以这个 PR 并不是第一次让「𣨼」产生转换效果: OpenCC/data/dictionary/STCharacters.txt Line 2933 in 161df5a OpenCC/data/dictionary/TSCharacters.txt Line 1041 in 161df5a https://opencc.js.org/compare?t=%E6%AE%A2+%E6%AE%A2%E4%BA%91%E5%B0%A4%E9%9B%A8+%F0%A3%A8%BC+%F0%A3%A8%BC%E4%BA%91%E5%B0%A4%E9%9B%A8 换言之,如下测试在 PR 前后都会通过: 既然这里的字符级转换已经存在,本次 PR 对「𣨼」的实质影响主要是让相关 phrase 在分词和最长匹配时保持完整命中。加入 identity 条目(如「殢雲尤雨 -> 殢雲尤雨」)也不会改变转换结果,这个词条不太容易因不分词产生转换错误。 综上,保留目前版本 PR 中这些 STPhrases 条目是合理的,如果没有其他的问题或 regression 我觉得可以合并。 #217 提到的简体字转换结果阅读体验问题也仍然存在,没有决定后续方向。之前加的非 BMP 白名单测试中排除了 characters 表,是因为字符表里已经有了较多的非 BMP 字符;测试可以用来提醒 phrase/variant 词典中新出现的非 BMP 字,算是着手研究 #217 的第一步。 |
修正STPhrases中的简体字形错误,确保STPhrases中的简体词汇得以正确命中转换规则:
将简体词头中的“內”修正为标准简体“内”,并调整词条位置。