Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Todo #1

Open
4 of 6 tasks
ywxt opened this issue Jan 31, 2023 · 2 comments
Open
4 of 6 tasks

Todo #1

ywxt opened this issue Jan 31, 2023 · 2 comments
Assignees

Comments

@ywxt
Copy link
Owner

ywxt commented Jan 31, 2023

目前的方案已經初步完成,但是還有很多問題。

  1. 能反映大陸用字的繁體字頻表很難找到,因此常有常用字簡碼被罕用字擠佔的情況。
  2. 與第一條相關,「國字表」包含很多古籍用字,但未包含大陸香港的常用字與異體字,這部分需要刪補。
  3. 詞表很爛,收了太多無意義詞,反倒某些常用詞丟失。

接下來目標:

@ywxt ywxt self-assigned this Jan 31, 2023
@ywxt ywxt pinned this issue Jan 31, 2023
@ksqsf
Copy link

ksqsf commented Feb 1, 2023

能反映大陸用字的繁體字頻表很難找到

之前也碰到過這個問題,可以找到一個比較完整的字頻表 https://faculty.blcu.edu.cn/xinghb/zh_CN/article/167473/content/1437.htm ,但是主要是簡化字的…… _(:з」∠)_

我目前用的辦法是,把簡繁字對兒放在一起算字頻,例如:F({東,东}) = F(東) + F(东)。最後這兩個字給予相同的權重 W(東) = W(东) = F({東, 东}) 即可。我的代碼。精細一點調整的話,還需要讓繁體字權重略大一點,不過我目前還沒有實現。

只在音碼上測試過這個方法(結果是沒有讀音加權有效),形碼上的效果不是很清楚,僅供參考。 _(:з」∠)_

@ywxt
Copy link
Owner Author

ywxt commented Feb 1, 2023

能反映大陸用字的繁體字頻表很難找到

之前也碰到過這個問題,可以找到一個比較完整的字頻表 https://faculty.blcu.edu.cn/xinghb/zh_CN/article/167473/content/1437.htm ,但是主要是簡化字的…… (:з」∠)

我目前用的辦法是,把簡繁字對兒放在一起算字頻,例如:F({東,东}) = F(東) + F(东)。最後這兩個字給予相同的權重 W(東) = W(东) = F({東, 东}) 即可。我的代碼。精細一點調整的話,還需要讓繁體字權重略大一點,不過我目前還沒有實現。

只在音碼上測試過這個方法(結果是沒有讀音加權有效),形碼上的效果不是很清楚,僅供參考。 (:з」∠)

感謝關注。

這個分兩個問題。

第一個是應收哪些異體字。舉個例子,「爲」與「為」是一組常見異體字(異寫字),一般的使用者都會希望二者兼收。但「𠄔」作爲「幻」之隸定字,通常恐怕很難用到他。

第二個是異體字。或體(意義用法完全相同,只有字形不同)可以根據使用相同的字頻。但異體字(字形不同,含意用法部分重疊)的字頻無法兩全。比如,「箇」和「個」,只用「箇」的人希望「箇」的字頻最起碼和「個」一樣高;但用「個」的人則希望「箇」只包含指示代詞「這」的義項,其字頻應該很低。

關於第一點,目前我的想法是使用OpenCC標準,再加之港臺異體字。缺點是部分異體字會缺失,例如《古籍印刷通用字規範字形表》的「槪」「旣」等字。這部分等OpenCC的異體字表整理出來後可能會有所改善。使用此方法我重新制定了字集過濾( #3 )。

第二點,依舊使用OpenCC標準,同你的思路一樣,藉助rime的碼表來設定異體字字頻,也包括一簡多繁的字。這點可行性有待驗證。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants