Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

重要性の低い語を削る。 #5

Open
tokuhirom opened this issue Jan 20, 2023 · 7 comments
Open

重要性の低い語を削る。 #5

tokuhirom opened this issue Jan 20, 2023 · 7 comments

Comments

@tokuhirom
Copy link
Owner

現在、約30MB。615,060行。

% ls -lah SKK-JISYO.jawiki
-rw-r--r-- 1 tokuhirom tokuhirom 30M Jan 14 22:52 SKK-JISYO.jawiki
% wc -l SKK-JISYO.jawiki
615060 SKK-JISYO.jawiki

SKK-JISYO.L が 4.3MB 175,836 行なのと比べても非常に大きい。約6倍。

% ls -lh SKK-JISYO.L
-rw-r--r-- 1 root root 4.3M Oct 31 02:10 SKK-JISYO.L
% wc -l SKK-JISYO.L
175836 SKK-JISYO.L

新語を大量に収録しているので、大きいのは当然だけれど、もう少し絞ってもいい気がする。

@tokuhirom
Copy link
Owner Author

○○県立○○小学校 のような語彙が大量に登録されている。21K も登録されていて、非常に大きい。

% grep '.*立.*学校' ~/dev/jawiki-kana-kanji-dict/SKK-JISYO.jawiki | wc -l
21827

まずはこれを除外することを考える。

@tokuhirom
Copy link
Owner Author

学校名については 86f37c6 で対応した。

@tokuhirom
Copy link
Owner Author

30MB → 28MB に減少。非常に効果が大きかった。

@tokuhirom
Copy link
Owner Author

perl -CSD -Mutf8 -nE 'chomp; say length($1)," ",$_ if m{^([^ ]+)}' SKK-JISYO.jawiki | sort -n として眺めてみると、読みが20文字を超えるようなものはとても単語とは言えないものしかない。
読みの長すぎるものを除外するように考えていくのが良さそうだ。

@tokuhirom
Copy link
Owner Author

14文字ぐらいなら、意味のあるエントリはありそう。

In [1]: len('ばくしょうもんだい')
Out[1]: 9

In [2]: len('ちゅうかじんみんきょうわこく')
Out[2]: 14

@tokuhirom
Copy link
Owner Author

とりあえず、20文字以上のものは本当に意味のあるエントリがないことは目検したので、、20文字以上のものはカット。
これで 25MB になる。
本当は15文字以上のものをカットするぐらいやってしまっても問題がないと思う。

@tokuhirom
Copy link
Owner Author

11文字の「なにこれちんひゃっけい」は変換出来て欲しいかな〜

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

1 participant