-
Notifications
You must be signed in to change notification settings - Fork 54
Description
en:
When I try to create a user dictionary using Janome's API, UserDicitionary (),
I encountered /lib/site-packages/janome/fst.py compileFST assert next_addr is not None error message with The stack trace is output.
Then the user dictionary cannot be created.
How can I generate a dictionary?
The original data to be used as a user dictionary is in IPA dictionary format.
I wrote data check function in same python code.
check function says all the lines has 12 commna . so I think The CSV file in IPA dictionary format is ready.
The CSV file is as follows.
<About 20 characters mixed with numbers, symbols and alphabets>快特,-1,-1,1000,名詞,固有名詞,一般,,,,快特,,*
<About 20 characters mixed with numbers, symbols and alphabets>特快,-1,-1,1000,名詞,固有名詞,一般,,,,特快,,*
About 20,000 words below.
I can register up to about 9,000 words without any problems.
If the problem can be solved, the dictionary will have more than tens of millions of lines.
ja( 日本語 ):
Janome の API 、UserDicitionary() を使用してユーザー辞書を作成しようとすると、
<pythonインストール先>/lib/site-packages/janome/fst.py compileFST assert next_addr is not None と言うスタックトレースが出力されて、ユーザー辞書の作成ができません。
どうすれば、辞書が生成できるでしょうか。
ユーザー辞書にする元データは、IPA辞書形式です。
APIを記載したpythonソースコード内で入力ファイルの,(カンマ)の数を数えると全ての行が12個なので、IPA辞書形式のCSVファイルは出来ているかと思います。
CSVファイルは、以下の要領です。
<数字・記号・アルファベット混じりの20文字ぐらい>快特,-1,-1,1000,名詞,固有名詞,一般,,,,快特,,*
<数字・記号・アルファベット混じりの20文字ぐらい>特快,-1,-1,1000,名詞,固有名詞,一般,,,,特快,,*
以下2万語程度
9千語ぐらいまでは、問題なく登録できます。
問題が解決できれば、辞書は数千万行以上にする予定です。
Environment:
Janome 3.10
python 2.7.18 32bit
Windows 8.1 64bit