Skip to content

akirakubo/mazegaki

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

1 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Mozc(Google日本語入力)用交ぜ書き抑制辞書

概要

Mozc(Google日本語入力)用交ぜ書き抑制辞書は、Mozc(Google日本語入力)において交ぜ書き単語が変換候補として出現しない(又は出現しにくくする)様にする事を意図した辞書です。

導入後の効果

本辞書を導入すると、「ゆううつ」→「憂うつ」の様な、交ぜ書き状態のよみ-単語の候補が抑制単語として追加されます。抑制単語として追加された語は変換候補として出力されなくなります。その結果、交ぜ書きの変換が抑止されます。

副作用

本辞書の作成において、語の意味は考慮されていません。幾つかの条件を加味することで、同じ意味の語が対応関係として抽出されているケースが多いのですが、必ずしも成功しておらず、変な語が登録されてしまっている可能性があります。

  • 導入すると、一部の交ぜ書きでない語が変換出来なくなる場合があります。
  • なるべく漢字で書き表す方向で抑止を行うので、学習前は「特定の語は必ず平仮名で変換したい」等の個人の書き癖は無視されます。

意図せぬ変換結果になった場合は、文節を切り直す等して学習させる事により、徐々に全うな変換を行う様になる筈ですが、どうしても変換出来ない場合、対象の語が抑制単語に登録されている可能性があります。この様な場合、対象の語を抑制単語から削除する事で、変換候補に再び出現する様になります。

なお、対応関係として抽出した語を「コメント」列に出力していますので、削除等の際の参考にしてください。

導入手順

手許にgitを実行出来る環境が無い場合、https://github.com/akirakubo/mazegaki/archive/master.zip から最新版をZIPファイルで入手出来ます。

  1. Mozc(Google日本語入力)の「辞書ツール」を起動します。
  2. [管理]メニュー→[新規辞書にインポート...]を選択します。
  3. mazegaki.txtの場所を指定し、辞書名を入力して[インポート]をクリックします。
  4. 「XXXX エントリーを <辞書名> にインポートしました。」(エントリー数は本辞書のバージョンにより異なります)と表示され、インポートが終了します。

以上で導入作業は終了です。試しに辞書に登録されている語の「よみ」を幾つか入力してみて、変換候補に「単語」が登場しない事を確認してください。

注意点

環境設定においてシークレットモードが有効になっていると、Mozc(Google日本語入力)はユーザー辞書機能を停止します。本辞書を使用する場合、シークレットモードを無効の状態にしてください(デフォルトでは無効となっています)。

仕組み

本辞書は、Google日本語入力のオープンソース版であるMozcに同梱されている辞書(Open source mozc dictionary)から一定の条件を元に単語を抽出し、これらを交ぜ書き単語と看做して抑制単語にリストアップしています。

単語の抽出はスクリプトにより機械的に行っています。或語Aと語Bについて以下の全ての条件を満たす時、スクリプトは「AはBの交ぜ書き語である」と判断します。

  1. Aの単語が固有名詞以外である。
  2. Aの単語が平仮名、「ー」又は常用漢字(後述)のいずれかで構成されていて、平仮名を必ず含む。
  3. Bの単語が平仮名、片仮名、「ー」、常用漢字及び半角英数数字以外の文字を含む。
  4. AとBの読みが一致している。
  5. AとBの品詞(具体的にはid.defで定義される品詞ID)が一致している。
  6. AとBの単語のうち、少なくとも一つ以上の常用漢字が一致している。
  7. Aの単語の平仮名の数がBの単語の平仮名の数より多い。

Google日本語入力の辞書とMozcの辞書は同一ではないため、Google日本語入力の辞書に登録されている語がMozcの辞書に存在しない、又は、逆の場合があり得ますが、両方共に登録されている語もある(と思われる)ため、共通する語については抑止が可能です。

登録内容は以下の様になっています。

読み 単語 品詞 コメント
語Aの読み 語Aの単語 抑制単語 語Bの単語

「常用漢字」について

本辞書で抽出に使用する常用漢字表は、2010年の改正以前のものです。

これは、2010年の改正により交ぜ書き単語の幾つかが常用漢字表の範囲内で漢字表記出来る様になったものの、Web上にはこれ以前の基準によって書かれたテキストも大量に存在しており、Web上のテキストをベースに辞書を構築しているMozc(Google日本語入力)においては、依然としてこれらの語が交ぜ書きで出力される可能性がある為です。

応用

Excel等で「単語」列と「コメント」列を入替える事で、単語をなるべく交ぜ書きで変換する様になります。

この場合においても2010年の常用漢字表の改正は考慮されないので、現在においては交ぜ書きする必要がない語も交ぜ書きで変換する様になります。

動作確認環境

  • GoogleJapaneseInput-2.20.2700.1+24.0.9

About

Mozc(Google日本語入力)用交ぜ書き抑制辞書

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published