Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Herokuでも形態素解析したい #4

Open
tadd opened this issue Mar 2, 2014 · 2 comments
Open

Herokuでも形態素解析したい #4

tadd opened this issue Mar 2, 2014 · 2 comments

Comments

@tadd
Copy link
Owner

tadd commented Mar 2, 2014

#3 のコメントに書いた通り、まともな点字翻訳には助詞にあたるカナの変換(「は」→「わ」のようなもの)が不可欠になる。変換自体は自明だが、助詞を見つけ出す作業には日本語自然文に対する形態素解析が必要。

これを安直にMeCabでやろうとも考えたが、任意のCライブラリをインストールできないHerokuでは実行できなくなってしまう(基本的にGem経由でなければいけなさそう)。

Herokuに依存するライブラリにするつもりはないが、ひとまずHerokuの枠の中でうまく動くライブラリにはしたい。

いくつかの解決案。

  • Nokogiriがlibxmlに対してやっている(libxml2 and libxslt are bundled with the gem)ように、MeCabを内包した拡張ライブラリgemを作る
    • ○ 一度インストールできちゃえば困ることはなさそう
    • × 作るの自体がめんどくさそう
  • Ruby製の形態素解析ライブラリを使う。たとえば okura とか
    • ○ gemはもうあるから楽、今のところ最有力
    • × okuraを使うとして:
    • MeCab辞書部分はgemを作らなくちゃいけなさそう(でも比較的簡単そう)
    • どこまで使えるか、試さないと分からない
  • Herokuアドオンとしても使える、SolrやElasticSearch経由でKuromojiとかを使う
    • × 生きてる別サーバーが必要という時点で、braille-jaが独立したライブラリとして存在する意味があまりなくなってしまう
  • Kuromoji*.jarをRubyから叩く
    • ○ gemを作るとしても、jarを内包するだけ
    • × rjb経由でJVM立ち上げるというやり過ぎ感
@tadd tadd self-assigned this Mar 2, 2014
@tadd
Copy link
Owner Author

tadd commented Mar 24, 2014

MeCab辞書内包gemを作るとしたら、10MBを超えそう。
しかも.debってもうたいていxz使ってるけど、gemってgzipだからパックし直すだけで数割は増えるんじゃないか?
https://packages.debian.org/jessie/mecab-ipadic
https://packages.debian.org/jessie/mecab-naist-jdic-eucjp
Nokogiriですら9MBらしいし、rubygems.orgにbanされないかな…
https://rubygems.org/gems/nokogiri

@tadd
Copy link
Owner Author

tadd commented Aug 11, 2014

自分はmini_portileの動きを誤解していて、gem install時にダウンロードとコンパイルが走るので、gem自体には外部tarballは含まれないのであった。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

No branches or pull requests

1 participant