Skip to content

HTTPS clone URL

Subversion checkout URL

You can clone with HTTPS or Subversion.

Download ZIP
日本語テキストに含まれる複合語をパースするライブラリ
Ruby
branch: master

Fetching latest commit…

Cannot retrieve the latest commit at this time

Failed to load latest commit information.
example
lib/ja
spec
.document
.gitignore
.rspec
Gemfile
README.rdoc
Rakefile
VERSION

README.rdoc

Ja::ComplexWord

概要

MeCab の形態素解析結果に複合語の考慮を与えるライブラリ。 TermExtract::MeCab (Perl ライブラリ) から複合語に関する処理を抜き出し、単体でシンプルに使えるようにしたものです。

イメージとしては、[東京 特許 許可局 の 名前 が 欲しい です] という形態素の配列があるときに、[[東京 特許 許可局] の [名前] が 欲しい です] のように flat ではない 2 次元配列へとパースしてくれるものです。

使い方

require 'ja/complex_word'

text = 'ABC事件とは東京特許許可局でバスガス爆発が緊急発生した事件のことです'
jcw = Ja::ComplexWord.new
node_list = jcw.parse(text)
node_list.each do |node|
  if node.is_a?(Array)
    all = node.map{|n| n.surface }.join
    puts "#{all}\t複合語"
    node.each do |n|
      puts " - #{n.surface}\t#{n.feature}"
    end
  else
    puts "#{node.surface}\t#{node.feature}"
  end
end

ABC事件 複合語
 - ABC  ,
 - 事件 名詞,一般,*,*,*,*,事件,ジケン,ジケン
と      助詞,格助詞,一般,*,*,*,と,ト,ト
は      助詞,係助詞,*,*,*,*,は,ハ,ワ
東京特許許可局  複合語
 - 東京 名詞,固有名詞,地域,一般,*,*,東京,トウキョウ,トーキョー
 - 特許 名詞,サ変接続,*,*,*,*,特許,トッキョ,トッキョ
 - 許可 名詞,サ変接続,*,*,*,*,許可,キョカ,キョカ
 - 局   名詞,接尾,一般,*,*,*,局,キョク,キョク
で      助詞,格助詞,一般,*,*,*,で,デ,デ
バスガス爆発    複合語
 - バス 名詞,一般,*,*,*,*,バス,バス,バス
 - ガス 名詞,一般,*,*,*,*,ガス,ガス,ガス
 - 爆発 名詞,サ変接続,*,*,*,*,爆発,バクハツ,バクハツ
が      助詞,格助詞,一般,*,*,*,が,ガ,ガ
緊急発生        複合語
 - 緊急 名詞,形容動詞語幹,*,*,*,*,緊急,キンキュウ,キンキュー
 - 発生 名詞,サ変接続,*,*,*,*,発生,ハッセイ,ハッセイ
し      動詞,自立,*,*,サ変・スル,連用形,する,シ,シ
た      助動詞,*,*,*,特殊・タ,基本形,た,タ,タ
事件    名詞,一般,*,*,*,*,事件,ジケン,ジケン
の      助詞,連体化,*,*,*,*,の,ノ,ノ
こと    名詞,非自立,一般,*,*,*,こと,コト,コト
です    助動詞,*,*,*,特殊・デス,基本形,です,デス,デス

ライセンス

Term::Extract のライセンスと同様にしたいと思います。 (Term::Extract のライセンス自体がどうなっているかよく分かりませんが…。)

Something went wrong with that request. Please try again.