Skip to content
tfidf_jaは与えられた単語の配列の TF-IDF を算出し、単語をキー、TF-IDF値をバリューとするハッシュテーブルを返却するライブラリです。
Ruby
Find file
Pull request Compare This branch is 1 commit ahead, 2 commits behind kyow:master.
Fetching latest commit…
Cannot retrieve the latest commit at this time.
Failed to load latest commit information.
dic
lib
spec
test
.document
.gitignore
.rspec
Gemfile
Gemfile.lock
Guardfile
LICENSE.txt
README.rdoc
Rakefile
VERSION
tfidf_ja.gemspec

README.rdoc

tfidf_ja

tfidf_jaは与えられた単語の配列の TF-IDF を算出し、単語をキー、TF-IDF値をバリューとするハッシュテーブルを返却するライブラリです。

特徴

tfidf_jaには以下の特徴があります。

  • IDF辞書

    • IPADIC辞書に収録されている日本語の形態素(約32万語)を使用し、TF値をYahoo!のインデックス数としてあらかじめ算出。

    • 算出したTF値からIDF値を算出し、IDF辞書としてライブラリに包含し、ライブラリ使用時の算出コストを減らしています。

  • 形態素解析

    • igo-rubyを算出することをおすすめします。

インストール方法

コマンドプロンプトより以下を実行してください。

$ gem install tfidf_ja

サンプル

単語の配列からTF-IDFを取得

require 'rubygems'
require 'tfidf_ja'

ti = TfIdf::Ja.new
p ti.tfidf(['この', '文章', 'から', 'TFIDF', '値', 'を', '取得', 'する'])

インスタンスを使い回し

インスタンスを使い回すことにより、TF-IDF値は加算されていきます。 複数のテキストから連続して算出する場合に便利です。

付録

公開場所

Copyright

Copyright © 2011 K.Nishi. See LICENSE.txt for further details.

Something went wrong with that request. Please try again.