Skip to content

Rapid Automatic Keyword Extraction algorithm for Japanese

License

Notifications You must be signed in to change notification settings

kanjirz50/rake-ja

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

2 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

rake-ja

Rapid Automatic Keyword Extraction algorithm for Japanese.

This module builds on rake-nltk.

Setup

$ git clone https://github.com/kanjirz50/rake-ja.git
$ cd rake-ja
$ python setup.py install

Quick start

>>> from rake_ja import JapaneseRake, Tokenizer
>>> tok = Tokenizer()
>>> ja_rake = JapaneseRake()
>>> # Wikipediaの記事から引用
>>> text = """「人工知能」という名前は1956年にダートマス会議でジョン・マッカーシーにより命名された。
現在では、記号処理を用いた知能の記述を主体とする情報処理や研究でのアプローチという意味あいでも使われている。
日常語としての「人工知能」という呼び名は非常に曖昧なものになっており、多少気の利いた家庭用電気機械器具の制御システムやゲームソフトの思考ルーチンなどがこう呼ばれることもある。"""
>>> tokens = tok.tokenize(text)
>>> ja_rake.extract_keywords_from_text(tokens)
>>> ja_rake.get_ranked_phrases_with_scores()
[(25.0, '家庭 用 電気 機械 器具'),
 (9.0, 'ダート マス 会議'),
 (4.0, '記号 処理'),
 (4.0, '日常 語'),
 (4.0, '思考 ルーチン'),
 (4.0, '制御 システム'),
 (4.0, 'ゲーム ソフト'),
 (3.5, '人工 知能'),
 (1.5, '知能'),
 (1.0, '記述'),
 (1.0, '研究'),
 (1.0, '用い'),
 (1.0, '現在'),
 (1.0, '気'),
 (1.0, '意味あい'),
 (1.0, '情報処理'),
 (1.0, '命名'),
 (1.0, '呼び名'),
 (1.0, '名前'),
 (1.0, '主体'),
 (1.0, 'マッカーシー'),
 (1.0, 'ジョン'),
 (1.0, 'アプローチ'),
 (1.0, '1956')]

About

Rapid Automatic Keyword Extraction algorithm for Japanese

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Languages