In [1]:
"""
参考リスト
http://mocobeta.github.io/janome/
-> Janomeの公式ドキュメント、用法が載っている
https://github.com/mocobeta/janome
-> Janomeのリポジトリ
"""
import codecs
from janome.tokenizer import Tokenizer

In [2]:
# 簡単な使用方法
t = Tokenizer()
for token in t.tokenize(u'すもももももももものうち'):
    #print(token.part_of_speech)
    print(token.surface)
    #print(token)

すもも
も
もも
も
もも
の
うち


In [3]:
# ユーザ辞書の導入
t = Tokenizer("files_step1/userdic.csv", udic_enc="utf8")
#t = Tokenizer()
for token in t.tokenize(u'東京スカイツリーへのお越しは、東武スカイツリーライン「とうきょうスカイツリー駅」が便利です。'):
    #print(token.part_of_speech)
    #print(token.surface)
    print(token)

東京スカイツリー	名詞,固有名詞,一般,*,*,*,東京スカイツリー,トウキョウスカイツリー,トウキョウスカイツリー
へ	助詞,格助詞,一般,*,*,*,へ,ヘ,エ
の	助詞,連体化,*,*,*,*,の,ノ,ノ
お越し	名詞,一般,*,*,*,*,お越し,オコシ,オコシ
は	助詞,係助詞,*,*,*,*,は,ハ,ワ
、	記号,読点,*,*,*,*,、,、,、
東武スカイツリーライン	名詞,固有名詞,一般,*,*,*,東武スカイツリーライン,トウブスカイツリーライン,トウブスカイツリーライン
「	記号,括弧開,*,*,*,*,「,「,「
とうきょうスカイツリー駅	名詞,固有名詞,一般,*,*,*,とうきょうスカイツリー駅,トウキョウスカイツリーエキ,トウキョウスカイツリーエキ
」	記号,括弧閉,*,*,*,*,」,」,」
が	助詞,格助詞,一般,*,*,*,が,ガ,ガ
便利	名詞,形容動詞語幹,*,*,*,*,便利,ベンリ,ベンリ
です	助動詞,*,*,*,特殊・デス,基本形,です,デス,デス
。	記号,句点,*,*,*,*,。,。,。


In [4]:
# 以下はAnalyzer（形態素解析の前処理・後処理をテンプレ化するためのフレームワーク）
from janome.analyzer import Analyzer
from janome.charfilter import *
from janome.tokenfilter import *

In [5]:
# CharFilterを用いた前処理 や TokenFilterを用いた後処理
text = u'蛇の目はPure Ｐｙｔｈｏｎな形態素解析器です。'
char_filters = [UnicodeNormalizeCharFilter(), RegexReplaceCharFilter(u'蛇の目', u'janome')]
tokenizer = Tokenizer()
token_filters = [CompoundNounFilter(), POSStopFilter(['記号','助詞']), LowerCaseFilter()]
a = Analyzer(char_filters, tokenizer, token_filters)
for token in a.analyze(text):
    print(token)

janome	名詞,固有名詞,組織,*,*,*,janome,*,*
pure	名詞,固有名詞,組織,*,*,*,pure,*,*
python	名詞,一般,*,*,*,*,python,*,*
な	助動詞,*,*,*,特殊・ダ,体言接続,だ,ナ,ナ
形態素解析器	名詞,複合,*,*,*,*,形態素解析器,ケイタイソカイセキキ,ケイタイソカイセキキ
です	助動詞,*,*,*,特殊・デス,基本形,です,デス,デス


In [6]:
# TokenCountFilterを用いた入力文字列中の単語出現頻度のカウント
text = u'すもももももももものうち'
token_filters = [POSKeepFilter('名詞'), TokenCountFilter()]
a = Analyzer(token_filters=token_filters)
for k, v in a.analyze(text):
    print('%s: %d' % (k, v))

すもも: 1
もも: 2
うち: 1


In [7]:
# ストリーミングモード
t = Tokenizer()
with codecs.open('files_step1/very_large_text.txt', 'r', 'utf-8') as f:
    txt = f.read()
    for token in t.tokenize(txt, stream=True):
        print(token)

今回	名詞,副詞可能,*,*,*,*,今回,コンカイ,コンカイ
は	助詞,係助詞,*,*,*,*,は,ハ,ワ
サンプル	名詞,一般,*,*,*,*,サンプル,サンプル,サンプル
な	助動詞,*,*,*,特殊・ダ,体言接続,だ,ナ,ナ
ので	助詞,接続助詞,*,*,*,*,ので,ノデ,ノデ
短く	形容詞,自立,*,*,形容詞・アウオ段,連用テ接続,短い,ミジカク,ミジカク
する	動詞,自立,*,*,サ変・スル,基本形,する,スル,スル
が	助詞,接続助詞,*,*,*,*,が,ガ,ガ
、	記号,読点,*,*,*,*,、,、,、
実際	副詞,助詞類接続,*,*,*,*,実際,ジッサイ,ジッサイ
は	助詞,係助詞,*,*,*,*,は,ハ,ワ
大きな	連体詞,*,*,*,*,*,大きな,オオキナ,オーキナ
ファイル	名詞,一般,*,*,*,*,ファイル,ファイル,ファイル
を	助詞,格助詞,一般,*,*,*,を,ヲ,ヲ
扱う	動詞,自立,*,*,五段・ワ行促音便,基本形,扱う,アツカウ,アツカウ
。	記号,句点,*,*,*,*,。,。,。


In [8]:
# わかち書きモード
t = Tokenizer()
tokens = t.tokenize(u'分かち書きモードがつきました！', wakati=True)
print(tokens)

['分かち書き', 'モード', 'が', 'つき', 'まし', 'た', '！']
