## 単語分割

In [1]:
!pip install janome

Collecting janome
  Downloading Janome-0.4.1-py2.py3-none-any.whl (19.7 MB)
[K     |████████████████████████████████| 19.7 MB 9.9 MB/s eta 0:00:01
[?25hInstalling collected packages: janome
Successfully installed janome-0.4.1


In [3]:
from janome.tokenizer import Tokenizer

In [4]:
text = '彼女と国立新美術館へ行った。'
t = Tokenizer()
for token in t.tokenize(text):
    print(token)

彼女	名詞,代名詞,一般,*,*,*,彼女,カノジョ,カノジョ
と	助詞,格助詞,一般,*,*,*,と,ト,ト
国立	名詞,一般,*,*,*,*,国立,コクリツ,コクリツ
新	接頭詞,名詞接続,*,*,*,*,新,シン,シン
美術館	名詞,一般,*,*,*,*,美術館,ビジュツカン,ビジュツカン
へ	助詞,格助詞,一般,*,*,*,へ,ヘ,エ
行っ	動詞,自立,*,*,五段・カ行促音便,連用タ接続,行く,イッ,イッ
た	助動詞,*,*,*,特殊・タ,基本形,た,タ,タ
。	記号,句点,*,*,*,*,。,。,。


- 解析結果の見方
    - 左から`表層形、品詞、品詞細分類1、品詞細分類2、品詞細分類3、活用形、活用型、原形、読み、発音`の順番

- 単語だけ欲しい場合には、`wakati=True`とすればいい

In [5]:
t = Tokenizer(wakati=True)
t.tokenize(text)

<generator object Tokenizer.__tokenize_stream at 0x7f89dbcc7518>

In [6]:
list(t.tokenize(text))

['彼女', 'と', '国立', '新', '美術館', 'へ', '行っ', 'た', '。']

- 特定の品詞だけ抽出したい場合
    - AnalyzerとPOSKeepFilterを使えば良い
    - Analyzer: 形態素解析の前後処理を行えるクラス
        - Analyzerには複数のフィルターを渡すこともできる
    - POSKeepFilter: 指定した品詞を抽出するためのクラス

In [7]:
from janome.analyzer import Analyzer
from janome.tokenfilter import POSKeepFilter

In [8]:
token_filters = [POSKeepFilter('名詞')]
a = Analyzer(token_filters=token_filters)
for token in a.analyze(text):
    print(token)

彼女	名詞,代名詞,一般,*,*,*,彼女,カノジョ,カノジョ
国立	名詞,一般,*,*,*,*,国立,コクリツ,コクリツ
美術館	名詞,一般,*,*,*,*,美術館,ビジュツカン,ビジュツカン


- 辞書に単語を追加する方法
    - 辞書に単語を追加して単語分割を上手くできるようにすることも大事

In [16]:
from janome.tokenizer import Tokenizer
dict_data = '../data/userdic.csv'
t = Tokenizer(udic=dict_data, udic_enc='utf8')
text = '彼女と国立新美術館へ行った。'
for token in t.tokenize(text):
    print(token)

彼女	名詞,代名詞,一般,*,*,*,彼女,カノジョ,カノジョ
と	助詞,格助詞,一般,*,*,*,と,ト,ト
国立	名詞,一般,*,*,*,*,国立,コクリツ,コクリツ
新	接頭詞,名詞接続,*,*,*,*,新,シン,シン
美術館	名詞,一般,*,*,*,*,美術館,ビジュツカン,ビジュツカン
へ	助詞,格助詞,一般,*,*,*,へ,ヘ,エ
行っ	動詞,自立,*,*,五段・カ行促音便,連用タ接続,行く,イッ,イッ
た	助動詞,*,*,*,特殊・タ,基本形,た,タ,タ
。	記号,句点,*,*,*,*,。,。,。
