# 形態素解析
形態素解析とは、自然言語を形態素にまで分割することです。  
形態素とは、言葉が意味を持つまとまりの単語の最小単位のことです。  
今回は、形態素解析を用いて単語に分割します。  

## Janomeのインストール
Janomeは日本語の形態素解析が可能なツールです。  
Janomeは以下のコマンドでインストール可能です。  

**pip install janome**

Janomeを使って形態素解析を行いましょう。  
Tokenizerをインポートします。  

In [1]:
from janome.tokenizer import Tokenizer

t = Tokenizer()

s = "すもももももももものうち"

for token in t.tokenize(s):
    print(token)

すもも	名詞,一般,*,*,*,*,すもも,スモモ,スモモ
も	助詞,係助詞,*,*,*,*,も,モ,モ
もも	名詞,一般,*,*,*,*,もも,モモ,モモ
も	助詞,係助詞,*,*,*,*,も,モ,モ
もも	名詞,一般,*,*,*,*,もも,モモ,モモ
の	助詞,連体化,*,*,*,*,の,ノ,ノ
うち	名詞,非自立,副詞可能,*,*,*,うち,ウチ,ウチ


## 分かち書き
Janomeを使って分かち書きを行います。  
分かち書きとは、文章を単語ごとに分割することです。  
`tokenize`の際に引数を`wakati=True`にすることで、各単語に分割できます。  
`tokenize`関数はgeneratorの形で分割された単語を返すので、単語をリストに格納したい場合は`list()`によりリストに変換します。

In [2]:
from janome.tokenizer import Tokenizer

t = Tokenizer()

s = "すもももももももものうち"

word_list = t.tokenize(s, wakati=True)
word_list = list(word_list)  # generatorをリストに変換
print(word_list)

['すもも', 'も', 'もも', 'も', 'もも', 'の', 'うち']


## コーパスを分かち書き
前回前処理を行った「我輩は猫である」に対して、分かち書きを行います。  

In [None]:
from janome.tokenizer import Tokenizer
import pickle

t = Tokenizer()

with open('wagahai_list.pickle', mode='rb') as f:
    wagahai_list = pickle.load(f)

for sentence in wagahai_list:
    print(list(t.tokenize(sentence, wakati=True)))

collectionsを使うことで、各単語の出現回数をカウントすることができます。

In [None]:
import collections

t = Tokenizer()

words = []
for sentence in wagahai_list:
    words += list(t.tokenize(sentence, wakati=True))   # リストwordsに全ての単語を入れる

c = collections.Counter(words)
print(c)

## 課題:
前回の課題で前処理した「銀河鉄道の夜」で各単語数をカウントしてみましょう。

In [5]:
from janome.tokenizer import Tokenizer
import pickle

t = Tokenizer()

with open('gingatetsudo_list.pickle', mode='rb') as f:
    gingatetsudo_list = pickle.load(f)

# for sentence in gingatetsudo_list:
#     print(list(t.tokenize(sentence, wakati=True)))

words = []
for sentence in gingatetsudo_list:
    words += list(t.tokenize(sentence, wakati=True))   # リストwordsに全ての単語を入れる

c = collections.Counter(words)
print(c)

Counter({'の': 1262, '。': 1120, '、': 986, 'た': 951, 'て': 884, 'に': 770, 'は': 618, 'を': 566, 'が': 518, 'まし': 458, 'と': 286, 'も': 235, 'で': 215, 'よう': 210, 'し': 190, 'ジョバンニ': 189, 'か': 181, 'な': 171, 'から': 165, 'です': 161, 'その': 156, 'だ': 144, 'い': 137, 'ん': 134, 'へ': 126, 'う': 115, 'でし': 112, 'いる': 105, 'ない': 103, 'カムパネルラ': 101, '人': 101, 'もう': 94, '見': 92, 'そう': 81, 'よ': 80, 'なっ': 75, '云い': 74, 'や': 74, 'ながら': 70, '方': 66, 'たり': 59, 'たち': 58, 'それ': 56, '中': 55, 'みんな': 54, 'また': 54, 'ぼく': 54, '来': 53, '二': 51, 'ます': 47, '何': 46, 'ほんとう': 45, 'れ': 44, '一': 44, '鳥': 43, '立っ': 42, 'どこ': 42, 'けれども': 41, 'そして': 41, 'ああ': 41, '見え': 40, 'ね': 40, '窓': 39, '汽車': 39, '前': 38, 'ませ': 38, '小さな': 38, 'いま': 38, 'あの': 38, 'こと': 37, 'という': 37, '眼': 37, 'まるで': 36, '行っ': 36, 'とき': 35, 'ねえ': 35, 'この': 34, '僕': 33, 'ず': 33, '川': 32, '大きな': 32, 'そら': 32, 'ある': 31, 'まで': 31, '行く': 31, 'もの': 30, 'だろ': 30, '水': 29, 'いろ': 29, 'ぼんやり': 28, 'たくさん': 28, '向う': 28, '青年': 28, '白い': 27, 'なり': 27, 'こっち': 27, 'さっき': 27, 'あり'