# 形態素解析
形態素解析とは、自然言語を形態素にまで分割することです。  
形態素とは、言葉が意味を持つまとまりの単語の最小単位のことです。  
今回は、形態素解析を用いて単語に分割します。  

## Janomeのインストール
Janomeは日本語の形態素解析が可能なツールです。  
Janomeは以下のコマンドでインストール可能です。  

**pip install janome**

Janomeを使って形態素解析を行いましょう。  
Tokenizerをインポートします。  

In [None]:
from janome.tokenizer import Tokenizer

t = Tokenizer()

s = "すもももももももものうち"

for token in t.tokenize(s):
    print(token)

## 分かち書き
Janomeを使って分かち書きを行います。  
分かち書きとは、文章を単語ごとに分割することです。  
`tokenize`の際に引数を`wakati=True`にすることで、各単語をリストに格納できます。

In [None]:
from janome.tokenizer import Tokenizer

t = Tokenizer()

s = "すもももももももものうち"

word_list = t.tokenize(s, wakati=True)
print(word_list)

## コーパスを分かち書き
前回前処理を行った「我輩は猫である」に対して、分かち書きを行います。  

In [None]:
from janome.tokenizer import Tokenizer
import pickle

t = Tokenizer()

with open('wagahai_list.pickle', mode='rb') as f:
    wagahai_list = pickle.load(f)

for sentence in wagahai_list:
    print(t.tokenize(sentence, wakati=True))

collectionsを使うことで、各単語の出現回数をカウントすることができます。

In [None]:
import collections

t = Tokenizer()

words = []
for sentence in wagahai_list:
    words += t.tokenize(sentence, wakati=True)   # リストwordsに全ての単語を入れる

c = collections.Counter(words)
print(c)

## 課題:
前回の課題で前処理した「銀河鉄道の夜」で各単語数をカウントしてみましょう。

In [2]:
from janome.tokenizer import Tokenizer
import pickle
t = Tokenizer()
with open('ginga_list.pickle', mode='rb') as f:
          ginga_list = pickle.load(f)

for sentence in ginga_list:
          print(t.tokenize(sentence, wakati=True))

['では', 'みなさん', 'は', '、', 'そういう', 'ふう', 'に', '川', 'だ', 'と', '云わ', 'れ', 'たり', '、', '乳', 'の', '流れ', 'た', 'あと', 'だ', 'と', '云わ', 'れ', 'たり', 'し', 'て', 'い', 'た', 'この', 'ぼんやり', 'と', '白い', 'もの', 'が', 'ほんとう', 'は', '何', 'か', 'ご', '承知', 'です', 'か', '。']
['先生', 'は', '、', '黒板', 'に', '吊し', 'た', '大きな', '黒い', '星座', 'の', '図', 'の', '、', '上', 'から', '下', 'へ', '白く', 'けぶっ', 'た', '銀河', '帯', 'の', 'よう', 'な', 'ところ', 'を', '指し', 'ながら', '、', 'みんな', 'に', '問', 'を', 'かけ', 'まし', 'た', '。']
['カムパネルラ', 'が', '手', 'を', 'あげ', 'まし', 'た', '。']
['それから', '四', '五', '人', '手', 'を', 'あげ', 'まし', 'た', '。']
['ジョバンニ', 'も', '手', 'を', 'あげよ', 'う', 'として', '、', '急い', 'で', 'そのまま', 'やめ', 'まし', 'た', '。']
['たしかに', 'あれ', 'が', 'みんな', '星', 'だ', 'と', '、', 'いつか', '雑誌', 'で', '読ん', 'だ', 'の', 'でし', 'た', 'が', '、', 'このごろ', 'は', 'ジョバンニ', 'は', 'まるで', '毎日', '教室', 'で', 'も', 'ねむく', '、', '本', 'を', '読む', 'ひま', 'も', '読む', '本', 'も', 'ない', 'ので', '、', 'なんだか', 'どんな', 'こと', 'も', 'よく', 'わから', 'ない', 'という', '気持ち', 'が', 'する', 'の', 'でし', 'た', '。']
['ところが', '先生', 'は', '早く', 

['六', '時', 'が', 'うっ', 'て', 'しばらく', 'たっ', 'た', 'ころ', '、', 'ジョバンニ', 'は', '拾っ', 'た', '活字', 'を', 'いっぱい', 'に', '入れ', 'た', '平たい', '箱', 'を', 'もう', 'いちど', '手', 'に', 'もっ', 'た', '紙きれ', 'と', '引き合せ', 'て', 'から', '、', 'さっき', 'の', '卓子', 'の', '人', 'へ', '持っ', 'て', '来', 'まし', 'た', '。']
['その', '人', 'は', '黙っ', 'て', 'それ', 'を', '受け取っ', 'て', '微か', 'に', 'うなずき', 'まし', 'た', '。']
['ジョバンニ', 'は', 'おじぎ', 'を', 'する', 'と', '扉', 'を', 'あけ', 'て', 'さっき', 'の', '計算', '台', 'の', 'ところ', 'に', '来', 'まし', 'た', '。']
['すると', 'さっき', 'の', '白', '服', 'を', '着', 'た', '人', 'が', 'やっぱり', 'だまっ', 'て', '小さな', '銀貨', 'を', '一つ', 'ジョバンニ', 'に', '渡し', 'まし', 'た', '。']
['ジョバンニ', 'は', '俄', 'か', 'に', '顔', 'いろ', 'が', 'よく', 'なっ', 'て', '威勢', 'よく', 'おじぎ', 'を', 'する', 'と', '台の下', 'に', '置い', 'た', '鞄', 'を', 'もっ', 'て', 'お', 'もて', 'へ', '飛びだし', 'まし', 'た', '。']
['それから', '元気', 'よく', '口笛', 'を', '吹き', 'ながら', 'パン', '屋', 'へ', '寄っ', 'て', 'パン', 'の', '塊', 'を', '一つ', 'と', '角砂糖', 'を', '一', '袋', '買い', 'ます', 'と', '一目散', 'に', '走り', 'だし', 'まし', 'た', '。']
['三', '、', '家', 'ジョバンニ',

['走る', 'とき', 'は', 'まるで', '鼠', 'の', 'よう', 'な', 'くせ', 'に', '。']
['ぼく', 'が', 'なんにも', 'し', 'ない', 'のに', 'あんな', 'こと', 'を', '云う', 'の', 'は', 'ザネリ', 'が', 'ばか', 'な', 'から', 'だ', '。']
['ジョバンニ', 'は', '、', 'せわしく', 'いろいろ', 'の', 'こと', 'を', '考え', 'ながら', '、', 'さまざま', 'の', '灯', 'や', '木', 'の', '枝', 'で', '、', 'すっかり', 'きれい', 'に', '飾ら', 'れ', 'た', '街', 'を', '通っ', 'て', '行き', 'まし', 'た', '。']
['時計', '屋', 'の', '店', 'に', 'は', '明るく', 'ネオン', '燈', 'が', 'つい', 'て', '、', '一', '秒', 'ごと', 'に', '石', 'で', 'こさえ', 'た', 'ふくろう', 'の', '赤い', '眼', 'が', '、', 'くるっ', 'くる', 'っと', 'うごい', 'たり', '、', 'いろいろ', 'な', '宝石', 'が', '海', 'の', 'よう', 'な', '色', 'を', 'し', 'た', '厚い', '硝子', 'の', '盤', 'に', '載っ', 'て', '星', 'の', 'よう', 'に', 'ゆっくり', '循', 'っ', 'たり', '、', 'また', '向う側', 'から', '、', '銅', 'の', '人馬', 'が', 'ゆっくり', 'こっち', 'へ', 'まわっ', 'て', '来', 'たり', 'する', 'の', 'でし', 'た', '。']
['その', 'まん中', 'に', '円い', '黒い', '星座', '早見', 'が', '青い', 'アスパラガス', 'の', '葉', 'で', '飾っ', 'て', 'あり', 'まし', 'た', '。']
['ジョバンニ', 'は', 'われ', 'を', '忘れ', 'て', '、', 'その', '星座', 'の', '図', '

['カムパネルラ', 'は', '、', 'なぜ', 'か', 'そう', '云い', 'ながら', '、', '少し', '顔', 'いろ', 'が', '青ざめ', 'て', '、', 'どこ', 'か', '苦しい', 'という', 'ふう', 'でし', 'た', '。']
['すると', 'ジョバンニ', 'も', '、', 'なんだか', 'どこ', 'か', 'に', '、', '何', 'か', '忘れ', 'た', 'もの', 'が', 'ある', 'という', 'よう', 'な', '、', 'おかしな', '気持ち', 'が', 'し', 'て', 'だまっ', 'て', 'しまい', 'まし', 'た', '。']
['ところが', 'カムパネルラ', 'は', '、', '窓', 'から', '外', 'を', 'のぞき', 'ながら', '、', 'もう', 'すっかり', '元気', 'が', '直っ', 'て', '、', '勢', 'よく', '云い', 'まし', 'た', '。']
['ああ', 'しまっ', 'た', '。']
['ぼく', '、', '水筒', 'を', '忘れ', 'て', 'き', 'た', '。']
['スケッチ', '帳', 'も', '忘れ', 'て', 'き', 'た', '。']
['けれど', '構わ', 'ない', '。']
['もう', 'じき', '白鳥', 'の', '停車場', 'だ', 'から', '。']
['ぼく', '、', '白鳥', 'を', '見る', 'なら', '、', 'ほんとう', 'に', 'すき', 'だ', '。']
['川', 'の', '遠く', 'を', '飛ん', 'で', 'い', 'た', 'って', '、', 'ぼく', 'は', 'きっと', '見える', '。']
['そして', '、', 'カムパネルラ', 'は', '、', '円い', '板', 'の', 'よう', 'に', 'なっ', 'た', '地図', 'を', '、', 'しきりに', 'ぐるぐる', 'まわし', 'て', '見', 'て', 'い', 'まし', 'た', '。']
['まったく', 'その', '中', 'に', '、', '白く', 'あらわさ', 

['それ', 'も', 'ほんの', 'ちょっと', 'の', '間', '、', '川', 'と', '汽車', 'と', 'の', '間', 'は', '、', 'すすき', 'の', '列', 'で', 'さえぎら', 'れ', '、', '白鳥', 'の', '島', 'は', '、', '二', '度', 'ばかり', '、', 'うし', 'ろ', 'の', '方', 'に', '見え', 'まし', 'た', 'が', '、', 'じき', 'も', 'うず', 'うっ', 'と', '遠く', '小さく', '、', '絵', 'の', 'よう', 'に', 'なっ', 'て', 'しまい', '、', 'また', 'すすき', 'が', 'ざわざわ', '鳴っ', 'て', '、', 'とうとう', 'すっかり', '見え', 'なく', 'なっ', 'て', 'しまい', 'まし', 'た', '。']
['ジョバンニ', 'の', 'うし', 'ろ', 'に', 'は', '、', 'いつ', 'から', '乗っ', 'て', 'い', 'た', 'の', 'か', '、', 'せい', 'の', '高い', '、', '黒い', 'か', 'つぎ', 'を', 'し', 'た', 'カトリック', '風', 'の', '尼', 'さん', 'が', '、', 'ま', 'ん', '円', 'な', '緑', 'の', '瞳', 'を', '、', 'じっと', 'まっすぐ', 'に', '落し', 'て', '、', 'まだ', '何', 'か', 'ことば', 'か', '声', 'か', 'が', '、', 'そっち', 'から', '伝わっ', 'て', '来る', 'の', 'を', '、', '虔', 'ん', 'で', '聞い', 'て', 'いる', 'という', 'よう', 'に', '見え', 'まし', 'た', '。']
['旅人', 'たち', 'は', 'しずか', 'に', '席', 'に', '戻り', '、', '二', '人', 'も', '胸', 'いっぱい', 'の', 'かなしみ', 'に', '似', 'た', '新', 'らしい', '気持ち', 'を', '、', '何気なく', 'ちがっ', '

['大', '学士', 'は', 'あわて', 'て', '走っ', 'て', '行き', 'まし', 'た', '。']
['もう', '時間', 'だ', 'よ', '。']
['行こ', 'う', '。']
['カムパネルラ', 'が', '地図', 'と', '腕時計', 'と', 'を', 'くらべ', 'ながら', '云い', 'まし', 'た', '。']
['ああ', '、', 'では', 'わたくし', 'ども', 'は', '失礼', 'いたし', 'ます', '。']
['ジョバンニ', 'は', '、', 'ていねい', 'に', '大', '学士', 'に', 'おじぎ', 'し', 'まし', 'た', '。']
['そう', 'です', 'か', '。']
['いや', '、', 'さよなら', '。']
['大', '学士', 'は', '、', 'また', '忙', 'が', 'し', 'そう', 'に', '、', 'あちこち', '歩き', 'まわっ', 'て', '監督', 'を', 'はじめ', 'まし', 'た', '。']
['二', '人', 'は', '、', 'その', '白い', '岩', 'の', '上', 'を', '、', '一生けん命', '汽車', 'に', 'おくれ', 'ない', 'よう', 'に', '走り', 'まし', 'た', '。']
['そして', 'ほんとう', 'に', '、', '風', 'の', 'よう', 'に', '走れ', 'た', 'の', 'です', '。']
['息も', '切れ', 'ず', '膝', 'も', 'あつく', 'なり', 'ませ', 'ん', 'でし', 'た', '。']
['こんなに', 'し', 'て', 'かける', 'なら', '、', 'もう', '世界中', 'だって', 'かけ', 'れる', 'と', '、', 'ジョバンニ', 'は', '思い', 'まし', 'た', '。']
['そして', '二', '人', 'は', '、', '前', 'の', 'あの', '河原', 'を', '通り', '、', '改札', '口', 'の', '電', '燈', 'が', 'だんだん', '大きく', 'なっ', 'て', '、',

['ただ', 'の', 'お菓子', 'でしょ', 'う', '。']
['やっぱり', 'おなじ', 'こと', 'を', '考え', 'て', 'い', 'た', 'と', 'みえ', 'て', '、', 'カムパネルラ', 'が', '、', '思い切っ', 'た', 'という', 'よう', 'に', '、', '尋ね', 'まし', 'た', '。']
['鳥', '捕り', 'は', '、', '何', 'か', '大', 'へん', 'あわて', 'た', '風', 'で', '、', 'そう', 'そう', '、', 'ここ', 'で', '降り', 'なけ', 'ぁ', '。']
['と', '云い', 'ながら', '、', '立っ', 'て', '荷物', 'を', 'とっ', 'た', 'と', '思う', 'と', '、', 'もう', '見え', 'なく', 'なっ', 'て', 'い', 'まし', 'た', '。']
['どこ', 'へ', '行っ', 'た', 'ん', 'だろ', 'う', '。']
['二', '人', 'は', '顔', 'を', '見合せ', 'まし', 'たら', '、', '燈台', '守', 'は', '、', 'にやにや', '笑っ', 'て', '、', '少し', '伸び', 'あがる', 'よう', 'に', 'し', 'ながら', '、', '二', '人', 'の', '横', 'の', '窓', 'の', '外', 'を', 'のぞき', 'まし', 'た', '。']
['二', '人', 'も', 'そっち', 'を', '見', 'まし', 'たら', '、', 'たった', 'いま', 'の', '鳥', '捕り', 'が', '、', '黄いろ', 'と', '青じろ', 'の', '、', 'うつくしい', '燐光', 'を', '出す', '、', 'いち', 'めん', 'の', 'かわら', 'は', 'は', 'こぐ', 'さ', 'の', '上', 'に', '立っ', 'て', '、', 'まじめ', 'な', '顔', 'を', 'し', 'て', '両手', 'を', 'ひろげ', 'て', '、', 'じっと', 'そら', 'を', '見', 'て', 'い

['ところが', 'それ', 'はいち', 'めん', '黒い', '唐草', 'の', 'よう', 'な', '模様', 'の', '中', 'に', '、', 'おかしな', '十', 'ばかり', 'の', '字', 'を', '印刷', 'し', 'た', 'もの', 'で', 'だまっ', 'て', '見', 'て', 'いる', 'と', '何だか', 'その', '中', 'へ', '吸い込ま', 'れ', 'て', 'しまう', 'よう', 'な', '気', 'が', 'する', 'の', 'でし', 'た', '。']
['すると', '鳥', '捕り', 'が', '横', 'から', 'ちらっと', 'それ', 'を', '見', 'て', 'あわて', 'た', 'よう', 'に', '云い', 'まし', 'た', '。']
['おや', '、', 'こいつ', 'は', '大した', 'もん', 'です', 'ぜ', '。']
['こいつ', 'は', 'もう', '、', 'ほんとう', 'の', '天上', 'へ', 'さえ', '行ける', '切符', 'だ', '。']
['天上', 'どこ', 'じゃ', 'ない', '、', 'どこ', 'でも', '勝手', 'に', 'あるける', '通行', '券', 'です', '。']
['こいつ', 'を', 'お', '持ち', 'に', 'なれ', 'ぁ', '、', 'なるほど', '、', 'こんな', '不完全', 'な', '幻想', '第', '四', '次', 'の', '銀河', '鉄道', 'なんか', '、', 'どこ', 'まで', 'でも', '行ける', '筈', 'で', 'さあ', '、', 'あなた', '方', '大した', 'もん', 'です', 'ね', '。']
['何だか', 'わかり', 'ませ', 'ん', '。']
['ジョバンニ', 'が', '赤く', 'なっ', 'て', '答え', 'ながら', 'それ', 'を', '又', '畳ん', 'で', 'かくし', 'に', '入れ', 'まし', 'た', '。']
['そして', 'きまり', 'が', '悪い', 'ので', 'カムパネルラ', 'と', '二', '人

['それでも', 'わたくし', 'は', 'どうしても', 'この方', 'たち', 'を', 'お', '助け', 'する', 'の', 'が', '私', 'の', '義務', 'だ', 'と', '思い', 'まし', 'た', 'から', '前', 'に', 'いる', '子供', 'ら', 'を', '押しのけよ', 'う', 'と', 'し', 'まし', 'た', '。']
['けれども', 'また', 'そんなに', 'し', 'て', '助け', 'て', 'あげる', 'より', 'は', 'この', 'まま', '神', 'の', 'お前', 'に', 'みんな', 'で', '行く', '方', 'が', 'ほんとう', 'に', 'この方', 'たち', 'の', '幸福', 'だ', 'と', 'も', '思い', 'まし', 'た', '。']
['それから', 'また', 'その', '神', 'に', 'そむく', '罪', 'は', 'わたくし', 'ひとり', 'で', 'しょっ', 'て', 'ぜひとも', '助け', 'て', 'あげよ', 'う', 'と', '思い', 'まし', 'た', '。']
['けれども', 'どうして', '見', 'て', 'いる', 'と', 'それ', 'が', 'でき', 'ない', 'の', 'でし', 'た', '。']
['子ども', 'ら', 'ばかり', 'ボート', 'の', '中', 'へ', 'はなし', 'て', 'やっ', 'て', 'お母さん', 'が', '狂気', 'の', 'よう', 'に', 'キス', 'を', '送り', 'お父さん', 'が', 'かなしい', 'の', 'を', 'じっと', 'こらえ', 'て', 'まっすぐ', 'に', '立っ', 'て', 'いる', 'など', 'とても', 'もう', '腸', 'も', 'ちぎれる', 'よう', 'でし', 'た', '。']
['そのうち', '船', 'は', 'もう', 'ずんずん', '沈み', 'ます', 'から', '、', '私', 'は', 'もう', 'すっかり', '覚悟', 'し', 'て', 'この', '人', 'たち', '二', '人', 'を', '抱

['そして', '両手', 'に', '赤', 'と', '青', 'の', '旗', 'を', 'もっ', 'て', 'そら', 'を', '見上げ', 'て', '信号', 'し', 'て', 'いる', 'の', 'でし', 'た', '。']
['ジョバンニ', 'が', '見', 'て', 'いる', '間', 'その', '人', 'は', 'しきりに', '赤い', '旗', 'を', 'ふっ', 'て', 'い', 'まし', 'た', 'が', '俄', 'か', 'に', '赤旗', 'を', 'おろし', 'て', 'うし', 'ろ', 'に', 'かくす', 'よう', 'に', 'し', '青い', '旗', 'を', '高く', '高く', 'あげ', 'て', 'まるで', 'オーケストラ', 'の', '指揮', '者', 'の', 'よう', 'に', '烈しく', '振り', 'まし', 'た', '。']
['すると', '空中', 'に', 'ざあっと', '雨', 'の', 'よう', 'な', '音', 'が', 'し', 'て', '何', 'か', 'まっ', 'くら', 'な', 'もの', 'が', 'いく', 'かた', 'まり', 'も', 'いく', 'かた', 'まり', 'も', '鉄', '砲丸', 'の', 'よう', 'に', '川', 'の', '向う', 'の', '方', 'へ', '飛ん', 'で', '行く', 'の', 'でし', 'た', '。']
['ジョバンニ', 'は', '思わず', '窓', 'から', 'からだ', 'を', '半分', '出し', 'て', 'そっち', 'を', '見', 'あげ', 'まし', 'た', '。']
['美しい', '美しい', '桔梗', 'いろ', 'の', 'がらん', 'と', 'し', 'た', '空', 'の', '下', 'を', '実に', '何', '万', 'という', '小さな', '鳥', 'ども', 'が', '幾', '組', 'も', '幾', '組', 'も', 'めいめい', 'せわしく', 'せわしく', '鳴い', 'て', '通っ', 'て', '行く', 'の', 'でし', 'た', '。']


['あら', '、', 'インデアン', 'です', 'よ', '。']
['インデアン', 'です', 'よ', '。']
['ごらん', 'なさい', '。']
['黒', '服', 'の', '青年', 'も', '眼', 'を', 'さまし', 'まし', 'た', '。']
['ジョバンニ', 'も', 'カムパネルラ', 'も', '立ちあがり', 'まし', 'た', '。']
['走っ', 'て', '来る', 'わ', '、', 'あら', '、', '走っ', 'て', '来る', 'わ', '。']
['追いかけ', 'て', 'いる', 'ん', 'でしょ', 'う', '。']
['いいえ', '、', '汽車', 'を', '追っ', 'てる', 'ん', 'じゃ', 'ない', 'ん', 'です', 'よ', '。']
['猟', 'を', 'する', 'か', '踊る', 'か', 'し', 'てる', 'ん', 'です', 'よ', '。']
['青年', 'は', 'いま', 'どこ', 'に', '居る', 'か', '忘れ', 'た', 'という', '風', 'に', 'ポケット', 'に', '手', 'を', '入れ', 'て', '立ち', 'ながら', '云い', 'まし', 'た', '。']
['まったく', 'インデアン', 'は', '半分', 'は', '踊っ', 'て', 'いる', 'よう', 'でし', 'た', '。']
['第', '一', 'かける', 'に', 'し', 'て', 'も', '足', 'の', 'ふみ', 'よう', 'が', 'もっと', '経済', 'も', 'とれ', '本気', 'に', 'も', 'なれ', 'そう', 'でし', 'た', '。']
['にわかに', 'くっきり', '白い', 'その', '羽根', 'は', '前', 'の', '方', 'へ', '倒れる', 'よう', 'に', 'なり', 'インデアン', 'は', 'ぴたっと', '立ちどまっ', 'て', 'すばやく', '弓', 'を', '空', 'に', 'ひき', 'まし', 'た', '。']
['そこ', 'から', '一', '羽', 'の', '鶴', 'が', 'ふらふ

['そしたら', 'い', 'たち', 'も', '一', '日', '生きのび', 'た', 'ろう', 'に', '。']
['どうか', '神さま', '。']
['私', 'の', '心', 'を', 'ごらん', '下さい', '。']
['こんなに', 'むなしく', '命', 'を', 'すて', 'ず', 'どうか', 'この', '次に', 'はまこ', 'と', 'の', 'みんな', 'の', '幸', 'の', 'ため', 'に', '私', 'の', 'からだ', 'を', 'お', 'つかい', '下さい', '。']
['って', '云っ', 'た', 'と', 'いう', 'の', '。']
['そしたら', 'いつか', '蝎', 'はじ', 'ぶん', 'の', 'からだ', 'が', 'まっ', '赤', 'な', 'うつくしい', '火', 'に', 'なっ', 'て', '燃え', 'て', 'よる', 'の', 'やみ', 'を', '照らし', 'て', 'いる', 'の', 'を', '見', 'た', 'って', '。']
['いま', 'でも', '燃え', 'てる', 'って', 'お父さん', '仰っ', 'た', 'わ', '。']
['ほんとう', 'に', 'あの', '火', 'それ', 'だ', 'わ', '。']
['そう', 'だ', '。']
['見', 'た', 'ま', 'え', '。']
['そこら', 'の', '三角', '標', 'は', 'ちょうど', 'さそり', 'の', '形', 'に', 'ならん', 'で', 'いる', 'よ', '。']
['ジョバンニ', 'は', 'まったく', 'その', '大きな', '火', 'の', '向う', 'に', '三つ', 'の', '三角', '標', 'が', 'ちょうど', 'さそり', 'の', '腕', 'の', 'よう', 'に', 'こっち', 'に', '五つ', 'の', '三角', '標', 'が', 'さそり', 'の', '尾', 'や', 'かぎ', 'の', 'よう', 'に', 'ならん', 'で', 'いる', 'の', 'を', '見', 'まし', 'た', '。']
['そして', 'ほんとう

['あ', '、', 'あすこ', '石炭', '袋', 'だ', 'よ', '。']
['そら', 'の', '孔', 'だ', 'よ', '。']
['カムパネルラ', 'が', '少し', 'そっち', 'を', '避ける', 'よう', 'に', 'し', 'ながら', '天の川', 'の', 'ひと', 'とこ', 'を', '指さし', 'まし', 'た', '。']
['ジョバンニ', 'は', 'そっち', 'を', '見', 'て', 'まるで', 'ぎく', 'っと', 'し', 'て', 'しまい', 'まし', 'た', '。']
['天の川', 'の', '一', 'とこ', 'に', '大きな', 'まっ', 'くら', 'な', '孔', 'が', 'ど', 'ほん', 'と', 'あい', 'て', 'いる', 'の', 'です', '。']
['その', '底', 'が', 'どれほど', '深い', 'か', 'その', '奥', 'に', '何', 'が', 'ある', 'か', 'いくら', '眼', 'を', 'こすっ', 'て', 'のぞい', 'て', 'も', 'なんにも', '見え', 'ず', 'ただ', '眼', 'が', 'しんしん', 'と', '痛む', 'の', 'でし', 'た', '。']
['ジョバンニ', 'が', '云い', 'まし', 'た', '。']
['僕', 'も', 'う', 'あんな', '大きな', '暗', 'の', '中', 'だって', 'こわく', 'ない', '。']
['きっと', 'みんな', 'の', 'ほんとう', 'の', 'さいわい', 'を', 'さがし', 'に', '行く', '。']
['どこ', 'まで', 'も', 'どこ', 'まで', 'も', '僕', 'たち', '一緒', 'に', '進ん', 'で', '行こ', 'う', '。']
['ああ', 'きっと', '行く', 'よ', '。']
['ああ', '、', 'あすこ', 'の', '野原', 'は', 'なんて', 'きれい', 'だろ', 'う', '。']
['みんな', '集っ', 'てる', 'ねえ', '。']
['あすこ', 'が', 'ほんとう', 'の', '

['と', '云い', 'ながら', 'カムパネルラ', 'が', '出', 'て', '来る', 'か', '或いは', 'カムパネルラ', 'が', 'どこ', 'か', 'の', '人', 'の', '知ら', 'ない', '洲', 'に', 'でも', '着い', 'て', '立っ', 'て', 'い', 'て', '誰', 'か', 'の', '来る', 'の', 'を', '待っ', 'て', 'いる', 'か', 'という', 'よう', 'な', '気', 'が', 'し', 'て', '仕方', 'ない', 'らしい', 'の', 'でし', 'た', '。']
['けれども', '俄', 'か', 'に', 'カムパネルラ', 'の', 'お父さん', 'が', 'きっぱり', '云い', 'まし', 'た', '。']
['もう', '駄目', 'です', '。']
['落ち', 'て', 'から', '四', '十', '五', '分', 'たち', 'まし', 'た', 'から', '。']
['ジョバンニ', 'は', '思わず', 'かけよっ', 'て', '博士', 'の', '前', 'に', '立っ', 'て', '、', 'ぼく', 'は', 'カムパネルラ', 'の', '行っ', 'た', '方', 'を', '知っ', 'て', 'い', 'ます', 'ぼく', 'は', 'カムパネルラ', 'と', 'いっしょ', 'に', '歩い', 'て', 'い', 'た', 'の', 'です', 'と', '云お', 'う', 'と', 'し', 'まし', 'た', 'が', 'もう', 'のど', 'が', 'つまっ', 'て', '何', 'と', 'も', '云え', 'ませ', 'ん', 'でし', 'た', '。']
['すると', '博士', 'は', 'ジョバンニ', 'が', '挨拶', 'に', '来', 'た', 'と', 'でも', '思っ', 'た', 'もの', 'です', 'か', '、', 'しばらく', 'しげしげ', 'ジョバンニ', 'を', '見', 'て', 'い', 'まし', 'た', 'が', 'あなた', 'は', 'ジョバンニ', 'さん', 'でし', 'た', 'ね', '

In [3]:
import collections
t = Tokenizer()
words = []
for sentence in ginga_list:
    words += t.tokenize(sentence, wakati=True)
    
c = collections.Counter(words)

print(c)


Counter({'の': 1262, '。': 1120, '、': 986, 'た': 951, 'て': 884, 'に': 770, 'は': 618, 'を': 566, 'が': 518, 'まし': 458, 'と': 286, 'も': 235, 'で': 215, 'よう': 210, 'し': 190, 'ジョバンニ': 189, 'か': 181, 'な': 171, 'から': 165, 'です': 161, 'その': 156, 'だ': 144, 'い': 137, 'ん': 134, 'へ': 126, 'う': 115, 'でし': 112, 'いる': 105, 'ない': 103, 'カムパネルラ': 101, '人': 101, 'もう': 94, '見': 92, 'そう': 81, 'よ': 80, 'なっ': 75, '云い': 74, 'や': 74, 'ながら': 70, '方': 66, 'たり': 59, 'たち': 58, 'それ': 56, '中': 55, 'みんな': 54, 'また': 54, 'ぼく': 54, '来': 53, '二': 51, 'ます': 47, '何': 46, 'ほんとう': 45, 'れ': 44, '一': 44, '鳥': 43, '立っ': 42, 'どこ': 42, 'けれども': 41, 'そして': 41, 'ああ': 41, '見え': 40, 'ね': 40, '窓': 39, '汽車': 39, '前': 38, 'ませ': 38, '小さな': 38, 'いま': 38, 'あの': 38, 'こと': 37, 'という': 37, '眼': 37, 'まるで': 36, '行っ': 36, 'とき': 35, 'ねえ': 35, 'この': 34, '僕': 33, 'ず': 33, '川': 32, '大きな': 32, 'そら': 32, 'ある': 31, 'まで': 31, '行く': 31, 'もの': 30, 'だろ': 30, '水': 29, 'いろ': 29, 'ぼんやり': 28, 'たくさん': 28, '向う': 28, '青年': 28, '白い': 27, 'なり': 27, 'こっち': 27, 'さっき': 27, 'あり'