# 第4章: 形態素解析

夏目漱石の小説『吾輩は猫である』の文章（[neko.txt](./neko.txt)）をMeCabを使って形態素解析し，その結果をneko.txt.mecabというファイルに保存せよ．このファイルを用いて，以下の問に対応するプログラムを実装せよ．

なお，問題37, 38, 39は[matplotlib](http://matplotlib.org/)もしくは[Gnuplot](http://www.gnuplot.info/)を用いるとよい．

In [5]:
import MeCab
tagger = MeCab.Tagger()
print(tagger.parse("吾輩は猫である。"))

吾輩	ワガハイ	ワガハイ	我が輩	代名詞			0
は	ワ	ハ	は	助詞-係助詞			
猫	ネコ	ネコ	猫	名詞-普通名詞-一般			1
で	デ	ダ	だ	助動詞	助動詞-ダ	連用形-一般	
ある	アル	アル	有る	動詞-非自立可能	五段-ラ行	終止形-一般	1
。			。	補助記号-句点			
EOS



In [7]:
import MeCab

with open("neko.txt", "r") as f:
    lines = f.read().rstrip().split("\n")

tagger = MeCab.Tagger()

result = []
for line in lines:
    result.append(tagger.parse(line))

with open("neko.txt.mecab", "w") as f:
    f.writelines(result)

## 30. 形態素解析結果の読み込み

形態素解析結果（neko.txt.mecab）を読み込むプログラムを実装せよ．ただし，各形態素は表層形（surface），基本形（base），品詞（pos），品詞細分類1（pos1）をキーとするマッピング型に格納し，1文を形態素（マッピング型）のリストとして表現せよ．第4章の残りの問題では，ここで作ったプログラムを活用せよ．

In [16]:
with open("neko.txt.mecab", "r") as f:
    lines = f.read().rstrip().split("\n")

POS_list = []
for line in lines:
    dic = {}
    try:
        line = line.split("\t", 5)
        dic["surface"] = line[0]
        dic["base"] = line[3]
        pos = line[4].split("-")
    except:
        continue
    dic["pos"] = pos[0]
    try:
        dic["pos1"] = pos[1]
    except:
        dic["pos1"] = "*"
    if(dic["pos"] == "空白"):
        continue
    POS_list.append(dic)

from pprint import pprint
pprint(POS_list[:11])

[{'base': '一', 'pos': '名詞', 'pos1': '数詞', 'surface': '一'},
 {'base': '我が輩', 'pos': '代名詞', 'pos1': '*', 'surface': '吾輩'},
 {'base': 'は', 'pos': '助詞', 'pos1': '係助詞', 'surface': 'は'},
 {'base': '猫', 'pos': '名詞', 'pos1': '普通名詞', 'surface': '猫'},
 {'base': 'だ', 'pos': '助動詞', 'pos1': '*', 'surface': 'で'},
 {'base': '有る', 'pos': '動詞', 'pos1': '非自立可能', 'surface': 'ある'},
 {'base': '。', 'pos': '補助記号', 'pos1': '句点', 'surface': '。'},
 {'base': '名前', 'pos': '名詞', 'pos1': '普通名詞', 'surface': '名前'},
 {'base': 'は', 'pos': '助詞', 'pos1': '係助詞', 'surface': 'は'},
 {'base': '未だ', 'pos': '副詞', 'pos1': '*', 'surface': 'まだ'},
 {'base': '無い', 'pos': '形容詞', 'pos1': '非自立可能', 'surface': '無い'}]


## 31. 動詞
動詞の表層形をすべて抽出せよ．

In [20]:
verb_surface_set = set()
for pos in POS_list:
    if(pos["pos"] == "動詞"):
        verb_surface_set.add(pos["surface"])
pprint(verb_surface_set)

{'あい',
 'あがり',
 'あがる',
 'あき',
 'あきらめ',
 'あきらめる',
 'あきれ',
 'あきれ返っ',
 'あく',
 'あけ',
 'あける',
 'あげ',
 'あこがれ',
 'あしらっ',
 'あずかり',
 'あせっ',
 'あせる',
 'あたっ',
 'あたら',
 'あたる',
 'あたわ',
 'あっ',
 'あったまり',
 'あつかい',
 'あつかう',
 'あつかっ',
 'あつまっ',
 'あつまる',
 'あつめ',
 'あて',
 'あてがう',
 'あてがえ',
 'あてつける',
 'あばか',
 'あばれ',
 'あばれる',
 'あび',
 'あびせる',
 'あまる',
 'あやまっ',
 'あやまる',
 'あやまれ',
 'あら',
 'あらし',
 'あらわし',
 'あらわす',
 'あらわせ',
 'あらわれ',
 'あらわれる',
 'あり',
 'ありゃ',
 'ある',
 'あるい',
 'あるき',
 'あるく',
 'あるけ',
 'あれ',
 'あろう',
 'い',
 'いい',
 'いいあえ',
 'いいかけ',
 'いう',
 'いえ',
 'いか',
 'いがみ合い',
 'いき',
 'いけ',
 'いける',
 'いこう',
 'いざっ',
 'いじっ',
 'いじめ',
 'いそが',
 'いたす',
 'いたたまれ',
 'いただい',
 'いただか',
 'いただき',
 'いただきゃ',
 'いただく',
 'いっ',
 'いで',
 'いやし',
 'いよう',
 'いら',
 'いらし',
 'いらしゃい',
 'いらせられ',
 'いらっしゃい',
 'いらっしゃる',
 'いらっしゃれ',
 'いり',
 'いりゃ',
 'いる',
 'いれ',
 'いろ',
 'いわ',
 'う',
 'うかがう',
 'うかがっ',
 'うく',
 'うけ',
 'うたい',
 'うたう',
 'うたっ',
 'うっ',
 'うつし',
 'うて',
 'うなされる',
 'うめろ',
 'うる',
 'え',
 'える',
 'おい',
 'おえ',
 'おか',
 'おき',
 'おく',
 'おくっ',
 'おくれ',
 'おけ',
 'おける',
 

## 32. 動詞の基本形
動詞の基本形をすべて抽出せよ．

In [21]:
verb_base_set = set()
for pos in POS_list:
    if(pos["pos"] == "動詞"):
        verb_base_set.add(pos["base"])
pprint(verb_base_set)

{'あしらう',
 'あてがう',
 'いらせられる',
 'いらっしゃる',
 'おひゃらかす',
 'からかう',
 'がたつく',
 'ぎる',
 'くっ付く',
 'くっ付ける',
 'こじる',
 'こせつく',
 'こびり付く',
 'ごねる',
 'ごまかす',
 'ごろつく',
 'さす',
 'しくじる',
 'しゃがむ',
 'せしめる',
 'たくる',
 'たでる',
 'ちょろまかす',
 'ちょん切る',
 'つく',
 'どやし付ける',
 'どやす',
 'ぬかる',
 'のさばり出る',
 'のめる',
 'はぐる',
 'はち切れる',
 'ぱくつく',
 'ひっぺがす',
 'ふける',
 'ふざける',
 'ぶらつく',
 'ぶら下がる',
 'ぶら下げる',
 'ぶん殴る',
 'まごつく',
 'まします',
 'もがく',
 'もぎ取る',
 'もぐ',
 '上がり込む',
 '上がる',
 '上げる',
 '上す',
 '上る',
 '下がる',
 '下げる',
 '下げ渡す',
 '下さる',
 '下す',
 '下りる',
 '下る',
 '下ろす',
 '与える',
 '与る',
 '並ぶ',
 '並べる',
 '並べ立てる',
 '並み居る',
 '並外れる',
 '丸める',
 '乗ずる',
 '乗せる',
 '乗らす',
 '乗り出す',
 '乗り回す',
 '乗り越える',
 '乗り越す',
 '乗り込む',
 '乗る',
 '乱す',
 '乱れる',
 '乱れ合う',
 '乾かす',
 '了する',
 '争う',
 '事足る',
 '亡くなる',
 '交う',
 '交じる',
 '交ぜる',
 '交わす',
 '仄めかす',
 '仄めく',
 '仕る',
 '仕上がる',
 '仕入れる',
 '仕出す',
 '仕切る',
 '仕立てる',
 '仕舞い込む',
 '仕舞う',
 '仕込む',
 '付き合う',
 '付き添う',
 '付く',
 '付ける',
 '付け加える',
 '付け込む',
 '付する',
 '仰ぐ',
 '仰す',
 '仰せ付ける',
 '仰る',
 '仰向く',
 '任ずる',
 '任せる',
 '企てる',
 '企て及ぶ',
 '伏す',
 '伏せる',
 '休む',
 '会う',

## 33. 「AのB」
2つの名詞が「の」で連結されている名詞句を抽出せよ．

In [27]:
POS_list[1:10]

[{'surface': '吾輩', 'base': '我が輩', 'pos': '代名詞', 'pos1': '*'},
 {'surface': 'は', 'base': 'は', 'pos': '助詞', 'pos1': '係助詞'},
 {'surface': '猫', 'base': '猫', 'pos': '名詞', 'pos1': '普通名詞'},
 {'surface': 'で', 'base': 'だ', 'pos': '助動詞', 'pos1': '*'},
 {'surface': 'ある', 'base': '有る', 'pos': '動詞', 'pos1': '非自立可能'},
 {'surface': '。', 'base': '。', 'pos': '補助記号', 'pos1': '句点'},
 {'surface': '名前', 'base': '名前', 'pos': '名詞', 'pos1': '普通名詞'},
 {'surface': 'は', 'base': 'は', 'pos': '助詞', 'pos1': '係助詞'},
 {'surface': 'まだ', 'base': '未だ', 'pos': '副詞', 'pos1': '*'}]

In [32]:
B_of_A = set()
for i, pos in enumerate(POS_list):
    if(i == 0 or i == len(POS_list) - 1):
        continue
    if(pos["surface"] == "の" and pos["pos1"] == "格助詞"):
        if(POS_list[i-1]["pos"] == "名詞" and POS_list[i+1]["pos"] == "名詞"):
            B_of_A.add(POS_list[i-1]["surface"] + pos["surface"] + POS_list[i+1]["surface"])
pprint(B_of_A)

{'Agnodiceの世話',
 'Agnodiceの逸話',
 'Hierophilusの講義',
 'あかの他人',
 'あくびの用意',
 'あさっての朝',
 'あしたの朝',
 'あすの朝',
 'あてこすりの高尚',
 'あとの句',
 'あばたの体面',
 'あばたの衰退',
 'あばたの顔面',
 'いくらの所有',
 'いたちの最後',
 'いたちの野郎',
 'いつ頃の本',
 'いろはの亭主',
 'うそつきの爺や',
 'うちのもの',
 'うちの主人',
 'うちの亭主',
 'うちの人物',
 'うちの小供',
 'うちの旦那',
 'うちの猫',
 'うちの神',
 'うちの野良猫',
 'おくれの方',
 'おさんの三',
 'おさんの隙',
 'おもちゃの空気',
 'おやじの前',
 'おやじの鼻',
 'からだの泥',
 'ぎりの話し',
 'こっち側の半径',
 'こないだの事',
 'この頃の女',
 'この頃の詩',
 'これしきの事',
 'これしきの事実',
 'さっきの女',
 'しかじかの次第',
 'しゃけの一切',
 'しゃこの年',
 'すべての動物',
 'すべての病気',
 'すべての錬金',
 'せんだっての泥棒',
 'そもそもの間',
 'そりのそり',
 'ただの一',
 'ただの一遍',
 'ただの人',
 'ただの人間',
 'ただの商売',
 'ただの学士',
 'ただの所',
 'ただの運動',
 'たまの日曜',
 'ための布団',
 'ための方便',
 'ための道具',
 'ちとりの差',
 'つづらの中',
 'つづらの底',
 'つづらの蓋',
 'つもりのところ',
 'とくの昔',
 'ところのもの',
 'ところの書生',
 'ところの説',
 'ところの賞与',
 'としの夜',
 'とん子の顔',
 'どころの騒ぎ',
 'なしの小猫',
 'なしの方',
 'なしの星',
 'なしの権兵衛',
 'なしの珍報',
 'なしの部',
 'なめくじのソップ',
 'はしばしの間',
 'はずのもの',
 'はずの者',
 'はずの顔',
 'はちの中',
 'はちの方',
 'はちの蓋',
 'ふたりの人',
 'へっついの中',
 'へっついの影',
 'へっついの裏手'

## 34. 名詞の連接
名詞の連接（連続して出現する名詞）を最長一致で抽出せよ．

## 35. 単語の出現頻度
文章中に出現する単語とその出現頻度を求め，出現頻度の高い順に並べよ．

## 36. 頻度上位10語
出現頻度が高い10語とその出現頻度をグラフ（例えば棒グラフなど）で表示せよ．

## 37. 「猫」と共起頻度の高い上位10語
「猫」とよく共起する（共起頻度が高い）10語とその出現頻度をグラフ（例えば棒グラフなど）で表示せよ．

## 38. ヒストグラム
単語の出現頻度のヒストグラムを描け．ただし，横軸は出現頻度を表し，1から単語の出現頻度の最大値までの線形目盛とする．縦軸はx軸で示される出現頻度となった単語の異なり数（種類数）である．


## 39. Zipfの法則
単語の出現頻度順位を横軸，その出現頻度を縦軸として，両対数グラフをプロットせよ．