# 第4章: 形態素解析

夏目漱石の小説『吾輩は猫である』の文章（[neko.txt](./neko.txt)）をMeCabを使って形態素解析し，その結果をneko.txt.mecabというファイルに保存せよ．このファイルを用いて，以下の問に対応するプログラムを実装せよ．

なお，問題37, 38, 39は[matplotlib](http://matplotlib.org/)もしくは[Gnuplot](http://www.gnuplot.info/)を用いるとよい．

In [5]:
import MeCab
tagger = MeCab.Tagger()
print(tagger.parse("吾輩は猫である。"))

吾輩	ワガハイ	ワガハイ	我が輩	代名詞			0
は	ワ	ハ	は	助詞-係助詞			
猫	ネコ	ネコ	猫	名詞-普通名詞-一般			1
で	デ	ダ	だ	助動詞	助動詞-ダ	連用形-一般	
ある	アル	アル	有る	動詞-非自立可能	五段-ラ行	終止形-一般	1
。			。	補助記号-句点			
EOS



In [7]:
import MeCab

with open("neko.txt", "r") as f:
    lines = f.read().rstrip().split("\n")

tagger = MeCab.Tagger()

result = []
for line in lines:
    result.append(tagger.parse(line))

with open("neko.txt.mecab", "w") as f:
    f.writelines(result)

## 30. 形態素解析結果の読み込み

形態素解析結果（neko.txt.mecab）を読み込むプログラムを実装せよ．ただし，各形態素は表層形（surface），基本形（base），品詞（pos），品詞細分類1（pos1）をキーとするマッピング型に格納し，1文を形態素（マッピング型）のリストとして表現せよ．第4章の残りの問題では，ここで作ったプログラムを活用せよ．

In [14]:
with open("neko.txt.mecab", "r") as f:
    lines = f.read().rstrip().split("\n")

POS_list = []
l = []
for line in lines:
    dic = {}
    if(line == "EOS"):
        if(len(l)):
            POS_list.append(l)
        l = []
    else: 
        line = line.split("\t", 5)
        dic["surface"] = line[0]
        dic["base"] = line[3]
        pos = line[4].split("-")
        dic["pos"] = pos[0]
        try:
            dic["pos1"] = pos[1]
        except:
            dic["pos1"] = "*"
        if(dic["pos"] == "空白"):
            continue
        l.append(dic)

from pprint import pprint
pprint(POS_list[:3])

[[{'base': '一', 'pos': '名詞', 'pos1': '数詞', 'surface': '一'}],
 [{'base': '我が輩', 'pos': '代名詞', 'pos1': '*', 'surface': '吾輩'},
  {'base': 'は', 'pos': '助詞', 'pos1': '係助詞', 'surface': 'は'},
  {'base': '猫', 'pos': '名詞', 'pos1': '普通名詞', 'surface': '猫'},
  {'base': 'だ', 'pos': '助動詞', 'pos1': '*', 'surface': 'で'},
  {'base': '有る', 'pos': '動詞', 'pos1': '非自立可能', 'surface': 'ある'},
  {'base': '。', 'pos': '補助記号', 'pos1': '句点', 'surface': '。'}],
 [{'base': '名前', 'pos': '名詞', 'pos1': '普通名詞', 'surface': '名前'},
  {'base': 'は', 'pos': '助詞', 'pos1': '係助詞', 'surface': 'は'},
  {'base': '未だ', 'pos': '副詞', 'pos1': '*', 'surface': 'まだ'},
  {'base': '無い', 'pos': '形容詞', 'pos1': '非自立可能', 'surface': '無い'},
  {'base': '。', 'pos': '補助記号', 'pos1': '句点', 'surface': '。'}]]


## 31. 動詞
動詞の表層形をすべて抽出せよ．

In [15]:
verb_surface_set = set()
for poss in POS_list:
    for pos in poss:
        if(pos["pos"] == "動詞"):
            verb_surface_set.add(pos["surface"])
pprint(verb_surface_set)

{'あい',
 'あがり',
 'あがる',
 'あき',
 'あきらめ',
 'あきらめる',
 'あきれ',
 'あきれ返っ',
 'あく',
 'あけ',
 'あける',
 'あげ',
 'あこがれ',
 'あしらっ',
 'あずかり',
 'あせっ',
 'あせる',
 'あたっ',
 'あたら',
 'あたる',
 'あたわ',
 'あっ',
 'あったまり',
 'あつかい',
 'あつかう',
 'あつかっ',
 'あつまっ',
 'あつまる',
 'あつめ',
 'あて',
 'あてがう',
 'あてがえ',
 'あてつける',
 'あばか',
 'あばれ',
 'あばれる',
 'あび',
 'あびせる',
 'あまる',
 'あやまっ',
 'あやまる',
 'あやまれ',
 'あら',
 'あらし',
 'あらわし',
 'あらわす',
 'あらわせ',
 'あらわれ',
 'あらわれる',
 'あり',
 'ありゃ',
 'ある',
 'あるい',
 'あるき',
 'あるく',
 'あるけ',
 'あれ',
 'あろう',
 'い',
 'いい',
 'いいあえ',
 'いいかけ',
 'いう',
 'いえ',
 'いか',
 'いがみ合い',
 'いき',
 'いけ',
 'いける',
 'いこう',
 'いざっ',
 'いじっ',
 'いじめ',
 'いそが',
 'いたす',
 'いたたまれ',
 'いただい',
 'いただか',
 'いただき',
 'いただきゃ',
 'いただく',
 'いっ',
 'いで',
 'いやし',
 'いよう',
 'いら',
 'いらし',
 'いらしゃい',
 'いらせられ',
 'いらっしゃい',
 'いらっしゃる',
 'いらっしゃれ',
 'いり',
 'いりゃ',
 'いる',
 'いれ',
 'いろ',
 'いわ',
 'う',
 'うかがう',
 'うかがっ',
 'うく',
 'うけ',
 'うたい',
 'うたう',
 'うたっ',
 'うっ',
 'うつし',
 'うて',
 'うなされる',
 'うめろ',
 'うる',
 'え',
 'える',
 'おい',
 'おえ',
 'おか',
 'おき',
 'おく',
 'おくっ',
 'おくれ',
 'おけ',
 'おける',
 

## 32. 動詞の基本形
動詞の基本形をすべて抽出せよ．

In [16]:
verb_base_set = set()
for poss in POS_list:
    for pos in poss:
        if(pos["pos"] == "動詞"):
            verb_base_set.add(pos["base"])
pprint(verb_base_set)

{'あしらう',
 'あてがう',
 'いらせられる',
 'いらっしゃる',
 'おひゃらかす',
 'からかう',
 'がたつく',
 'ぎる',
 'くっ付く',
 'くっ付ける',
 'こじる',
 'こせつく',
 'こびり付く',
 'ごねる',
 'ごまかす',
 'ごろつく',
 'さす',
 'しくじる',
 'しゃがむ',
 'せしめる',
 'たくる',
 'たでる',
 'ちょろまかす',
 'ちょん切る',
 'つく',
 'どやし付ける',
 'どやす',
 'ぬかる',
 'のさばり出る',
 'のめる',
 'はぐる',
 'はち切れる',
 'ぱくつく',
 'ひっぺがす',
 'ふける',
 'ふざける',
 'ぶらつく',
 'ぶら下がる',
 'ぶら下げる',
 'ぶん殴る',
 'まごつく',
 'まします',
 'もがく',
 'もぎ取る',
 'もぐ',
 '上がり込む',
 '上がる',
 '上げる',
 '上す',
 '上る',
 '下がる',
 '下げる',
 '下げ渡す',
 '下さる',
 '下す',
 '下りる',
 '下る',
 '下ろす',
 '与える',
 '与る',
 '並ぶ',
 '並べる',
 '並べ立てる',
 '並み居る',
 '並外れる',
 '丸める',
 '乗ずる',
 '乗せる',
 '乗らす',
 '乗り出す',
 '乗り回す',
 '乗り越える',
 '乗り越す',
 '乗り込む',
 '乗る',
 '乱す',
 '乱れる',
 '乱れ合う',
 '乾かす',
 '了する',
 '争う',
 '事足る',
 '亡くなる',
 '交う',
 '交じる',
 '交ぜる',
 '交わす',
 '仄めかす',
 '仄めく',
 '仕る',
 '仕上がる',
 '仕入れる',
 '仕出す',
 '仕切る',
 '仕立てる',
 '仕舞い込む',
 '仕舞う',
 '仕込む',
 '付き合う',
 '付き添う',
 '付く',
 '付ける',
 '付け加える',
 '付け込む',
 '付する',
 '仰ぐ',
 '仰す',
 '仰せ付ける',
 '仰る',
 '仰向く',
 '任ずる',
 '任せる',
 '企てる',
 '企て及ぶ',
 '伏す',
 '伏せる',
 '休む',
 '会う',

## 33. 「AのB」
2つの名詞が「の」で連結されている名詞句を抽出せよ．

In [17]:
B_of_A = list()
for poss in POS_list:
    for i, pos in enumerate(poss):
        if(i == 0 or i == len(poss) - 1):
            continue
        if(pos["surface"] == "の" and pos["pos1"] == "格助詞"):
            if(poss[i-1]["pos"] == "名詞" and poss[i+1]["pos"] == "名詞"):
                B_of_A.append(poss[i-1]["surface"] + pos["surface"] + poss[i+1]["surface"])
pprint(B_of_A)

['掌の上',
 '書生の顔',
 'ものの見',
 'はずの顔',
 '顔の真中',
 '穴の中',
 '書生の掌',
 '掌の裏',
 '藁の上',
 '笹原の中',
 '池の前',
 '池の上',
 '一樹の蔭',
 '垣根の穴',
 '隣家の三毛',
 '時の通路',
 '一刻の猶予',
 '家の内',
 '以外の人間',
 '前の書生',
 'おさんの隙',
 'おさんの三',
 '胸の痞',
 '家の主人',
 '主人の方',
 'なしの小猫',
 '鼻の下',
 '自分の住家',
 '家のもの',
 'うちのもの',
 '本の上',
 '皮膚の色',
 '本の上',
 '以外のもの',
 '主人の傍',
 '膝の上',
 '経験の上',
 '飯櫃の上',
 '炬燵の上',
 'うちの小供',
 '小供の寝床',
 '小供の一人',
 '例の神経',
 '次の部屋',
 '自分の勝手',
 'へっついの中',
 '台所の板の間',
 '家の書生',
 '裏の池',
 '親子の愛',
 '隣りの三毛',
 '目刺の頭',
 '鰡の臍',
 '軍人の家',
 '代言の主人',
 '教師の家',
 '猫の時節',
 '家の主人',
 '胃弱の癖',
 '後架の中',
 '平の宗盛',
 '月の月給',
 '主人の述懐',
 '金縁の眼鏡',
 '主人の顔',
 '訳のもの',
 '利の大家',
 '金縁の裏',
 '顔のあたり',
 '上乗の出来',
 '顔の造作',
 '他の猫',
 '斑入りの皮膚',
 '主人の彩色',
 '一種の色',
 '身内の筋肉',
 '主人の予定',
 '座敷の中',
 '人の気',
 '自己の力量',
 '人間の不徳',
 '家の裏',
 'うちの小供',
 '日の二',
 '茶の木',
 '木の根',
 '西側の杉垣',
 '杉垣のそば',
 '他の庭内',
 '皮膚の上',
 '柔毛の間',
 '嘆賞の念',
 '好奇の心',
 '小春の風',
 '杉垣の上',
 '梧桐の枝',
 '菊の茂み',
 '真丸の眼',
 '人間の珍重',
 '双眸の奥',
 '額の上',
 '声の底',
 '教師の家',
 '良家の猫',
 '車屋の黒',
 '車屋の黒',
 '主義の的',
 '軽侮の念',
 '左の問答',
 '車屋の方'

## 34. 名詞の連接
名詞の連接（連続して出現する名詞）を最長一致で抽出せよ．

In [18]:
nouns = []
all_pos_list = []
for poss in POS_list:
    for pos in poss:
        all_pos_list.append(pos)
for i, pos in enumerate(all_pos_list):
    if(pos["pos"] == "名詞"):
        nouns.append([i, pos["surface"]])

result = []
flag = [False] * len(nouns)
for i in range(len(nouns) - 1):
    if(flag[i]):
        continue
    flag[i] = True
    l = [nouns[i][1]]
    j = i + 1
    idx = nouns[i][0]
    while(j < len(nouns) and nouns[j][0] == idx + 1):
        l.append(nouns[j][1])
        idx = nouns[j][0]
        flag[j] = True
        j += 1
    if(len(l) > 1):
        result.append(l)

for i in range(len(result)):
    result[i] = "".join(result[i])

pprint(result)

['見始',
 '時妙',
 '一毛',
 '後猫',
 '一度',
 '上今',
 'うち池',
 '書生以外',
 '間おさん',
 '宿なし',
 'まま奥',
 '終日書斎',
 'ぎりほとんど',
 '時々忍び足',
 '二三ページ',
 '主人以外',
 '朝主人',
 '椽側',
 '一間',
 '神経胃弱',
 '時々同衾',
 '言語同断',
 '家内総がかり',
 '先日玉',
 '一部始終',
 '新体詩',
 '後架先生',
 'そら宗盛',
 '一月',
 '月給日',
 '水彩絵具',
 '毎日毎日書斎',
 '自ら筆',
 '眼鏡越',
 '大家アンドレア',
 '星辰あり',
 '禽あり',
 '獣あり',
 '金魚あり',
 '鴉あり',
 '椽側',
 '一分',
 '上不思議',
 '盲猫',
 'いくらアンドレア',
 '一分',
 'あと大',
 '馬鹿野郎',
 '馬鹿野郎',
 '馬鹿野郎呼わり',
 '馬鹿野郎',
 'みんな増長',
 '数倍',
 '十坪',
 '腹加減',
 '二時頃',
 '運動かたがた',
 '前後不覚',
 '二三',
 '少々言葉',
 '乱暴猫',
 '同盟敬遠主義',
 '少々軽侮',
 '茶畠',
 '車屋相当',
 '不徳事件',
 '日例',
 '茶畠',
 '自慢話し',
 '手柄話',
 '年が年',
 '得意気',
 '一度いたち',
 '最後っ屁',
 '二三',
 '百年',
 '五銭',
 '壱円五十銭',
 '少々気味',
 '鼠以外',
 '水彩画',
 '十二月一日',
 '水彩画',
 '水彩画家',
 '水彩画',
 '通人論',
 '水彩画',
 '主人はかく',
 '中二',
 '十二月四',
 '水彩画',
 '通り下手',
 '水彩画',
 '水彩画家',
 '所謂通人',
 '水彩画',
 '翌日例',
 '金縁眼鏡',
 '結果今日',
 '椽側',
 'サルト事件',
 '時々冗談',
 '仏国革命',
 '日本文学会',
 '演説会',
 '百名',
 '歴史小説セオファーノ',
 '歴史小説',
 '女主人',
 '神経胃弱',
 '模様画',
 '実際奇警',
 '半分降参',
 '後跛',
 '最後屁',
 '天秤棒',
 '二三段',

## 35. 単語の出現頻度
文章中に出現する単語とその出現頻度を求め，出現頻度の高い順に並べよ．

In [19]:
from collections import defaultdict
d = defaultdict(int)

for pos in all_pos_list:
    d[pos["surface"]] += 1

sorted_d = sorted(d.items(), key=lambda x:x[1], reverse=True)
for i in range(len(sorted_d)):
    sorted_d[i] = list(sorted_d[i])
pprint(sorted_d)

[['の', 9541],
 ['。', 7486],
 ['て', 7418],
 ['に', 7060],
 ['、', 6773],
 ['は', 6501],
 ['と', 6156],
 ['を', 6119],
 ['が', 5394],
 ['で', 4543],
 ['た', 3974],
 ['も', 3238],
 ['「', 3238],
 ['」', 3238],
 ['だ', 2705],
 ['し', 2528],
 ['ない', 2423],
 ['から', 2213],
 ['か', 2038],
 ['ある', 1729],
 ['ん', 1632],
 ['な', 1601],
 ['いる', 1255],
 ['事', 1214],
 ['する', 1056],
 ['もの', 1006],
 ['へ', 998],
 ['です', 978],
 ['君', 974],
 ['云う', 937],
 ['主人', 934],
 ['何', 716],
 ['御', 711],
 ['ね', 694],
 ['よう', 681],
 ['—', 666],
 ['この', 659],
 ['その', 622],
 ['それ', 612],
 ['ば', 605],
 ['そう', 570],
 ['い', 557],
 ['なる', 525],
 ['よ', 505],
 ['人', 487],
 ['一', 486],
 ['なら', 485],
 ['吾輩', 481],
 ['さ', 479],
 ['これ', 472],
 ['ます', 459],
 ['じゃ', 449],
 ['…', 433],
 ['どう', 413],
 ['なっ', 407],
 ['さん', 396],
 ['ところ', 384],
 ['来', 382],
 ['見', 366],
 ['時', 354],
 ['ず', 345],
 ['迷亭', 343],
 ['ませ', 334],
 ['いい', 322],
 ['方', 319],
 ['なく', 313],
 ['まで', 312],
 ['って', 309],
 ['れ', 302],
 ['上', 298],
 ['寒月', 286],
 ['まし', 283],
 ['人間

## 36. 頻度上位10語
出現頻度が高い10語とその出現頻度をグラフ（例えば棒グラフなど）で表示せよ．

## 37. 「猫」と共起頻度の高い上位10語
「猫」とよく共起する（共起頻度が高い）10語とその出現頻度をグラフ（例えば棒グラフなど）で表示せよ．

## 38. ヒストグラム
単語の出現頻度のヒストグラムを描け．ただし，横軸は出現頻度を表し，1から単語の出現頻度の最大値までの線形目盛とする．縦軸はx軸で示される出現頻度となった単語の異なり数（種類数）である．


## 39. Zipfの法則
単語の出現頻度順位を横軸，その出現頻度を縦軸として，両対数グラフをプロットせよ．