# 第4章: 形態素解析
夏目漱石の小説『吾輩は猫である』の文章 ([neko.txt](https://nlp100.github.io/data/neko.txt)) をMeCabを使って形態素解析し, その結果をneko.txt.mecabというファイルに保存せよ. このファイルを用いて, 以下の問に対応するプログラムを実装せよ.

なお, 問題37, 38, 39は[matplotlib](http://matplotlib.org/)もしくは[Gnuplot](http://www.gnuplot.info/)を用いるとよい.

## 30. 形態素解析結果の読み込み
形態素解析結果 (neko.txt.mecab) を読み込むプログラムを実装せよ. ただし, 各形態素は表層形 (surface), 基本形 (base), 品詞 (pos), 品詞細分類1 (pos1) をキーとするマッピング型に格納し, 1文を形態素 (マッピング型) のリストとして表現せよ. 第4章の残りの問題では, ここで作ったプログラムを活用せよ.

In [1]:
import MeCab

mecab = MeCab.Tagger()
with open("neko.txt", "r") as f1, open("neko.txt.mecab", "w+") as f2:
    lines = f1.readlines()
    for text in lines:
        result = mecab.parse(text)
        f2.write(result)

In [2]:
with open("neko.txt.mecab", "r") as f:
    lines = f.readlines()
    nlist = []
    for text in lines:
        ndict = {}
        suf = text.split("\t")
        if suf[0] == "EOS":
            continue
        if len(suf) > 1:
            tmp = suf[1].split(",")
            ndict["surface"] = suf[0]
            if len(tmp) <= 7:
                ndict["base"] = suf[0]
            else:
                ndict["base"] = tmp[7]
            ndict["pos"] = tmp[0]
            ndict["pos1"] = tmp[1]
            nlist.append(ndict)
            
for item in nlist[:10]: # Due to file size constraints, the output is limited.
    print(item)

{'surface': '一', 'base': '一', 'pos': '名詞', 'pos1': '数詞'}
{'surface': '\u3000', 'base': '\u3000', 'pos': '空白', 'pos1': ''}
{'surface': '吾輩', 'base': '我が輩', 'pos': '代名詞', 'pos1': ''}
{'surface': 'は', 'base': 'は', 'pos': '助詞', 'pos1': '係助詞'}
{'surface': '猫', 'base': '猫', 'pos': '名詞', 'pos1': '普通名詞'}
{'surface': 'で', 'base': 'だ', 'pos': '助動詞', 'pos1': ''}
{'surface': 'ある', 'base': '有る', 'pos': '動詞', 'pos1': '非自立可能'}
{'surface': '。', 'base': '。', 'pos': '補助記号', 'pos1': '句点'}
{'surface': '名前', 'base': '名前', 'pos': '名詞', 'pos1': '普通名詞'}
{'surface': 'は', 'base': 'は', 'pos': '助詞', 'pos1': '係助詞'}


## 31. 動詞
動詞の表層形をすべて抽出せよ.

In [3]:
verbs = {item["surface"] for item in nlist if item["pos"] == "動詞"}
print(verbs)

{'出掛け', '撫でる', '消そう', '還す', '磨け', '話し', '誘っ', '悲しむ', '滅入っ', '連ね', 'たとえ', '消え去っ', 'ふくれ返っ', 'やっつける', '罹り', 'あか', 'やま', '食べ', 'とろけ', 'たたき', '力める', '耽る', '擦っ', '企て及ぶ', '跳ね返る', '通さ', '守ら', '衰える', '肥っ', '引き据え', '佇ん', '待つ', 'つかん', '思い付い', 'つづけ', '寄りつい', '苦しむ', 'つまむ', 'あつかい', '黙っ', 'くるみ込む', '申し添える', '角張っ', '仰ぎ', 'づく', '足る', 'こびりつく', '貰っ', '泣い', '傭う', '発し', '忘れ', '泳い', '吟じ', '砕い', '片付く', '聞き', '点ける', '増し', '引き払う', '択ぶ', '通り抜けよう', '飲み込め', '傾け', '話しかける', '追付こう', 'はいっ', 'ござっ', '寝転ろ', '待ち構え', '産する', '潜ら', '恃める', '向か', '延し', '告げん', '著わそう', '亡くなっ', '引き上げ', 'なさい', '伺えれ', '見れ', 'ゆるん', '余る', 'なさろう', '照らし', 'かき', '静まり返っ', '形どっ', '組ん', '起っ', '捕っ', 'のしかから', 'なっ', '取る', '討とう', '保つ', 'つけよう', 'つっかけ', '務める', 'くれれ', 'よし', '催し', '抛っ', '認', '吹かし', '埋合せ', '承る', 'こり固まっ', '忘れろ', 'なさる', '仰ぐ', '乞わ', '叩い', '思い立っ', '食わし', '真似', '成り', '確かめ', 'つぐ', '突立っ', '纏める', '及ば', 'こしらえれ', '貰おう', '乱す', '喰べ', '免かれ', '表し', '振りむく', '失せ', '用', 'なさ', '進め', '読む', '巻き込ま', '居り', '云い切り', '苦しん', '出せ', '勤まっ', '剥がれ', '潜り込ん', '逃がす', '生れ', '参ら', '泳

## 32. 動詞の基本形
動詞の基本形をすべて抽出せよ.

In [4]:
verbs = {item["base"] for item in nlist if item["pos"] == "動詞"}
print(verbs)

{'出来上がる', '撫でる', '競う', '悲しむ', '説き聞かす', '終える', '繰る', '買い被る', '巻き上げる', '叶う', '落ち掛かる', '窄める', '耽る', '企て及ぶ', '跳ね返る', '衰える', '煮出す', '待つ', '基づく', '悩ます', '歌う', '苦しむ', '申し添える', '窘める', '枯れる', '足る', '押さえ付ける', '片付く', '引き払う', '包まる', '産する', '締め付ける', '立て籠もる', '背負う', '余る', '聳える', '取る', '保つ', '忍ばせる', '押し寄せる', '立ち去る', '承る', '次ぐ', '仰ぐ', '追い出す', '引っ込める', '撰する', '挫く', '待ち構える', '纏める', '乱す', '漏らす', '捏ね上げる', '踏み付ける', '占める', '倒す', '駆る', '読む', '屠る', '尽くす', '労わる', '遊ばす', '掬う', '逃がす', '泳ぐ', '競る', '交わす', '誘い出す', '間に合わす', '償う', '仕込む', '起き返る', '読み飛ばす', '頻る', '喋り立てる', '捻る', '制する', '逸らす', '追い掛ける', '戻る', '聞き質す', '磨き上げる', '振るう', '躓く', '滑る', '試みる', '詰まる', '沸く', '含める', '添える', '変える', '火照る', '崇める', '通り越す', '呼び立てる', '輝く', '睨め付ける', '空く', '引っ繰り返す', '付き合う', 'のさばり出る', '拵える', '立ち寄る', '乗り越える', '見逃す', '噎せる', '属する', '決め込む', '乗り越す', '立ち上がる', '途切れる', '干す', '書き散らす', 'くっ付ける', '託する', '集る', '経る', '見積もる', '脱ぐ', '見澄ます', '弾ける', '届け出る', '洒落る', '任せる', '生ける', '突き上げる', '語る', '掠める', '好む', '練り歩く', '吸い取る', '構え込む', '呼ばわる', '食み出す', '因る', '塞がる', '退ける

```{note}
Currently writing...
```