# 第4章: 形態素解析
夏目漱石の小説『吾輩は猫である』の文章 ([neko.txt](https://nlp100.github.io/data/neko.txt)) をMeCabを使って形態素解析し, その結果をneko.txt.mecabというファイルに保存せよ. このファイルを用いて, 以下の問に対応するプログラムを実装せよ.

なお, 問題37, 38, 39は[matplotlib](http://matplotlib.org/)もしくは[Gnuplot](http://www.gnuplot.info/)を用いるとよい.

## 30. 形態素解析結果の読み込み
形態素解析結果 (neko.txt.mecab) を読み込むプログラムを実装せよ. ただし, 各形態素は表層形 (surface), 基本形 (base), 品詞 (pos), 品詞細分類1 (pos1) をキーとするマッピング型に格納し, 1文を形態素 (マッピング型) のリストとして表現せよ. 第4章の残りの問題では, ここで作ったプログラムを活用せよ.

In [None]:
import MeCab

mecab = MeCab.Tagger()
with open("neko.txt", "r") as f1, open("neko.txt.mecab", "w+") as f2:
    lines = f1.readlines()
    for text in lines:
        result = mecab.parse(text)
        f2.write(result)

In [None]:
with open("neko.txt.mecab", "r") as f:
    lines = f.readlines()
    nlist = []
    for text in lines:
        ndict = {}
        suf = text.split("\t")
        if suf[0] == "EOS":
            continue
        if len(suf) > 1:
            tmp = suf[1].split(",")
            ndict["surface"] = suf[0]
            if len(tmp) <= 7:
                ndict["base"] = suf[0]
            else:
                ndict["base"] = tmp[7]
            ndict["pos"] = tmp[0]
            ndict["pos1"] = tmp[1]
            nlist.append(ndict)
            
for item in nlist[:10]: # Due to file size constraints, the output is limited.
    print(item)

{'surface': '一', 'base': '一', 'pos': '名詞', 'pos1': '数詞'}
{'surface': '\u3000', 'base': '\u3000', 'pos': '空白', 'pos1': ''}
{'surface': '吾輩', 'base': '我が輩', 'pos': '代名詞', 'pos1': ''}
{'surface': 'は', 'base': 'は', 'pos': '助詞', 'pos1': '係助詞'}
{'surface': '猫', 'base': '猫', 'pos': '名詞', 'pos1': '普通名詞'}
{'surface': 'で', 'base': 'だ', 'pos': '助動詞', 'pos1': ''}
{'surface': 'ある', 'base': '有る', 'pos': '動詞', 'pos1': '非自立可能'}
{'surface': '。', 'base': '。', 'pos': '補助記号', 'pos1': '句点'}
{'surface': '名前', 'base': '名前', 'pos': '名詞', 'pos1': '普通名詞'}
{'surface': 'は', 'base': 'は', 'pos': '助詞', 'pos1': '係助詞'}


## 31. 動詞
動詞の表層形をすべて抽出せよ.

In [4]:
verbs = {item["surface"] for item in nlist if item["pos"] == "動詞"}
print(verbs)

{'仆れる', 'こぼれ', '冷え', 'けり', '自惚れ', '引き上げる', '上す', '片付く', 'はじめる', '襲う', '経っ', '咲い', 'いっ', '叶わ', 'めさ', '飛び降りる', '下さっ', 'かかっ', '強', '損ね', '見知り', 'もとづく', '任ずる', '送', '承り', '煩わし', '潰し', '壊し', '取り着か', 'さておい', '具え', 'つかまっ', '有る', 'うる', '湧き出る', '書い', '見積っ', '立ち寄っ', '心づか', '犯さ', '引き揚げ', 'ぶんなぐる', '結びつけ', 'だい', '順っ', '激し', '省い', '改め', '噛ま', '抛り出す', '見よう', '巡り', '添う', '向が', '憚り', 'やむ', '殺せ', 'こせつい', '関し', 'つれ', '脱する', 'ふり上げる', '入る', 'もっ', '踏ん', '保っ', '尾け', '供し', '離す', '逃げ延び', 'じらせる', '裂き', '取り去る', 'からかい', '遠ざかる', 'きか', '飽き足ら', '使い', '負え', '騒ぎ立て', 'つかれ', '揺れ', '進め', '喰う', 'かくす', '披い', '参り', '被れ', '付ける', '有ん', 'くるみ込む', '狂っ', '聞き返し', '蘇える', 'つっかけ', '捏ね', '引きくらべ', '試し', '寄せる', '損い', '出よう', '嚇し', 'ぶら下っ', '参っ', '突き立て', '晴れ', '掛け', '困らし', '祝す', '突い', '奏し', '差し', 'とまら', '作っ', '奢り', '刈っ', '払っ', '起き上がる', '申し込ま', '握っ', '打ちつけ', 'ごまかし', '見つかり', '利かし', 'かたちづくっ', 'おる', '恋い', '頑張っ', '食いつく', '掻い', '加え', '死な', '捉まる', '迷わさ', '引張る', '離れ', '追い懸ける', '張り付け', '抱く', 'くり込ん', '落ちる', '引っ掛け', '釣れ', '見做さ', '垂れる', 'でき', 'かる', '曲

## 32. 動詞の基本形
動詞の基本形をすべて抽出せよ.

In [5]:
verbs = {item["base"] for item in nlist if item["pos"] == "動詞"}
print(verbs)

{'済す', '居る', '引き上げる', '上す', '片付く', '襲う', '仰せる', '捉える', '涼む', '任ずる', '有る', '湧き出る', '結び付ける', '間違える', '立て籠もる', '度する', '潜る', '寝付く', '脱する', '入る', '罷り越す', '引き付ける', '取り去る', '交じる', '咲く', '遠ざかる', '刈る', '絡む', '迫り出す', '暮れ掛かる', '敗れる', '突っ伏す', '付ける', '祟る', '並み居る', '呈する', '寄せる', 'はぐる', '摘む', 'くっ付く', '御座る', '比する', '打ち返す', '犇めく', '立ち入る', '狼狽える', '起き上がる', '聞こえる', '紐解く', '捩じ上げる', '負う', '睨め付ける', '痩せる', '逸らす', '溺れる', '聞き出す', '抱く', '落ちる', '腐れる', '奪う', '垂れる', '見届ける', '争う', '流れ込む', '果たす', '転ずる', '見合わせる', 'のさばり出る', '刺し通す', '逃げ込む', '詰め寄せる', '跳ね返す', '響く', '食う', '説く', '回らす', '振れる', '絞る', '聞き質す', '扠置く', 'こせつく', '差し控える', '寝転ぶ', '煩わす', '化する', '引く-他動詞', '名乗る', '焦げる', '吹き通す', '切る', '振り落とす', '叱り付ける', '叱する', '踏み付ける', '熱する', '打つ', '滑らす', '並べ立てる', 'ぶら下げる', '伝わる', '聞き付ける', '仄めかす', '拭く', '写す', '捻る', '押し倒す', '弄する', '付け込む', '捻くる', '切り破る', '適う', '当て付ける', '垂らす', '欲する', '翳す', '弾く', '費やす', '刈り込む', '浮き上がる', '立てる', '寝過ごす', '付け加える', '講ずる', '弾き出す', '移る', '立ち止まる', '挑む', '燃える', '沸き上がる', '起こる', '温まる', '事足る', '傾く', '引っ繰り返す', '切らす', '擦る'

```{note}
Currently writing...
```