# 第4章: 形態素解析
夏目漱石の小説『吾輩は猫である』の文章 ([neko.txt](https://nlp100.github.io/data/neko.txt)) をMeCabを使って形態素解析し, その結果をneko.txt.mecabというファイルに保存せよ. このファイルを用いて, 以下の問に対応するプログラムを実装せよ.

なお, 問題37, 38, 39は[matplotlib](http://matplotlib.org/)もしくは[Gnuplot](http://www.gnuplot.info/)を用いるとよい.

## 30. 形態素解析結果の読み込み
形態素解析結果 (neko.txt.mecab) を読み込むプログラムを実装せよ. ただし, 各形態素は表層形 (surface), 基本形 (base), 品詞 (pos), 品詞細分類1 (pos1) をキーとするマッピング型に格納し, 1文を形態素 (マッピング型) のリストとして表現せよ. 第4章の残りの問題では, ここで作ったプログラムを活用せよ.

In [None]:
import MeCab

mecab = MeCab.Tagger()
with open("neko.txt", "r") as f1, open("neko.txt.mecab", "w+") as f2:
    lines = f1.readlines()
    for text in lines:
        result = mecab.parse(text)
        f2.write(result)

In [None]:
with open("neko.txt.mecab", "r") as f:
    lines = f.readlines()
    nlist = []
    for text in lines:
        ndict = {}
        suf = text.split("\t")
        if suf[0] == "EOS":
            continue
        if len(suf) > 1:
            tmp = suf[1].split(",")
            ndict["surface"] = suf[0]
            if len(tmp) <= 7:
                ndict["base"] = suf[0]
            else:
                ndict["base"] = tmp[7]
            ndict["pos"] = tmp[0]
            ndict["pos1"] = tmp[1]
            nlist.append(ndict)
            
for item in nlist[:10]: # Due to file size constraints, the output is limited.
    print(item)

{'surface': '一', 'base': '一', 'pos': '名詞', 'pos1': '数詞'}
{'surface': '\u3000', 'base': '\u3000', 'pos': '空白', 'pos1': ''}
{'surface': '吾輩', 'base': '我が輩', 'pos': '代名詞', 'pos1': ''}
{'surface': 'は', 'base': 'は', 'pos': '助詞', 'pos1': '係助詞'}
{'surface': '猫', 'base': '猫', 'pos': '名詞', 'pos1': '普通名詞'}
{'surface': 'で', 'base': 'だ', 'pos': '助動詞', 'pos1': ''}
{'surface': 'ある', 'base': '有る', 'pos': '動詞', 'pos1': '非自立可能'}
{'surface': '。', 'base': '。', 'pos': '補助記号', 'pos1': '句点'}
{'surface': '名前', 'base': '名前', 'pos': '名詞', 'pos1': '普通名詞'}
{'surface': 'は', 'base': 'は', 'pos': '助詞', 'pos1': '係助詞'}


## 31. 動詞
動詞の表層形をすべて抽出せよ.

In [None]:
verbs = [item["surface"] for item in nlist if item["pos"] == "動詞"]
print(verbs)

['ある', '生れ', 'つか', 'し', '泣い', 'い', 'し', 'いる', '始め', 'いう', '見', '聞く', 'いう', 'あっ', 'いう', '捕え', '煮', '食う', 'いう', 'ある', 'いう', '思わ', '載せ', '持ち上げ', 'し', 'あっ', 'ある', '落ちつい', '見', 'いう', '見', 'あろう', '思っ', '残っ', 'いる', 'もっ', 'さ', 'し', '逢っ', '出会わし', 'し', 'いる', 'し', '吹く', '咽せ', '弱っ', '飲む', 'いう', 'ある', '知っ', '坐っ', 'おっ', 'する', 'し', '始め', '動く', '動く', '分ら', '廻る', 'なる', '助から', '思っ', 'いる', 'し', '出', 'し', 'いる', '考え出そう', 'し', '分ら', '付い', '見る', 'い', 'おっ', '見え', '隠し', 'しまっ', '違っ', '明い', 'い', '這い出し', '見る', '棄て', 'ある', '這い出す', 'ある', '坐っ', 'し', '考え', '見', 'いう', '出', 'し', '泣い', '来', 'くれる', '考え付い', 'やっ', '見', '来', '渡っ', '暮れかかる', '減っ', '来', '泣き', '出', 'ある', 'ある', 'し', '廻り', '始め', 'し', '這っ', '行く', '出', '這入っ', 'なる', '思っ', '崩れ', 'もぐり込ん', '破れ', 'い', 'し', '知れ', 'ある', '云っ', '至る', 'する', 'なっ', 'いる', '忍び込ん', 'し', '分ら', 'なる', '減る', 'し', '降っ', '来る', 'いう', '出来', 'なっ', 'あるい', '行く', '考える', '這入っ', 'おっ', '見る', 'し', 'ある', '逢っ', 'ある', '見る', 'つかん', '抛り出し', '思っ', 'ねぶっ', '任せ', 'い', 'し', '出来', '見', '這い上っ', 'する', '投げ出さ', '投げ出さ', '這い上り',

## 32. 動詞の基本形
動詞の基本形をすべて抽出せよ.

In [3]:
verbs = [item["base"] for item in nlist if item["pos"] == "動詞"]
print(verbs)

['有る', '生まれる', '付く', '為る', '泣く', '居る', '為る', '居る', '始める', '言う', '見る', '聞く', '言う', '有る', '言う', '捕らえる', '煮る', '食う', '言う', '有る', '言う', '思う', '乗せる', '持ち上げる', '為る', '有る', '有る', '落ち着く', '見る', '言う', '見る', '有る', '思う', '残る', '居る', '持つ', '為る', '為る', '会う', '出会わす', '為る', '居る', '為る', '吹く', '噎せる', '弱る', '飲む', '言う', '有る', '知る', '座る', '居る', '為る', '為る', '始める', '動く', '動く', '分かる', '回る', '成る', '助かる', '思う', '居る', '為る', '出る', '為る', '居る', '考え出す', '為る', '分かる', '付く', '見る', '居る', '居る', '見える', '隠す', '仕舞う', '違う', '明く', '居る', '這い出す', '見る', '捨てる', '有る', '這い出す', '有る', '座る', '為る', '考える', '見る', '言う', '出る', '為る', '泣く', '来る', '呉れる', '考え付く', '遣る', '見る', '来る', '渡る', '暮れ掛かる', '減る', '来る', '泣く', '出る', '有る', '有る', '為る', '回る', '始める', '為る', '這う', '行く', '出る', '入る', '成る', '思う', '崩れる', '潜り込む', '破れる', '居る', '為る', '知れる', '有る', '言う', '至る', '為る', '成る', '居る', '忍び込む', '為る', '分かる', '成る', '減る', '為る', '降る', '来る', '言う', '出来る', '成る', '歩く', '行く', '考える', '入る', '居る', '見る', '為る', '有る', '会う', '有る', '見る', '掴む', '放り出す', '思う', '舐る', '任せる', '居る', '為る

```{note}
Currently writing...
```