# 第4章: 形態素解析

夏目漱石の小説『吾輩は猫である』の文章（neko.txt）をMeCabを使って形態素解析し，その結果をneko.txt.mecabというファイルに保存せよ．このファイルを用いて，以下の問に対応するプログラムを実装せよ．

なお，問題37, 38, 39はmatplotlibもしくはGnuplotを用いるとよい．

In [1]:
from pprint import pprint

with open("./datasets/neko.txt") as neko:
    lines = neko.readlines()
    pprint(lines[1:10])
    neko.close()

['\n',
 '\u3000吾輩は猫である。\n',
 '名前はまだ無い。\n',
 '\n',
 '\u3000どこで生れたかとんと見当がつかぬ。\n',
 '何でも薄暗いじめじめした所でニャーニャー泣いていた事だけは記憶している。\n',
 '吾輩はここで始めて人間というものを見た。\n',
 'しかもあとで聞くとそれは書生という人間中で一番獰悪な種族であったそうだ。\n',
 'この書生というのは時々我々を捕えて煮て食うという話である。\n']


## 30. 形態素解析結果の読み込み
形態素解析結果（neko.txt.mecab）を読み込むプログラムを実装せよ．ただし，各形態素は表層形（surface），基本形（base），品詞（pos），品詞細分類1（pos1）をキーとするマッピング型に格納し，1文を形態素（マッピング型）のリストとして表現せよ．第4章の残りの問題では，ここで作ったプログラムを活用せよ．

In [2]:
import re
import MeCab

def make_neko_mecab(input_path,output_path):
    with open(input_path,"r") as inputs, open(output_path,"w") as outputs:
        
        mt = MeCab.Tagger('mecabrc')
        result = list()
        outputs.write(mt.parse(inputs.read()))
                      

def neko_txt_mecab(mecab_file):
    with open(mecab_file,"r") as inputs:
        
        result_list = list()
        
        for line in inputs:
            line_elements = re.sub('\t',",",line)
            extracted = line_elements.split(",")
            
            if(len(extracted) == 1):
                continue
            
            result_dict = {
                #表層形
                'surface': extracted[0],
                #基本形
                'base': extracted[7],
                #品詞
                'pos': extracted[1],
                #品詞細分類1
                'pos1': extracted[2],
            }
            result_list.append(result_dict)
            
            if extracted[2] == "句点":
                yield result_list
                result_list = list()

In [3]:
make_neko_mecab("./datasets/neko.txt","./datasets/neko_txt_mecab.txt")
check = neko_txt_mecab("./datasets/neko_txt_mecab.txt")

for_write = list()
for i in check:
    for_write.append(i)
pprint(for_write[0:2])

[[{'base': '一', 'pos': '名詞', 'pos1': '数', 'surface': '一'},
  {'base': '\u3000', 'pos': '記号', 'pos1': '空白', 'surface': '\u3000'},
  {'base': '吾輩', 'pos': '名詞', 'pos1': '代名詞', 'surface': '吾輩'},
  {'base': 'は', 'pos': '助詞', 'pos1': '係助詞', 'surface': 'は'},
  {'base': '猫', 'pos': '名詞', 'pos1': '一般', 'surface': '猫'},
  {'base': 'だ', 'pos': '助動詞', 'pos1': '*', 'surface': 'で'},
  {'base': 'ある', 'pos': '助動詞', 'pos1': '*', 'surface': 'ある'},
  {'base': '。', 'pos': '記号', 'pos1': '句点', 'surface': '。'}],
 [{'base': '名前', 'pos': '名詞', 'pos1': '一般', 'surface': '名前'},
  {'base': 'は', 'pos': '助詞', 'pos1': '係助詞', 'surface': 'は'},
  {'base': 'まだ', 'pos': '副詞', 'pos1': '助詞類接続', 'surface': 'まだ'},
  {'base': '無い', 'pos': '形容詞', 'pos1': '自立', 'surface': '無い'},
  {'base': '。', 'pos': '記号', 'pos1': '句点', 'surface': '。'}]]


## 31. 動詞
動詞の表層形をすべて抽出せよ．

In [31]:
outputs = list()

for listline in for_write:
    for dictline in listline:
        if dictline["pos"] == "動詞":
            outputs.append(dictline["surface"])

pprint(sorted(outputs)[0:10])

['あ', 'あい', 'あい', 'あい', 'あい', 'あい', 'あい', 'あい', 'あい', 'あい']


## 32. 動詞の原形
動詞の原形をすべて抽出せよ．

In [19]:
outputs = list()

for listline in for_write:
    for dictline in listline:
        if dictline["pos"] == "動詞":
            outputs.append(dictline["base"])

pprint(sorted(outputs)[0:10])

['あいかわる', 'あいかわる', 'あう', 'あう', 'あう', 'あがる', 'あがる', 'あがる', 'あがる', 'あがる']


## 33. サ変名詞
サ変接続の名詞をすべて抽出せよ．

In [37]:
outputs = list()

for listline in for_write:
    for dictline in listline:
        if dictline["pos1"] == "サ変接続" and dictline["pos"] == "名詞":
            outputs.append(dictline.items())

pprint(sorted(outputs)[0:10])

[dict_items([('surface', '見当'), ('base', '見当'), ('pos', '名詞'), ('pos1', 'サ変接続')]),
 dict_items([('surface', '記憶'), ('base', '記憶'), ('pos', '名詞'), ('pos1', 'サ変接続')]),
 dict_items([('surface', '話'), ('base', '話'), ('pos', '名詞'), ('pos1', 'サ変接続')]),
 dict_items([('surface', '装飾'), ('base', '装飾'), ('pos', '名詞'), ('pos1', 'サ変接続')]),
 dict_items([('surface', '突起'), ('base', '突起'), ('pos', '名詞'), ('pos1', 'サ変接続')]),
 dict_items([('surface', '運転'), ('base', '運転'), ('pos', '名詞'), ('pos1', 'サ変接続')]),
 dict_items([('surface', '記憶'), ('base', '記憶'), ('pos', '名詞'), ('pos1', 'サ変接続')]),
 dict_items([('surface', '分別'), ('base', '分別'), ('pos', '名詞'), ('pos1', 'サ変接続')]),
 dict_items([('surface', '決心'), ('base', '決心'), ('pos', '名詞'), ('pos1', 'サ変接続')]),
 dict_items([('surface', '我慢'), ('base', '我慢'), ('pos', '名詞'), ('pos1', 'サ変接続')])]


## 34. 「AのB」
2つの名詞が「の」で連結されている名詞句を抽出せよ．

In [43]:
outputs = list()

for listline in for_write:
    if len(listline) >2:
        for dictnumber in range(1,len(listline)):
            if listline[dictnumber]['surface'] == 'の' \
            and listline[dictnumber - 1]['pos'] == '名詞' \
            and listline[dictnumber + 1]['pos'] == '名詞':
                outputs.append(listline[dictnumber - 1]['surface'] + 'の' + listline[dictnumber + 1]['surface'])

pprint(sorted(outputs)[0:10])

['Agnodiceの世話',
 'Agnodiceの逸話',
 'Hierophilusの講義',
 'あいつの事',
 'あいつの垣根',
 'あいつの娘',
 'あいつの御蔭',
 'あかの他人',
 'あくびの用意',
 'あさっての朝']


## 35. 名詞の連接
名詞の連接（連続して出現する名詞）を最長一致で抽出せよ．

In [None]:
#最長一致とはなるべく長い文字列を得ること（"A+"）。逆は最短一致（"A+?"）