### Preparation

In [1]:
import sys, os
import re
import CaboCha
import numpy as np

In [2]:
with open('data/neko.txt') as input_neko, \
         open('data/neko.txt.cabocha', mode='w') as output_neko:
    cabocha = CaboCha.Parser()
    for line in input_neko:
        output_neko.write(
            cabocha.parse(line).toString(CaboCha.FORMAT_LATTICE)
        )

### 40. 係り受け解析結果の読み込み（形態素）

In [3]:
class Morph:
    def __init__(self, surface, base, pos, pos1):
        self.surface = surface
        self.base = base
        self.pos = pos
        self.pos1 = pos1
    def __str__(self):
        return 'Morph({}, [{}, {}, {}])'.format(self.surface, self.base, self.pos, self.pos1)

In [4]:
sentence = []
sentences = []
with open('data/neko.txt.cabocha') as neko_cabocha:
    for line in neko_cabocha:
        m = re.search(r'(?P<surface>.*?)\t(?P<pos>[^,]*),(?P<pos1>[^,]*),[^,]*,[^,]*,[^,]*,[^,]*,(?P<base>[^,]*).*', line)
        if m:
            sentence.append(Morph(surface=m.group('surface'), base=m.group('base'), 
                                    pos=m.group('pos'), pos1=m.group('pos1')))
        elif line=='EOS\n' and not sentence == []:
            sentences.append(sentence)
            sentence = []
print([str(morph) for morph in sentences[3]])

['Morph(\u3000, [\u3000, 記号, 空白])', 'Morph(どこ, [どこ, 名詞, 代名詞])', 'Morph(で, [で, 助詞, 格助詞])', 'Morph(生れ, [生れる, 動詞, 自立])', 'Morph(た, [た, 助動詞, *])', 'Morph(か, [か, 助詞, 副助詞／並立助詞／終助詞])', 'Morph(とんと, [とんと, 副詞, 一般])', 'Morph(見当, [見当, 名詞, サ変接続])', 'Morph(が, [が, 助詞, 格助詞])', 'Morph(つか, [つく, 動詞, 自立])', 'Morph(ぬ, [ぬ, 助動詞, *])', 'Morph(。, [。, 記号, 句点])']


### 41. 係り受け解析結果の読み込み（文節・係り受け）
40に加えて，文節を表すクラスChunkを実装せよ．このクラスは形態素（Morphオブジェクト）のリスト（morphs），係り先文節インデックス番号（dst），係り元文節インデックス番号のリスト（srcs）をメンバ変数に持つこととする．さらに，入力テキストのCaboChaの解析結果を読み込み，１文をChunkオブジェクトのリストとして表現し，8文目の文節の文字列と係り先を表示せよ．第5章の残りの問題では，ここで作ったプログラムを活用せよ．



In [5]:
class Chunk:
    def __init__(self, morphs, dst, srcs):
        self.morphs = morphs
        self.dst = dst
        self.srcs = srcs
    def __str__(self):
        srcs = self.srcs
        dst = self.dst
        morphs = ''.join([morph.surface for morph in self.morphs])
        return f'dst: {dst}, Morphs: {morphs}, srcs: {srcs}'
    def to_string(self):
        return ''.join([morph.surface for morph in self.morphs])
    def to_normalized_string(self):
        return ''.join([morph.surface for morph in self.morphs if morph.pos!='記号'])

In [6]:
with open('data/neko.txt.cabocha') as neko_cabocha:
    sentences = []
    sentence = []
    chunk = None
    morphs, dst, srcs = [], None, []
    for line in neko_cabocha:
        # 係り受け情報を取得し，Chunkオブジェクトを作成する
        m1 = re.search(r'\*\ (?P<phrase_id>[0-9]+)\ (?P<dst>-?[0-9]*)D.*', line)
        if m1:
            dst = m1.group('dst')
            phrase_id = m1.group('phrase_id')
            srcs = [p_id for (p_id, chunk) in enumerate(sentence) if chunk.dst == phrase_id]
            chunk = Chunk(morphs=[], dst=dst, srcs=srcs)
            sentence.append(chunk)        
        # 形態素を取得
        m = re.search(r'(?P<surface>.*?)\t(?P<pos>[^,]*),(?P<pos1>[^,]*),[^,]*,[^,]*,[^,]*,[^,]*,(?P<base>[^,]*),.*', line)
        if m:
            sentence[-1].morphs.append(Morph(surface=m.group('surface'), base=m.group('base'), 
                                    pos=m.group('pos'), pos1=m.group('pos1')))
            continue
        elif line == 'EOS\n' and sentence != []:
            sentences.append(sentence)
            sentence, dst, srcs = [], None, []
print(len(sentences))
sentence = sentences[7]
print([f'{chunk.to_string()} -> {sentence[int(chunk.dst)].to_string()}' \
       if chunk.dst!=-1 else str(chunk) for chunk in sentence])

9210
['この -> 書生というのは', '書生というのは -> 話である。', '時々 -> 捕えて', '我々を -> 捕えて', '捕えて -> 煮て', '煮て -> 食うという', '食うという -> 話である。', '話である。 -> 話である。']


### 42. 係り元と係り先の文節の表示

In [7]:
def aaaget_dependency_phrase(sentence):
    for chunk in sentence:
        if chunk.dst == '-1': 
            yield f'「{chunk.to_normalized_string()}」'
            continue
        yield f'「{chunk.to_normalized_string()}」 \t 「{sentence[int(chunk.dst)].to_normalized_string()}」'

In [32]:
def isin_part_of_speech(chunk, name) -> bool:
    if name:
        return True
    for morph in chunk.morphs:
        if morph.pos == name:
            return True
    return False

def get_dependency_phrase(sentence, n=None, first_part=True, second_part=True):
    n = n or len(sentence)
    for i, chunk in enumerate(sentence):
        if i == n:
            break
        if chunk.dst == '-1':
#            yield f'「{chunk.to_normalized_string()}」'
            continue   
        if isin_part_of_speech(chunk, first_part) and isin_part_of_speech(sentence[int(chunk.dst)], second_part):
            n += 1
            yield f'「{chunk.to_normalized_string()}」 \t 「{sentence[int(chunk.dst)].to_normalized_string()}」'

In [33]:
r = 4
print(f'text: {[chunk.to_normalized_string() for chunk in sentences[r]]}')

for i,text in enumerate(aaaget_dependency_phrase(sentences[r])):
    if i > 10: break
    print(text)
print()
print('\n'.join([ i for i in get_dependency_phrase(sentences[r], 10, True, True)]))

text: ['何でも', '薄暗い', 'じめじめした', '所で', '', '泣いて', 'いた事だけは', '記憶している']
「何でも」 	 「薄暗い」
「薄暗い」 	 「所で」
「じめじめした」 	 「所で」
「所で」 	 「泣いて」
「」 	 「泣いて」
「泣いて」 	 「記憶している」
「いた事だけは」 	 「記憶している」
「記憶している」

「何でも」 	 「薄暗い」
「薄暗い」 	 「所で」
「じめじめした」 	 「所で」
「所で」 	 「泣いて」
「」 	 「泣いて」
「泣いて」 	 「記憶している」
「いた事だけは」 	 「記憶している」


### 43. 名詞を含む文節が動詞を含む文節に係るものを抽出

In [34]:
print('\n'.join([ i for i in get_dependency_phrase(sentences[9], 10, '名詞', '動詞')]))

「ただ」 	 「載せられて」
「彼の」 	 「掌に」
「掌に」 	 「載せられて」
「載せられて」 	 「持ち上げられた」
「スーと」 	 「持ち上げられた」
「持ち上げられた」 	 「時」
「時」 	 「フワフワした」
「何だか」 	 「フワフワした」
「フワフワした」 	 「感じが」
「感じが」 	 「あったばかりである」


### 44. 係り受け木の可視化
例)
```
digraph graphname {
     a -> b -> c;
     b -> d;
 }
```