動詞のヲ格にサ変接続名詞が入っている場合のみに着目したい．46のプログラムを以下の仕様を満たすように改変せよ．

- 「サ変接続名詞+を（助詞）」で構成される文節が動詞に係る場合のみを対象とする
- 述語は「サ変接続名詞+を+動詞の基本形」とし，文節中に複数の動詞があるときは，最左の動詞を用いる
- 述語に係る助詞（文節）が複数あるときは，すべての助詞をスペース区切りで辞書順に並べる
- 述語に係る文節が複数ある場合は，すべての項をスペース区切りで並べる（助詞の並び順と揃えよ）

例えば「別段くるにも及ばんさと、主人は手紙に返事をする。」という文から，以下の出力が得られるはずである．

```
返事をする      と に は        及ばんさと 手紙に 主人は
```

このプログラムの出力をファイルに保存し，以下の事項をUNIXコマンドを用いて確認せよ．

- コーパス中で頻出する述語（サ変接続名詞+を+動詞）
- コーパス中で頻出する述語と助詞パターン

In [1]:
import re

In [2]:
# 区切り文字
separator = re.compile('\t|,')

# 係り受け
dependancy = re.compile(r'''(?:\*\s\d+\s) # キャプチャ対象外
                            (-?\d+)       # 数字(係り先)
                          ''', re.VERBOSE)

In [3]:
class Morph:
    def __init__(self, cols):
        
        self.surface = cols[0] # 表層形(surface)
        self.base = cols[7]    # 基本形(base)
        self.pos = cols[1]     # 品詞(pos)
        self.pos1 = cols[2]    # 品詞細分類1(pos1)

In [10]:
class Chunk:
    def __init__(self, morphs, dst):
        self.morphs = morphs
        self.srcs = []   # 係り元文節インデックス番号のリスト
        self.dst  = dst  # 係り先文節インデックス番号
        
        self.phrase = ''
        self.target = False # サ変+を+動詞のパターン対象か否か
        
        if morphs[-1].pos = '助詞':
            self.joshi = morphs[-1].base
        
        for i, morph in enumerate(morphs):
            self.phrase += morph.surface # 記号以外の場合文節作成
            if morph.pos1 == 'サ変' and \
               morphs[i+1].surface == 'を' and \
               morphs[i+2].pos ==  '動詞':
                self.target = True

In [5]:
# 係り元を代入し、Chunkリストを文のリストを追加
def append_sentence(chunks, sentences):
    
    # 係り元を代入
    for i, chunk in enumerate(chunks):
        if chunk.dst != -1:
            chunks[chunk.dst].srcs.append(i)
    sentences.append(chunks)
    return sentences, []

In [6]:
%time

morphs = []
chunks = []
sentences = []

with open('./neko.txt.cabocha') as f:
    
    for line in f:
        dependancies = dependancy.match(line)
        
        # EOSまたは係り受け解析結果でない場合
        if not (line == 'EOS\n' or dependancies):
            
            # 他ソースでの記号に関する条件分岐が面倒だったのでノック47から記号の場合はappendしない
            cols = separator.split(line) #タブとカンマで分割
            if cols[1] != '記号':
                morphs.append(Morph(cols))
            
        # EOSまたは係り受け解析結果で、形態素解析結果がある場合
        elif len(morphs) > 0:
            chunks.append(Chunk(morphs, dst))
            morphs = []
       
        # 係り受け結果の場合
        if dependancies:
            dst = int(dependancies.group(1))
        
        # EOSで係り受け結果がある場合
        if line == 'EOS\n' and len(chunks) > 0:
            sentences, chunks = append_sentence(chunks, sentences)

CPU times: user 4 µs, sys: 3 µs, total: 7 µs
Wall time: 15 µs


In [7]:
def output_file(out_file, sentence, chunk):
    # 係り元助詞のリストを作成
    sources = [[sentence[source].joshi, sentence[source].phrase] \
                for source in chunk.srcs if sentence[source].joshi != '']
            
    if len(sources) > 0:
        sources.sort()
        joshi = ' '.join([row[0] for row in sources])
        phrase = ' '.join([row[1] for row in sources])
        out_file.write(('{}\t{}\t{}\n'.format(chunk.verb, joshi, phrase)))

In [8]:
%%time
with open('./047.result_python.txt', 'w') as out_file:
    for sentence in sentences:
        for chunk in sentence:
            if chunk.target and len(chunk.srcs) > 0:
                output_file(out_file, sentence, chunk)

CPU times: user 261 ms, sys: 33.6 ms, total: 294 ms
Wall time: 376 ms


In [1]:
import re

class Morph:
    def __init__(self, surface, base, pos, pos1):
        self.surface = surface # 表層形(surface)
        self.base    = base    # 基本形(base)
        self.pos     = pos     # 品詞(pos)
        self.pos1    = pos1    # 品詞細分類1(pos1)
        
    def __str__(self):
        '''オブジェクトの文字列表現'''
        return 'surface[{}]\tbase[{}]\tpos[{}]\tpos1[{}]'\
            .format(self.surface, self.base, self.pos, self.pos1)

In [2]:
class Chunk:
    def __init__(self):
        '''初期化'''
        self.morphs = []
        self.srcs   = []   # 係り元文節インデックス番号のリスト
        self.dst    = -1   # 係り先文節インデックス番号(初期値:-1, 係り先がない場合は-1のまま)
        
    def __str__(self):
        '''オブジェクトの文字列表現'''
        surface = ''
        for morph in self.morphs:
            surface += morph.surface
        return '{}\tsrcs{}\tdst[{}]'.format(surface, self.srcs, self.dst)
    
    def output_surface_wo_pct(self):
        surface = ''
#        pos_ok  = False
        for morph in self.morphs:
#            if morph.pos == pos:
#                pos_ok = True
            if morph.pos != '記号':
                surface += morph.surface
                #print(pos_ok)
#        if pos_ok == False:
#            return ''
#        else:
        return surface

In [3]:
def neko_lines():
    with open('./neko.txt.cabocha3', encoding='utf-8') as neko_cabocha:
    
        chunks = dict()     # idxをkeyにChunkを格納
        
        for line in neko_cabocha:
            if line[:3] == 'EOS':
                
                # Chunkのリストを返す
                if len(chunks) > 0:

                    # chunksをkeyでソートし、valueのみ取り出し
                    sorted_tuple = sorted(chunks.items(), key=lambda x: x[0])
                    yield list(zip(*sorted_tuple))[1]  #[1]がリストのvalue部分
                    chunks.clear()

                else:
                    yield []
                    
            # 先頭が*の行は係り受け解析結果なので、Chunkを作成
            elif line[0] == '*':

                # Chunkのインデックス番号と係り先のインデックス番号取得
                cols = re.split('\s|D', line)
                idx = int(cols[1]) # Chunkのインデックス番号
                dst = int(cols[2]) # 係り先文節インデックス番号

                # Chunkを生成（なければ）し、係り先のインデックス番号セット
                if idx not in chunks:
                    chunks[idx] = Chunk()
                chunks[idx].dst = dst

                # 係り先のChunkを生成（なければ）し、係り元インデックス番号追加
                if dst != -1:
                    if dst not in chunks:
                        chunks[dst] = Chunk()
                    chunks[dst].srcs.append(idx) # 係り元は複数あるのでappend
                    
            else:
                
                #タブとカンマで分割
                cols = re.split('\t|,', line)

                chunks[idx].morphs.append(Morph(
                        cols[0],    # 表層形(surface)
                        cols[7],    # 基本形(base)
                        cols[1],    # 品詞(pos)
                        cols[2]     # 品詞細分類1(pos1)
                    ))
        #print('stop')
        #raise StopIteration

In [6]:
def output_sahen_with_joshi(chunk):
    # サ変接続名詞のみループ
    for i, morph in enumerate(chunk.morphs[0:-1]):
        if   ( morph.pos  == '名詞' ) \
         and ( morph.pos1 == 'サ変接続') \
         and ( chunk.morphs[i + 1].pos     == '助詞') \
         and ( chunk.morphs[i + 1].surface == 'を'):
            print(morph.surface + chunk.morphs[i + 1].surface)


In [7]:
# 結果ファイル作成
with open('./047_result.txt', mode='w') as out_file:

    # 1文ずつリスト作成
    for chunks in neko_lines():

        # 1文
        for chunk in chunks:
            # サ変接続名詞の各パターンを抽出して出力
            output_sahen_with_joshi(chunk)

決心を
返報を
昼寝を
昼寝を
迫害を
生活を
話を
投書を
話を
写生を
昼寝を
彩色を
欠伸を
報道を
挨拶を
御馳走を
問答を
雑談を
自慢を
呼吸を
思案を
御馳走を
御馳走を
放蕩を
放蕩を
放蕩を
放蕩を
写生を
写生を
写生を
対話を
降参を
注意を
苦心を
勉強を
存在を
談話を
御無沙汰を
勘定を
往来を
返事を
決心を
間食を
仕付を
我儘を
返事を
慰安を
喧嘩を
治療を
位置を
議論を
弁解を
挨拶を
晩酌を
遠征を
始末を
御馳走を
失敗を
話を
挨拶を
返事を
返事を
降参を
欠伸を
挨拶を
合図を
形容を
同情を
通信を
返事を
同情を
研究を
同情を
質問を
尽力を
捺印を
御馳走を
返事を
研究を
著述を
悪戯を
厚遇を
返事を
含嗽を
酷評を
挨拶を
講釈を
講釈を
苦心を
臨席を
復讐を
経験を
経験を
息を
在宿を
外出を
辛苦を
真似を
面晤を
経験を
病気を
ストライキを
返事を
談判を
手続きを
見物を
降参を
註釈を
苦労を
世話を
相談を
約束を
覚悟を
化粧を
希望を
妨害を
話を
回向を
早死を
いたずらを
談話を
身震いを
回向を
虐待を
同情を
交際を
発見を
損害を
供を
説教を
返事を
同情を
返答を
学問を
弁護を
定義を
処置を
挨拶を
返事を
沈黙を
演説を
稽古を
専断を
挨拶を
批評を
欠伸を
返事を
絞殺を
絞殺を
欠伸を
同情を
調和を
調和を
敬意を
挨拶を
話を
返事を
失礼を
噂を
心配を
話を
喧嘩を
談判を
沈黙を
質問を
研究を
質問を
失礼を
要求を
返事を
著述を
噂を
返事を
訪問を
談話を
撰を
冒険を
許諾を
報道を
決心を
自覚を
建築を
意味を
話を
息を
入水を
注意を
電話を
挨拶を
附を
約束を
他言を
批評を
清聴を
真似を
誤解を
注意を
刺激を
発達を
抗議を
復讐を
比例を
議論を
出入を
遠慮を
探偵を
喧嘩を
想像を
談話を
下宿を
学問を
貧乏を
侮辱を
喧嘩を
出所を
心配を
依頼を
同宿を
抵抗を
洗髪を
観察を
大発見を
露見を
試験を
喧嘩を
随行を
平均を
平均を
平均を
質問を
情死を
試験を
変化を
撰を
喧嘩を
解釈を
説明を
吶喊を
噂を
問答を
外出を
詰問を
著述を
賭を
料理を
賭を
履行を
質問を
説法を
喧嘩を
研究を