# 第5章: 係り受け解析
日本語Wikipediaの「人工知能」に関する記事からテキスト部分を抜き出したファイルがai.ja.zipに収録されている． この文章をCaboChaやKNP等のツールを利用して係り受け解析を行い，その結果をai.ja.txt.parsedというファイルに保存せよ．このファイルを読み込み，以下の問に対応するプログラムを実装せよ．

In [1]:
import CaboCha

article = 'ai/ai.ja.txt'
output = 'ai.ja.txt.parsed'

cabocha = CaboCha.Parser()

with open(article, 'r') as f:
    l_strip = [s.strip() for s in f.readlines() if s != '\n']

with open(output, mode='w') as f:
    for each in l_strip:
        f.write(cabocha.parse(each).toString(CaboCha.FORMAT_LATTICE))

## 40. 係り受け解析結果の読み込み（形態素）
形態素を表すクラスMorphを実装せよ．このクラスは表層形（surface），基本形（base），品詞（pos），品詞細分類1（pos1）をメンバ変数に持つこととする．さらに，係り受け解析の結果（ai.ja.txt.parsed）を読み込み，各文をMorphオブジェクトのリストとして表現し，冒頭の説明文の形態素列を表示せよ．

In [2]:
class Morph:
    def __init__(self, surface, base, pos, pos1):
        self.surface = surface
        self.base = base
        self.pos = pos
        self.pos1 = pos1

In [3]:
import csv

with open(output, 'r') as f:
    reader = csv.reader(f)
    l_morpheme = [row for row in reader]

morph_article, morph_sentence = [], []

for each_morpheme in l_morpheme:
    
    if len(each_morpheme) > 1:
        
        morph = Morph(surface=each_morpheme[0].split('\t')[0],
                      base=each_morpheme[6], pos=each_morpheme[0].split('\t')[1],
                      pos1=each_morpheme[1])
        
        morph_sentence.append(morph)
        
    elif each_morpheme[0] == 'EOS':
        morph_article.append(morph_sentence)
        morph_sentence = []

for each_morph in morph_article[1]:
    print('表層形\t: {}'.format(each_morph.surface))
    print('基本形\t: {}'.format(each_morph.base))
    print('品詞\t: {}'.format(each_morph.pos))
    print('細分類1\t: {}'.format(each_morph.pos1))
    print()

表層形	: 人工
基本形	: 人工
品詞	: 名詞
細分類1	: 一般

表層形	: 知能
基本形	: 知能
品詞	: 名詞
細分類1	: 一般

表層形	: （
基本形	: （
品詞	: 記号
細分類1	: 括弧開

表層形	: じん
基本形	: じん
品詞	: 名詞
細分類1	: 一般

表層形	: こうち
基本形	: こうち
品詞	: 名詞
細分類1	: 一般

表層形	: のう
基本形	: のう
品詞	: 助詞
細分類1	: 終助詞

表層形	: 、
基本形	: 、
品詞	: 記号
細分類1	: 読点

表層形	: 、
基本形	: 、
品詞	: 記号
細分類1	: 読点

表層形	: AI
基本形	: *
品詞	: 名詞
細分類1	: 一般

表層形	: 〈
基本形	: 〈
品詞	: 記号
細分類1	: 括弧開

表層形	: エーアイ
基本形	: *
品詞	: 名詞
細分類1	: 固有名詞

表層形	: 〉
基本形	: 〉
品詞	: 記号
細分類1	: 括弧閉

表層形	: ）
基本形	: ）
品詞	: 記号
細分類1	: 括弧閉

表層形	: と
基本形	: と
品詞	: 助詞
細分類1	: 格助詞

表層形	: は
基本形	: は
品詞	: 助詞
細分類1	: 係助詞

表層形	: 、
基本形	: 、
品詞	: 記号
細分類1	: 読点

表層形	: 「
基本形	: 「
品詞	: 記号
細分類1	: 括弧開

表層形	: 『
基本形	: 『
品詞	: 記号
細分類1	: 括弧開

表層形	: 計算
基本形	: 計算
品詞	: 名詞
細分類1	: サ変接続

表層形	: （
基本形	: （
品詞	: 記号
細分類1	: 括弧開

表層形	: ）
基本形	: ）
品詞	: 記号
細分類1	: 括弧閉

表層形	: 』
基本形	: 』
品詞	: 記号
細分類1	: 括弧閉

表層形	: という
基本形	: という
品詞	: 助詞
細分類1	: 格助詞

表層形	: 概念
基本形	: 概念
品詞	: 名詞
細分類1	: 一般

表層形	: と
基本形	: と
品詞	: 助詞
細分類1	: 並立助詞

表層形	: 『
基本形	: 『
品詞	: 記号
細分類1	: 括弧開

表層形	: コンピュータ
基本形	: コンピュータ
品詞	: 名詞
細分類1	: 一般

表

## 41. 係り受け解析結果の読み込み（文節・係り受け）
40に加えて，文節を表すクラスChunkを実装せよ．このクラスは形態素（Morphオブジェクト）のリスト（morphs），係り先文節インデックス番号（dst），係り元文節インデックス番号のリスト（srcs）をメンバ変数に持つこととする．さらに，入力テキストの係り受け解析結果を読み込み，１文をChunkオブジェクトのリストとして表現し，冒頭の説明文の文節の文字列と係り先を表示せよ．本章の残りの問題では，ここで作ったプログラムを活用せよ．

In [4]:
class Chunk:
    def __init__(self, morphs=None, dst=None, srcs=None):
        self.morphs = morphs
        self.dst = dst
        self.srcs = srcs
    
    def setMorphs(self, morphs):
        self.morphs = morphs
    
    def setDst(self, dst):
        self.dst = dst
    
    def setSrcs(self, srcs):
        self.srcs = srcs

In [5]:
article_chunks, chunks, morphs = [], [], []

for each_morpheme in l_morpheme:
    splitted_zero = each_morpheme[0].split()
    srcs = []
    
    if splitted_zero[0] == '*':
        chunk = Chunk()
        dst = int(splitted_zero[2][:-1])
        
        if dst != -1:
            chunk.setDst(dst)
            srcs.append(int(splitted_zero[1]))
        else:
            chunk.setSrcs(srcs)
            
        chunk.setMorphs(morphs)
        morphs = []
            
        chunks.append(chunk)
        
    elif splitted_zero[0] == 'EOS':
        if len(chunks) == 1:
            chunks[0].setMorphs(morphs)
            
        article_chunks.append(chunks)
        chunks = []
    
    else:
        morphs.append(Morph(surface=each_morpheme[0].split('\t')[0],
                            base=each_morpheme[6], pos=each_morpheme[0].split('\t')[1],
                            pos1=each_morpheme[1])
                     )

In [9]:
test_chunk = article_chunks[10][4]
print(test_chunk.dst)
print(test_chunk.srcs)
print(test_chunk.morphs[0].surface)

5
None
試み
