In [1]:
import CaboCha


fname_parsed = 'ai.ja/ai.ja.txt.parsed'


In [2]:
class Morph:
    def __init__(self, dct):
        self.surface = dct['surface']
        self.base = dct['base']
        self.pos = dct['pos']
        self.pos1 = dct['pos1']
        
    def __str__(self):
        return "surface:'{}',  base: '{}', pos: '{}',  pos1: '{}'"\
            .format(self.surface, self.base, self.pos, self.pos1)
    

class Chunk:
    def __init__(self, morphs, dst):
        self.morphs = morphs     # 形態素（Morphオブジェクト）のリスト
        self.dst = dst                   # 係り先文節インデックス番号
        self.srcs = []                    # 係り元文節インデックス番号のリスト
        
    def __str__(self):
        return "morphs:'{}',  dst: '{}', srcs: '{}'"\
            .format(self.morphs, self.dst, self.srcs)
    

In [3]:
def dependency_analysis(paragraph) -> list:
    '''ependency_analysis(係り受け解析)の説明
    paragraphはcabocha(CaboCha.FORMAT_LATTICE)で解析したあとのパラグラフとする
    例 出力例(道具を用いて『知能』を研究する)
    形態素のリスト（morphs），係り先文節インデックス番号（dst），係り元文節インデックス番号のリスト（srcs）
    9.　　 ['道具', 'を'] 10 [5, 6, 8]
    10. ['用い', 'て'] 12 [9]
    11. ['『', '知能', '』', 'を'] 12 []
    12. ['研究', 'する'] 13 [10, 11]
    '''
    morphs =[]
    chunks = []
    lines = paragraph.split('\n')
    for line in lines:
        if line == '':
             chunks.append(Chunk(morphs, dst))
        elif line[0]=='*':
            if len(morphs) > 0:
                chunks.append(Chunk(morphs, dst))
                morphs =[]
            dst = int(line.split(' ')[2].rstrip('D'))
        else:
            cols = line.split('\t')
            cols = [cols[0]] + cols[1].split(',')
            dct = {
                'surface': cols[0],
                'base': cols[7],
                'pos': cols[1],
                'pos1': cols[2]
            }
            morphs.append(Morph(dct))
            
    for  i, chunk in enumerate(chunks):
        if chunk.dst != -1:
            chunks[chunk.dst].srcs.append(i)
            
    return chunks


# in_fileはテキストファイルをcabocha(CaboCha.FORMAT_LATTICE)で解析した後のテキストファイル
with open(fname_parsed) as in_file:
    paragraphs = in_file.read().split('EOS\n')
    
paragraphs = list(filter(lambda x: x!='', paragraphs))

# パラグラフごとに係り受け解析をし, リストに格納
paragraphs = [dependency_analysis(paragraph) for paragraph in paragraphs]
    
#　試しにパラグラフの2つ目を表示
for i, chunk in enumerate(paragraphs[1]):
    print(i, [morph.surface for morph in chunk.morphs], chunk.dst, chunk.srcs)


0 ['人工', '知能'] 17 []
1 ['（', 'じん', 'こうち', 'のう', '、', '、'] 17 []
2 ['AI'] 3 []
3 ['〈', 'エーアイ', '〉', '）', 'と', 'は', '、'] 17 [2]
4 ['「', '『', '計算'] 5 []
5 ['（', '）', '』', 'という'] 9 [4]
6 ['概念', 'と'] 9 []
7 ['『', 'コンピュータ'] 8 []
8 ['（', '）', '』', 'という'] 9 [7]
9 ['道具', 'を'] 10 [5, 6, 8]
10 ['用い', 'て'] 12 [9]
11 ['『', '知能', '』', 'を'] 12 []
12 ['研究', 'する'] 13 [10, 11]
13 ['計算', '機', '科学'] 14 [12]
14 ['（', '）', 'の'] 15 [13]
15 ['一', '分野', '」', 'を'] 16 [14]
16 ['指す'] 17 [15]
17 ['語', '。'] 34 [0, 1, 3, 16]
18 ['「', '言語', 'の'] 20 []
19 ['理解', 'や'] 20 []
20 ['推論', '、'] 21 [18, 19]
21 ['問題', '解決', 'など', 'の'] 22 [20]
22 ['知的', '行動', 'を'] 24 [21]
23 ['人間', 'に'] 24 []
24 ['代わっ', 'て'] 26 [22, 23]
25 ['コンピューター', 'に'] 26 []
26 ['行わ', 'せる'] 27 [24, 25]
27 ['技術', '」', '、', 'または', '、'] 34 [26]
28 ['「', '計算', '機'] 29 []
29 ['（', 'コンピュータ', '）', 'による'] 31 [28]
30 ['知的', 'な'] 31 []
31 ['情報処理', 'システム', 'の'] 33 [29, 30]
32 ['設計', 'や'] 33 []
33 ['実現', 'に関する'] 34 [31, 32]
34 ['研究', '分野', '」', 'と', 'も'] 35 [17, 27, 33