In [1]:
import CaboCha


fname_parsed = 'ai.ja/ai.ja.txt.parsed'


In [2]:
class Morph:
    def __init__(self, dct):
        self.surface = dct['surface']
        self.base = dct['base']
        self.pos = dct['pos']
        self.pos1 = dct['pos1']
        
    def __str__(self):
        return "surface:'{}',  base: '{}', pos: '{}',  pos1: '{}'"\
            .format(self.surface, self.base, self.pos, self.pos1)
    

class Chunk:
    def __init__(self, morphs, dst):
        self.morphs = morphs     # 形態素（Morphオブジェクト）のリスト
        self.dst = dst                   # 係り先文節インデックス番号
        self.srcs = []                    # 係り元文節インデックス番号のリスト
        
    def __str__(self):
        return "morphs:'{}',  dst: '{}', srcs: '{}'"\
            .format(self.morphs, self.dst, self.srcs)
    

In [3]:
def dependency_analysis(paragraph) -> list:
    '''ependency_analysis(係り受け解析)の説明
    paragraphはcabocha(CaboCha.FORMAT_LATTICE)で解析したあとのパラグラフとする
    例 出力例(道具を用いて『知能』を研究する)
    形態素のリスト（morphs），係り先文節インデックス番号（dst），係り元文節インデックス番号のリスト（srcs）
    9.　　 ['道具', 'を'] 10 [5, 6, 8]
    10. ['用い', 'て'] 12 [9]
    11. ['『', '知能', '』', 'を'] 12 []
    12. ['研究', 'する'] 13 [10, 11]
    '''
    morphs =[]
    chunks = []
    lines = paragraph.split('\n')
    for line in lines:
        if line == '':
             chunks.append(Chunk(morphs, dst))
        elif line[0]=='*':
            if len(morphs) > 0:
                chunks.append(Chunk(morphs, dst))
                morphs =[]
            dst = int(line.split(' ')[2].rstrip('D'))
        else:
            cols = line.split('\t')
            cols = [cols[0]] + cols[1].split(',')
            dct = {
                'surface': cols[0],
                'base': cols[7],
                'pos': cols[1],
                'pos1': cols[2]
            }
            morphs.append(Morph(dct))
            
    for  i, chunk in enumerate(chunks):
        if chunk.dst != -1:
            chunks[chunk.dst].srcs.append(i)
            
    return chunks


# in_fileはテキストファイルをcabocha(CaboCha.FORMAT_LATTICE)で解析した後のテキストファイル
with open(fname_parsed) as in_file:
    paragraphs = in_file.read().split('EOS\n')
    
paragraphs = list(filter(lambda x: x!='', paragraphs))

# パラグラフごとに係り受け解析をし, リストに格納
paragraphs = [dependency_analysis(paragraph) for paragraph in paragraphs]


In [4]:
for paragraph in paragraphs:
    for chunk in paragraph:
        for morph in chunk.morphs:
            if morph.pos=='動詞':
                verb  = morph.base
                print(verb, end='\t')
                lst = []
                for src in chunk.srcs:
                    if paragraph[src].morphs[-1].pos == '助詞':
                        particle = paragraph[src].morphs[-1].base
                        lst.append( ''.join([morph.surface if morph.pos != '記号' else '' for morph in paragraph[src].morphs]))
                        print(particle, end=' ')
                print(*lst)
                break
                

用いる	を 道具を
する	て を 用いて 知能を
指す	を 一分野を
代わる	を に 知的行動を 人間に
行う	て に 代わって コンピューターに
する	も 研究分野とも
述べる	は に 佐藤理史は 次のように
する	を で 知的能力を コンピュータ上で
する	を 推論判断を
する	を 画像データを
する	て を 解析して パターンを
ある	は が 応用例は 画像認識等が
する	に で により 1956年に ダートマス会議で ジョンマッカーシーにより
用いる	を 記号処理を
する	を と 記述を 主体と
使う	でも 意味あいでも
呼ぶ	も 思考ルーチンも
ある	も ことも
する	を カウンセラーを
出す	が に 人工無脳が 引き合いに
する	に を 計算機に 役割を
呼ぶ	と エキスパートシステムと
持つ	が に 人間が 暗黙に
なる	が と 記述が 問題と
する	が 利用が
知る	も アプローチも
ある	は に 差は 記号的明示性に
集める	が を サポートベクターマシンが 注目を
行う	を に を 経験を 元に 学習を
ある	も 手法も
する	を に 知性を 機械的に
する	
超える	を 流行を
する	て に 超えて 社会に
行く	て 浸透して
する	を ディープラーニングを
破る	も プレイヤーも
する	が として に MicrosoftSuphx(SuperPhoenix)」が AIとして 十段に
なる	は と 麻雀では 最先端技術と
呼ぶ	は と 人工知能は 機械学習と
ある	が ものが
繰り返す	を 学習を
する	を と ことを 基本と
基づく	に 経験に
する	と ソフトコンピューティングと
ある	が ものが
する	を これらを
作る	を 知的システムを
なす	も 試みも
する	を に を通して 統計的学習を 元に 生成規則を通して
上回る	で を 領域で 人工知能を
出す	を 精度を
行う	が に 研究が 盛んに
でる	が 派生が
する	て で でて 各分野で
だす	が で を ディープラーニングが 分野で 成果を
加える	に ことに
見せる	において を 生成技術において 進化を
広がる	は が 森正弥は 応用分野が
行う	を コンテンツ生成を
始まる	も 応用も
する	と 始まっていると
試みる	
なる	が と 解決が 壁と
する	が と 身体が