In [1]:
import CaboCha


fname_parsed = 'ai.ja/ai.ja.txt.parsed'


In [2]:
class Morph:
    def __init__(self, dct):
        self.surface = dct['surface']
        self.base = dct['base']
        self.pos = dct['pos']
        self.pos1 = dct['pos1']
        
    def __str__(self):
        return "surface:'{}',  base: '{}', pos: '{}',  pos1: '{}'"\
            .format(self.surface, self.base, self.pos, self.pos1)
    

class Chunk:
    def __init__(self, morphs, dst):
        self.morphs = morphs     # 形態素（Morphオブジェクト）のリスト
        self.dst = dst                   # 係り先文節インデックス番号
        self.srcs = []                    # 係り元文節インデックス番号のリスト
        
    def __str__(self):
        return "morphs:'{}',  dst: '{}', srcs: '{}'"\
            .format(self.morphs, self.dst, self.srcs)
    

In [3]:
def dependency_analysis(paragraph) -> list:
    '''ependency_analysis(係り受け解析)の説明
    paragraphはcabocha(CaboCha.FORMAT_LATTICE)で解析したあとのパラグラフとする
    例 出力例(道具を用いて『知能』を研究する)
    形態素のリスト（morphs），係り先文節インデックス番号（dst），係り元文節インデックス番号のリスト（srcs）
    9.　　 ['道具', 'を'] 10 [5, 6, 8]
    10. ['用い', 'て'] 12 [9]
    11. ['『', '知能', '』', 'を'] 12 []
    12. ['研究', 'する'] 13 [10, 11]
    '''
    morphs =[]
    chunks = []
    lines = paragraph.split('\n')
    for line in lines:
        if line == '':
             chunks.append(Chunk(morphs, dst))
        elif line[0]=='*':
            if len(morphs) > 0:
                chunks.append(Chunk(morphs, dst))
                morphs =[]
            dst = int(line.split(' ')[2].rstrip('D'))
        else:
            cols = line.split('\t')
            cols = [cols[0]] + cols[1].split(',')
            dct = {
                'surface': cols[0],
                'base': cols[7],
                'pos': cols[1],
                'pos1': cols[2]
            }
            morphs.append(Morph(dct))
            
    for  i, chunk in enumerate(chunks):
        if chunk.dst != -1:
            chunks[chunk.dst].srcs.append(i)
            
    return chunks


# in_fileはテキストファイルをcabocha(CaboCha.FORMAT_LATTICE)で解析した後のテキストファイル
with open(fname_parsed) as in_file:
    paragraphs = in_file.read().split('EOS\n')
    
paragraphs = list(filter(lambda x: x!='', paragraphs))

# パラグラフごとに係り受け解析をし, リストに格納
paragraphs = [dependency_analysis(paragraph) for paragraph in paragraphs]


In [4]:
for paragraph in paragraphs:
    for chunk in paragraph:
        for morph in chunk.morphs:
            if morph.pos=='動詞':
                verb  = morph.base
                lst = []
                particles = []
                phrase = ''
                
                for src in chunk.srcs:
                    x = paragraph[src].morphs
                    for i in range(len(x) - 1):
                        if x[i].pos == '名詞' and x[i].pos1 == 'サ変接続': 
                            if x[i+1].pos == '助詞' and x[i+1].base == 'を': 
                                phrase  =x[i].base+'を'+verb
                        if x[-1].pos == '助詞':
                            particles.append(x[-1].base)
                            lst.append( ''.join([morph.surface if morph.pos != '記号' else '' for morph in x]))
                if phrase != '':
                    print(phrase, end='\t')
                    print(*particles, end='\t')
                    print(*lst)
                break
                

行動を代わる	を を に	知的行動を 知的行動を 人間に
判断をする	を を を	推論判断を 推論判断を 推論判断を
処理を用いる	を を	記号処理を 記号処理を
記述をする	を と	記述を 主体と
注目を集める	が が が を	サポートベクターマシンが サポートベクターマシンが サポートベクターマシンが 注目を
学習を行う	を に を	経験を 元に 学習を
流行を超える	を	流行を
学習を繰り返す	を	学習を
学習をする	を を を に を通して を通して	統計的学習を 統計的学習を 統計的学習を 元に 生成規則を通して 生成規則を通して
進化を見せる	において において を	生成技術において 生成技術において 進化を
生成を行う	を を	コンテンツ生成を コンテンツ生成を
開発を行う	は を	エイダ・ラブレスは 開発を
テストをする	を	テストを
処理を行う	を	処理を
処理を行う	に を を	Webに 知的処理を 知的処理を
意味をする	に を	データに 意味を
処理を行う	に を を	コンピュータに 知的処理を 知的処理を
研究を進める	て を	費やして 研究を
命令をする	を で	命令を 機構で
運転をする	に を	元に 運転を
特許をする	に に に が を	2018年までに 2018年までに 2018年までに 日本が 特許を
研究をする	を	研究を
運転をする	に を	柔軟に 運転を
注目を集める	は を	ファジィは 注目を
制御をする	を を	ニューロファジィ制御を ニューロファジィ制御を
成功を受ける	を	成功を
制御を用いる	も を を	他社も 知的制御を 知的制御を
制御をする	を	制御を
制御をする	を を	知的制御を 知的制御を
進歩を担う	を	進歩を
改善を果たす	に に で で で が を を	2012年に 2012年に 画像処理コンテストで 画像処理コンテストで 画像処理コンテストで チームが 精度改善を 精度改善を
プログラムを使う	を を	専用プログラムを 専用プログラムを
研究を続ける	て を	向けて 研究を
*をする	を を を を を を を	記号接地問題(シンボルグラウンディング問題)を 記号接地問題(シンボルグラウンディング問題)を 記号接地問題(シンボルグラウンディング問題)を 記号接地問題(シンボルグラウンディング問