### CaboChaは日本語で書かれたテキストの係り受け構造を出力するプログラム

- 単語よりも少し大きく区切る（文節に区切る）
- 文節の修飾を考えることができる。

上記２点の「分節間の修飾関係による文法構造」を係り受け構造と言い、文節の係り受け関係を表す木を、係り受け木と呼ぶ。

In [4]:
!pip install cabocha-python

Collecting cabocha-python
Installing collected packages: cabocha-python
Successfully installed cabocha-python-0.69


In [22]:
# CaboChaをインポート
import CaboCha

# インスタンス化
cabocha = CaboCha.Parser('-n1')

# 関数定義
def parse_sentence(sentence_str, sentence_begin):
    
    # CaboChaを呼び出し、係り受け木を取得する。
    tree = cabocha.parse(sentence_str)
    
    offset = sentence_begin
    text = sentence_str
    
    # チャンク（文節に相当する塊）ごとにforループを回す
    for i in range(tree.chunk_size()):
        chunk = tree.chunk(i)
        chunk_begin = None

        print('chunk:',chunk)
        
        # トークンをごとにforループを回す、token_posは単語の番号,token_sizeは係り受けサイズを示している？
        for j in range(
                chunk.token_pos,
                chunk.token_pos + chunk.token_size):
            # 単語を取り出す
            token = tree.token(j)
            # チャンクに切り分け
            features = token.feature.split(',')
            # トークン開始位置（何文字目から何文字目がそのトークンであるか）
            token_begin = text.find(token.surface) + offset
            # トークン終了位置
            token_end = token_begin + len(token.surface)
            # トークン同様チャンクの開始位置終了位置
            if chunk_begin is None:
                chunk_begin = token_begin

            print('    token_begin:', token_begin)
            print('    token_end:',   token_end)
            print('    features:',    features)
            # lemmaは単語の原型
            print('    lemma:',       features[-3])
            # POS（Part-of-Speech）は単語の品詞
            print('    POS:',         features[0])
            # POS2は単語の品詞を細かく分類したもの
            print('    POS2:',        features[1])
            # NE（Named Entity）は固有表現かどうか、0は固有表現ではない
            print('    NE:',          token.ne)
            print()

            text = text[token_end-offset:]
            offset = token_end

        chunk_end = token_end

        print('  chunk_link:',    chunk.link)
        print('  chunk_begin:',   chunk_begin)
        print('  chunk_end:',     chunk_end)
        print()


parse_sentence('プログラムを作って、動かしながら自然言語処理を学ぶ。', 0)


chunk: <CaboCha.Chunk; proxy of <Swig Object of type 'CaboCha::Chunk *' at 0x7ff6480de390> >
    token_begin: 0
    token_end: 5
    features: ['名詞', 'サ変接続', '*', '*', '*', '*', 'プログラム', 'プログラム', 'プログラム']
    lemma: プログラム
    POS: 名詞
    POS2: サ変接続
    NE: O

    token_begin: 5
    token_end: 6
    features: ['助詞', '格助詞', '一般', '*', '*', '*', 'を', 'ヲ', 'ヲ']
    lemma: を
    POS: 助詞
    POS2: 格助詞
    NE: O

  chunk_link: 1
  chunk_begin: 0
  chunk_end: 6

chunk: <CaboCha.Chunk; proxy of <Swig Object of type 'CaboCha::Chunk *' at 0x7ff6480de420> >
    token_begin: 6
    token_end: 8
    features: ['動詞', '自立', '*', '*', '五段・ラ行', '連用タ接続', '作る', 'ツクッ', 'ツクッ']
    lemma: 作る
    POS: 動詞
    POS2: 自立
    NE: O

    token_begin: 8
    token_end: 9
    features: ['助詞', '接続助詞', '*', '*', '*', '*', 'て', 'テ', 'テ']
    lemma: て
    POS: 助詞
    POS2: 接続助詞
    NE: O

    token_begin: 9
    token_end: 10
    features: ['記号', '読点', '*', '*', '*', '*', '、', '、', '、']
    lemma: 、
    POS: 記号
    POS2: 読点