## ライブラリのインポート

モード切替用の引数取得のために、sudachipy から Tokenizer を import。  
名前はオリジナルコードに合わせている。  
sudachipy は GiNZA を pip したときに一緒に入ってるっぽい。  

In [1]:
import spacy
from sudachipy.tokenizer import Tokenizer as OriginalTokenizer

GiNZA 読み込み

In [2]:
nlp = spacy.load('ja_ginza_nopn')

デフォルトモード確認

In [3]:
nlp.tokenizer.mode

<SplitMode.C: 3>

# モード変更

モードA: OriginalTokenizer.SplitMode.A

モードB: OriginalTokenizer.SplitMode.B

モードC: OriginalTokenizer.SplitMode.C



In [4]:
nlp.tokenizer.mode = OriginalTokenizer.SplitMode.A
nlp.tokenizer.mode

<SplitMode.A: 1>

サンプルコード踏襲

In [5]:
doc = nlp('依存構造解析の実験を行っています。')
for sent in doc.sents:
    for token in sent:
        print(token.i, token.orth_, token.lemma_, token.pos_, token.dep_, token.head.i)
    print('EOS')

0 依存 依存 NOUN compound 2
1 構造 構造 NOUN compound 2
2 解析 解析 NOUN nmod 4
3 の の ADP case 2
4 実験 実験 NOUN obj 6
5 を を ADP case 4
6 行っ 行う VERB root 6
7 て て SCONJ mark 6
8 い 居る AUX aux 6
9 ます ます AUX aux 6
10 。 。 PUNCT punct 6
EOS


# モード変更確認
本当に各モードで区切り方が異なるかの確認。

In [6]:
# mode A
nlp_A = spacy.load('ja_ginza_nopn')
nlp_A.tokenizer.mode = OriginalTokenizer.SplitMode.A
nlp_A, nlp_A.tokenizer.mode

(<spacy.lang.ja_ginza.Japanese at 0x36c59860>, <SplitMode.A: 1>)

In [7]:
# mode B
nlp_B = spacy.load('ja_ginza_nopn')
nlp_B.tokenizer.mode = OriginalTokenizer.SplitMode.B
nlp_B, nlp_B.tokenizer.mode

(<spacy.lang.ja_ginza.Japanese at 0x5ca0feb8>, <SplitMode.B: 2>)

In [8]:
# mode C
nlp_C = spacy.load('ja_ginza_nopn')
nlp_C.tokenizer.mode = OriginalTokenizer.SplitMode.C
nlp_C, nlp_C.tokenizer.mode

(<spacy.lang.ja_ginza.Japanese at 0x73f71748>, <SplitMode.C: 3>)

In [9]:
nlps = [
    nlp_A,
    nlp_B,
    nlp_C
]

In [10]:
for nlp in nlps:
    doc = nlp('京都府京都市左京区松ヶ崎')
    print(nlp.tokenizer.mode)
    print(' '.join([token.text for token in doc]))

SplitMode.A
京都 府 京都 市 左京 区 松ヶ崎
SplitMode.B
京都府 京都市 左京区 松ヶ崎
SplitMode.C
京都府京都市左京区 松ヶ崎
