In [2]:
import spacy
nlp = spacy.load('ja_ginza')

In [3]:
for p in nlp.pipeline:
    print(p)

('tagger', <spacy.pipeline.pipes.Tagger object at 0x113836ca0>)
('parser', <spacy.pipeline.pipes.DependencyParser object at 0x12bdf5a00>)
('ner', <spacy.pipeline.pipes.EntityRecognizer object at 0x12bdf5b20>)
('CompoundSplitter', <ginza.compound_splitter.CompoundSplitter object at 0x1132fc4f0>)
('BunsetuRecognizer', <ginza.bunsetu_recognizer.BunsetuRecognizer object at 0x11ec99eb0>)


In [4]:
text = '本作は同じゲームエンジンを使用して、3つの異なるゲームモードとして提供している。「世界を救え」モードは、最大4人のプレイヤーがゾンビのようなモンスターを撃退し、オブジェクトを防御する協力型CO-OPモード (PvE)。「バトルロイヤル」モードは基本プレイ無料でプレイできるバトルロイヤルゲームであり、最大100人のプレイヤーが最後まで生き残るために他のプレイヤーと対戦する。「クリエイティブ」モードでは、プレイヤーが独自の世界を作成することができる。'

In [6]:
doc = nlp(text)
for s in doc.sents:
    print(s)

本作は同じゲームエンジンを使用して、3つの異なるゲームモードとして提供している。
「世界を救え」モードは、最大4人のプレイヤーがゾンビのようなモンスターを撃退し、オブジェクトを防御する協力型CO-OPモード (PvE)。
「バトルロイヤル」モードは基本プレイ無料でプレイできるバトルロイヤルゲームであり、最大100人のプレイヤーが最後まで生き残るために他のプレイヤーと対戦する。
「クリエイティブ」モードでは、プレイヤーが独自の世界を作成することができる。


In [7]:
for np in doc.noun_chunks:
    print(np)

本作
同じゲームエンジン
3つ
ゲームモード
「世界
救え」モード
オブジェクト
協力型CO-OPモード (PvE
「バトルロイヤル」モード
基本プレイ無料
最大100人
プレイヤー
最後
他
プレイヤー
「クリエイティブ」モード
プレイヤー
独自の世界


In [8]:
for token in doc:
    print(token.text)

本作
は
同じ
ゲーム
エンジン
を
使用
し
て
、
3
つ
の
異なる
ゲーム
モード
と
し
て
提供
し
て
いる
。
「
世界
を
救え
」
モード
は
、
最大
4
人
の
プレイヤー
が
ゾンビ
の
よう
な
モンスター
を
撃退
し
、
オブジェクト
を
防御
する
協力
型
CO-OP
モード
(
PvE
)
。
「
バトルロイヤル
」
モード
は
基本
プレイ
無料
で
プレイ
できる
バトルロイヤル
ゲーム
で
あり
、
最大
100
人
の
プレイヤー
が
最後
まで
生き残る
ため
に
他
の
プレイヤー
と
対戦
する
。
「
クリエイティブ
」
モード
で
は
、
プレイヤー
が
独自
の
世界
を
作成
する
こと
が
できる
。


In [9]:
for token in doc:
    print(f'token[{token.i}] = {token.text}, {token.pos_}, {token.dep_}, {token.head.i}')

token[0] = 本作, NOUN, nsubj, 19
token[1] = は, ADP, case, 0
token[2] = 同じ, DET, amod, 4
token[3] = ゲーム, NOUN, compound, 4
token[4] = エンジン, NOUN, obj, 6
token[5] = を, ADP, case, 4
token[6] = 使用, VERB, advcl, 19
token[7] = し, AUX, advcl, 6
token[8] = て, SCONJ, mark, 6
token[9] = 、, PUNCT, punct, 6
token[10] = 3, NUM, nummod, 11
token[11] = つ, NOUN, nsubj, 13
token[12] = の, ADP, case, 11
token[13] = 異なる, VERB, acl, 15
token[14] = ゲーム, NOUN, compound, 15
token[15] = モード, NOUN, obl, 19
token[16] = と, ADP, case, 15
token[17] = し, VERB, fixed, 16
token[18] = て, SCONJ, fixed, 16
token[19] = 提供, VERB, ROOT, 19
token[20] = し, AUX, advcl, 19
token[21] = て, SCONJ, mark, 19
token[22] = いる, AUX, aux, 19
token[23] = 。, PUNCT, punct, 19
token[24] = 「, PUNCT, punct, 25
token[25] = 世界, NOUN, obj, 29
token[26] = を, ADP, case, 25
token[27] = 救え, VERB, compound, 29
token[28] = 」, PUNCT, punct, 29
token[29] = モード, NOUN, nsubj, 56
token[30] = は, ADP, case, 29
token[31] = 、, PUNCT, punct, 29
token[32] = 最大, NOU

In [12]:
from spacy import displacy
displacy.render(doc, style='dep')

In [13]:
for ent in doc.ents:
    print(ent.text, ent.start_char, ent.end_char, ent.label_)

3つ 18 20 Countx_Other
最大4人 52 56 N_Person
モンスター 70 75 Product_Other
協力型CO-OPモード 91 102 Doctrine_Method_Other
バトルロイヤル 110 117 Product_Other
無料 127 129 Money
最大100人 150 156 N_Person


In [14]:
displacy.render(doc, style="ent")

In [16]:
print(doc[0])
doc[0].vector

本作


array([ 0.0971664 , -0.032615  ,  0.2402084 , -0.3183388 , -0.08689716,
        0.19915518, -0.13781515, -0.25691   ,  0.16368803, -0.16386464,
        0.05927096,  0.13798755, -0.04528194,  0.02440662, -0.1306719 ,
       -0.40215847, -0.19230478, -0.13009363, -0.28546476, -0.03239199,
       -0.17497468,  0.04573978, -0.21945457,  0.0827079 , -0.00068177,
       -0.06882177, -0.16827185,  0.16076122, -0.34113473,  0.14471994,
       -0.03227262, -0.22802962, -0.06697726,  0.09854092,  0.08492182,
        0.00550112,  0.0059951 , -0.23003256,  0.3004885 ,  0.05021463,
        0.00607941, -0.02604563,  0.2653899 , -0.33912864, -0.30974334,
       -0.2733824 ,  0.20381509,  0.06692166, -0.0221924 ,  0.00694705,
        0.17484757,  0.19581905,  0.09187986,  0.11706802, -0.1478849 ,
       -0.10196351, -0.12477625,  0.2654031 ,  0.16041273, -0.18606496,
        0.03208999, -0.00821932,  0.02558343,  0.14908712, -0.19747357,
       -0.22456339,  0.12731884,  0.2149983 , -0.23112597,  0.16