In [29]:
#トークン化，レンマ化
import spacy

nlp = spacy.load('ja_ginza_electra')
doc = nlp('バルセロナ五輪柔道金メダリストとしての実績を引っさげ、2002年にプロ総合格闘家に転向')

for token in doc:
    print(
       '【トークン】' ,token.text+'　->　'+ 
       '【レンマ】' ,token.lemma_)

【トークン】 バルセロナ　->　【レンマ】 バルセロナ
【トークン】 五輪　->　【レンマ】 五輪
【トークン】 柔道　->　【レンマ】 柔道
【トークン】 金　->　【レンマ】 金
【トークン】 メダリスト　->　【レンマ】 メダリスト
【トークン】 と　->　【レンマ】 と
【トークン】 し　->　【レンマ】 する
【トークン】 て　->　【レンマ】 て
【トークン】 の　->　【レンマ】 の
【トークン】 実績　->　【レンマ】 実績
【トークン】 を　->　【レンマ】 を
【トークン】 引っさげ　->　【レンマ】 引っさげる
【トークン】 、　->　【レンマ】 、
【トークン】 2002　->　【レンマ】 2002
【トークン】 年　->　【レンマ】 年
【トークン】 に　->　【レンマ】 に
【トークン】 プロ　->　【レンマ】 プロ
【トークン】 総合　->　【レンマ】 総合
【トークン】 格闘家　->　【レンマ】 格闘家
【トークン】 に　->　【レンマ】 に
【トークン】 転向　->　【レンマ】 転向


In [None]:
#品詞解析
import spacy

nlp = spacy.load('ja_ginza_electra')
doc = nlp('バルセロナ五輪柔道金メダリストとしての実績を引っさげ、'
    '総合格闘家・吉田秀彦の引退試合興行「ASTRA」の開催が発表された。ATCアーム')

for token in doc:
    print(
       '【トークン】' ,token.text+'　=　'+ 
       '【品詞】' ,token.tag_)

In [25]:
#名詞句の依存関係
import spacy

nlp = spacy.load("ja_ginza_electra")
doc = nlp("これは母が作った美味しい料理です")

for chunk in doc.noun_chunks:
    print('[名詞節]',chunk.text, ' [ROOT(文の根)]',chunk.root.text, ' [DEPENDENCY(依存関係)]',chunk.root.dep_,
            ' [HEAD(主辞)]',chunk.root.head.text)

#タグの意味はspacy.explain('pobj')で調べることができる


[名詞節] これ  [ROOT(文の根)] これ  [DEPENDENCY(依存関係)] nsubj  [HEAD(主辞)] 料理
[名詞節] 母  [ROOT(文の根)] 母  [DEPENDENCY(依存関係)] nsubj  [HEAD(主辞)] 作っ
[名詞節] 美味しい料理  [ROOT(文の根)] 料理  [DEPENDENCY(依存関係)] ROOT  [HEAD(主辞)] 料理


In [28]:
#文全体の依存関係
#headとchildの有効グラフで全ての依存関係が示される
import spacy

nlp = spacy.load('ja_ginza_electra')
doc = nlp("これは母が作った美味しい料理です")

print('[TEXT]','[DEP]','[HEAD TEXT]','[HEAD POS]','[CHILDREN]')
for token in doc:
    print(token.text, token.dep_, token.head.text, token.head.pos_,
            [child for child in token.children])

[TEXT] [DEP] [HEAD TEXT] [HEAD POS] [CHILDREN]
これ nsubj 料理 NOUN [は]
は case これ PRON []
母 nsubj 作っ VERB [が]
が case 母 NOUN []
作っ acl 料理 NOUN [母, た]
た aux 作っ VERB []
美味しい acl 料理 NOUN []
料理 ROOT 料理 NOUN [これ, 作っ, 美味しい, です]
です cop 料理 NOUN []




In [None]:
#依存関係の可視化
import spacy
from spacy import displacy

nlp = spacy.load('ja_ginza_electra')
doc = nlp("これは母が作った美味しい料理です")

displacy.render(doc, style="dep")

In [43]:
#NER(固有表現抽出)
import spacy

nlp = spacy.load('ja_ginza_electra')
doc = nlp("大正時代を舞台に、主人公(竈門炭治郎)とその友人(山田太郎)")

print(doc.ents) #固有表現が検出されなければ空のリストになる
for ent in doc.ents:
    print('text',ent.text, ent.start_char, ent.end_char, ent.label_)


(大正時代, 主人公, 竈門炭治郎, 山田太郎)
text 大正時代 0 4 Era
text 主人公 9 12 Position_Vocation
text 竈門炭治郎 13 18 Person
text 山田太郎 25 29 Person
complete


In [45]:
#NERの可視化
import spacy
from spacy import displacy

nlp = spacy.load('ja_ginza_electra')
doc = nlp("ATCアーム振込動作，大正時代を舞台に、主人公(竈門炭治郎)とその友人(山田太郎)")

displacy.render(doc, style="ent")

In [47]:
from spacy.matcher import Matcher

matcher = Matcher(nlp.vocab)
pattern = [{"LOWER": "hello"}, {"LOWER": "world"}]
matcher.add("HelloWorld", [pattern])
doc = nlp("hello world!")
matches = matcher(doc)

print(matches)

[(15578876784678163569, 0, 2)]


