In [81]:
import spacy
from typing import Dict

In [3]:
nlp = spacy.load('ja_ginza')
doc = nlp('昨日から胃がキリキリと痛い')

for sent in doc.sents:
  for token in sent:
    print(token.i, token.orth_, token.lemma_, token.pos_, token.tag_, token.dep_, token.head.i)
  print('EOS')

0 昨日 昨日 NOUN 名詞-普通名詞-副詞可能 obl 6
1 から から ADP 助詞-格助詞 case 0
2 胃 胃 NOUN 名詞-普通名詞-一般 nsubj 6
3 が が ADP 助詞-格助詞 case 2
4 キリキリ キリキリ VERB 名詞-普通名詞-一般 advcl 6
5 と と SCONJ 助詞-格助詞 mark 4
6 痛い 痛い ADJ 形容詞-一般 ROOT 6
EOS


In [79]:
nlp = spacy.load('ja_ginza')
doc = nlp('昨日から胃がキリキリ痛む。ただ、熱はない')

for sent in doc.sents:
  for token in sent:
    print(token.i, token.orth_, token.lemma_, token.pos_, token.tag_, token.dep_, token.head.i)
  print('EOS')

0 昨日 昨日 NOUN 名詞-普通名詞-副詞可能 obl 5
1 から から ADP 助詞-格助詞 case 0
2 胃 胃 NOUN 名詞-普通名詞-一般 nsubj 5
3 が が ADP 助詞-格助詞 case 2
4 キリキリ キリキリ ADV 名詞-普通名詞-一般 advmod 5
5 痛む 痛む VERB 動詞-一般 ROOT 5
6 。 。 PUNCT 補助記号-句点 punct 5
EOS
7 ただ ただ CCONJ 接続詞 cc 11
8 、 、 PUNCT 補助記号-読点 punct 7
9 熱 熱 NOUN 名詞-普通名詞-一般 nsubj 11
10 は は ADP 助詞-係助詞 case 9
11 ない ない ADJ 形容詞-非自立可能 ROOT 11
EOS


In [82]:
def parse_syntax_piece(sentence, nlp):
  doc = nlp(sentence)
  tokens = []
  
  for sent in doc.sents:
    for token in sent:
      tokens.append(token)
  
  print(tokens)
  pieces = []
  compound_words :Dict[int, str] = {}
  
  for token in tokens:
    print(token.dep_)
    
    if token.i in compound_words.keys():
      pieces.append(f'{compound_words[token.i] + token.orth_}:{tokens[token.head.i].lemma_}')
      continue
    
    if token.dep_ in ['obj','nsubj', 'advmod', 'nmod', 'acl', 'advcl']:
      pieces.append(f'{token.lemma_}:{tokens[token.head.i].lemma_}')
    
    # 複合名詞の一部は{係る先のindex:複合名詞}で保存しておきます
    elif token.dep_ == 'compound':
      if token.head.i not in compound_words.keys():
        compound_words.setdefault(token.head.i, token.orth_)
      else:
        compound_words[token.head.i] += token.orth_
    
  
  return pieces

In [54]:
def parse_document(sentence, nlp):
  doc = nlp(sentence)
  tokens = []
  
  for sent in doc.sents:
    for token in sent:
      tokens.append(token)
      
  print(tokens)
  subject_list = []
  for token in tokens:
    print(token.i, token.dep_, token.head.i)
    
    if token.dep_ == 'nsubj':
      subject_list.append(f'{token.lemma_}:{tokens[token.head.i].lemma_}')
  
  return subject_list

In [85]:
nlp = spacy.load('ja_ginza')
print(parse_syntax_piece('母子手帳を受け取りたいのですが、手続きを教えてください。', nlp))

[母子手帳, を, 受け取り, たい, の, です, が, 、, 手続き, を, 教え, て, ください, 。]
obj
case
advcl
aux
mark
fixed
mark
punct
obj
case
ROOT
mark
fixed
punct
['母子手帳:受け取る', '受け取る:教える', '手続き:教える']
