In [1]:
#依存構造解析結果から、主要な要素を表示する関数
#モデルのロードは関数外で実施すること
#import spacy
#nlp = spacy.load('ja_ginza')
#easy_display_nlp(nlp, "テスト用の文章")
def easy_display_nlp(my_nlp, input_str):
  doc = my_nlp(input_str)

  ###依存構文解析結果の表形式表示
  result_list = []
  for sent in doc.sents:
    #１文ごとに改行表示（センテンス区切り表示）
    print(sent)

    #各文を解析して結果をlistに入れる（文章が複数ある場合でもまとめて一つにしてしまう）
    for token in sent:
      #https://spacy.io/api/token
      #print(dir(token))
      #コメントは公式サイト記載ではなく、解釈なので参考程度に。
      print(token)
      info_dict = {}
      info_dict[".i"]             = token.i             # トークン番号（複数文がある場合でも0に戻らず連番になる）
      info_dict[".orth_"]         = token.orth_         # オリジナルテキスト
      info_dict["._.reading"]     = token._.reading     # 読み仮名
      info_dict[".pos_"]          = token.pos_          # 品詞(UD)
      info_dict[".tag_"]          = token.tag_          # 品詞(日本語)
      info_dict[".lemma_"]        = token.lemma_        # 基本形（名寄せ後）
      info_dict["._.inf"]         = token._.inf         # 活用情報
      info_dict[".rank"]          = token.rank          # 頻度のように扱えるかも
      info_dict[".norm_"]         = token.norm_         # 原型
      info_dict[".is_oov"]        = token.is_oov        # 登録されていない単語か？
      info_dict[".is_stop"]       = token.is_stop       # ストップワードか？
      info_dict[".has_vector"]    = token.has_vector    # word2vecの情報を持っているか？
      info_dict["list(.lefts)"]   = list(token.lefts)   # 関連語まとめ(左)
      info_dict["list(.rights)"]  = ''.join([t.text for t in token.rights])  # 関連語まとめ(右)
      info_dict[".dep_"]          = token.dep_          # 係り受けの関係性
      info_dict[".head.i"]        = token.head.i        # 係り受けの相手トークン番号
      info_dict[".head.text"]     = token.head.text     # 係り受けの相手のテキスト
      info_dict[".ent_type_"]     = list(token.children)
      result_list.append(info_dict)

  #作成した辞書のリストを、DataFrame形式にしてJupyter上で綺麗に表示する
  import pandas as pd
  #pd.set_option('display.max_columns', 100)
  df = pd.DataFrame(result_list)
  from IPython.display import display
  display(df)

  ###係り受け表示
  #係り受けのグラフ形式を図示する
  #Colaboratory上で直接表示するためには少々工夫を要する
  #https://stackoverflow.com/questions/58892382/displacy-from-spacy-in-google-colab
  from spacy import displacy
  displacy.render(doc, style='dep', jupyter=True, options={'distance': 90})

  ###抽象分類の可視化
  #入力した文章に特に地名等がなければ、
  #UserWarning: [W006] No entities to visualize found in Doc object の警告が出る
  #抽象分類の表示
  ent_result_list = []
  for ent in doc.ents:
    ent_dict = {}
    ent_dict[".text"]=ent.text
    ent_dict[".start_char"]=ent.start_char
    ent_dict[".end_cahr"]=ent.end_char
    ent_dict[".label_"]=ent.label_
    ent_result_list.append(ent_dict)
  #DataFrameの表形式での表示
  display(pd.DataFrame(ent_result_list))
  #マーキング形式での表示
  displacy.render(doc, style='ent', jupyter=True, options={'distance': 90})

  ###キーワードの列挙表示
  #接頭/接尾などが加わった形で出してくれる
  for chunks in doc.noun_chunks:
    print(chunks,end=", ")

In [3]:
#依存構造解析結果から、主要な要素を表示する関数
#モデルのロードは関数外で実施すること
#import spacy
#nlp = spacy.load('ja_ginza')
#get_features(nlp, "テスト用の文章")
def get_features(my_nlp, input_str):
    doc = my_nlp(input_str)

  ###依存構文解析結果の表形式表示
    result_list = []
    for sent in doc.sents:
    #各文を解析して結果をlistに入れる（文章が複数ある場合でもまとめて一つにしてしまう）
        for token in sent:
            try:
                nbor = token.nbor
            except IndexError:
                nbor = None
            info_dict = {}
            features = "i_{0}_text_{1}_pos_{2}_dep_{3}_nbor_{4}_ent_{5}".format(token.i,token.orth_,token.pos_,token.dep_,token.dep_,token.ent_type_)
            info_dict["features"] = features
            info_dict["text"] = token.orth_
            result_list.append(info_dict)

    return(result_list)

In [27]:
import spacy
nlp = spacy.load('ja_ginza')
#merge_nps = nlp.create_pipe("merge_noun_chunks")
#nlp.add_pipe(merge_nps)
target_str = "日常生活の都合上、いつ車で出かけなければならないことがあるか判らない。ノイズキャンセリング等は他のユーザーさんが評価されているので割愛します。"
easy_display_nlp(nlp, target_str)



日常生活の都合上、いつ車で出かけなければならないことがあるか判らない。
日常生活
の
都合
上
、
いつ
車
で
出かけ
なけれ
ば
なら
ない
こと
が
ある
か
判ら
ない
。
ノイズキャンセリング等は他のユーザーさんが評価されているので割愛します。
ノイズ
キャン
セリング
等
は
他
の
ユーザー
さん
が
評価
さ
れ
て
いる
の
で
割愛
し
ます
。


Unnamed: 0,.i,.orth_,._.reading,.pos_,.tag_,.lemma_,._.inf,.rank,.norm_,.is_oov,.is_stop,.has_vector,list(.lefts),list(.rights),.dep_,.head.i,.head.text,.ent_type_
0,0,日常生活,ニチジョウセイカツ,NOUN,名詞-普通名詞-一般,日常生活,"*,*",18446744073709551615,日常生活,True,False,False,[],の,nmod,3,上,[の]
1,1,の,ノ,ADP,助詞-格助詞,の,"*,*",0,の,False,True,True,[],,case,0,日常生活,[]
2,2,都合,ツゴウ,NOUN,名詞-普通名詞-一般,都合,"*,*",5378,都合,False,False,True,[],,compound,3,上,[]
3,3,上,ジョウ,NOUN,接尾辞-名詞的-副詞可能,上,"*,*",147,上,False,False,True,"[日常生活, 都合]",、,nmod,8,出かけ,"[日常生活, 都合, 、]"
4,4,、,、,PUNCT,補助記号-読点,、,"*,*",1,、,False,False,True,[],,punct,3,上,[]
5,5,いつ,イツ,PRON,代名詞,いつ,"*,*",2444,いつ,False,True,True,[],,nmod,8,出かけ,[]
6,6,車,クルマ,NOUN,名詞-普通名詞-一般,車,"*,*",351,車,False,False,True,[],で,nmod,8,出かけ,[で]
7,7,で,デ,ADP,助詞-格助詞,で,"*,*",12,で,False,True,True,[],,case,6,車,[]
8,8,出かけ,デカケ,VERB,動詞-一般,出掛ける,"下一段-カ行,未然形-一般",16395,出かけ,False,False,True,"[上, いつ, 車]",なければならないことがあるか,advcl,17,判ら,"[上, いつ, 車, なけれ, ば, なら, ない, こと, が, ある, か]"
9,9,なけれ,ナケレ,AUX,助動詞,ない,"助動詞-ナイ,仮定形-一般",1097,なけれ,False,True,True,[],,aux,8,出かけ,[]




日常生活, 都合上, いつ車, こと, ノイズキャンセリング等, 他, ユーザーさん, 

In [8]:
doc = nlp(target_str)

In [9]:
doc.token

AttributeError: 'spacy.tokens.doc.Doc' object has no attribute 'sent'