# [GiNZA](https://qiita.com/youwht/items/b047225a6fc356fd56ee)

In [1]:
!pip install ginza

Collecting ginza
  Downloading https://files.pythonhosted.org/packages/d1/1e/1dac9cc0fa57670b960e46aa4e726a4dd530c026db9d2316aa07aba526d6/ginza-4.0.6.tar.gz
Collecting spacy<3.0.0,>=2.3.2
[?25l  Downloading https://files.pythonhosted.org/packages/95/89/1539c4024c339650c222b0b2ca2b3e3f13523b7a02671f8001b7b1cee6f2/spacy-2.3.5-cp37-cp37m-manylinux2014_x86_64.whl (10.4MB)
[K     |████████████████████████████████| 10.4MB 2.6MB/s 
[?25hCollecting ja_ginza<4.1.0,>=4.0.0
[?25l  Downloading https://files.pythonhosted.org/packages/89/7d/c8778b5472082da8488b2686cbab3e34ab371fa038c1a712a8d55d8dba2b/ja_ginza-4.0.0.tar.gz (51.5MB)
[K     |████████████████████████████████| 51.5MB 73kB/s 
[?25hCollecting SudachiPy>=0.4.9
[?25l  Downloading https://files.pythonhosted.org/packages/86/c9/1ccdbb8cb70925b6a6b0b99c2574b453c1dfee08695dd1ebbe6f966bc42f/SudachiPy-0.5.2.tar.gz (70kB)
[K     |████████████████████████████████| 71kB 7.9MB/s 
[?25hCollecting SudachiDict-core>=20200330
  Downloading https:/

In [2]:
import pkg_resources, imp
imp.reload(pkg_resources)

<module 'pkg_resources' from '/usr/local/lib/python3.7/dist-packages/pkg_resources/__init__.py'>

In [3]:
import spacy
nlp = spacy.load('ja_ginza')
doc = nlp('銀座でランチをご一緒しましょう。')
for sent in doc.sents:
    for token in sent:
        print(token.i, token.orth_, token.lemma_, token.pos_, token.tag_, token.dep_, token.head.i)
    print('EOS')

0 銀座 銀座 PROPN 名詞-固有名詞-地名-一般 obl 5
1 で で ADP 助詞-格助詞 case 0
2 ランチ ランチ NOUN 名詞-普通名詞-一般 obj 5
3 を を ADP 助詞-格助詞 case 2
4 ご ご NOUN 接頭辞 compound 5
5 一緒 一緒 VERB 名詞-普通名詞-サ変可能 ROOT 5
6 し する AUX 動詞-非自立可能 advcl 5
7 ましょう ます AUX 助動詞 aux 5
8 。 。 PUNCT 補助記号-句点 punct 5
EOS


In [4]:
#依存構造解析結果から、主要な要素を表示する関数
#モデルのロードは関数外で実施すること
#import spacy
#nlp = spacy.load('ja_ginza')
#easy_display_nlp(nlp, "テスト用の文章")
def easy_display_nlp(my_nlp, input_str):
  doc = my_nlp(input_str)

  ###依存構文解析結果の表形式表示
  result_list = []
  for sent in doc.sents:
    #１文ごとに改行表示（センテンス区切り表示）
    print(sent)

    #各文を解析して結果をlistに入れる（文章が複数ある場合でもまとめて一つにしてしまう）
    for token in sent:
      #https://spacy.io/api/token
      #print(dir(token))
      #コメントは公式サイト記載ではなく、解釈なので参考程度に。
      info_dict = {}
      info_dict[".i"]             = token.i             # トークン番号（複数文がある場合でも0に戻らず連番になる）
      info_dict[".orth_"]         = token.orth_         # オリジナルテキスト
      #info_dict["._.reading"]     = token._.reading     # 読み仮名
      info_dict[".pos_"]          = token.pos_          # 品詞(UD)
      info_dict[".tag_"]          = token.tag_          # 品詞(日本語)
      info_dict[".lemma_"]        = token.lemma_        # 基本形（名寄せ後）
      #info_dict["._.inf"]         = token._.inf         # 活用情報
      info_dict[".rank"]          = token.rank          # 頻度のように扱えるかも
      info_dict[".norm_"]         = token.norm_         # 原型
      info_dict[".is_oov"]        = token.is_oov        # 登録されていない単語か？
      info_dict[".is_stop"]       = token.is_stop       # ストップワードか？
      info_dict[".has_vector"]    = token.has_vector    # word2vecの情報を持っているか？
      info_dict["list(.lefts)"]   = list(token.lefts)   # 関連語まとめ(左)
      info_dict["list(.rights)"]  = list(token.rights)  # 関連語まとめ(右)
      info_dict[".dep_"]          = token.dep_          # 係り受けの関係性
      info_dict[".head.i"]        = token.head.i        # 係り受けの相手トークン番号
      info_dict[".head.text"]     = token.head.text     # 係り受けの相手のテキスト
      result_list.append(info_dict)

  #作成した辞書のリストを、DataFrame形式にしてJupyter上で綺麗に表示する
  import pandas as pd
  #pd.set_option('display.max_columns', 100)
  df = pd.DataFrame(result_list)
  from IPython.display import display
  display(df)

  ###係り受け表示
  #係り受けのグラフ形式を図示する
  #Colaboratory上で直接表示するためには少々工夫を要する
  #https://stackoverflow.com/questions/58892382/displacy-from-spacy-in-google-colab
  from spacy import displacy
  displacy.render(doc, style='dep', jupyter=True, options={'distance': 90})

  ###抽象分類の可視化
  #入力した文章に特に地名等がなければ、
  #UserWarning: [W006] No entities to visualize found in Doc object の警告が出る
  #抽象分類の表示
  ent_result_list = []
  for ent in doc.ents:
    ent_dict = {}
    ent_dict[".text"]=ent.text
    ent_dict[".start_char"]=ent.start_char
    ent_dict[".end_cahr"]=ent.end_char
    ent_dict[".label_"]=ent.label_
    ent_result_list.append(ent_dict)
  #DataFrameの表形式での表示
  display(pd.DataFrame(ent_result_list))
  #マーキング形式での表示
  displacy.render(doc, style='ent', jupyter=True, options={'distance': 90})

  ###キーワードの列挙表示
  #接頭/接尾などが加わった形で出してくれる
  for chunks in doc.noun_chunks:
    print(chunks,end=", ")

In [5]:
#使い方サンプル
import spacy
nlp = spacy.load('ja_ginza')

target_str = "権兵衛さんのあかちゃんが風邪ひいた。東京特許許可局。"
easy_display_nlp(nlp, target_str)

権兵衛さんのあかちゃんが風邪ひいた。
東京特許許可局。


Unnamed: 0,.i,.orth_,.pos_,.tag_,.lemma_,.rank,.norm_,.is_oov,.is_stop,.has_vector,list(.lefts),list(.rights),.dep_,.head.i,.head.text
0,0,権兵衛,PROPN,名詞-固有名詞-人名-名,権兵衛,18446744073709551615,権兵衛,True,False,False,[],[],compound,1,さん
1,1,さん,NOUN,接尾辞-名詞的-一般,さん,40,さん,False,True,True,[権兵衛],[の],nmod,3,あかちゃん
2,2,の,ADP,助詞-格助詞,の,0,の,False,True,True,[],[],case,1,さん
3,3,あかちゃん,NOUN,名詞-普通名詞-一般,あかちゃん,18446744073709551615,あかちゃん,True,False,False,[さん],[が],nsubj,6,ひい
4,4,が,ADP,助詞-格助詞,が,6,が,False,True,True,[],[],case,3,あかちゃん
5,5,風邪,NOUN,名詞-普通名詞-一般,風邪,1659,風邪,False,False,True,[],[],obl,6,ひい
6,6,ひい,VERB,動詞-一般,ひく,8028,ひい,False,False,True,"[あかちゃん, 風邪]","[た, 。]",ROOT,6,ひい
7,7,た,AUX,助動詞,た,5,た,False,True,True,[],[],aux,6,ひい
8,8,。,PUNCT,補助記号-句点,。,1057,.,False,False,True,[],[],punct,6,ひい
9,9,東京,PROPN,名詞-固有名詞-地名-一般,東京,415,東京,False,False,True,[],[],compound,12,局


Unnamed: 0,.text,.start_char,.end_cahr,.label_
0,さん,3,5,Title_Other
1,風邪,12,14,Animal_Disease
2,東京特許許可局,18,25,Government


権兵衛さん, あかちゃん, 風邪, 東京特許許可局, 

In [6]:
doc1 = nlp('このラーメンは美味しいなあ')
doc2 = nlp('カレーでも食べに行こうよ')
doc3 = nlp('ごめん、同窓会には行けません')

print(doc1.similarity(doc2))
print(doc2.similarity(doc3))
print(doc3.similarity(doc1))

0.8023912996986662
0.7488772532515633
0.5696432941716165


In [7]:
target_str = "NHKから国民を守る党からNHKを守る党からNHKから国民を守る党を守る党からNHKから国民を守る党からNHKを守る党を守る党"
easy_display_nlp(nlp, target_str)

NHKから国民を守る党からNHKを守る党からNHKから国民を守る党を守る党からNHKから国民を守る党からNHKを守る党を守る党


Unnamed: 0,.i,.orth_,.pos_,.tag_,.lemma_,.rank,.norm_,.is_oov,.is_stop,.has_vector,list(.lefts),list(.rights),.dep_,.head.i,.head.text
0,0,NHKから国民を守る党,PROPN,名詞-固有名詞-一般,NHKから国民を守る党,18446744073709551615,nhkから国民を守る党,True,False,False,[],[から],nmod,20,党
1,1,から,ADP,助詞-格助詞,から,22,から,False,True,True,[],[],case,0,NHKから国民を守る党
2,2,NHK,PROPN,名詞-固有名詞-一般,NHK,2762,nhk,False,False,True,[],[を],obj,4,守る
3,3,を,ADP,助詞-格助詞,を,8,を,False,True,True,[],[],case,2,NHK
4,4,守る,VERB,動詞-一般,守る,863,守る,False,False,True,[NHK],[],acl,5,党
5,5,党,NOUN,名詞-普通名詞-一般,党,1357,党,False,False,True,[守る],[から],obl,9,守る
6,6,から,ADP,助詞-格助詞,から,22,から,False,True,True,[],[],case,5,党
7,7,NHKから国民を守る党,PROPN,名詞-固有名詞-一般,NHKから国民を守る党,18446744073709551615,nhkから国民を守る党,True,False,False,[],[を],obj,9,守る
8,8,を,ADP,助詞-格助詞,を,8,を,False,True,True,[],[],case,7,NHKから国民を守る党
9,9,守る,VERB,動詞-一般,守る,863,守る,False,False,True,"[党, NHKから国民を守る党]",[],acl,10,党


Unnamed: 0,.text,.start_char,.end_cahr,.label_
0,NHK,13,16,Corporation_Other
1,NHK,52,55,Corporation_Other


NHKから国民を守る党, NHK, 党, NHKから国民を守る党, 党, NHKから国民を守る党, NHK, 党, 党, 

## [自然言語処理ライブラリGiNZAで固有表現抽出してみた](https://qiita.com/yuto16/items/1fc1f2b79195a503c681)

In [12]:
#依存構造解析結果から、主要な要素を表示する関数
#モデルのロードは関数外で実施すること
#import spacy
#nlp = spacy.load('ja_ginza')
#easy_display_nlp(nlp, "テスト用の文章")
def easy_display_nlp(my_nlp, input_str):
  #抽出したエンティティの種類に対して色を指定する
  colors = {"COUNTRY":"#00cc00", "CITY":"#00cc00", "GPE_OTHER":"#00cc00","OCCASION_OTHER":"#00cc00",
            "LOCATION":"#00cc00", "LOCATION_OTHER":"#00cc00","DOMESTIC_REGION":"#00cc00","PROVINCE":"#00cc00",
            "STATION":"#00cc00", "CONTINENTAL_REGION":"#00cc00","THEATER":"#00cc00",
  
            "TIME":"#adff2f","DATE":"#adff2f","DAY_OF_WEEK":"#adff2f",
            "PERIOD_YEAR":"#adff2f", "PERIOD_MONTH":"#adff2f", "PERIOD_DAY":"#adff2f",
  
            "FLORA":"#adff99","FLORA_PART":"#adff99",
            "DISH":"#ffeb99","FOOD_OTHER":"#ffeb99",
  
            "AGE":"#3385ff","N_PERSON":"#3385ff","N_EVENT":"#3385ff","N_LOCATION_OTHER":"#3385ff","RANK":"#3385ff",
            "N_PRODUCT":"#3385ff","":"#3385ff","":"#3385ff","":"#3385ff","MEASUREMENT_OTHER":"#3385ff","PERCENT":"#3385ff",
            "N_ORGANIZATION":"#3385ff", "ORDINAL_NUMBER":"#3385ff", "N_FACILITY":"#3385ff","SPEED":"#3385ff",
            "PHONE_NUMBER":"#3385ff",
  
            "MONEY":"#ffff00",
  
            "COMPANY":"#99c2ff", "SCHOOL":"#99c2ff", "INTERNATIONAL_ORGANIZATION":"#99c2ff",
            "GOE_OTHER":"#99c2ff", "SHOW_ORGANIZATION":"#99c2ff","CORPORATION_OTHER":"#99c2ff",
  
            "CLOTHING":"#ff66a3",
            "PRODUCT_OTHER":"#ff66a3",
  
            "PERSON":"#c266ff",
            "POSITION_VOCATION":"#ebccff",
  
            "MUSIC":"#ff7f50", "MOVIE":"#ff7f50", "GAME":"#ff7f50", "SPORT":"#ff7f50", "BOOK":"#ff7f50", 
            "BROADCAST_PROGRAM":"#ff7f50", 
  
            "ANIMAL_DISEASE":"#cd5c5c"
            }
  
  options = {"colors": colors}

  doc = my_nlp(input_str)

  ###依存構文解析結果の表形式表示
  result_list = []
  for sent in doc.sents:
    #１文ごとに改行表示（センテンス区切り表示）
    print(sent)

    #各文を解析して結果をlistに入れる（文章が複数ある場合でもまとめて一つにしてしまう）
    for token in sent:
      #https://spacy.io/api/token
      #print(dir(token))
      #コメントは公式サイト記載ではなく、解釈なので参考程度に。
      info_dict = {}
      info_dict[".i"]             = token.i             # トークン番号（複数文がある場合でも0に戻らず連番になる）
      info_dict[".orth_"]         = token.orth_         # オリジナルテキスト
      #info_dict["._.reading"]     = token._.reading     # 読み仮名
      info_dict[".pos_"]          = token.pos_          # 品詞(UD)
      info_dict[".tag_"]          = token.tag_          # 品詞(日本語)
      info_dict[".lemma_"]        = token.lemma_        # 基本形（名寄せ後）
      #info_dict["._.inf"]         = token._.inf         # 活用情報
      info_dict[".rank"]          = token.rank          # 頻度のように扱えるかも
      info_dict[".norm_"]         = token.norm_         # 原型
      info_dict[".is_oov"]        = token.is_oov        # 登録されていない単語か？
      info_dict[".is_stop"]       = token.is_stop       # ストップワードか？
      info_dict[".has_vector"]    = token.has_vector    # word2vecの情報を持っているか？
      info_dict["list(.lefts)"]   = list(token.lefts)   # 関連語まとめ(左)
      info_dict["list(.rights)"]  = list(token.rights)  # 関連語まとめ(右)
      info_dict[".dep_"]          = token.dep_          # 係り受けの関係性
      info_dict[".head.i"]        = token.head.i        # 係り受けの相手トークン番号
      info_dict[".head.text"]     = token.head.text     # 係り受けの相手のテキスト
      result_list.append(info_dict)

  #作成した辞書のリストを、DataFrame形式にしてJupyter上で綺麗に表示する
  import pandas as pd
  #pd.set_option('display.max_columns', 100)
  df = pd.DataFrame(result_list)
  from IPython.display import display
  display(df)

  ###係り受け表示
  #係り受けのグラフ形式を図示する
  #Colaboratory上で直接表示するためには少々工夫を要する
  #https://stackoverflow.com/questions/58892382/displacy-from-spacy-in-google-colab
  from spacy import displacy
  displacy.render(doc, style='dep', jupyter=True, options={'distance': 90})

  ###抽象分類の可視化
  #入力した文章に特に地名等がなければ、
  #UserWarning: [W006] No entities to visualize found in Doc object の警告が出る
  #抽象分類の表示
  ent_result_list = []
  for ent in doc.ents:
    ent_dict = {}
    ent_dict[".text"]=ent.text
    ent_dict[".start_char"]=ent.start_char
    ent_dict[".end_cahr"]=ent.end_char
    ent_dict[".label_"]=ent.label_
    ent_result_list.append(ent_dict)
  #DataFrameの表形式での表示
  display(pd.DataFrame(ent_result_list))
  #マーキング形式での表示
  displacy.render(doc, style='ent', jupyter=True, options={'distance': 90, 'colors': colors})

  ###キーワードの列挙表示
  #接頭/接尾などが加わった形で出してくれる
  for chunks in doc.noun_chunks:
    print(chunks,end=", ")

In [13]:
target_str = "NHKから国民を守る党からNHKを守る党からNHKから国民を守る党を守る党からNHKから国民を守る党からNHKを守る党を守る党"
easy_display_nlp(nlp, target_str)

NHKから国民を守る党からNHKを守る党からNHKから国民を守る党を守る党からNHKから国民を守る党からNHKを守る党を守る党


Unnamed: 0,.i,.orth_,.pos_,.tag_,.lemma_,.rank,.norm_,.is_oov,.is_stop,.has_vector,list(.lefts),list(.rights),.dep_,.head.i,.head.text
0,0,NHKから国民を守る党,PROPN,名詞-固有名詞-一般,NHKから国民を守る党,18446744073709551615,nhkから国民を守る党,True,False,False,[],[から],nmod,20,党
1,1,から,ADP,助詞-格助詞,から,22,から,False,True,True,[],[],case,0,NHKから国民を守る党
2,2,NHK,PROPN,名詞-固有名詞-一般,NHK,2762,nhk,False,False,True,[],[を],obj,4,守る
3,3,を,ADP,助詞-格助詞,を,8,を,False,True,True,[],[],case,2,NHK
4,4,守る,VERB,動詞-一般,守る,863,守る,False,False,True,[NHK],[],acl,5,党
5,5,党,NOUN,名詞-普通名詞-一般,党,1357,党,False,False,True,[守る],[から],obl,9,守る
6,6,から,ADP,助詞-格助詞,から,22,から,False,True,True,[],[],case,5,党
7,7,NHKから国民を守る党,PROPN,名詞-固有名詞-一般,NHKから国民を守る党,18446744073709551615,nhkから国民を守る党,True,False,False,[],[を],obj,9,守る
8,8,を,ADP,助詞-格助詞,を,8,を,False,True,True,[],[],case,7,NHKから国民を守る党
9,9,守る,VERB,動詞-一般,守る,863,守る,False,False,True,"[党, NHKから国民を守る党]",[],acl,10,党


Unnamed: 0,.text,.start_char,.end_cahr,.label_
0,NHK,13,16,Corporation_Other
1,NHK,52,55,Corporation_Other


NHKから国民を守る党, NHK, 党, NHKから国民を守る党, 党, NHKから国民を守る党, NHK, 党, 党, 