# GiNZA 運用テスト
GiNZA: 日本語自然言語処理オープンソースライブラリ  
https://www.megagon.ai/jp/projects/ginza-install-a-japanese-nlp-library-in-one-step/  
**論文**  
https://www.anlp.jp/proceedings/annual_meeting/2019/pdf_dir/F2-3.pdf  
  
  メリット：文節区切りが可能なので固有名詞を過分割を抑えて抽出することができる, 係り受け解析も可能  
  デメリット：処理が遅い

## チュートリアル

In [None]:
!pip install ginza==4.0.5

In [None]:
# ランタイムを再起動

In [1]:
import spacy
nlp = spacy.load("ja_ginza")
doc = nlp("銀座でランチをご一緒しましょう")

for token in doc:
    print(token)

銀座
で
ランチ
を
ご
一緒
し
ましょう


In [2]:
# トークン化：文章を言葉の最小単位に分割する処理

import spacy
nlp = spacy.load("ja_ginza")
doc = nlp("青い大きな目の猫")

for token in doc:
    print(token)

青い
大きな
目
の
猫


In [3]:
# トークンの分割単位
# A：最も短い言葉の単位

import spacy
import ginza
nlp = spacy.load("ja_ginza")
ginza.set_split_mode(nlp, "A")
doc = nlp("富山県の氷見市にある雨晴海岸は非常にきれいな景色です。")

for token in doc:
    print(token)

富山
県
の
氷見
市
に
ある
雨晴
海岸
は
非常
に
きれい
な
景色
です
。


In [4]:
# B：A単位＋接辞、及び一部の複合動詞

import spacy
import ginza
nlp = spacy.load("ja_ginza")
ginza.set_split_mode(nlp, "B")
doc = nlp("富山県の氷見市にある雨晴海岸は非常にきれいな景色です。")

for token in doc:
    print(token)

富山県
の
氷見市
に
ある
雨晴
海岸
は
非常
に
きれい
な
景色
です
。


In [5]:
# C：複合名詞、固定名詞、慣用句など

import spacy
import ginza
nlp = spacy.load("ja_ginza")
ginza.set_split_mode(nlp, "C")
doc = nlp("富山県の氷見市にある雨晴海岸は非常にきれいな景色です。")
for token in doc:
    print(token)

富山県
の
氷見市
に
ある
雨晴
海岸
は
非常
に
きれい
な
景色
です
。


In [6]:
# 品詞タグ付け

import spacy
nlp = spacy.load("ja_ginza")
doc = nlp("富山県の氷見市にある雨晴海岸は非常にきれいな景色です。")

for token in doc:
    print(
        token.text +", " +
        token.tag_ + ", " +
        token.pos_
    )

富山県, 名詞-固有名詞-地名-一般, PROPN
の, 助詞-格助詞, ADP
氷見市, 名詞-固有名詞-地名-一般, PROPN
に, 助詞-格助詞, ADP
ある, 動詞-非自立可能, VERB
雨晴, 名詞-固有名詞-地名-一般, PROPN
海岸, 名詞-普通名詞-一般, NOUN
は, 助詞-係助詞, ADP
非常, 形状詞-一般, ADJ
に, 助動詞, AUX
きれい, 形状詞-一般, ADJ
な, 助動詞, AUX
景色, 名詞-普通名詞-一般, NOUN
です, 助動詞, AUX
。, 補助記号-句点, PUNCT


In [7]:
# 文境界解析

import spacy
nlp = spacy.load("ja_ginza")
doc = nlp("富山県の氷見市にある雨晴海岸は非常にきれいな景色です！是非一度行ってみてください。")

# 文境界解析

for span in doc.sents:
    print(span)

富山県の氷見市にある雨晴海岸は非常にきれいな景色です！
是非一度行ってみてください。


In [8]:
import spacy
nlp = spacy.load("ja_ginza")
doc = nlp("富山県の氷見市にある雨晴海岸は非常にきれいな景色です。寒ブリも有名です！")

# 文境界解析＋トークン化
for span in doc.sents:
    for token in span:
        print(token)

富山県
の
氷見市
に
ある
雨晴
海岸
は
非常
に
きれい
な
景色
です
。
寒ブリ
も
有名
です
！


In [9]:
# 文節を分割したトークンを取得できる
import spacy
import ginza
nlp = spacy.load("ja_ginza")
doc = nlp("富山県の氷見市にある雨晴海岸は非常にきれいな景色です。寒ブリも有名です！")

# 文節分割
for sent in doc.sents:
    for span in ginza.bunsetu_spans(sent):
      print(span)

富山県の
氷見市に
ある
雨晴海岸は
非常に
きれいな
景色です。
寒ブリも
有名です！


In [10]:
# 文節を分割したトークンを取得できる
import spacy
import ginza
nlp = spacy.load("ja_ginza")
doc = nlp("富山県の氷見市にある雨晴海岸は非常にきれいな景色です。寒ブリも有名です！")

# 文節分割＋トークン化
for sent in doc.sents:
    for span in ginza.bunsetu_spans(sent):
        for token in span:
            print(token)

富山県
の
氷見市
に
ある
雨晴
海岸
は
非常
に
きれい
な
景色
です
。
寒ブリ
も
有名
です
！


In [11]:
# 係り受け解析
import spacy
import ginza
nlp = spacy.load("ja_ginza")
doc = nlp("富山県の氷見市にある雨晴海岸は非常にきれいな景色です。寒ブリも有名です！")

# 文節の係り受け解析
for span in ginza.bunsetu_spans(doc):
    for token in span.lefts:
        print(str(ginza.bunsetu_phrase_span(token)) + " → " + str(span))

富山県 → 氷見市に
氷見市 → ある
ある → 雨晴海岸は
非常 → きれいな
雨晴海岸 → 景色です。
きれい → 景色です。
寒ブリ → 有名です！


In [12]:
import spacy
from spacy import displacy
nlp = spacy.load("ja_ginza")
doc = nlp("富山県の氷見市にある雨晴海岸は非常にきれいな景色です。寒ブリも有名です！")

# 単語の係り受け解析
for token in doc:
    print(token.text + " ← " + token.head.text + ", " + token.dep_)

# グラフ表示
displacy.render(doc, style="dep", jupyter = True, options={"compact":True,  "distance":90})

富山県 ← 氷見市, nmod
の ← 富山県, case
氷見市 ← ある, obl
に ← 氷見市, case
ある ← 海岸, acl
雨晴 ← 海岸, compound
海岸 ← 景色, nsubj
は ← 海岸, case
非常 ← きれい, advcl
に ← 非常, aux
きれい ← 景色, acl
な ← きれい, aux
景色 ← 景色, ROOT
です ← 景色, cop
。 ← 景色, punct
寒ブリ ← 有名, obl
も ← 寒ブリ, case
有名 ← 有名, ROOT
です ← 有名, aux
！ ← 有名, punct


## 医療用語でGiNZAのテスト
文節で区切ってから処理すると過分割が抑制できそう

In [13]:
# text = "やけどで非常に強い痛みが指に走った。"
text = "・過剰な心拍数，不整リズム，非生理的拍動から心拍出量が低下する．・肺水腫，意識障害，虚血性胸部不快感，血圧低下やショックをきたしていれば不安定な状態と判断する．"

In [14]:
# C：複合名詞、固定名詞、慣用句など

import spacy
import ginza
nlp = spacy.load("ja_ginza")
ginza.set_split_mode(nlp, "C")
doc = nlp(text)
for token in doc:
    print(token)

・
過剰
な
心拍数
，
不整
リズム
，
非
生理的
拍動
から
心
拍出
量
が
低下
する
．
・
肺水腫
，
意識
障害
，
虚血性
胸部
不快感
，
血圧
低下
や
ショック
を
きたし
て
いれ
ば
不安定
な
状態
と
判断
する
．


In [15]:
# 文節を分割したトークンを取得できる
import spacy
import ginza
nlp = spacy.load("ja_ginza")
doc = nlp(text)

# 文節分割
for sent in doc.sents:
    for span in ginza.bunsetu_spans(sent):
      print(span)

・
過剰な
心拍数，
不整リズム，
非生理的拍動から
心拍出量が
低下する．
・
肺水腫，
意識障害，
虚血性胸部不快感，
血圧低下や
ショックを
きたしていれば
不安定な
状態と
判断する．


In [16]:
# 文節を分割したトークンを取得できる
import spacy
import ginza
nlp = spacy.load("ja_ginza")
doc = nlp(text)

# 文節分割＋トークン化
for sent in doc.sents:
    for span in ginza.bunsetu_spans(sent):
        for token in span:
            print(token)

・
過剰
な
心拍数
，
不整
リズム
，
非
生理的
拍動
から
心
拍出
量
が
低下
する
．
・
肺水腫
，
意識
障害
，
虚血性
胸部
不快感
，
血圧
低下
や
ショック
を
きたし
て
いれ
ば
不安定
な
状態
と
判断
する
．


In [17]:
import spacy
from spacy import displacy
nlp = spacy.load("ja_ginza")
doc = nlp(text)

# 文節分割
for sent in doc.sents:
    for span in ginza.bunsetu_spans(sent):
      print(span)

# 文節の係り受け解析
for span in ginza.bunsetu_phrase_spans(doc):
  for token in span.lefts:
    print(str(ginza.bunsetu_phrase_span(token))+ str(span) + ", " + token.dep_)
# グラフ表示
displacy.render(doc, style="dep", jupyter = True, options={"compact":True,  "distance":90})

・
過剰な
心拍数，
不整リズム，
非生理的拍動から
心拍出量が
低下する．
・
肺水腫，
意識障害，
虚血性胸部不快感，
血圧低下や
ショックを
きたしていれば
不安定な
状態と
判断する．
過剰心拍数, acl
心拍数不整リズム, nmod
不整リズム非生理的拍動, nmod
・低下, dep
非生理的拍動低下, obl
心拍出量低下, nsubj
意識障害虚血性胸部不快感, nmod
虚血性胸部不快感血圧低下, nmod
血圧低下ショック, nmod
肺水腫きたし, advmod
ショックきたし, obj
きたし不安定, advcl
不安定状態, acl
・判断, dep
状態判断, obl


In [18]:
import spacy
from spacy import displacy
nlp = spacy.load("ja_ginza")
doc = nlp(text)

# 単語の係り受け解析
for token in doc:
    print(token.text + " ← " + token.head.text + ", " + token.dep_)

# グラフ表示
displacy.render(doc, style="dep", jupyter = True, options={"compact":True,  "distance":90})

・ ← 低下, dep
過剰 ← 心拍数, acl
な ← 過剰, aux
心拍数 ← リズム, nmod
， ← 心拍数, punct
不整 ← リズム, compound
リズム ← 拍動, nmod
， ← リズム, punct
非 ← 拍動, compound
生理的 ← 拍動, compound
拍動 ← 低下, obl
から ← 拍動, case
心 ← 量, compound
拍出 ← 量, compound
量 ← 低下, nsubj
が ← 量, case
低下 ← 低下, ROOT
する ← 低下, aux
． ← 低下, punct
・ ← 判断, dep
肺水腫 ← きたし, advmod
， ← 肺水腫, punct
意識 ← 障害, compound
障害 ← 不快感, nmod
， ← 障害, punct
虚血性 ← 不快感, compound
胸部 ← 不快感, compound
不快感 ← 低下, nmod
， ← 不快感, punct
血圧 ← 低下, compound
低下 ← ショック, nmod
や ← 低下, case
ショック ← きたし, obj
を ← ショック, case
きたし ← 不安定, advcl
て ← きたし, mark
いれ ← きたし, aux
ば ← きたし, mark
不安定 ← 状態, acl
な ← 不安定, aux
状態 ← 判断, obl
と ← 状態, case
判断 ← 判断, ROOT
する ← 判断, aux
． ← 判断, punct


## 別の記事を参照

In [19]:
text = "暑い夏が来た程よい激痛がする。"

In [20]:
# Sample code
import spacy
import ginza
nlp = spacy.load("ja_ginza")
doc = nlp(text)
print(ginza.bunsetu_spans(doc))
print(ginza.bunsetu_phrase_spans(doc))

for phrase in ginza.bunsetu_phrase_spans(doc):
  print(phrase, phrase.label_)


[暑い, 夏が, 来た, 程よい, 激痛が, する。]
[暑い, 夏, 来, 程よい, 激痛, する]
暑い ADJP
夏 NP
来 VP
程よい ADJP
激痛 NP
する VP
