In [19]:
#!pip install -U ginza ja-ginza

In [20]:
#!pip install spacy

In [8]:
### 本ページのコードは、https://note.com/npaka/n/n5c3e4ca67956をベースとしている。

### GiNZAはspacy上に日本語をの自然言語処理機能を実装したものである。したがって、日本語を解析するためには、 "ja_ginza"を指定することが必要である。
### GiNZAの形態素解析は、MeCabやJUMANと異なり、三つのモードで解析することができる。まず、デフォルトの設定のまま行う例を示す。次のように「コロナ禍」「新型コロナウイルス感染症」「危機的状況」がそれぞれ一つ独立したトークンとして返される。

In [5]:
import spacy
nlp = spacy.load('ja_ginza')
X = 'コロナ禍とは、2019年末からの新型コロナウイルス感染症の流行による災難や危機的状況を指す言葉である'
doc = nlp(X)

# 解析された形態素はtokenに格納されている。
for sent in doc.sents:
    for token in sent:
        print(token)

コロナ禍
と
は
、
2019
年
末
から
の
新型コロナウイルス感染症
の
流行
に
よる
災難
や
危機的状況
を
指す
言葉
で
ある


### GiNZAの形態素解析のモードは関数ginza.set_split_mode()で指定する。例えば、「新型コロナウイルス感染症」は次のように三つのモードで分割することができる。デフォルトはCモードになっている。
<br>
A: 短い単位(新型/ 　コロナ/ 　ウイルス/ 　感染/ 　症)<br>
B: 中間(新型/ 　コロナ/ 　ウイルス/ 　感染症)<br>
C: 長い単位(新型コロナウイルス感染症)<br>

In [6]:
import spacy
import ginza
nlp = spacy.load('ja_ginza')
#次のコードでモード（A,B,C）を指定する。
ginza.set_split_mode(nlp, "A")
doc = nlp(X)

# 形態素分割
for sent in doc.sents:
    for token in sent:
        print(token)

コロナ
禍
と
は
、
2019
年
末
から
の
新型
コロナ
ウイルス
感染
症
の
流行
に
よる
災難
や
危機
的
状況
を
指す
言葉
で
ある


### ja_ginzaで解析された形態素に関連する結果には、次のものがある。
形態素番号 ：　token.i<br>
形態素表層 ：　token.text<br>
語の原型 　：　token.lenma_（レンマと呼ぶ）<br>
形態素タグ1：  token.pos_(英語のタグ表記)<br>
形態素タグ2：　token.tag_(日本語のタグ表記)<br>


In [7]:
import spacy
nlp = spacy.load('ja_ginza')
doc = nlp(X)

# 形態素解析の結果の表示
for sent in doc.sents:
   for token in sent:
       print(
           str(token.i)+ "\t"+ 
           token.text+ "\t"+
           token.lemma_+ "\t"+
           token.pos_+'\t'+ 
           token.tag_
       )

0	コロナ禍	コロナ禍	NOUN	名詞-普通名詞-一般
1	と	と	ADP	助詞-格助詞
2	は	は	ADP	助詞-係助詞
3	、	、	PUNCT	補助記号-読点
4	2019	2019	NUM	名詞-数詞
5	年	年	NOUN	名詞-普通名詞-助数詞可能
6	末	末	NOUN	接尾辞-名詞的-副詞可能
7	から	から	ADP	助詞-格助詞
8	の	の	ADP	助詞-格助詞
9	新型コロナウイルス感染症	新型コロナウイルス感染症	NOUN	名詞-普通名詞-一般
10	の	の	ADP	助詞-格助詞
11	流行	流行	NOUN	名詞-普通名詞-サ変可能
12	に	に	ADP	助詞-格助詞
13	よる	よる	VERB	動詞-一般
14	災難	災難	NOUN	名詞-普通名詞-一般
15	や	や	ADP	助詞-副助詞
16	危機的状況	危機的状況	NOUN	名詞-普通名詞-一般
17	を	を	ADP	助詞-格助詞
18	指す	指す	VERB	動詞-一般
19	言葉	言葉	NOUN	名詞-普通名詞-一般
20	で	だ	AUX	助動詞
21	ある	ある	VERB	動詞-非自立可能


### GiNZAの品詞種類及びその日本語のタグ表記形態は次のようになっている。

・名詞-普通名詞-一般
・名詞-普通名詞-サ変可能
・名詞-普通名詞-形状詞可能
・名詞-普通名詞-サ変形状詞可能
・名詞-普通名詞-副詞可能
・名詞-普通名詞-助数詞可能
・名詞-固有名詞-一般
・名詞-固有名詞-人名-一般
・名詞-固有名詞-人名-姓
・名詞-固有名詞-人名-名
・名詞-固有名詞-地名-一般
・名詞-固有名詞-地名-国
・名詞-数詞
・名詞-助動詞語幹
・代名詞
・形状詞-一般
・形状詞-タリ
・形状詞-助動詞語幹
・連体詞
・副詞
・接続詞
・感動詞-一般
・感動詞-フィラー
・動詞-一般
・動詞-非自立可能
・形容詞-一般
・形容詞-非自立可能
・助動詞
・助詞-格助詞
・助詞-副助詞
・助詞-係助詞
・助詞-接続助詞
・助詞-終助詞
・助詞-準体助詞
・接頭辞
・接尾辞-名詞的-一般
・接尾辞-名詞的-サ変可能
・接尾辞-名詞的-形状詞可能
・接尾辞-名詞的-サ変形状詞可能
・接尾辞-名詞的-副詞可能
・接尾辞-名詞的-助数詞
・接尾辞-形状詞的
・接尾辞-動詞的
・接尾辞-形容詞的
・記号-一般
・記号-文字
・補助記号-一般
・補助記号-句点
・補助記号-読点
・補助記号-括弧開
・補助記号-括弧閉
・補助記号-ＡＡ-一般
・補助記号-ＡＡ-顔文字
・空白

### GiNZAの品詞種類及びその英語のタグ表記形態は次のようになっている。

In [None]:
・NOUN : 名詞
　・名詞-普通名詞 (但しVERB,ADJとして使われるものを除く) (例: パン)
・PROPN : 固有名詞
　・名詞-固有名詞 (例: 北海道)
・VERB : 動詞
　・動詞(但し非自立となるものを除く) (例: 食べる)
　・名刺+サ変可能で動詞の語尾が付いたもの (例: '食事'する)
・ADJ : 形容詞
　・形容詞(但し非自立となるものを除く) (例: 大きい)
　・形状詞 (例: 豊か)
　・連体詞(但しDETを除く) (例: 大きな)
　・名詞-形状詞可能で形状詞の語尾が付く場合 (例: '自由'な)
・ADV : 副詞
　・副詞 (例: ゆっくり)
・INTJ : 間投詞
　・間投詞 (例: あっ)

・PRON : 代名詞
　・代名詞 (例: 私)
・NUM : 数詞
　・名詞-数詞 (例: 5)
・AUX : 助動詞
　・助動詞 (例: た)
　・動詞/形容詞のうち非自立のもの (例: して'いる', 食べ'にくい’)
・CONJ : 接続詞
　・接続詞または助詞-接続助詞のうち、等位接 続詞として用いるもの (例: と)
・SCONJ : 従属接続詞
　・接続詞・助詞-接続助詞(CONJとなるものを除く) (例: て)
　・準体助詞 (例: 行く'の'が)
・DET : 限定詞
　・連体詞の一部 (例: この, その, あんな, どんな)
・ADP : 接置詞
　・助詞-格助詞 (例: が)
　・副助詞 (例: しか)
　・係助詞 (例: こそ)
・PART : 接辞
　・助詞-終助詞 (例: 何時です'か')
　・接尾辞 (例: 深'さ')

・PUNCT : 句読点
　・補助記号-句点/読点/括弧開/括弧閉
・SYM : 記号
　・記号・補助記号のうちPUNCT以外のもの
・X : その他
　・空白

### 品詞を指定してトークンを返す。

In [8]:
import spacy
from spacy import displacy
nlp = spacy.load('ja_ginza')

doc = nlp(X)

pos = ["名詞","動詞"]
for sent in doc.sents:
    for token in sent:
        #print(token.text + "\t" +token.tag_)
        i = (token.tag_.split("-"))[0]
        if i in pos:
            print(token.lemma_)

コロナ禍
2019
年
新型コロナウイルス感染症
流行
よる
災難
危機的状況
指す
言葉
ある


## 語・文節の係り受け解析

### 日本語の構文解析でよく知られている解析器としては文節係り受け関係解析を行うCabochaとJUMA/KNPである。GiNZAは文節の係り受けだけではなく、語・形態素の係り受けも解析する。

解析して結果を視覚化した例を次に示す。

In [9]:
import spacy
from spacy import displacy

nlp = spacy.load('ja_ginza')
X2 = "田中太郎は友達と一緒に学校に行った。"
doc = nlp(X2)

# 係り受け関係グラフ
displacy.render(doc, style='dep', jupyter=True, options={'compact':False,'distance': 80})

#「行った」文節のかかる先「太郎は」と「一緒に」「学校に」文節であることが分かる。

### 文節係り受け解析の結果はginza.bunsetu_spans()に格納されている。文節は次のように返すことができる。


In [10]:
import spacy
import ginza

nlp = spacy.load('ja_ginza')
doc = nlp(X2)

#文節を返す
for sent in doc.sents:
    for span in ginza.bunsetu_spans(sent):
        print(span)

田中太郎は
友達と
一緒に
学校に
行った。


### 文節の係り受け関係の情報は、次の項目に分かれている。
token.dep_ : 構文従属関係<br>
token.head : 構文上の親のトークン<br>
token.children : 構文上の子のトークン<br>
token.lefts : 構文上の左の文節<br>
token.rights : 構文上の右の文節<br>



In [11]:
import spacy
import ginza

nlp = spacy.load('ja_ginza')
doc = nlp(X2)

#文節を返す
for sent in doc.sents:
    for span in ginza.bunsetu_spans(sent):
        for token in span:
            print(str(token)+ "\t" +str(token.dep_))
             

田中	compound
太郎	nsubj
は	case
友達	nmod
と	case
一緒	obl
に	case
学校	obl
に	case
行っ	ROOT
た	aux
。	punct


In [12]:
import spacy
import ginza

nlp = spacy.load('ja_ginza')
doc = nlp(X2)

#文節を返す
for sent in doc.sents:
    for span in ginza.bunsetu_spans(sent):
        for token in span:
            print(str(span)+ "\t" +str(token.dep_))

#文節によっては複数の文節と係り受け関係を持っている

田中太郎は	compound
田中太郎は	nsubj
田中太郎は	case
友達と	nmod
友達と	case
一緒に	obl
一緒に	case
学校に	obl
学校に	case
行った。	ROOT
行った。	aux
行った。	punct


In [13]:
#import spacy
#import ginza

#nlp = spacy.load('ja_ginza')
#doc = nlp(X2)

#文節間の係り受け解析
for sent in doc.sents:
    for span in ginza.bunsetu_spans(sent):
        for token in span.lefts:
            print(str(ginza.bunsetu_span(token))+ "\t", str(token.dep_)+ "\t" +str(span))

友達と	 nmod	一緒に
田中太郎は	 nsubj	行った。
一緒に	 obl	行った。
学校に	 obl	行った。


### 指定した品詞が含む文節のみ返す。

In [14]:
#名詞が含む文節の中から付属語を除いたものを返す。
for noun in doc.noun_chunks:
    print(noun)

田中太郎
友達
一緒
学校


In [15]:
import spacy
from spacy import displacy
nlp = spacy.load('ja_ginza')
doc = nlp(X2)

# 固有表現抽出
for ent in doc.ents:
   print(
       ent.text+','+ # テキスト
       ent.label_+','+ # ラベル
       str(ent.start_char)+','+ # 開始位置
       str(ent.end_char)) # 終了位置

# 強調表示
displacy.render(doc, style='ent', jupyter=True, options={'distance': 50})

田中太郎,Person,0,4


In [16]:
# _*_ coding: utf-8 _*_
import spacy
nlp = spacy.load('ja_ginza')
word_list = []

def tokens(sentences, pos = ["名詞", "形状詞","動詞"], stopwords_list = []):
    doc = nlp(sentences)
    for sent in doc.sents:
        for token in sent:
            k = (token.tag_.split("-"))[0]
            if k in pos:
                print(token.lemma_)
    return word_list

if __name__ == '__main__':
    out = tokens('今日は金曜日です')
    print(out)



今日
金曜日
[]


In [17]:
import my_ginza

word_list = []
out =my_ginza.tokens('今日は金曜日です')
print(out)

word_list = []

ModuleNotFoundError: No module named 'my_ginza'

In [210]:
for p in nlp.pipeline:
    print(p)

('tok2vec', <spacy.pipeline.tok2vec.Tok2Vec object at 0x0000020725DE72E0>)
('parser', <spacy.pipeline.dep_parser.DependencyParser object at 0x00000207386D1700>)
('ner', <spacy.pipeline.ner.EntityRecognizer object at 0x00000207386D18C0>)
('morphologizer', <spacy.pipeline.morphologizer.Morphologizer object at 0x00000207386DC640>)
('compound_splitter', <ginza.compound_splitter.CompoundSplitter object at 0x00000207386E3850>)
('bunsetu_recognizer', <ginza.bunsetu_recognizer.BunsetuRecognizer object at 0x00000207386E1FC0>)


In [18]:
texts =list(nlp.pipe([X2]))
for sents in texts:
    for sent in sents.sents:
        #文単位で分割される
        for token in sent:
             print(token)

田中
太郎
は
友達
と
一緒
に
学校
に
行っ
た
。
