
# spaCy と GiNZA

**spaCy** [^spaCy] は自然言語を処理するためのフレームワークです。

日本語のモデルとしては **GiNZA** [^GiNZA] を利用することができます。GiNZA v5 では２種類の言語モデルが備わっています。1つは v4 まで使われていたディープラーニングの CNN で学習されたモデル(`ja_ginza`)ですが、新たに Transformers で学習されたモデル(`ja_ginza_electra`)が提供されるようになりました。なお、GiNZAでは形態素解析に Sudachi [^Sudachi] が使われています。

[^spaCy]: <https://spacy.io/>
[^GiNZA]: <https://megagonlabs.github.io/ginza/>
[^Sudachi]: <https://github.com/WorksApplications/Sudachi>

以下では、`ja_ginza` を使います。

Pythonで spaCy+GiNZA を試してみます。まず言語モデルを読み込ます。初めて実行した場合、モデルがダウンロードされるのですこし時間がかかります（モデルの容量は 1GB を超えることが多いので注意してください）。

なお、spaCy は Anaconda には付属していませんので、ユーザー自身でインストールする必要がありますが、利用しているパソコン環境によって方法が異なってきます。

**なお、本書のp.24で説明した通り、requirements.txt を利用してインストールすると、上記のパッケージはすでに導入されています。ただしginzaについては ディープラーニングの CNN で学習されたモデル(`ja_ginza`) で学習されたモデルがインストールされています。Transformers で学習されたモデル(`ja_ginza_electra`)と `spacy[cuda[*]` を利用したい場合は、いったん `!pip uninstall ja_ginza spacy` でアンインストールし、改めて個別にインストールしてください。
requirements.txt を利用せずにインストールする場合は `!pip install` コマンドを使って個別にインストールすることになります。その場合、最新のライブラリがインストールされますが、仕様が変わっていることがあるため、本書の記載どおりでは動作しないコードがあるかもしれません。筆者側で補足できた範囲で、このGitHub レポジトリでサポートしていきます。**

詳細は本書第6章の解説を参照してください。



In [3]:
pip install -U ginza ja-ginza

Collecting ginza
  Downloading ginza-5.1.2-py3-none-any.whl (20 kB)
Collecting ja-ginza
  Downloading ja_ginza-5.1.2-py3-none-any.whl (59.1 MB)
[2K     [38;2;114;156;31m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m59.1/59.1 MB[0m [31m5.8 MB/s[0m eta [36m0:00:00[0mm eta [36m0:00:01[0m[36m0:00:01[0m
Collecting SudachiDict-core>=20210802
  Downloading SudachiDict-core-20220729.tar.gz (9.1 kB)
  Preparing metadata (setup.py) ... [?25ldone
[?25hCollecting plac>=1.3.3
  Downloading plac-1.3.5-py2.py3-none-any.whl (22 kB)
Collecting SudachiPy<0.7.0,>=0.6.2
  Downloading SudachiPy-0.6.6-cp310-cp310-manylinux_2_5_x86_64.manylinux1_x86_64.manylinux_2_12_x86_64.manylinux2010_x86_64.whl (2.2 MB)
[2K     [38;2;114;156;31m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m2.2/2.2 MB[0m [31m6.5 MB/s[0m eta [36m0:00:00[0m[36m0:00:01[0m[36m0:00:01[0m:01[0m
Building wheels for collected packages: SudachiDict-core
  Building wheel for SudachiDict-core (setup.py) ... [?25ldone


In [2]:
!pip install -U spacy
# !pip install -U spacy[cuda117]
## 以下の出力は spacy をインストールした場合の例です

Collecting spacy
  Using cached spacy-3.4.1-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (6.4 MB)
Installing collected packages: spacy
Successfully installed spacy-3.4.1


In [3]:
import spacy
nlp = spacy.load('ja_ginza')

2022-08-22 17:00:02.375717: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:975] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero
2022-08-22 17:00:02.376205: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:975] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero
2022-08-22 17:00:02.376353: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:975] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero


日本語文章を形態素に分解し、それぞれの品詞情報を得るには、テキストから `Doc` クラスオブジェクトを生成します。

In [4]:
doc = nlp('ウクライナとロシアの間で戦争が始まった。この影響で世界中で物価が上昇している。')
## docオブジェクトのアトリビュート一覧
print(dir(doc))

['_', '__bytes__', '__class__', '__delattr__', '__dir__', '__doc__', '__eq__', '__format__', '__ge__', '__getattribute__', '__getitem__', '__gt__', '__hash__', '__init__', '__init_subclass__', '__iter__', '__le__', '__len__', '__lt__', '__ne__', '__new__', '__pyx_vtable__', '__reduce__', '__reduce_ex__', '__repr__', '__setattr__', '__setstate__', '__sizeof__', '__str__', '__subclasshook__', '__unicode__', '_bulk_merge', '_context', '_get_array_attrs', '_realloc', '_vector', '_vector_norm', 'cats', 'char_span', 'copy', 'count_by', 'doc', 'ents', 'extend_tensor', 'from_array', 'from_bytes', 'from_dict', 'from_disk', 'from_docs', 'from_json', 'get_extension', 'get_lca_matrix', 'has_annotation', 'has_extension', 'has_unknown_spaces', 'has_vector', 'is_nered', 'is_parsed', 'is_sentenced', 'is_tagged', 'lang', 'lang_', 'mem', 'noun_chunks', 'noun_chunks_iterator', 'remove_extension', 'retokenize', 'sentiment', 'sents', 'set_ents', 'set_extension', 'similarity', 'spans', 'tensor', 'text', 'te

In [5]:
for sent in doc.sents:
    print(sent)

ウクライナとロシアの間で戦争が始まった。
この影響で世界中で物価が上昇している。


In [6]:
for sent in doc.sents:
    for token in sent:
        print(token)

ウクライナ
と
ロシア
の
間
で
戦争
が
始まっ
た
。
この
影響
で
世界中
で
物価
が
上昇
し
て
いる
。


In [7]:
for i, sent in enumerate(doc.sents):
    print(f'---------\n第{i+1}文：{sent}\n------------')
    for token in sent:
        print('レンマ：', token.lemma_, '、品詞：', token.pos_, '、品詞タグ：', token.tag_ )

---------
第1文：ウクライナとロシアの間で戦争が始まった。
------------
レンマ： ウクライナ 、品詞： PROPN 、品詞タグ： 名詞-固有名詞-地名-国
レンマ： と 、品詞： ADP 、品詞タグ： 助詞-格助詞
レンマ： ロシア 、品詞： PROPN 、品詞タグ： 名詞-固有名詞-地名-国
レンマ： の 、品詞： ADP 、品詞タグ： 助詞-格助詞
レンマ： 間 、品詞： NOUN 、品詞タグ： 名詞-普通名詞-副詞可能
レンマ： で 、品詞： ADP 、品詞タグ： 助詞-格助詞
レンマ： 戦争 、品詞： NOUN 、品詞タグ： 名詞-普通名詞-サ変可能
レンマ： が 、品詞： ADP 、品詞タグ： 助詞-格助詞
レンマ： 始まる 、品詞： VERB 、品詞タグ： 動詞-一般
レンマ： た 、品詞： AUX 、品詞タグ： 助動詞
レンマ： 。 、品詞： PUNCT 、品詞タグ： 補助記号-句点
---------
第2文：この影響で世界中で物価が上昇している。
------------
レンマ： この 、品詞： DET 、品詞タグ： 連体詞
レンマ： 影響 、品詞： NOUN 、品詞タグ： 名詞-普通名詞-サ変可能
レンマ： で 、品詞： ADP 、品詞タグ： 助詞-格助詞
レンマ： 世界中 、品詞： NOUN 、品詞タグ： 名詞-普通名詞-一般
レンマ： で 、品詞： ADP 、品詞タグ： 助詞-格助詞
レンマ： 物価 、品詞： NOUN 、品詞タグ： 名詞-普通名詞-一般
レンマ： が 、品詞： ADP 、品詞タグ： 助詞-格助詞
レンマ： 上昇 、品詞： VERB 、品詞タグ： 名詞-普通名詞-サ変可能
レンマ： する 、品詞： AUX 、品詞タグ： 動詞-非自立可能
レンマ： て 、品詞： SCONJ 、品詞タグ： 助詞-接続助詞
レンマ： いる 、品詞： VERB 、品詞タグ： 動詞-非自立可能
レンマ： 。 、品詞： PUNCT 、品詞タグ： 補助記号-句点


In [8]:
for sent in doc.sents:
    print('インデックス\t単語\tレンマ\t正規形\t読み\t品詞タグ\t活用情報\t品詞情報\t依存関係ラベル\t係り先インデックス')
    for token in sent:
        print(
            token.i,
            '\t', token.orth_,
            '\t', token.lemma_,
            '\t', token.norm_,
            '\t', token.morph.get('Reading'),
            '\t', token.pos_,
            '\t', token.morph.get('Inflection'),
            '\t', token.tag_,
            '\t', token.dep_,
            '\t', token.head.i,
        )
    print('EOS')

インデックス	単語	レンマ	正規形	読み	品詞タグ	活用情報	品詞情報	依存関係ラベル	係り先インデックス
0 	 ウクライナ 	 ウクライナ 	 ウクライナ 	 ['ウクライナ'] 	 PROPN 	 [] 	 名詞-固有名詞-地名-国 	 nmod 	 2
1 	 と 	 と 	 と 	 ['ト'] 	 ADP 	 [] 	 助詞-格助詞 	 case 	 0
2 	 ロシア 	 ロシア 	 ロシア 	 ['ロシア'] 	 PROPN 	 [] 	 名詞-固有名詞-地名-国 	 nmod 	 4
3 	 の 	 の 	 の 	 ['ノ'] 	 ADP 	 [] 	 助詞-格助詞 	 case 	 2
4 	 間 	 間 	 間 	 ['アイダ'] 	 NOUN 	 [] 	 名詞-普通名詞-副詞可能 	 obl 	 8
5 	 で 	 で 	 で 	 ['デ'] 	 ADP 	 [] 	 助詞-格助詞 	 case 	 4
6 	 戦争 	 戦争 	 戦争 	 ['センソウ'] 	 NOUN 	 [] 	 名詞-普通名詞-サ変可能 	 nsubj 	 8
7 	 が 	 が 	 が 	 ['ガ'] 	 ADP 	 [] 	 助詞-格助詞 	 case 	 6
8 	 始まっ 	 始まる 	 始まる 	 ['ハジマッ'] 	 VERB 	 ['五段-ラ行;連用形-促音便'] 	 動詞-一般 	 ROOT 	 8
9 	 た 	 た 	 た 	 ['タ'] 	 AUX 	 ['助動詞-タ;終止形-一般'] 	 助動詞 	 aux 	 8
10 	 。 	 。 	 。 	 ['。'] 	 PUNCT 	 [] 	 補助記号-句点 	 punct 	 8
EOS
インデックス	単語	レンマ	正規形	読み	品詞タグ	活用情報	品詞情報	依存関係ラベル	係り先インデックス
11 	 この 	 この 	 此の 	 ['コノ'] 	 DET 	 [] 	 連体詞 	 det 	 12
12 	 影響 	 影響 	 影響 	 ['エイキョウ'] 	 NOUN 	 [] 	 名詞-普通名詞-サ変可能 	 obl 	 18
13 	 で 	 で 	 で 	 ['デ'] 	 ADP 	 [] 	 助詞-格助詞 	 case 	 12
14 	 世界中 	 世界中 	 世界中 	 ['セ

NOUNやADP, あるいは compound, case、nmod・nsubj というのは、Universal Dependency[^univ_dep] というプロジェクトで定義されているラベルです。
依存関係ラベルと係り先インデックスというのは、グラフで表現した方がわかりやすいでしょう。

[univ_dep]:  <https://universaldependencies.org/>



In [9]:
from spacy import displacy
displacy.render(doc, style='dep', jupyter=True)

In [10]:
for noun in doc.noun_chunks:
    print(noun)

ウクライナ
ロシア
間
戦争
この影響
世界中
物価


In [11]:
pos = ['名詞', '形容詞', '動詞']
for sent in doc.sents:
    for token in sent:
        i = (token.tag_.split('-'))[0]
        if i in pos:
            print(token.lemma_, i)

ウクライナ 名詞
ロシア 名詞
間 名詞
戦争 名詞
始まる 動詞
影響 名詞
世界中 名詞
物価 名詞
上昇 名詞
する 動詞
いる 動詞


## 自作関数のモジュール化

テキストを分析する際、文章を解析するコードをその都度入力するのは手間です。そこで、関数として定義してしまいます。また、この関数定義を別ファイルとして保存して、これをモジュールとして読み込む方法を紹介します。


In [1]:
# -*- coding: utf-8 -*-

##  my_ginza.py
import spacy

# nlp = spacy.load('ja_ginza_electra')
nlp = spacy.load('ja_ginza')
word_list = []

def tokens(sentences, pos=['名詞','形容詞','動詞'], stopwords_list=[]):
    doc = nlp(sentences)
    for sent in doc.sents:
        for token in sent:
            i = (token.tag_.split('-'))[0]
            if i in pos:
                word_list.append(token.lemma_)
    return word_list

if __name__ == '__main__':
    out = tokens('今日の午後は八宝菜を食べました。')
    print(out)

['今日', '午後', '八宝菜', '食べる']


In [13]:
import my_ginza
out = my_ginza.tokens('ランチを食べました。')
print(out)

['ランチ', '食べる']


GiNZAの `nlp()` では多様な処理が連続的に行われます。これを pipeline と表現しています。

In [14]:
for p in nlp.pipeline:
    print(p)

('tok2vec', <spacy.pipeline.tok2vec.Tok2Vec object at 0x7f32a4db8c40>)
('parser', <spacy.pipeline.dep_parser.DependencyParser object at 0x7f32a4db2f80>)
('ner', <spacy.pipeline.ner.EntityRecognizer object at 0x7f32a4db2ff0>)
('morphologizer', <spacy.pipeline.morphologizer.Morphologizer object at 0x7f32a4db96c0>)
('compound_splitter', <ginza.compound_splitter.CompoundSplitter object at 0x7f32a4d01750>)
('bunsetu_recognizer', <ginza.bunsetu_recognizer.BunsetuRecognizer object at 0x7f32a4df7c40>)


In [15]:
texts = list(nlp.pipe(['徳島は阿波踊りが有名です。', '高知はよさこい祭りがよく知られています。']))
for sents in texts:
    for sent in sents.sents:
        for comp in sent.sents:
            for token in comp:
                print(token)


徳島
は
阿波踊り
が
有名
です
。
高知
は
よさこい祭り
が
よく
知ら
れ
て
い
ます
。



固有表現抽出は以下のような機能です。`doc` オブジェクトの `ents` (entities) リストの要素を取り出します。

In [16]:
doc = nlp('徳島は阿波踊りが有名です。')
for ent in doc.ents:
    print(ent.text,  ent.label_)

徳島 City
阿波踊り Person


In [17]:
from spacy import displacy
displacy.render(doc, style='ent', jupyter=True)

'ja_ginza' では、文章のベクトルと、単語ごとのベクトルがすでに取り出されています。


In [18]:
doc = nlp('徳島は阿波踊りが有名です。高知はよさこい祭りがよく知られています。')
print('文章ベクトル\n----------')
for sent in doc.sents:
        print(sent.vector.shape)
print('単語ベクトル\n--------------')
for token in doc:
    print(token.text, token.has_vector, token.vector.shape)  

文章ベクトル
----------
(300,)
(300,)
単語ベクトル
--------------
徳島 True (300,)
は True (300,)
阿波踊り True (300,)
が True (300,)
有名 True (300,)
です True (300,)
。 True (300,)
高知 True (300,)
は True (300,)
よさこい祭り True (300,)
が True (300,)
よく False (300,)
知ら False (300,)
れ False (300,)
て True (300,)
い True (300,)
ます True (300,)
。 True (300,)


それぞれが 300 次元のベクトルとして表現されていることが分かります。

In [19]:
docs_l = list(doc.sents)
print(docs_l[0])
print(f'類似度は {docs_l[0].similarity(docs_l[1])}')

徳島は阿波踊りが有名です。
類似度は 0.8365065455436707


2つの文の類似度は約 0.83 と求められました。類似度は0から1の範囲の数値ですから、類似度は高いと言えます。

### `ja_ginza_electra` におけるベクトル表現


以下のように実行すると、その一部を確認できます。ただし ja_ginza ではなく ja_giza_electra をインストールしている環境で実行できます。



In [27]:
## メモリ節約のため ja_ginza オブジェクトは削除しておく
del nlp

nlp_e = spacy.load('ja_ginza_electra')
doc_e = nlp_e('東京タワーで待ちあわせ。')

In [28]:
print(doc_e._.trf_data)

TransformerData(wordpieces=WordpieceBatch(strings=[['[CLS]', '東京', 'タ', '##ワー', 'で', '待ち', '##あ', '##わせ', '。', '[SEP]']], input_ids=array([[    2, 20375,   390,  7694, 20118, 22454,  3160,  7792, 20110,
            3]], dtype=int32), attention_mask=array([[1., 1., 1., 1., 1., 1., 1., 1., 1., 1.]], dtype=float32), lengths=[10], token_type_ids=array([[0, 0, 0, 0, 0, 0, 0, 0, 0, 0]], dtype=int32)), model_output=ModelOutput([('last_hidden_state', array([[[-0.4881749 , -0.21651527,  0.54330087, ..., -0.10441031,
         -0.27446336,  0.17393604],
        [ 0.31530297,  0.08611556, -0.46102542, ...,  0.06445421,
         -0.12429437,  0.07865894],
        [-0.0466472 ,  0.23163442,  0.23410955, ...,  1.1375564 ,
          0.1263227 ,  0.27445352],
        ...,
        [ 0.12068383,  0.8711264 , -0.41709605, ..., -0.4842382 ,
         -0.49886122, -0.24800676],
        [-0.4594799 , -0.01277845, -0.20572555, ..., -0.7351168 ,
          0.12277819,  0.19968231],
        [-1.2453946 , -0.23926

トークンを確認してみます。

In [29]:
print(doc_e._.trf_data.tokens)

{'input_ids': tensor([[    2, 20375,   390,  7694, 20118, 22454,  3160,  7792, 20110,     3]],
       dtype=torch.int32), 'attention_mask': tensor([[1., 1., 1., 1., 1., 1., 1., 1., 1., 1.]]), 'input_texts': [['[CLS]', '東京', 'タ', '##ワー', 'で', '待ち', '##あ', '##わせ', '。', '[SEP]']], 'token_type_ids': tensor([[0, 0, 0, 0, 0, 0, 0, 0, 0, 0]], dtype=torch.int32)}


ここで「東京タワー」が '東京', 'タ', '##ワー'の3つに分解されているのが確認できます。文章は **サブワード** という単位で分割されます。


In [30]:
tensors = doc_e._.trf_data.tensors
print(tensors[0].shape)

(1, 10, 768)


In [31]:
for sent in doc_e.sents:
    for token in sent:
        if token.lemma_ == '東京':
            print(token.i,
            '\t', token.lemma_
        )

0 	 東京


In [32]:
print(doc_e[0])

東京


In [33]:
import itertools

## '東京'のインデックス
idx = 0
token_idxes = list(itertools.chain.from_iterable(doc_e._.trf_data.align[ idx ].data))
tensors = doc_e._.trf_data.tensors[0] 
print(tensors.shape)

(1, 10, 768)


In [108]:
print(doc_e._.trf_data.wordpieces)

WordpieceBatch(strings=[['[CLS]', '東京', 'タ', '##ワー', 'で', '待ち', '##あ', '##わせ', '。', '[SEP]']], input_ids=array([[    2, 20375,   390,  7694, 20118, 22454,  3160,  7792, 20110,
            3]], dtype=int32), attention_mask=array([[1., 1., 1., 1., 1., 1., 1., 1., 1., 1.]], dtype=float32), lengths=[10], token_type_ids=array([[0, 0, 0, 0, 0, 0, 0, 0, 0, 0]], dtype=int32))


spaCy, GiNZA, transformers を使った自然言語処理、あるいはテキスト処理では、ディープラーニングという技術がベースになっています。
ディープラーニングについては、本書の最後の章で簡単に説明しています。
