In [1]:
%pip install -U ginza ja-ginza ja-ginza-electra > /dev/null

#### RESTART RUNTIME

In [2]:
import spacy

In [3]:
# ja-ginza モデルのロード
nlp = spacy.load('ja_ginza')

# 文の解析
doc = nlp('今日はいい天気です')

# doc はトークンを要素に持つイテレータになる
print([token for token in doc])

print(doc.text)         # doc 内のテキストの表示
print(doc.has_vector)  # doc にベクトルが定義されているか (bool)
print(doc.vector.shape) # doc に対するベクトル

[今日, は, いい, 天気, です]
今日はいい天気です
True
(300,)


In [4]:
# doc を構成する単語を順番にイテレート
for token in doc:  
    # sum(token.vector) はベクトルの要素の合計
    print(f"{token.text}\t\t{token.has_vector}\t{sum(token.vector)}")

# 単語同士の類似度も計算できる (「今日」と「天気」を比較)
print(doc[0].similarity(doc[3]))

今日		True	4.391175274271518
は		True	-2.170091641775798
いい		True	6.659762156414217
天気		True	-2.1506830899816123
です		True	-0.5523735368042253
0.5161938667297363


In [5]:
# ja-ginzaモデルのロード
nlp = spacy.load('ja_ginza_electra')

# 文の解析
doc = nlp('今日はいい天気です')

# doc はトークンを要素に持つイテレータになる
print([token for token in doc])

print(doc.text)         # doc 内のテキストの表示
print(doc.has_vector)  # doc にベクトルが定義されているか (bool)
print(doc.vector)       # doc に対するベクトル

Cannot find the requested files in the cached path and outgoing traffic has been disabled. To enable model look-ups and downloads online, set 'local_files_only' to False.
trying to download model from huggingface hub: megagonlabs/transformers-ud-japanese-electra-base-ginza-510 ...


Downloading:   0%|          | 0.00/815 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/414M [00:00<?, ?B/s]

[今日, は, いい, 天気, です]
今日はいい天気です
False
[]


succeded


In [6]:
import itertools
import numpy as np

# 出力を取得
tensors = doc._.trf_data.tensors[0]
print(tensors[0][0].shape)  # doc に対するベクトル

# doc を構成する単語を順番にイテレート
for idx, token in enumerate(doc):

  # '今日' に対応する出力のインデックス
  token_idxes = list(itertools.chain.from_iterable(doc._.trf_data.align[idx].data))

  # token_idxes のインデックスは flatten なベクトルに対応しているので reshape する
  tensors = np.reshape(tensors, (tensors.shape[0] * tensors.shape[1], -1))

  # sum(ttensors[token_idxes])) はベクトルの要素の合計
  print(f"{token.text}\t\t{token_idxes[0]}\t{np.sum(tensors[token_idxes])}")


(768,)
今日		1	4.837622165679932
は		2	0.3269554078578949
いい		3	0.563600480556488
天気		4	0.08430130779743195
です		5	1.1550652980804443
