<a href="https://colab.research.google.com/github/eel-eel-eel/ric1340/blob/main/ch05_05_word_vectors_sentence_vectors.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Word2VecおよびBERTを使った単語ベクトル、文ベクトルの作成

このノートブックでは、Word2VecとBERTを用いて、単語ベクトル及び文ベクトルを作成します。

## ①Word2Vecで単語ベクトルを作成する方法

Word2Vecを使うため、Gensimというライブラリを使用します。GensimはColaboratoryにすでにインストールされているので、インストールを行う必要はありません。まず、Gensimのバージョンを確認してみましょう。

~※執筆時点でColaboratoryにインストールされているGensimのバージョンは3.6.0です。~

※2023/05時点で4.3.1がインストールされています。

In [None]:
# pipリストからGensimのバージョンを確認します
!pip list | grep gensim

gensim                        3.6.0


続いて、Word2Vecで使用する事前学習済みモデルを準備します。本書では、日本語Wikipediaのコーパスで学習した事前学習済みモデルをダウンロードしてきて利用します。
東北大学の乾研究室が公開しているモデルをダウンロードして利用します。レポジトリは以下のリンクです。

https://github.com/singletongue/WikiEntVec

※実際のダウンロードはコードで行うので、ブラウザでアクセスする必要はありません。

※※Colaboratory上のデータは永続的に保存はされません。Word2Vecを使用する度にダウンロードするのが煩雑な方は、ご自身のGoolgeドライブにアップして利用することをおすすめします。


In [None]:
# 永続的に保存されるストレージに保存する場合は、一度だけ行ってください
!wget https://github.com/singletongue/WikiEntVec/releases/download/20190520/jawiki.word_vectors.200d.txt.bz2 -P /content
!bzip2 -d /content/jawiki.word_vectors.200d.txt.bz2

--2022-08-15 12:10:47--  https://github.com/singletongue/WikiEntVec/releases/download/20190520/jawiki.word_vectors.200d.txt.bz2
Resolving github.com (github.com)... 20.205.243.166
Connecting to github.com (github.com)|20.205.243.166|:443... connected.
HTTP request sent, awaiting response... 302 Found
Location: https://objects.githubusercontent.com/github-production-release-asset-2e65be/141127256/ab84cb00-8e08-11e9-92fa-f66e11fe006a?X-Amz-Algorithm=AWS4-HMAC-SHA256&X-Amz-Credential=AKIAIWNJYAX4CSVEH53A%2F20220815%2Fus-east-1%2Fs3%2Faws4_request&X-Amz-Date=20220815T121047Z&X-Amz-Expires=300&X-Amz-Signature=df1ba92dcd5433d1e8421d46e21aba7af89cacf514d8874bebe02dabc9a02d1b&X-Amz-SignedHeaders=host&actor_id=0&key_id=0&repo_id=141127256&response-content-disposition=attachment%3B%20filename%3Djawiki.word_vectors.200d.txt.bz2&response-content-type=application%2Foctet-stream [following]
--2022-08-15 12:10:47--  https://objects.githubusercontent.com/github-production-release-asset-2e65be/14112725

それでは、Gensimをインポートして、事前学習済みモデルを読み込んでみましょう。

※モデルの読み込みに数分かかる可能性があります。

※※モデルが正常に読み込めれば、何も表示されません。



In [None]:
from gensim import models

w2v_model =  models.KeyedVectors.load_word2vec_format('/content/jawiki.word_vectors.200d.txt', binary=False) #←ご自身の.txtのパスを指定してください

それでは、このモデルを用いて「日本」の単語のベクトルを作成しましょう。

※2023/04のGoogle colaboratoryのPython3.10へのアップデートに伴い、一部コードを修正

In [None]:
word = "日本"

word_vec = w2v_model.__getitem__(word)
print("Word2Vecで作成した単語ベクトルのshape:", word_vec.shape)
print("Word2Vecで作成した単語ベクトル:", word_vec)

Word2Vecで作成した単語ベクトルのshape: (200,)
Word2Vecで作成した単語ベクトル: [ 0.0740482  -0.26113456  0.08474573 -0.04715293  0.21883631  0.08543795
  0.25668627  0.12916358  0.01906206  0.6655403   0.20941406 -0.40279564
 -0.06038838 -0.2618206  -0.07236578 -0.19050068 -0.12415793 -0.11840176
  0.08230953 -0.08049508  0.10331446 -0.00634486 -0.3697606  -0.11169596
  0.21627116  0.05170668 -0.1402339  -0.00080881  0.06804679 -0.02184703
 -0.17753023 -0.23324293  0.001234   -0.2693301   0.20673895 -0.10513338
  0.06524743  0.5093842  -0.36873668 -0.0760424   0.37937632 -0.05533223
  0.10177115 -0.16651578 -0.40334323 -0.21610363  0.16061878  0.02742001
 -0.15491293  0.05997612 -0.1334707  -0.29434535 -0.24996431 -0.09185562
  0.01293921 -0.02648609  0.16092965  0.1031837  -0.1477878   0.26063916
 -0.02787608 -0.14058648  0.33490425  0.04064669  0.04835685  0.06339666
  0.13242117 -0.31750113  0.0441785  -0.03361356  0.42379394 -0.16299935
 -0.24605703  0.07981082  0.00077331 -0.22871849  0.16892801  0.26651

  This is separate from the ipykernel package so we can avoid doing imports until


## ②BERTで単語ベクトルを作成する方法

In [None]:
!pip install transformers[ja]

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting transformers[ja]
  Downloading transformers-4.21.1-py3-none-any.whl (4.7 MB)
[K     |████████████████████████████████| 4.7 MB 37.1 MB/s 
Collecting tokenizers!=0.11.3,<0.13,>=0.11.1
  Downloading tokenizers-0.12.1-cp37-cp37m-manylinux_2_12_x86_64.manylinux2010_x86_64.whl (6.6 MB)
[K     |████████████████████████████████| 6.6 MB 56.3 MB/s 
Collecting huggingface-hub<1.0,>=0.1.0
  Downloading huggingface_hub-0.8.1-py3-none-any.whl (101 kB)
[K     |████████████████████████████████| 101 kB 12.5 MB/s 
Collecting pyyaml>=5.1
  Downloading PyYAML-6.0-cp37-cp37m-manylinux_2_5_x86_64.manylinux1_x86_64.manylinux_2_12_x86_64.manylinux2010_x86_64.whl (596 kB)
[K     |████████████████████████████████| 596 kB 61.6 MB/s 
Collecting fugashi>=1.0
  Downloading fugashi-1.1.2-cp37-cp37m-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (568 kB)
[K     |████████████████████████████████| 568 kB 6

ライブラリとトークナイザー・モデルの読み込み

In [None]:
from transformers import BertJapaneseTokenizer
from transformers import BertModel
import torch
tokenizer = BertJapaneseTokenizer.from_pretrained('cl-tohoku/bert-base-japanese-whole-word-masking')
bert_model = BertModel.from_pretrained('cl-tohoku/bert-base-japanese-whole-word-masking')

Downloading vocab.txt:   0%|          | 0.00/252k [00:00<?, ?B/s]

Downloading tokenizer_config.json:   0%|          | 0.00/110 [00:00<?, ?B/s]

Downloading config.json:   0%|          | 0.00/479 [00:00<?, ?B/s]

Downloading pytorch_model.bin:   0%|          | 0.00/424M [00:00<?, ?B/s]

Some weights of the model checkpoint at cl-tohoku/bert-base-japanese-whole-word-masking were not used when initializing BertModel: ['cls.predictions.transform.dense.weight', 'cls.seq_relationship.bias', 'cls.predictions.transform.LayerNorm.bias', 'cls.predictions.decoder.weight', 'cls.seq_relationship.weight', 'cls.predictions.transform.LayerNorm.weight', 'cls.predictions.bias', 'cls.predictions.transform.dense.bias']
- This IS expected if you are initializing BertModel from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertModel from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).


トークン及び、モデルのインプットの確認

In [None]:
# word = "日本"
print("トークン：", tokenizer.tokenize(word))
print("トークン数：", len(tokenizer.tokenize(word)))
print("----------------------------------------")

input = tokenizer(word, return_tensors="pt")
print("inputの中身の確認：", input)
print("input_idsのshape：", input["input_ids"].shape)

トークン： ['日本']
トークン数： 1
----------------------------------------
inputの中身の確認： {'input_ids': tensor([[ 2, 91,  3]]), 'token_type_ids': tensor([[0, 0, 0]]), 'attention_mask': tensor([[1, 1, 1]])}
input_idsのshape： torch.Size([1, 3])


In [None]:
outputs = bert_model(**input)
# メモ
# 関数の引数に渡すときに、引数に**を付与すると、キーとバリューがキーワード引数とその値として渡すことができます。実際は以下のようにモデルに渡されています。
# model(input_ids=tensor([[ 2, 91,  3]]), token_type_ids=tensor([[0, 0, 0]]), attention_mask=tensor([[1, 1, 1]])

In [None]:
# BERTの最終層を取得
last_hidden_state = outputs.last_hidden_state

In [None]:
print("最終層のテンソルのshape：", last_hidden_state.shape, \
      "\n最終層のテンソル：", last_hidden_state)

最終層のテンソルのshape： torch.Size([1, 3, 768]) 
最終層のテンソル： tensor([[[-0.0594, -0.2436, -0.2725,  ...,  0.0398, -0.7225,  0.2988],
         [ 0.0129,  0.1514, -0.0669,  ...,  0.0899, -0.8344, -0.0126],
         [-0.0240,  0.0206, -0.1142,  ..., -0.1108, -0.6129,  0.3155]]],
       grad_fn=<NativeLayerNormBackward0>)


In [None]:
# 最終層から[CLS]と[SEP]のトークンを除いて表示
print("BERTで作成した単語ベクトルのshape：",last_hidden_state[0][1].shape)
print("BERTで作成した単語ベクトル：", last_hidden_state[0][1])

BERTで作成した単語ベクトルのshape： torch.Size([768])
BERTで作成した単語ベクトル： tensor([ 1.2864e-02,  1.5143e-01, -6.6928e-02, -3.7965e-01, -5.3772e-01,
        -1.9340e-01, -4.4860e-01, -2.7122e-01,  1.1237e-01, -3.4508e-01,
         1.5006e-01,  7.8322e-02,  1.7836e-01, -3.1065e-01, -4.0645e-01,
         2.8416e-02, -2.4618e-01,  5.1836e-01,  7.3273e-02, -1.9769e-02,
         7.1518e-02, -3.7109e-01, -6.8158e-01,  2.8838e-01, -5.4842e-01,
        -1.0338e-02,  4.1648e-01,  3.4062e-01,  1.7063e-01, -8.6501e-02,
        -6.4883e-01,  1.0414e-01, -2.6022e-01, -6.2927e-01, -4.8858e-01,
         2.1339e-01,  3.8073e-01, -4.6889e-01, -7.7677e-01, -4.2605e-01,
         7.4511e-01,  6.1883e-01,  4.1401e-02,  4.3887e-01,  3.8672e-01,
        -1.5562e-01, -3.4065e-01, -3.2373e-02,  8.9809e-01,  3.3431e-01,
         4.8622e-01, -1.4804e-01,  9.4974e-01, -5.8278e-01, -2.6283e-01,
         5.6759e-01, -1.5087e-01,  3.4652e-01, -2.1029e-01, -8.3337e-02,
         5.3433e-02, -6.2352e-01,  3.8674e-01,  6.7803e-02, -3.550

## ③Word2Vecで文ベクトルを作成する方法

続いて、文ベクトルを作成します。

一般的に文ベクトルは、単語ベクトルの平均ベクトルとして算出され、以下の3ステップを行うことで、文ベクトルが作成できます。これは、Word2VecでもBERTでも基本的には一緒です。

※形態素解析器や使用する辞書によって、結果が異なる場合があります。厳密にモデルの比較などをする場合、形態素解析器や使用する辞書を揃えて行ってください。


1.   文の形態素解析
2.   単語ベクトル化
3.   平均値の算出

それでは、「私は味噌汁が大好きです。」という文のベクトルを作成してみましょう。

transformers[ja]インストール時に同時にインストールされているfugashiを利用します。

In [None]:
text = "私は味噌汁が大好きです。"

In [None]:
import ipadic
from fugashi import GenericTagger
fugger = GenericTagger(ipadic.MECAB_ARGS)
# 1.形態素解析を行います
sentence = [w.surface for w in fugger(text)]
print(sentence)

['私', 'は', '味噌汁', 'が', '大好き', 'です', '。']


In [None]:
from gensim import models
w2v_model =  models.KeyedVectors.load_word2vec_format('/content/jawiki.word_vectors.200d.txt', binary=False)  #←ご自身の.txtのパスを指定してください

※2023/04のGoogle colaboratoryのPython3.10へのアップデートに伴い、一部コードを修正

In [None]:
import numpy as np

# 2.3.単語ごとにベクトル化して、平均値を算出します
if len(sentence) >= 0:
  for word in sentence:
    if word == sentence[0]:
      sentence_vec = w2v_model.__getitem__(word)
    else:
      sentence_vec = sentence_vec + w2v_model.__getitem__(word)

  sentence_vec = sentence_vec / len(sentence)

print("Word2Vecで作成した文ベクトルのshape：", sentence_vec.shape)
print("Word2Vecで作成した文ベクトル：", sentence_vec)

Word2Vecで作成した文ベクトルのshape： (200,)
Word2Vecで作成した文ベクトル： [-7.10491389e-02 -1.21606708e-01  1.77038908e-01 -6.69214278e-02
  5.37050180e-02  1.02226034e-01  5.94401732e-02  1.76794782e-01
 -4.14867550e-01  1.54934317e-01 -1.07996941e-01 -2.30534345e-01
  8.21370110e-02  6.13449998e-02  1.90341517e-01 -1.00818872e-02
  9.28101689e-02 -8.54244083e-02 -5.22204228e-02 -2.24289641e-01
  9.39741358e-02  1.50406033e-01 -3.74874055e-01 -1.29256463e-02
 -6.48993477e-02  1.48293495e-01 -6.23010881e-02  7.55915269e-02
 -8.51628184e-02 -1.63532212e-01 -1.01195648e-01 -1.38230845e-01
  2.24533275e-01 -1.21414639e-01  1.15511809e-02  6.59816191e-02
 -1.05643943e-01  1.58214718e-01 -1.97457165e-01  6.49892166e-02
 -1.26311153e-01  9.27829929e-03 -1.62326805e-02 -1.35080263e-01
 -2.28594750e-01 -1.74608901e-01  2.81931490e-01  6.22552149e-02
  2.45913312e-01 -4.78976108e-02  4.38673468e-03 -7.49350786e-02
  1.08880349e-01 -2.21688543e-02 -2.91937202e-01 -1.51595101e-01
 -4.11972106e-02  1.28952608e-01 -9.0

  import sys
  if __name__ == '__main__':


## ④BERTで文ベクトルを作成する方法

Word2Vec同様、BERTでも行いましょう。Word2Vecと異なる点は、以下2点です。

*   トークナイザーが形態素解析と同様の機能を有すること※
*   numpy arrayではなく、torch tensorであること



です。これに気をつけて行いましょう。

※東北大学のBERTは形態素解析だけでなく、WordPieceでサブワード化しています。

In [None]:
from transformers import BertJapaneseTokenizer
from transformers import BertModel
import torch
tokenizer = BertJapaneseTokenizer.from_pretrained('cl-tohoku/bert-base-japanese-whole-word-masking')
bert_model = BertModel.from_pretrained('cl-tohoku/bert-base-japanese-whole-word-masking')

# GPU利用時は以下も行ってください
bert_model.to("cuda")

Some weights of the model checkpoint at cl-tohoku/bert-base-japanese-whole-word-masking were not used when initializing BertModel: ['cls.predictions.transform.dense.weight', 'cls.seq_relationship.bias', 'cls.predictions.transform.LayerNorm.bias', 'cls.predictions.decoder.weight', 'cls.seq_relationship.weight', 'cls.predictions.transform.LayerNorm.weight', 'cls.predictions.bias', 'cls.predictions.transform.dense.bias']
- This IS expected if you are initializing BertModel from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertModel from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).


BertModel(
  (embeddings): BertEmbeddings(
    (word_embeddings): Embedding(32000, 768, padding_idx=0)
    (position_embeddings): Embedding(512, 768)
    (token_type_embeddings): Embedding(2, 768)
    (LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
    (dropout): Dropout(p=0.1, inplace=False)
  )
  (encoder): BertEncoder(
    (layer): ModuleList(
      (0): BertLayer(
        (attention): BertAttention(
          (self): BertSelfAttention(
            (query): Linear(in_features=768, out_features=768, bias=True)
            (key): Linear(in_features=768, out_features=768, bias=True)
            (value): Linear(in_features=768, out_features=768, bias=True)
            (dropout): Dropout(p=0.1, inplace=False)
          )
          (output): BertSelfOutput(
            (dense): Linear(in_features=768, out_features=768, bias=True)
            (LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
            (dropout): Dropout(p=0.1, inplace=False)
          

In [None]:
# 1.&2.トークナイズを行って、単語のベクトル化を行う※トークン以外にもトークンタイプとアテンションマスクの情報も付与されています
input = tokenizer(text, return_tensors="pt")

# GPU利用時は以下も行ってください
input["input_ids"] = input["input_ids"].to("cuda")
input["token_type_ids"] = input["token_type_ids"].to("cuda")
input["attention_mask"] = input["attention_mask"].to("cuda")

In [None]:
outputs = bert_model(**input)
last_hidden_states = outputs.last_hidden_state

In [None]:
attention_mask = input.attention_mask.unsqueeze(-1)
valid_token_num = attention_mask.sum(1)

# 3.平均値を算出します
sentence_vec = (last_hidden_states*attention_mask).sum(1) / valid_token_num
# ※attention_maskは[PAD]トークンの時に0を返すので、単語ベクトルとの積を取ると[PAD]分が除かれます

In [None]:
# CPU利用時
# sentence_vec = sentence_vec.detach().numpy()[0]

# GPU利用時
sentence_vec = sentence_vec.detach().cpu().numpy()[0]
print("BERTで作成した文ベクトルのshape：", sentence_vec.shape)
print("BERTで作成した文ベクトル：", sentence_vec)

BERTで作成した文ベクトルのshape： (768,)
BERTで作成した文ベクトル： [ 3.33717093e-02 -9.33913141e-02 -1.05872191e-01 -1.74091160e-01
 -5.81445619e-02  3.01493585e-01 -1.92922443e-01 -2.18406007e-01
 -1.02099158e-01 -6.54379353e-02 -1.48789883e-01 -2.60685503e-01
 -6.77677244e-02 -9.07255784e-02 -6.16015792e-02  1.85152367e-02
 -3.80166590e-01  1.46659493e-01  4.95053157e-02 -3.17340940e-01
 -8.24360829e-03 -3.40696752e-01  6.54557496e-02 -2.45581001e-01
 -2.75562108e-01  4.35781665e-02  2.84202784e-01 -3.75607431e-01
  4.90047149e-02  1.40486121e-01  6.94141388e-02  8.77982229e-02
 -1.04753688e-01 -1.37534782e-01 -2.22586840e-01 -5.07208705e-02
  1.15827918e-01  5.70158884e-02  5.27415872e-01 -2.48367071e-01
  3.79331738e-01 -2.31645077e-01 -3.90325963e-01  6.16578102e-01
 -1.56400532e-01  1.37061030e-01  2.89679408e-01  2.73818254e-01
  1.93950176e-01  1.80373937e-01  3.70518267e-01  1.86352000e-01
  1.94680378e-01  7.82299340e-02  3.63849789e-01  1.01274826e-01
 -1.42603710e-01  5.60237989e-02  1.82623416e

## ⑤文ベクトルを用いて文章類似度を計算する方法

BERTを使って以下の２文を文ベクトル化し、コサイン類似度を計算してみましょう。

「すみません、お店は開いていますか？」
「ご迷惑をおかけしてすみませんでした。」

※日常的な日本文では、文の構造や使用されている用語が一義的に決まる場合なども多く、結果的にWord2Vecのベクトルの方が類似度の計算に適している場合も多分にあります。よくご検討の上、適切な手法をご選択ください。

※※以下はGPUを用いた例です。CPUのみで行う場合は④を参考にしてください。

In [None]:
sentences = ["すみません、お店は開いていますか？","ご迷惑をおかけしてすみませんでした。"]

In [None]:
input = tokenizer(sentences, return_tensors="pt",padding=True,truncation=True)

input["input_ids"] = input["input_ids"].to("cuda")
input["token_type_ids"] = input["token_type_ids"].to("cuda")
input["attention_mask"] = input["attention_mask"].to("cuda")

In [None]:
outputs = bert_model(**input)
last_hidden_states = outputs.last_hidden_state
attention_mask = input.attention_mask.unsqueeze(-1)
valid_token_num = attention_mask.sum(1)
sentence_vecs = (last_hidden_states*attention_mask).sum(1) / valid_token_num
sentence_vecs = sentence_vecs.detach().cpu().numpy()

類似度は以下で計算できます。

In [None]:
from numpy import dot
from numpy.linalg import norm

similarity_with_bert = dot(sentence_vecs[0], sentence_vecs[1]) / \
                       (norm(sentence_vecs[0])*norm(sentence_vecs[1]))

print("BERTで計算したコサイン類似度：",similarity_with_bert)

BERTで計算したコサイン類似度： 0.78672004


比較のために、Word2Vecでも計算します。どのような結果が出るでしょうか。

※2023/04のGoogle colaboratoryのPython3.10へのアップデートに伴い、一部コードを修正

In [None]:
import ipadic
from fugashi import GenericTagger
import numpy as np
fugger = GenericTagger(ipadic.MECAB_ARGS)
sentence_0 = [w.surface for w in fugger(sentences[0])]
sentence_1 = [w.surface for w in fugger(sentences[1])]

def create_sentence_vec(sentence):
  if len(sentence) >= 0:
    for word in sentence:
      if word == sentence[0]:
        sentence_vec = w2v_model.__getitem__(word)
      else:
        sentence_vec = sentence_vec + w2v_model.__getitem__(word)
    sentence_vec = sentence_vec / len(sentence)
    return sentence_vec

sentence_vec_0 = create_sentence_vec(sentence_0)
sentence_vec_1 = create_sentence_vec(sentence_1)
similarity_with_word2vec = dot(sentence_vec_0, sentence_vec_1)/(norm(sentence_vec_0)*norm(sentence_vec_1))
print("Word2Vecで計算したコサイン類似度：",similarity_with_word2vec)

Word2Vecで計算したコサイン類似度： 0.8954789


  if sys.path[0] == '':
  


In [None]:
print("BERTで計算したコサイン類似度：",similarity_with_bert)
print("Word2Vecで計算したコサイン類似度：",similarity_with_word2vec)

BERTで計算したコサイン類似度： 0.78672004
Word2Vecで計算したコサイン類似度： 0.8954789


"すみません"という言葉は、文脈によって「呼びかけ」や「謝罪」の意味を表します。Word2Vecでは1単語（：形態素）に1つベクトルがあてがわれるため、 「すみません」のような複数の意味をもつ単語に弱いという特徴があります。※CBOWよりSkip-gramの方が複数の意味の表現に強いと言われています。

今回の例でも上記のことが原因で、それほど意味が近くない文章においてもWord2Vecの類似度は高くなってしまっていると考えられます。