# word2vec

## Gensim

- pip install gensimでinstall
- gensim.models.KeyedVectorsクラスを使用して学習済みのモデルでword embeddingする
- 事前に学習済みのモデルファイルをDLする
  - https://code.google.com/archive/p/word2vec/
  - GoogleNewsの1000億語の単語を300次元にしたもの
- .load_word2vec_format(filename)でモデルファイルをロード
- .bin等のbinaryファイルの場合はbinary=Trueを指定する
- インスタンスに対して[‘word’]の形でベクトルを取得
- .most_similar(‘word‘, topn=10)で引数の単語に最も近い単語をtopn個(デフォルト10)をリストで返す
- .similarity(‘word’, ’word2’)で二つの単語の類似度を返す

In [None]:
# colabでは不要
# !pip install gensim

In [None]:
from gensim.models import KeyedVectors

In [None]:
# google drive のマウント
from google.colab import drive
drive_path = '/content/drive'
drive.mount(drive_path)

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [None]:
# モデルファイルのロード
word2vec = KeyedVectors.load_word2vec_format(f'{drive_path}/MyDrive/models/GoogleNews-vectors-negative300.bin', binary=True)

In [None]:
# word embedding
word_vec = word2vec['computer']
print(word_vec)

[ 1.07421875e-01 -2.01171875e-01  1.23046875e-01  2.11914062e-01
 -9.13085938e-02  2.16796875e-01 -1.31835938e-01  8.30078125e-02
  2.02148438e-01  4.78515625e-02  3.66210938e-02 -2.45361328e-02
  2.39257812e-02 -1.60156250e-01 -2.61230469e-02  9.71679688e-02
 -6.34765625e-02  1.84570312e-01  1.70898438e-01 -1.63085938e-01
 -1.09375000e-01  1.49414062e-01 -4.65393066e-04  9.61914062e-02
  1.68945312e-01  2.60925293e-03  8.93554688e-02  6.49414062e-02
  3.56445312e-02 -6.93359375e-02 -1.46484375e-01 -1.21093750e-01
 -2.27539062e-01  2.45361328e-02 -1.24511719e-01 -3.18359375e-01
 -2.20703125e-01  1.30859375e-01  3.66210938e-02 -3.63769531e-02
 -1.13281250e-01  1.95312500e-01  9.76562500e-02  1.26953125e-01
  6.59179688e-02  6.93359375e-02  1.02539062e-02  1.75781250e-01
 -1.68945312e-01  1.21307373e-03 -2.98828125e-01 -1.15234375e-01
  5.66406250e-02 -1.77734375e-01 -2.08984375e-01  1.76757812e-01
  2.38037109e-02 -2.57812500e-01 -4.46777344e-02  1.88476562e-01
  5.51757812e-02  5.02929

In [None]:
# 300次元であるか確認する
word_vec.shape

(300,)

In [None]:
# 類似の単語を取得する
word2vec.most_similar('computer')

[('computers', 0.7979379892349243),
 ('laptop', 0.6640493273735046),
 ('laptop_computer', 0.6548868417739868),
 ('Computer', 0.647333562374115),
 ('com_puter', 0.6082080006599426),
 ('technician_Leonard_Luchko', 0.5662748217582703),
 ('mainframes_minicomputers', 0.5617720484733582),
 ('laptop_computers', 0.5585449934005737),
 ('PC', 0.5539618730545044),
 ('maker_Dell_DELL.O', 0.5519254207611084)]

In [None]:
# 類似度を計算する
word2vec.similarity('woman', 'man')

0.76640123

In [None]:
# king - man + woman
result_vector = word2vec['king'] - word2vec['man'] + word2vec['woman'] - word2vec['male'] + word2vec['female']
similar_words = word2vec.most_similar(result_vector)
print(similar_words)

[('king', 0.7020207047462463), ('queen', 0.6933462619781494), ('princess', 0.5692708492279053), ('monarch', 0.5654875040054321), ('crown_prince', 0.5116569995880127), ('empress', 0.495297908782959), ('Queen_Consort', 0.4884769320487976), ('queens', 0.48631641268730164), ('sultan', 0.48105761408805847), ('prince', 0.47682592272758484)]


## SpaCy

- pip install spacyでinstall
- spacy.load(model_name)でモデルをロード
  - ex: nlp = spacy.load("en_core_web_sm")
    - "en_core_web_sm"が小さいモデルで使いやすい. "en_core_web_md"(中)や"en_core_web_lg"(大)などリソースに応じて使い分ける
  - https://spacy.io/
- モデルのインスタンスに対して('word').vectorでword embeddingを取得
- nlp('word').similarity(nlp('word2'))で2つの単語の類似度を計算
- gensimのように類似度が高い単語を検索する機能はない

In [None]:
# colabでは不要
# !pip install spacy

In [None]:
import spacy

In [None]:
# モデルロード
nlp = spacy.load('en_core_web_sm')

In [None]:
# word embedding
nlp('computer').vector

array([-1.6373895 , -0.6080451 , -0.6566559 , -0.10872576, -0.24852699,
        0.17527935,  0.7263826 ,  1.658519  , -0.1795105 , -0.57576895,
        0.2937798 , -1.0000906 , -0.29037115, -0.21647847, -0.03370228,
        0.7057948 , -0.7825656 , -1.2829045 ,  1.3557242 ,  0.8119894 ,
        0.6912364 ,  0.57129043, -0.33364248, -1.0607941 ,  0.8841657 ,
        0.25746697, -0.03119813,  0.7934418 ,  0.11529171,  0.27637503,
       -0.3697168 ,  0.8258281 ,  1.3755571 ,  0.55934906, -0.52683127,
       -1.1254272 ,  0.20773923,  0.47141504,  0.38074216, -0.7482727 ,
       -0.07192928, -0.063835  , -0.5294903 ,  1.2106018 , -0.67606175,
       -0.47462302, -0.9633928 ,  1.2195504 ,  0.205295  , -0.22966453,
        0.32949054,  1.4156418 ,  1.0020167 , -1.0212331 ,  0.24324086,
        0.15824679,  0.63781977, -0.5370287 ,  0.11409536, -0.44219247,
       -0.9631854 , -0.11269182,  0.22333866, -0.07143135,  1.0847998 ,
        0.8003227 , -0.18230852, -0.67244947,  0.09219736, -0.50

In [None]:
# 類似度を取得
nlp('woman').similarity(nlp('man'))

  nlp('woman').similarity(nlp('man'))


0.9191394603322555

In [None]:
# 96次元のvector
nlp('computer').vector.shape

(96,)

## fastText(with Gensim)

- facebookが作った自然言語処理のライブラリ
- word2vecやGloVeとは異なるアルゴリズムを使用
  - word2vecの拡張系
  - 従来のword2vecよりも格段に速いことが有名
- 単語をsubword("cat"->"ca"/"at")(n_gram)に分割して扱うことで、単語の活用系(複数形や次元など)に対応
  - CBOWやskip-gramの形でsubwordsを学習する
- Gensimにインターフェースがあり、Gensimを介してfastTextを使用することが有名

fastText(gensimを使用)

- gensim.downloaderを使用して用意されているデータセットを使用する
  - text8: 100MBのwikipediaの英語データ
- gensimのインターフェースを使用する
  - gensim.models.FastTextクラスを使用してモデルを学習する
    - sentences: tokenのリスト
    - vector_size: embedding後のベクトルの次元
    - window: cotextのwindowサイズ
    - min_count: 学習の対象とする単語の最小頻度
      - Wikipedia上で1語しか出てこないようなレアな単語を省きたい時に使用する
    - workers: 学習時に使用するCPUのコア数
- モデルインスタンスに対して.wv['word']でword_embeddingを取得

In [None]:
import gensim.downloader as api

In [None]:
api.info('text8')

{'num_records': 1701,
 'record_format': 'list of str (tokens)',
 'file_size': 33182058,
 'reader_code': 'https://github.com/RaRe-Technologies/gensim-data/releases/download/text8/__init__.py',
 'license': 'not found',
 'description': 'First 100,000,000 bytes of plain text from Wikipedia. Used for testing purposes; see wiki-english-* for proper full Wikipedia datasets.',
 'checksum': '68799af40b6bda07dfa47a32612e5364',
 'file_name': 'text8.gz',
 'read_more': ['http://mattmahoney.net/dc/textdata.html'],
 'parts': 1}

In [None]:
dataset = api.load('text8')

In [None]:
# datasetはiterの形になっている
next(iter(dataset))[:10]

['anarchism',
 'originated',
 'as',
 'a',
 'term',
 'of',
 'abuse',
 'first',
 'used',
 'against']

In [None]:
# 学習(5分ぐらいかかる)
import time
from gensim.models import FastText

start_time = time.time()
model = FastText(dataset, vector_size=100, window=5, min_count=5, workers=4)
end_time = time.time()
print(f'学習にかかった時間: {end_time - start_time}')

In [None]:
# word embedding
model.wv['computer']

In [None]:
# 類似度
similarity = model.wv.similarity('woman', 'man')
print(similarity)

In [None]:
similarity = model.wv.similarity('computer', 'technology')
print(similarity)

In [None]:
similarity = model.wv.similarity('king', 'technology')
print(similarity)

In [None]:
similarity = model.wv.similarity('king', 'man')
print(similarity)

In [None]:
similarity = model.wv.similarity('king', 'queen')
print(similarity)

In [None]:
similarity = model.wv.similarity('woman', 'queen')
print(similarity)

## Embadding Layer

nn.Embedding

- nn.EmbeddingでEmbedding層を作ることができる
- .from_pretrainedで重みの初期値を指定する
  - freeze=Trueを指定すると重みが更新されないため、既存のword embeddingを使用する形になる

- gensimのword2vecからembedding matrixを作成する
- Embedding Layerはシンプルに各単語のindexに対するword membeddingベクトルを取得しているだけ(lookupの操作)であることを確認する
- 入力tensorには、one-hot vectorではなく、indexを使用する

In [None]:
# 下記のword2vecのインスタンスを使う
word2vec

<gensim.models.keyedvectors.KeyedVectors at 0x7c188d75f160>

In [None]:
# 約300万語の単語を持っている
print(len(word2vec))

# 次元は300次元
print(word2vec['computer'].shape)

3000000
(300,)


In [None]:
import torch
# embedding matrix
vocab_size = len(word2vec) # 実際には手元のデータのvocab sizeを指定
embedding_dim = 300

embedding_matrix = torch.zeros((vocab_size, embedding_dim))
for i, word in enumerate(word2vec.key_to_index.keys()):
    embedding_matrix[i] = torch.from_numpy(word2vec[word])

  embedding_matrix[i] = torch.from_numpy(word2vec[word])


In [None]:
# embedding layerの挙動を確認する
import torch.nn as nn

# 重みの初期値指定
embedding_layer = nn.Embedding.from_pretrained(embedding_matrix, freeze=True)

In [None]:
# forward処理のテスト
text = torch.tensor([[1, 2, 3], [4, 5, 6]])  # textは3つの単語の2つの文章
out = embedding_layer(text)
out

tensor([[[ 0.0703,  0.0869,  0.0879,  ..., -0.0476,  0.0145, -0.0625],
         [-0.0118, -0.0474,  0.0447,  ...,  0.0713, -0.0349,  0.0242],
         [-0.0157, -0.0283,  0.0835,  ...,  0.0069,  0.0610, -0.1484]],

        [[ 0.0070, -0.0732,  0.1719,  ...,  0.0112,  0.1641,  0.1069],
         [ 0.0267, -0.0908,  0.0278,  ..., -0.1167, -0.0294, -0.0708],
         [ 0.1689, -0.0630, -0.0003,  ...,  0.0238, -0.1235,  0.0164]]])

In [None]:
# 単語とその埋め込みベクトルの確認
i, j = 0, 0
word = list(word2vec.key_to_index.keys())[text[i, j]]
print(f'index:{i} is word: "{word}"')
# print(embedding_matrix[text[i, j]])

# embedding_layerとembedding_matrixが等しいことをテスト
assert torch.all(embedding_layer(text[i, j]) == embedding_matrix[text[i, j]])

In [None]:
# embedding_layerとembedding_matrixが等しいことをテスト
print(embedding_layer(text[i, j])[:5])
print(embedding_matrix[text[i, j]][:5])

tensor([0.0703, 0.0869, 0.0879, 0.0625, 0.0693])
tensor([0.0703, 0.0869, 0.0879, 0.0625, 0.0693])


In [None]:
# 重みから直接indexした結果
assert torch.all(embedding_layer.weight[text, :] == out)

In [None]:
# index:0(0個目)の単語のベクトル
embedding_matrix[0].shape

torch.Size([300])

In [None]:
# 300次元の単語が3000000個ある
embedding_matrix.shape

torch.Size([3000000, 300])

In [None]:
word2vec.key_to_index.keys()

Buffered data was truncated after reaching the output size limit.