# 事前学習済みWord2vecモデルの使い方

事前学習済みのword2vecモデルを例に、最も類似した単語を探す方法を説明します。ここではGoogle Newsの埋め込みを使用します。
- https://drive.google.com/file/d/0B7XkCwpI5KDYNlNUTTlSS21pQmM

他にもいくつかの事前学習済みの単語埋め込みモデルがあります。gensimを使ってそれらにアクセスする方法は、以下のページを参照してください。
- https://github.com/RaRe-Technologies/gensim-data

## 準備
### パッケージのインストール

In [1]:
!pip install -q gensim==4.1.2 spacy==3.1.2

[K     |████████████████████████████████| 24.1 MB 5.1 MB/s 
[K     |████████████████████████████████| 5.8 MB 26.4 MB/s 
[K     |████████████████████████████████| 628 kB 46.3 MB/s 
[K     |████████████████████████████████| 10.1 MB 42.2 MB/s 
[K     |████████████████████████████████| 42 kB 998 kB/s 
[K     |████████████████████████████████| 451 kB 68.2 MB/s 
[?25h

### インポート

In [2]:
import os
import psutil # 実行中のプロセスやシステムのリソース活用について調べるため
import time
import warnings # 生成される様々な警告を無視するため

warnings.filterwarnings("ignore") 
process = psutil.Process(os.getpid())
mem = psutil.virtual_memory()

### 事前学習済み埋め込みのダウンロード

In [3]:
!wget -P /tmp/input/ -c "https://s3.amazonaws.com/dl4j-distribution/GoogleNews-vectors-negative300.bin.gz"

--2021-11-24 12:16:59--  https://s3.amazonaws.com/dl4j-distribution/GoogleNews-vectors-negative300.bin.gz
Resolving s3.amazonaws.com (s3.amazonaws.com)... 52.217.203.200
Connecting to s3.amazonaws.com (s3.amazonaws.com)|52.217.203.200|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 1647046227 (1.5G) [application/x-gzip]
Saving to: ‘/tmp/input/GoogleNews-vectors-negative300.bin.gz’


2021-11-24 12:17:37 (41.2 MB/s) - ‘/tmp/input/GoogleNews-vectors-negative300.bin.gz’ saved [1647046227/1647046227]



## 事前学習済み埋め込みの読み込み

In [4]:
from gensim.models import KeyedVectors
path = '/tmp/input/GoogleNews-vectors-negative300.bin.gz'

pre = process.memory_info().rss
print(f"モデル読み込み前のメモリ使用量（GB）: {pre/(10**9):.2f}")
print('-' * 10)

start_time = time.time() # タイマーのスタート
ttl = mem.total          # 利用可能なメモリ量

#　モデルの読み込み
vectors = KeyedVectors.load_word2vec_format(path, binary=True)
print(f"読み込みにかかった時間（秒）: {time.time() - start_time:.2f}")
print('-' * 10)

print('モデルの読み込み完了')
print('-' * 10)

post = process.memory_info().rss
print(f"モデル読み込み後のメモリ使用量（GB）: {post/(10**9):.2f}")
print('-' * 10)

print(f"メモリ使用量の増加率: {post/pre*100:.2f}%")
print('-' * 10)

print(f"ボキャブラリ数: {len(vectors.key_to_index)}")

モデル読み込み前のメモリ使用量（GB）: 0.17
----------
読み込みにかかった時間（秒）: 69.97
----------
モデルの読み込み完了
----------
モデル読み込み後のメモリ使用量（GB）: 4.47
----------
メモリ使用量の増加率: 2623.76%
----------
ボキャブラリ数: 3000000


In [5]:
# 類似した単語の検索
vectors.most_similar('beautiful')

[('gorgeous', 0.8353005051612854),
 ('lovely', 0.8106936812400818),
 ('stunningly_beautiful', 0.7329413294792175),
 ('breathtakingly_beautiful', 0.7231340408325195),
 ('wonderful', 0.6854086518287659),
 ('fabulous', 0.6700063943862915),
 ('loveliest', 0.6612576246261597),
 ('prettiest', 0.6595001816749573),
 ('beatiful', 0.6593326330184937),
 ('magnificent', 0.6591402888298035)]

In [6]:
vectors.most_similar('toronto')

[('montreal', 0.6984112858772278),
 ('vancouver', 0.6587257385253906),
 ('nyc', 0.6248832941055298),
 ('alberta', 0.6179691553115845),
 ('boston', 0.611499547958374),
 ('calgary', 0.61032634973526),
 ('edmonton', 0.6100260615348816),
 ('canadian', 0.5944076776504517),
 ('chicago', 0.5911980271339417),
 ('springfield', 0.5888351798057556)]

In [12]:
# ベクトル表現の確認
vectors['beautiful']

array([-0.01831055,  0.05566406, -0.01153564,  0.07275391,  0.15136719,
       -0.06176758,  0.20605469, -0.15332031, -0.05908203,  0.22851562,
       -0.06445312, -0.22851562, -0.09472656, -0.03344727,  0.24707031,
        0.05541992, -0.00921631,  0.1328125 , -0.15429688,  0.08105469,
       -0.07373047,  0.24316406,  0.12353516, -0.09277344,  0.08203125,
        0.06494141,  0.15722656,  0.11279297, -0.0612793 , -0.296875  ,
       -0.13378906,  0.234375  ,  0.09765625,  0.17773438,  0.06689453,
       -0.27539062,  0.06445312, -0.13867188, -0.08886719,  0.171875  ,
        0.07861328, -0.10058594,  0.23925781,  0.03808594,  0.18652344,
       -0.11279297,  0.22558594,  0.10986328, -0.11865234,  0.02026367,
        0.11376953,  0.09570312,  0.29492188,  0.08251953, -0.05444336,
       -0.0090332 , -0.0625    , -0.17578125, -0.08154297,  0.01062012,
       -0.04736328, -0.08544922, -0.19042969, -0.30273438,  0.07617188,
        0.125     , -0.05932617,  0.03833008, -0.03564453,  0.24

In [8]:
# ボキャブラリに存在しない単語を与えた場合
vectors['practicalnlp']

KeyError: ignored

事前学習済みモデルを使用する際には、2つの注意点があります。

1. 単語は小文字化されています。また、単語がボキャブラリに含まれていない場合、モデルは例外を発生させます。
2. そのため、これらのステートメントをtry/exceptブロックでカプセル化すると良いでしょう。

# テキストの埋め込み表現の取得

これまで、単一の単語に対する埋め込みベクトルの取得方法を見てきました。では、それらを使って、テキストに対する埋め込み表現を得るにはどうすればよいのでしょうか？簡単な方法は、各単語のベクトルを合計または平均することです。第4章では、Word2Vecを使った例を確認します。ここでは、第2章で紹介したNLPライブラリ「Spacy」を使った例を見てみましょう。

In [9]:
!python -m spacy download en_core_web_sm

Collecting en-core-web-sm==3.1.0
  Downloading https://github.com/explosion/spacy-models/releases/download/en_core_web_sm-3.1.0/en_core_web_sm-3.1.0-py3-none-any.whl (13.6 MB)
[K     |████████████████████████████████| 13.6 MB 10.6 MB/s 
Installing collected packages: en-core-web-sm
  Attempting uninstall: en-core-web-sm
    Found existing installation: en-core-web-sm 2.2.5
    Uninstalling en-core-web-sm-2.2.5:
      Successfully uninstalled en-core-web-sm-2.2.5
Successfully installed en-core-web-sm-3.1.0
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('en_core_web_sm')


In [10]:
import spacy

# spaCyモデルの読み込み
%time nlp = spacy.load('en_core_web_sm')
# モデルを使って、文を処理
mydoc = nlp("Canada is a large country")
# 各単語に対するベクトルの取得（例：Canada）
# print(doc[0].vector)
# 文全体の平均ベクトル
print(mydoc.vector)

CPU times: user 554 ms, sys: 53.3 ms, total: 607 ms
Wall time: 615 ms
[ 0.16080698 -0.11904609  0.47931895 -0.15337181  0.48726597  0.20112634
 -0.50895864  0.24067107  0.19627048 -0.38346702  0.4791072  -0.3943647
  0.28683385  0.22167978 -0.06235579 -0.07625542  0.33532935  0.27649948
 -0.3466417  -0.12300791  0.08283181 -0.31183082  0.01637378  0.10574655
  0.05201461  0.03638342  0.5504494  -0.4772138   0.1140553   0.27862185
 -0.06346036 -0.10489944 -0.5975721   0.08948338  0.4489297  -0.268933
 -0.20507975 -0.02621271  0.08034264  0.00365016 -0.47590414  0.07466789
  0.08994758 -0.24239507 -0.39546984 -0.22645283 -0.05520816 -0.08603366
 -0.07277443 -0.24619517  0.21793243  0.06953572 -0.06582221  0.25827888
  0.6020382   0.3439179  -0.06027249  0.00548719  0.11499085  0.05742813
  0.09451453  0.02222495 -0.3529187   0.03631705 -0.0042228  -0.49434584
 -0.58417434 -0.6067713   0.2903673  -0.24822783 -0.15074769  0.15857238
  0.15038197 -0.17567101 -0.43517604  0.09596855  0.42426

In [11]:
# 未知語やストップワードを与えると、どのような単語ベクトルを得られるか
temp = nlp('practicalnlp is a newword')
temp[0].vector

array([ 0.7964073 , -0.6859868 ,  1.0511943 ,  0.38669267,  0.30784756,
       -0.4096006 , -0.3954541 , -0.5454792 ,  0.02224387, -0.48245835,
        0.86104095, -0.33940893,  0.02963609,  0.18709627,  0.19967091,
        0.0334502 ,  0.5968356 , -0.4089725 ,  0.04506551,  0.4285673 ,
        0.16477269, -0.74715763, -0.30843046,  0.36858252,  0.60404074,
       -0.3903297 ,  0.7015511 , -0.07308803, -0.4003004 ,  0.5644273 ,
        0.59462404, -0.607335  , -0.91001564,  0.13463397, -0.78646964,
        0.69839525, -0.8623456 ,  1.3133634 , -0.0249629 ,  0.25833055,
        0.27343297,  0.4386369 , -0.8856485 , -0.8998877 ,  0.31537127,
       -0.8277104 ,  0.3692554 , -0.14703193, -0.04373775,  0.73898417,
       -0.2792626 ,  0.00465791, -0.4375862 , -0.59689325,  0.6902681 ,
       -0.46334362, -0.32624018, -0.77110076, -0.3602903 , -0.5167196 ,
        0.35242227, -0.35374475,  0.5292517 , -0.76486886, -0.04008454,
       -0.23547694, -0.5493143 ,  0.09723854,  0.95669794, -0.25