# 作業 : 變更不同的 GloVe 模型, 並使用 gensim 套件觀察模型表現

# [作業目標]
- 載入不同版本的 GloVe 模型, 並觀察模型間有何差異

# [作業重點]
- 觀察 GloVe 不同的預訓練詞向量, 效果間的差異

# Step 1
- 到 GloVe 官方網站 (https://github.com/stanfordnlp/GloVe), 由四組預訓練模型選擇一項下載
- 將模型檔解壓縮後, 選擇並複製詞向量檔到本程式同一執行目錄中
- 依照你所選擇的詞向量檔, 修改設定模型中的"input_file"與"output_file", 再執行後續程式

In [5]:
from google.colab import files
uploaded = files.upload()  #

Saving glove.6B.50d.txt to glove.6B.50d.txt


In [19]:
# 載入 gensim 與 GloVe 模型容器
from gensim.models import KeyedVectors
from gensim.scripts.glove2word2vec import glove2word2vec

# 忽略警告訊息
import warnings
warnings.filterwarnings("ignore")

In [20]:
# 設定模型
input_file = 'glove.6B.50d.txt'
output_file = 'gensim_glove.6B.50d.txt'
glove2word2vec(input_file, output_file)

(400000, 50)

In [21]:
# 轉換並讀取模型
model = KeyedVectors.load_word2vec_format(output_file, binary=False)

# Step 2
- 觀察變更預訓練詞向量的效果

In [22]:
# 顯示最相近的字彙
model.most_similar(['woman'])

[('girl', 0.9065280556678772),
 ('man', 0.8860336542129517),
 ('mother', 0.8763704299926758),
 ('her', 0.8613135814666748),
 ('boy', 0.859611988067627),
 ('she', 0.8430695533752441),
 ('herself', 0.8224568367004395),
 ('child', 0.8108214139938354),
 ('wife', 0.8037394285202026),
 ('old', 0.7982394695281982)]

In [23]:
# 顯示最相近的字彙(附加反義詞)
model.most_similar(positive=['woman', 'king'], negative=['man'], topn=5)

[('queen', 0.8523604273796082),
 ('throne', 0.7664334177970886),
 ('prince', 0.7592144012451172),
 ('daughter', 0.7473883628845215),
 ('elizabeth', 0.7460219860076904)]

In [26]:
# 挑選最不相同的字彙
model.doesnt_match("breakfast cereal dinner lunch".split())


'cereal'

In [28]:
# 顯示字彙間的相似性
model.similarity('woman', 'man')

0.8860338

In [29]:
# 顯示字彙的詞向量
model['computer']

array([ 0.079084, -0.81504 ,  1.7901  ,  0.91653 ,  0.10797 , -0.55628 ,
       -0.84427 , -1.4951  ,  0.13418 ,  0.63627 ,  0.35146 ,  0.25813 ,
       -0.55029 ,  0.51056 ,  0.37409 ,  0.12092 , -1.6166  ,  0.83653 ,
        0.14202 , -0.52348 ,  0.73453 ,  0.12207 , -0.49079 ,  0.32533 ,
        0.45306 , -1.585   , -0.63848 , -1.0053  ,  0.10454 , -0.42984 ,
        3.181   , -0.62187 ,  0.16819 , -1.0139  ,  0.064058,  0.57844 ,
       -0.4556  ,  0.73783 ,  0.37203 , -0.57722 ,  0.66441 ,  0.055129,
        0.037891,  1.3275  ,  0.30991 ,  0.50697 ,  1.2357  ,  0.1274  ,
       -0.11434 ,  0.20709 ], dtype=float32)