# 作業 : 變更不同的 GloVe 模型, 並使用 gensim 套件觀察模型表現

# [作業目標]
- 載入不同版本的 GloVe 模型, 並觀察模型間有何差異

# [作業重點]
- 觀察 GloVe 不同的預訓練詞向量, 效果間的差異

# [參考解答]
- 變更詞向量維度 : 如果只修改詞向量維度, 我們會看到較短的詞向量, 在列出的相近詞彙似乎比較不理想
- 使用其他詞向量檔 : 計算時間較長, 此外列舉相近詞彙時, 也會依照訓練集內容有明顯不同 

In [1]:
# 載入 gensim 與 GloVe 模型容器
from gensim.models import KeyedVectors
from gensim.scripts.glove2word2vec import glove2word2vec

# 忽略警告訊息
import warnings
warnings.filterwarnings("ignore")

In [2]:
# 設定模型
input_file = 'glove.6B.50d.txt'
output_file = 'gensim_glove.6B.50d.txt'
glove2word2vec(input_file, output_file)

(400000, 50)

In [3]:
# 轉換並讀取模型
model = KeyedVectors.load_word2vec_format(output_file, binary=False)

In [4]:
# 顯示最相近的字彙
model.most_similar(['woman'])

[('girl', 0.906528115272522),
 ('man', 0.8860336542129517),
 ('mother', 0.8763704299926758),
 ('her', 0.8613135814666748),
 ('boy', 0.8596119284629822),
 ('she', 0.8430695533752441),
 ('herself', 0.8224567770957947),
 ('child', 0.8108214139938354),
 ('wife', 0.8037394285202026),
 ('old', 0.7982393503189087)]

In [5]:
# 顯示最相近的字彙(附加反義詞)
model.most_similar(positive=['woman', 'king'], negative=['man'], topn=5)

[('queen', 0.8523603677749634),
 ('throne', 0.7664333581924438),
 ('prince', 0.7592144012451172),
 ('daughter', 0.7473883032798767),
 ('elizabeth', 0.7460219860076904)]

In [6]:
# 挑選最不相同的字彙
model.wv.doesnt_match("breakfast cereal dinner lunch".split())

'cereal'

In [7]:
# 顯示字彙間的相似性
model.wv.similarity('woman', 'man')

0.8860338

In [8]:
# 顯示字彙的詞向量
model['computer']

array([ 0.079084, -0.81504 ,  1.7901  ,  0.91653 ,  0.10797 , -0.55628 ,
       -0.84427 , -1.4951  ,  0.13418 ,  0.63627 ,  0.35146 ,  0.25813 ,
       -0.55029 ,  0.51056 ,  0.37409 ,  0.12092 , -1.6166  ,  0.83653 ,
        0.14202 , -0.52348 ,  0.73453 ,  0.12207 , -0.49079 ,  0.32533 ,
        0.45306 , -1.585   , -0.63848 , -1.0053  ,  0.10454 , -0.42984 ,
        3.181   , -0.62187 ,  0.16819 , -1.0139  ,  0.064058,  0.57844 ,
       -0.4556  ,  0.73783 ,  0.37203 , -0.57722 ,  0.66441 ,  0.055129,
        0.037891,  1.3275  ,  0.30991 ,  0.50697 ,  1.2357  ,  0.1274  ,
       -0.11434 ,  0.20709 ], dtype=float32)