# 作業 : 調整 word2vec 模型的不同訓練參數

# [作業目標]
- 調整 word2vec 模型的不同參數, 分別觀察效果並比較

# [作業重點]
- 調整 word2vec 模型的不同訓練參數, 分別觀察效果並比較

In [3]:
# 載入 gensim 與 word2vec 模型
import gensim
from gensim.models import word2vec

# 忽略警告訊息
import warnings
warnings.filterwarnings("ignore")

# Word2Vec 訓練參數
- size : 詞向量的維度
- min_count : 最小次數，一個詞出現的次數若小於 min_count，則拋棄不參與訓練。
- window : 訓練窗格大小，也就是一個詞在看上下文關係時，上下應該各看幾個字的意思。
- 更多參數說明，請參閱官方文件
https://radimrehurek.com/gensim/models/word2vec.html#gensim.models.word2vec.Text8Corpus

In [5]:
# 使用 gensim 訓練 word2vec 詞向量
sentences = word2vec.Text8Corpus('text8')
# model = word2vec.Word2Vec(sentences, size=10)
model = word2vec.Word2Vec(sentences, size=10, min_count=3, window=5)

In [6]:
# 以"二進位模式"儲存與讀取模型
model.wv.save_word2vec_format('text.model.bin', binary=True)
model2=gensim.models.KeyedVectors.load_word2vec_format('text.model.bin', binary=True)

In [7]:
# 顯示最相近的字彙
model2.most_similar(['woman'])

[('siblings', 0.9379875659942627),
 ('angry', 0.9377115964889526),
 ('love', 0.9284119606018066),
 ('husband', 0.9207130670547485),
 ('angels', 0.9136302471160889),
 ('dressed', 0.9109096527099609),
 ('vengeance', 0.9109046459197998),
 ('sing', 0.9102321267127991),
 ('lunchbox', 0.9050151109695435),
 ('alive', 0.9040752649307251)]

In [8]:
# 顯示最相近的字彙(附加反義詞)
model2.most_similar(positive=['woman', 'king'], negative=['man'], topn=5)

[('deposed', 0.9544662237167358),
 ('consul', 0.9539451599121094),
 ('empress', 0.9276454448699951),
 ('crowned', 0.9263619184494019),
 ('teachta', 0.9258994460105896)]

In [9]:
# 挑選最不相同的字彙
model2.wv.doesnt_match("breakfast cereal dinner lunch".split())

'cereal'

In [10]:
# 顯示字彙間的相似性
model2.wv.similarity('woman', 'man')

0.87521

In [11]:
# 顯示字彙的詞向量
model2['computer']

array([-1.0487133,  1.547617 ,  1.9986537,  0.7706965,  2.7908463,
       -5.6822715, -5.0828767,  2.0989594, -3.63605  ,  4.7666445],
      dtype=float32)