# 作業 : 調整 word2vec 模型的不同訓練參數

# [作業目標]
- 調整 word2vec 模型的不同參數, 分別觀察效果並比較

# Word2Vec 訓練參數
- size : 詞向量的維度
- min_count : 最小次數，一個詞出現的次數若小於 min_count，則拋棄不參與訓練。
- window : 訓練窗格大小，也就是一個詞在看上下文關係時，上下應該各看幾個字的意思。
- 更多參數說明，請參閱官方文件
https://radimrehurek.com/gensim/models/word2vec.html#gensim.models.word2vec.Text8Corpus

# [參考解答]
- size : 修改size的話, 會在最後"顯示字彙的詞向量"看出詞向量長度的明顯差異, 較短的詞向量訓練較快, 
    但各項效果較差
- min_count : 修改min_count影響不大，但為了避免訓練出無效的詞向量, 建議至少大於等於3。
- window : 修改min_count也會影響訓練時間，但一般越長的效果越好，因此我們會在計算時間許可內，選用較大的數值。

In [1]:
# 載入 gensim 與 word2vec 模型
import gensim
from gensim.models import word2vec

# 忽略警告訊息
import warnings
warnings.filterwarnings("ignore")

In [2]:
# 使用 gensim 訓練 word2vec 詞向量
sentences = word2vec.Text8Corpus('text8/text8')
#model = word2vec.Word2Vec(sentences, size=10)
model = word2vec.Word2Vec(sentences, size=10, min_count=5, window=10)

In [3]:
# 顯示最相近的字彙
model.most_similar(['woman'])

[('encounter', 0.9351571202278137),
 ('bewildered', 0.93426513671875),
 ('lover', 0.9243251085281372),
 ('siblings', 0.922603964805603),
 ('angry', 0.921463131904602),
 ('gerson', 0.9181969165802002),
 ('sad', 0.9180358052253723),
 ('child', 0.9168809652328491),
 ('mother', 0.9126884937286377),
 ('faithless', 0.9063397645950317)]

In [4]:
# 顯示最相近的字彙(附加反義詞)
model.most_similar(positive=['woman', 'king'], negative=['man'], topn=5)

[('empress', 0.9592599272727966),
 ('caliph', 0.9470886588096619),
 ('deposed', 0.9461420774459839),
 ('sultan', 0.942925751209259),
 ('emperor', 0.9424433708190918)]

In [5]:
# 挑選最不相同的字彙
model.wv.doesnt_match("breakfast cereal dinner lunch".split())

'cereal'

In [6]:
# 顯示字彙間的相似性
model.wv.similarity('woman', 'man')

0.89447284

In [7]:
# 顯示字彙的詞向量
model['computer']

array([ 3.7507045 , -4.1265306 ,  4.517017  ,  1.7078241 , -7.4050503 ,
        9.753864  , -5.350245  ,  0.39435527,  0.63762635, -1.1913729 ],
      dtype=float32)