In [1]:
# 安裝 gensim
!pip install gensim

Defaulting to user installation because normal site-packages is not writeable


In [3]:
# 匯入套件
from gensim.models import Word2Vec
import jieba

In [5]:
# 句子 (也可以是一篇文章)
sentences = [
    "我喜歡閱讀書籍",
    "我也喜歡使用電腦來學習新的知識",
    "閱讀可以開闊我們的視野",
    "電腦是現代學習的重要工具"
]

# 使用 jieba 進行斷詞
sentences = [jieba.lcut(sentence) for sentence in sentences]; sentences

[['我', '喜歡', '閱讀', '書籍'],
 ['我', '也', '喜歡', '使用', '電腦來', '學習', '新', '的', '知識'],
 ['閱讀', '可以', '開闊', '我們', '的', '視野'],
 ['電腦', '是', '現代學習', '的', '重要', '工具']]

In [6]:
# 句子 (也可以是一篇文章)
sentences = [
    "我喜歡閱讀書籍",
    "我也喜歡使用電腦來學習新的知識",
    "閱讀可以開闊我們的視野",
    "電腦是現代學習的重要工具"
]

# 使用 jieba 進行斷詞
sentences = [jieba.lcut(sentence) for sentence in sentences]

# 設定參數
sg = 0 # sg=1 -> skip-gram, sg=0 -> cbow

# 向前看幾個字或向後看幾個字
window_size = 2

# 向量維度
vector_size = 100

# 訓練幾回
epochs = 20

# 最少多少個字才會被使用
min_count = 1

# seed
seed = 42

# 建立 Word2Vec 模型
model = Word2Vec(
    sentences, 
    vector_size=vector_size,  
    window=window_size, 
    sg=sg, 
    min_count=1,
    seed=seed,
    epochs=epochs)

In [10]:
# 取得 "閱讀" 這個詞的詞向量
vector = model.wv['閱讀']

# 輸出 "閱讀" 的詞向量
print(vector)

[ 6.6547347e-03 -6.0018362e-03  6.0979817e-03 -9.8527549e-03
  5.9368517e-03  5.7384875e-03  5.6072855e-03  3.2970167e-03
 -5.6865811e-04  4.1033067e-03 -4.4575678e-03  5.6145801e-03
  1.1129391e-03 -8.2168460e-04  1.1212468e-04  1.3748228e-03
 -9.2547545e-03 -7.2040604e-03 -5.0903773e-03 -7.7093993e-03
 -1.2077296e-03  3.3680582e-03  3.0885767e-03 -5.7807681e-04
  7.1015991e-03  1.3047218e-03 -8.4160529e-03  5.2999770e-03
  1.4920116e-03  2.6943660e-03  1.3074661e-03  1.0715878e-03
 -8.1886724e-03  1.1841428e-03  5.8982517e-03 -3.9209984e-03
  2.0567644e-03 -9.3836440e-03 -3.0500162e-03 -1.2656534e-03
  9.6547678e-03 -5.7083070e-03 -4.4690333e-03 -1.8294274e-03
  9.8533118e-03  7.0680608e-03 -9.3061412e-03 -5.3212107e-03
  6.4334883e-03 -8.8339457e-03  7.1134162e-03 -4.3723225e-03
  8.3530424e-03 -4.1281260e-03 -1.3136650e-03  3.2383299e-03
 -7.4743857e-03  1.1406422e-03  1.0030985e-04  5.6779636e-03
  9.9221375e-03  3.2862700e-03 -1.8162716e-03 -1.8722629e-03
 -1.6408253e-03  6.28040

In [11]:
# 儲存模型
model.save('word2vec.model')

In [12]:
# 讀取模型
loaded_model = Word2Vec.load("word2vec.model")

In [13]:
# 尋找相近的字詞
loaded_model.wv.most_similar('閱讀', topn=10)

[('是', 0.20484842360019684),
 ('重要', 0.17066122591495514),
 ('可以', 0.15242119133472443),
 ('現代學習', 0.13797110319137573),
 ('的', 0.09096545726060867),
 ('學習', 0.07103629410266876),
 ('我們', 0.025877678766846657),
 ('電腦', 0.005402938928455114),
 ('喜歡', -0.002975007751956582),
 ('也', -0.015427679754793644)]

In [14]:
# 計算相近度
loaded_model.wv.similarity('書籍', '知識')

0.10265139