In [1]:
# 词向量
import pandas as pd
import jieba
from gensim.models.word2vec import Word2Vec

# 读入训练集文件
data = pd.read_csv('train.csv')
# 转字符串数组
corpus = data['comment'].values.astype(str)
# 分词，再重组为字符串数组
corpus = [jieba.lcut(corpus[index]
                          .replace("，", "")
                          .replace("!", "")
                          .replace("！", "")
                          .replace("。", "")
                          .replace("~", "")
                          .replace("；", "")
                          .replace("？", "")
                          .replace("?", "")
                          .replace("【", "")
                          .replace("】", "")
                          .replace("#", "")
                        ) for index in range(len(corpus))]

# 使用 Skip - Gram 训练 Word2Vec 模型，sg=1 表示使用 Skip - Gram
model = Word2Vec(corpus, sg=1, vector_size=300, window=5, min_count=3, workers=4)
print('模型参数：', model, '\n')

Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\ZhiYi\AppData\Local\Temp\jieba.cache
Loading model cost 0.389 seconds.
Prefix dict has been built successfully.


模型参数： Word2Vec<vocab=4036, vector_size=300, alpha=0.025> 



In [2]:
import numpy as np

# 获取“环境”的词向量
env_vector = model.wv.__getitem__('环境')
print('“环境”的词向量：', env_vector)
print('词向量形状：', np.array(env_vector).shape)

“环境”的词向量： [ 0.15628365  0.09201527 -0.03274541  0.06194302 -0.16271767 -0.15685983
 -0.03499667  0.36669353 -0.22608003 -0.15938549  0.16080412 -0.15429652
 -0.04904946  0.03280604 -0.21433121  0.11234515  0.47516587  0.1471844
  0.13024697 -0.3923267  -0.1341348  -0.1182125   0.0554137   0.01602358
 -0.09665614  0.11690975  0.00353449 -0.05953793  0.04175021 -0.08815282
  0.25441414 -0.05751697  0.02564409  0.10163636 -0.2710992   0.0317399
 -0.08368672 -0.22488412 -0.02311235 -0.20195355  0.17565444 -0.15293193
  0.24416654 -0.05454075  0.10986339  0.36276212 -0.00682408 -0.27175835
  0.04086889  0.06473583 -0.03854094  0.05209602 -0.17175393  0.2938947
 -0.11500257  0.04028469 -0.10072165 -0.18937068  0.06118144 -0.2137068
 -0.06189458  0.00691255  0.05449995  0.07620601 -0.07807039  0.23394153
 -0.05363373 -0.14993112 -0.39628732  0.05903305 -0.04527228 -0.08899112
 -0.02588974 -0.04724113  0.22140315  0.00637494 -0.12426689  0.08589061
 -0.21867907  0.05512996  0.02683097 -0.13468

In [3]:
# 获取与“好吃”语义最接近的 3 个词
similar_words = model.wv.most_similar(positive=['好吃'], topn=3)
print('与“好吃”语义最接近的 3 个词：', similar_words)

与“好吃”语义最接近的 3 个词： [('入味', 0.8381404280662537), ('美味', 0.833288848400116), ('棒', 0.8332028388977051)]


In [4]:
# 计算“好吃”和“美味”的相似度
similarity_1 = model.wv.similarity('好吃', '美味')
# 计算“好吃”和“蟑螂”的相似度
similarity_2 = model.wv.similarity('好吃', '蟑螂')

print('“好吃”和“美味”的相似度：', similarity_1)
print('“好吃”和“蟑螂”的相似度：', similarity_2)

“好吃”和“美味”的相似度： 0.8332889
“好吃”和“蟑螂”的相似度： 0.3217636


In [5]:
# 执行向量运算“餐厅+聚会-安静”，输出 1 个最相关结果
result = model.wv.most_similar(positive=['餐厅', '聚会'], negative=['安静'], topn=1)
print('向量运算“餐厅+聚会-安静”的最相关结果：', result)

向量运算“餐厅+聚会-安静”的最相关结果： [('家庭聚会', 0.9474634528160095)]
