In [8]:
import pandas as pd
import jieba
from gensim.models.word2vec import Word2Vec

# 读入训练集文件
data = pd.read_csv('train.csv')    

In [9]:
# 转字符串数组
corpus = data['comment'].values.astype(str)
# 分词，再重组为字符串数组
corpus = [jieba.lcut(corpus[index]
                          .replace("，", "")
                          .replace("!", "")
                          .replace("！", "")
                          .replace("。", "")
                          .replace("~", "")
                          .replace("；", "")
                          .replace("？", "")
                          .replace("?", "")
                          .replace("【", "")
                          .replace("】", "")
                          .replace("#", "")
                        ) for index in range(len(corpus))]    

In [10]:
# 词向量模型训练，使用 Skip - Gram (sg=1)
model = Word2Vec(corpus, sg=1, vector_size=300, window=5, min_count=3, workers=4)
# 模型显示
print('模型参数：', model, '\n')    

模型参数： Word2Vec<vocab=4036, vector_size=300, alpha=0.025> 



In [11]:
# 输出“环境”的词向量及其形状
env_vector = model.wv['环境']
print('“环境”的词向量：', env_vector)
print('“环境”词向量的形状：', env_vector.shape)    

“环境”的词向量： [ 2.53545884e-02  1.87532440e-01 -6.92440849e-03  1.52515158e-01
 -4.22777832e-02 -8.11858997e-02  4.00493992e-03  4.91114318e-01
 -3.16706598e-01 -1.45544305e-01 -3.11913062e-02 -2.42968276e-01
 -4.41326872e-02 -2.10272018e-02 -1.63899615e-01  7.50460625e-02
  5.30219734e-01  9.63224396e-02  1.81763574e-01 -4.62177694e-01
 -8.75281021e-02 -2.25921422e-01 -1.19921558e-01 -1.23652235e-01
 -5.74990027e-02  1.29129887e-01  1.51695656e-02  4.25533168e-02
 -8.03387444e-03 -1.44920796e-01  3.03377599e-01  7.07991049e-03
  5.02775870e-02  1.56367019e-01 -1.90586627e-01  2.54313054e-04
  3.99466492e-02 -2.80136645e-01 -1.77416522e-02  7.58988364e-03
  2.03657821e-01 -9.29593146e-02  2.88642347e-01 -4.67440411e-02
  9.70467031e-02  2.39394084e-01  5.51675484e-02 -2.45582670e-01
  5.08647747e-02  1.22447364e-01 -1.14221321e-02  7.36920536e-02
 -1.41271770e-01  3.04811746e-01 -5.60575575e-02  2.55145967e-01
 -1.66855022e-01 -1.38150990e-01  1.97320625e-01 -2.18342841e-01
 -2.58700177e-0

In [12]:
# 输出与“好吃”语义最接近的3个词
similar_words = model.wv.most_similar('好吃', topn=3)
print('与“好吃”语义最接近的3个词：', similar_words)    

与“好吃”语义最接近的3个词： [('入味', 0.8585230112075806), ('棒', 0.8451935648918152), ('好看', 0.8416265845298767)]


In [13]:
# 计算“好吃”和“美味”的相似度、“好吃”和“蟑螂”的相似度
sim_delicious = model.wv.similarity('好吃', '美味')
sim_cockroach = model.wv.similarity('好吃', '蟑螂')
print('“好吃”和“美味”的相似度：', sim_delicious)
print('“好吃”和“蟑螂”的相似度：', sim_cockroach)    

“好吃”和“美味”的相似度： 0.7938463
“好吃”和“蟑螂”的相似度： 0.33661947


In [14]:
# 执行向量运算“餐厅+聚会-安静=？”，输出1个最相关结果
result = model.wv.most_similar(positive=['餐厅', '聚会'], negative=['安静'], topn=1)
print('餐厅+聚会-安静的结果：', result)    

餐厅+聚会-安静的结果： [('城', 0.9574910998344421)]
