In [1]:
# 词向量
import pandas as pd
import jieba
from gensim.models.word2vec import Word2Vec

# 读入训练集文件
data = pd.read_csv('train.csv')
# 转字符串数组
corpus = data['comment'].values.astype(str)
# 分词，再重组为字符串数组
corpus = [jieba.lcut(corpus[index]
                     .replace("，", "")
                     .replace("!", "")
                     .replace("！", "")
                     .replace("。", "")
                     .replace("~", "")
                     .replace("；", "")
                     .replace("？", "")
                     .replace("?", "")
                     .replace("【", "")
                     .replace("】", "")
                     .replace("#", "")
                     ) for index in range(len(corpus))]
# 词向量模型训练
# sg: 用于设置训练算法。当 sg=0，使用 CBOW 算法来进行训练；当 sg=1，使用 skip-gram 算法来进行训练。
# CBOW 算法
model = Word2Vec(corpus, sg=0, vector_size=300, window=5, min_count=3, workers=4)
# 模型显示
print('模型参数：', model, '\n')

Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\枫\AppData\Local\Temp\jieba.cache
Loading model cost 0.580 seconds.
Prefix dict has been built successfully.


模型参数： Word2Vec<vocab=4036, vector_size=300, alpha=0.025> 



In [2]:
# 最匹配
print('最匹配的词是：', model.wv.most_similar(positive=['点赞', '不错'], negative=['难吃']), '\n')
# 最不匹配
# print('最不匹配的词是：',model.wv.doesnt_match("点赞 好吃 支持 难吃".split()),'\n')

最匹配的词是： [('位置', 0.9389684796333313), ('好找', 0.9316205978393555), ('柚子茶', 0.9301803708076477), ('推荐', 0.9288725852966309), ('团购', 0.9190714955329895), ('划得来', 0.9180019497871399), ('值得', 0.9085745811462402), ('挺', 0.908452570438385), ('高', 0.9071643948554993), ('老板娘', 0.9025104641914368)] 



In [3]:
# 语义相似度
print('相似度为=', model.wv.similarity('推荐', '好吃'), '\n')

相似度为= 0.80772686 



In [4]:
# 坐标返回  太长了修剪一下  只输出前10维
print(model.wv.__getitem__('地道')[:10])

[ 0.00888754  0.11178739  0.04521707  0.06661422 -0.04521457 -0.08195276
  0.10741516  0.30327082  0.00884113 -0.05885276]


In [7]:
# skip-gram 算法
model = Word2Vec(corpus, sg=1, vector_size=300, window=5, min_count=3, workers=4)

In [8]:
# 模型显示
print('模型参数：', model, '\n')

模型参数： Word2Vec<vocab=4036, vector_size=300, alpha=0.025> 



In [17]:
# "环境"的词向量形状
print("'环境'的词向量形状：", model.wv["环境"].shape)

'环境'的词向量形状： (300,)


In [18]:
# "环境"的词向量，太长了修剪一下
print("'环境'的词向量前10维：\n", model.wv["环境"][:10])

'环境'的词向量前10维：
 [ 0.16671441  0.11811956 -0.06052769  0.10790406 -0.0855232  -0.17789346
  0.00500027  0.46282414 -0.21918313 -0.10233493]


In [11]:
# 和"好吃"语义最接近的三个词
print('和"好吃"语义最接近的三个词：', model.wv.most_similar('好吃', topn=3), '\n')

和"好吃"语义最接近的三个词： [('好看', 0.8356488943099976), ('棒', 0.816025972366333), ('美味', 0.8128633499145508)] 



In [12]:
# "好吃"和"美味"的相似度
print('"好吃"和"美味"的相似度为=', model.wv.similarity('好吃', '美味'), '\n')

"好吃"和"美味"的相似度为= 0.81286335 



In [13]:
# "好吃"和"蟑螂"的相似度
print('"好吃"和"蟑螂"的相似度为=', model.wv.similarity('好吃', '蟑螂'), '\n')

"好吃"和"蟑螂"的相似度为= 0.27398148 



In [15]:
# "餐厅+聚会-安静"最相关结果
print('"餐厅+聚会-安静"最相关结果：', model.wv.most_similar(positive=['餐厅', '聚会'], negative=['安静'], topn=1))

"餐厅+聚会-安静"最相关结果： [('部门', 0.949066162109375)]
