In [3]:
# 词向量
import pandas as pd
import jieba
from gensim.models.word2vec import Word2Vec

# 读入训练集文件
data = pd.read_csv('train.csv')
# 转字符串数组
corpus = data['comment'].values.astype(str)
# 分词，再重组为字符串数组
corpus = [jieba.lcut(corpus[index]
                     .replace("，", "")
                     .replace("!", "")
                     .replace("！", "")
                     .replace("。", "")
                     .replace("~", "")
                     .replace("；", "")
                     .replace("？", "")
                     .replace("?", "")
                     .replace("【", "")
                     .replace("】", "")
                     .replace("#", "")
                     ) for index in range(len(corpus))]
# 词向量模型训练
# sg: 用于设置训练算法。当 sg=0，使用 CBOW 算法来进行训练；当 sg=1，使用 skip-gram 算法来进行训练。
# CBOW 算法
model = Word2Vec(corpus, sg=0, vector_size=300, window=5, min_count=3, workers=4)
# 模型显示
print('模型参数：', model, '\n')

模型参数： Word2Vec<vocab=4036, vector_size=300, alpha=0.025> 



In [4]:
# 最匹配
print('最匹配的词是：', model.wv.most_similar(positive=['点赞', '不错'], negative=['难吃']), '\n')
# 最不匹配
# print('最不匹配的词是：',model.wv.doesnt_match("点赞 好吃 支持 难吃".split()),'\n')

最匹配的词是： [('小弟', 0.9404109716415405), ('推荐', 0.9403191208839417), ('值得', 0.9289330244064331), ('招待', 0.922656774520874), ('家庭', 0.9161795377731323), ('团购', 0.9156455397605896), ('小资', 0.915090024471283), ('高', 0.9131613373756409), ('热情', 0.9101288318634033), ('位置', 0.9072751998901367)] 



In [5]:
# 语义相似度
print('相似度为=', model.wv.similarity('推荐', '好吃'), '\n')

相似度为= 0.7819495 



In [6]:
# 坐标返回  太长了修剪一下  只输出前10维
print(model.wv.__getitem__('地道')[:10])

[ 0.00251674  0.09338139  0.02040723  0.07778127 -0.06159183 -0.09659836
  0.08934072  0.31606612  0.01148257 -0.06119033]


In [7]:
# skip-gram 算法
model = Word2Vec(corpus, sg=1, vector_size=300, window=5, min_count=3, workers=4)

In [8]:
# 模型显示
print('模型参数：', model, '\n')

模型参数： Word2Vec<vocab=4036, vector_size=300, alpha=0.025> 



In [9]:
# "环境"的词向量形状
print("'环境'的词向量形状：", model.wv["环境"].shape)

'环境'的词向量形状： (300,)


In [10]:
# "环境"的词向量，太长了修剪一下
print("'环境'的词向量前10维：\n", model.wv["环境"][:10])

'环境'的词向量前10维：
 [ 0.13391396  0.16932133 -0.09904398  0.14187849 -0.07878415 -0.223758
  0.02099669  0.5238628  -0.21002586 -0.1913392 ]


In [11]:
# 和"好吃"语义最接近的三个词
print('和"好吃"语义最接近的三个词：', model.wv.most_similar('好吃', topn=3), '\n')

和"好吃"语义最接近的三个词： [('入味', 0.844479501247406), ('美味', 0.8375622034072876), ('好看', 0.8332570791244507)] 



In [12]:
# "好吃"和"美味"的相似度
print('"好吃"和"美味"的相似度为=', model.wv.similarity('好吃', '美味'), '\n')

"好吃"和"美味"的相似度为= 0.8375621 



In [13]:
# "好吃"和"蟑螂"的相似度
print('"好吃"和"蟑螂"的相似度为=', model.wv.similarity('好吃', '蟑螂'), '\n')

"好吃"和"蟑螂"的相似度为= 0.29887384 



In [14]:
# "餐厅+聚会-安静"最相关结果
print('"餐厅+聚会-安静"最相关结果：', model.wv.most_similar(positive=['餐厅', '聚会'], negative=['安静'], topn=1))

"餐厅+聚会-安静"最相关结果： [('家庭聚会', 0.9448115229606628)]
