## 词向量

In [26]:
import pandas as pd
import jieba
from gensim.models.word2vec import Word2Vec

## 读入训练集文件

In [27]:
data = pd.read_csv('train.csv')

## 转字符串数组

In [28]:
corpus = data['comment'].values.astype(str)

## 分词，再重组为字符串数组

In [29]:
corpus = [jieba.lcut(corpus[index]
                          .replace("，", "")
                          .replace("!", "")
                          .replace("！", "")
                          .replace("。", "")
                          .replace("~", "")
                          .replace("；", "")
                          .replace("？", "")
                          .replace("?", "")
                          .replace("【", "")
                          .replace("】", "")
                          .replace("#", "")
                        ) for index in range(len(corpus))]

## 词向量模型训练

In [30]:
model = Word2Vec(corpus, sg=0, vector_size=300, window=5, min_count=3, workers=4)

## 模型显示

In [31]:
print('模型参数：',model,'\n')

模型参数： Word2Vec<vocab=4036, vector_size=300, alpha=0.025> 



## 最匹配

In [32]:
print('最匹配的词是：',model.wv.most_similar(positive=['点赞', '不错'], negative=['难吃']),'\n')

最匹配的词是： [('位置', 0.9525783658027649), ('好找', 0.9377374649047852), ('好哟', 0.9319687485694885), ('清净', 0.93161541223526), ('可以', 0.9315567016601562), ('挺', 0.9281263947486877), ('值得', 0.9257136583328247), ('外带', 0.9255112409591675), ('足下', 0.9223265051841736), ('团购', 0.9219916462898254)] 



## 最不匹配

In [33]:
#print('最不匹配的词是：',model.wv.doesnt_match("点赞 好吃 支持 难吃".split()),'\n')

## 语义相似度

In [34]:
print('相似度为=',model.wv.similarity('蟑螂','好吃'),'\n')

相似度为= 0.40073776 



## 坐标返回

In [35]:
print(model.wv.__getitem__('地道')[:10])

[ 0.00823887  0.10213076  0.04557922  0.07015198 -0.05315351 -0.08410066
  0.10985084  0.28771788  0.01329898 -0.02518467]


In [36]:
# skip-gram 算法
model = Word2Vec(corpus, sg=1, vector_size=300, window=5, min_count=3, workers=4)
# 模型显示
print('模型参数：', model, '\n')

模型参数： Word2Vec<vocab=4036, vector_size=300, alpha=0.025> 



In [37]:
# "环境"的词向量形状
print("'环境'的词向量形状：", model.wv["环境"].shape)

'环境'的词向量形状： (300,)


In [38]:
# "环境"的词向量
print("'环境'的词向量前10维：\n", model.wv["环境"][:10])

'环境'的词向量前10维：
 [ 0.06339885  0.10320255  0.02506635  0.14051563  0.00850525 -0.15654278
  0.00363429  0.3941826  -0.21588925 -0.14054848]


In [39]:
# 和"好吃"语义最接近的三个词
print('和"好吃"语义最接近的三个词：', model.wv.most_similar('好吃', topn=3), '\n')

和"好吃"语义最接近的三个词： [('棒', 0.8262112140655518), ('美味', 0.824298083782196), ('好看', 0.8201115131378174)] 



In [40]:
# "好吃"和"美味"的相似度
print('"好吃"和"美味"的相似度为=', model.wv.similarity('好吃', '美味'), '\n')

"好吃"和"美味"的相似度为= 0.82429814 



In [41]:
# "好吃"和"蟑螂"的相似度
print('"好吃"和"蟑螂"的相似度为=', model.wv.similarity('好吃', '蟑螂'), '\n')

"好吃"和"蟑螂"的相似度为= 0.27469298 



In [42]:
# "餐厅+聚会-安静"最相关结果
print('"餐厅+聚会-安静"最相关结果：', model.wv.most_similar(positive=['餐厅', '聚会'], negative=['安静'], topn=1))

"餐厅+聚会-安静"最相关结果： [('家庭聚会', 0.953502893447876)]
