## 词向量

In [1]:
import pandas as pd
import jieba
from gensim.models.word2vec import Word2Vec

## 读入训练集文件

In [2]:
data = pd.read_csv('train.csv')

## 转字符串数组

In [3]:
corpus = data['comment'].values.astype(str)

## 分词，再重组为字符串数组

In [4]:
corpus = [jieba.lcut(corpus[index]
                          .replace("，", "")
                          .replace("!", "")
                          .replace("！", "")
                          .replace("。", "")
                          .replace("~", "")
                          .replace("；", "")
                          .replace("？", "")
                          .replace("?", "")
                          .replace("【", "")
                          .replace("】", "")
                          .replace("#", "")
                        ) for index in range(len(corpus))]

Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\xuebin\AppData\Local\Temp\jieba.cache
Loading model cost 0.422 seconds.
Prefix dict has been built successfully.


## 词向量模型训练

In [5]:
model = Word2Vec(corpus, sg=0, vector_size=300, window=5, min_count=3, workers=4)

## 模型显示

In [6]:
print('模型参数：',model,'\n')

模型参数： Word2Vec<vocab=4036, vector_size=300, alpha=0.025> 



## 最匹配

In [7]:
print('最匹配的词是：',model.wv.most_similar(positive=['点赞', '不错'], negative=['难吃']),'\n')

最匹配的词是： [('好找', 0.9402147531509399), ('位置', 0.9361454844474792), ('团购', 0.9241837859153748), ('值得', 0.9219162464141846), ('推荐', 0.919730007648468), ('高', 0.9145821332931519), ('热情', 0.9115123748779297), ('那儿', 0.9105688333511353), ('安静', 0.9091247916221619), ('老板娘', 0.9074435830116272)] 



## 最不匹配

In [8]:
#print('最不匹配的词是：',model.wv.doesnt_match("点赞 好吃 支持 难吃".split()),'\n')

## 语义相似度

In [9]:
print('相似度为=',model.wv.similarity('蟑螂','好吃'),'\n')

相似度为= 0.34216258 



## 坐标返回

In [10]:
print(model.wv.__getitem__('地道')[:10])

[ 0.00808477  0.11281621  0.0356744   0.07155834 -0.05714677 -0.09135506
  0.11698356  0.29744765  0.01516365 -0.03082011]


In [11]:
# skip-gram 算法
model = Word2Vec(corpus, sg=1, vector_size=300, window=5, min_count=3, workers=4)
# 模型显示
print('模型参数：', model, '\n')

模型参数： Word2Vec<vocab=4036, vector_size=300, alpha=0.025> 



In [12]:
# "环境"的词向量形状
print("'环境'的词向量形状：", model.wv["环境"].shape)

'环境'的词向量形状： (300,)


In [13]:
# "环境"的词向量
print("'环境'的词向量前10维：\n", model.wv["环境"][:10])

'环境'的词向量前10维：
 [ 0.24357712  0.17188144 -0.07867926  0.20132948 -0.09388473 -0.15197967
 -0.07276826  0.37505278 -0.23302962 -0.10054979]


In [14]:
# 和"好吃"语义最接近的三个词
print('和"好吃"语义最接近的三个词：', model.wv.most_similar('好吃', topn=3), '\n')

和"好吃"语义最接近的三个词： [('好看', 0.8261477947235107), ('入味', 0.824834406375885), ('棒', 0.8227176666259766)] 



In [15]:
# "好吃"和"美味"的相似度
print('"好吃"和"美味"的相似度为=', model.wv.similarity('好吃', '美味'), '\n')

"好吃"和"美味"的相似度为= 0.8203431 



In [16]:
# "好吃"和"蟑螂"的相似度
print('"好吃"和"蟑螂"的相似度为=', model.wv.similarity('好吃', '蟑螂'), '\n')

"好吃"和"蟑螂"的相似度为= 0.28025213 



In [17]:
# "餐厅+聚会-安静"最相关结果
print('"餐厅+聚会-安静"最相关结果：', model.wv.most_similar(positive=['餐厅', '聚会'], negative=['安静'], topn=1))

"餐厅+聚会-安静"最相关结果： [('家庭聚会', 0.9407486915588379)]
