## word2vec词向量

word2vec 是一种词向量（Word Embedding）的模型，它通过学习维基百科等海量文本数据中词语的分布式表示，将每个词映射到一个连续的向量空间中。简单来讲，word2vec模型的训练过程是根据语句上下文词语来预测目标词语。word2vec可以将词语表示成稠密的向量，使得词语之间的语义关系可以通过向量空间中的距离或者相似度来进行计算。

word2vec 解决了词袋模型和 TF-IDF 模型中的两个问题：

词义表示：词袋模型和 TF-IDF 模型将每个词表示为一个独立的向量，无法考虑词语之间的语义关系。而 word2vec 则可以将词语表示为连续的向量空间中的点，使得语义相近的词在向量空间中距离较近。

稀疏性：在词袋模型和 TF-IDF 模型中，文档表示是一个高维稀疏向量，其中大部分元素为零，造成了存储和计算上的问题。word2vec 将词语表示为稠密向量，降低了向量的维度，并且在训练中可以学习到更为紧凑和有用的表示。

word2vec 模型最早由Tomas Mikolov等人在2013年提出。它的出现极大地推动了词向量表示和自然语言处理领域的发展。

In [44]:
from gensim.models import KeyedVectors

In [2]:
#word2vec词向量 https://github.com/Embedding/Chinese-Word-Vectors
cn_model = KeyedVectors.load_word2vec_format('F:/sgns.weibo.word.bz2', binary=False) # 加载预训练的词向量文件

In [39]:
print(len(cn_model['悲伤']))  #输出每个词的向量维度
print(cn_model['悲伤'])  #每个词语都是一个低维稠密的向量

300
[ 8.53540e-02  9.32400e-03  3.06900e-02  3.17005e-01  2.89572e-01
 -2.89643e-01 -1.34001e-01 -2.77797e-01 -2.68360e-01  9.07570e-02
 -5.95840e-02 -4.90898e-01 -7.28559e-01  2.24481e-01 -1.01034e-01
 -6.09000e-04 -7.31750e-02 -9.39420e-02 -1.05730e-01  3.41950e-02
 -5.68879e-01 -3.50667e-01  8.10200e-02  3.20879e-01 -4.83790e-02
 -3.87748e-01  5.16600e-02 -4.39891e-01  5.63007e-01  2.11600e-01
 -2.67991e-01 -3.80782e-01  3.79480e-02  5.38420e-02  2.39396e-01
 -3.65386e-01  2.19960e-02  4.25059e-01 -4.39315e-01 -5.54114e-01
  1.97175e-01  2.39020e-02 -4.54123e-01 -3.75710e-02 -2.98059e-01
 -2.69157e-01  6.00660e-02  3.25279e-01  3.82400e-01  2.40210e-02
  2.35685e-01 -4.20392e-01 -2.53184e-01  3.76237e-01  2.62670e-02
 -2.72009e-01  2.99479e-01 -1.17785e-01 -2.13586e-01 -5.71482e-01
  1.11477e-01  1.15784e-01  1.56628e-01  7.16250e-02 -2.05943e-01
  1.80899e-01 -5.57390e-02  5.89990e-02 -2.20993e-01  9.02980e-02
 -1.49319e-01 -3.34932e-01  5.74944e-01  3.74286e-01 -3.93205e-01
 -6.26

In [4]:
print(cn_model.similarity('悲伤', '想哭')) # 计算两个词向量的余弦相似度
print(cn_model.similarity('悲伤', '高兴')) #悲伤和想哭的相似度 要高于 悲伤和高兴的相似度，语义相近的词在向量空间中距离较近

0.41474614
0.3250471


In [5]:
cn_model.most_similar('悲伤') #计算与某个词最接近的十个词

[('不长进', 0.556633710861206),
 ('悲恸', 0.5552493929862976),
 ('开怀一笑', 0.5501411557197571),
 ('成永恒', 0.5476574301719666),
 ('虚度年华', 0.5460686683654785),
 ('时许诺', 0.5435583591461182),
 ('强装', 0.5417993664741516),
 ('强颜欢笑', 0.5398290753364563),
 ('微笑起来', 0.5380998849868774),
 ('感到痛苦', 0.5363132953643799)]

In [7]:
import numpy as np

In [42]:
#对每个句子的所有词向量取均值，来生成一个句子的向量
def build_sentence_vector(sentence,size,w2v_model):
    sen_vec=np.zeros(size).reshape((1,size))
    count=0
    for word in sentence:
        try:
            sen_vec+=w2v_model[word].reshape((1,size))
            count+=1
        except KeyError:
            continue
    if count!=0:
        sen_vec/=count
    return sen_vec

In [38]:
sentence = "我 是 中国 人"
sen_vec = build_sentence_vector(sentence, 300, cn_model)
print(sen_vec) # 词向量文档表示模型仅用300维的向量来表示一个句子，而TF-IDF文档表示模型表示每个句子的维度是字典的长度

[[ 1.15471959e-02 -1.28081198e-01  2.05124007e-01  5.10320179e-03
   4.15426029e-02  7.60990016e-02  1.71651199e-01 -1.06787403e-01
   1.08708198e-01  6.76544026e-02  6.74913991e-02  5.35259992e-02
  -1.42391804e-01 -2.82190394e-01 -1.17445600e-01 -6.69525981e-02
  -1.56931400e-01  7.53637999e-02  1.26606800e-01  7.81550013e-02
   1.09658797e-01 -1.28308797e-01  1.07076004e-02  2.26701796e-01
  -8.43379971e-02 -1.51658003e-02 -1.14316197e-01 -7.85327978e-02
   1.68218207e-01 -3.12618002e-02 -1.01431200e-01 -2.44154796e-01
   2.12042195e-01 -3.75466004e-02  3.48367794e-01 -9.13365990e-02
   1.95018801e-01 -4.95387986e-02 -1.48970199e-01 -7.04942048e-02
   1.36422194e-01 -2.68142002e-02 -7.40062002e-02 -8.81915972e-02
   1.21729974e-02 -2.02969798e-01  1.79696199e-01  9.19225991e-02
   2.20979601e-01  7.79684018e-02 -4.96399999e-03  9.20419917e-03
   1.96747801e-01  1.24205800e-01  1.25913201e-01  1.28894801e-01
   1.87406003e-02  4.04430017e-02  7.16114014e-02  1.15042000e-01
   1.74853

In [3]:
import pandas as pd

In [20]:
#读取数据
df = pd.read_csv('分词后data.csv')
print(df.head())

                                                  文本  标签
0                       商业秘密 秘密性 维系 商业价值 垄断 地位 前提条件    0
1  南口 阿玛施 新春 第一批 限量 春装 店 春暖花开 淑女 裙冰 蓝色 公主 衫 气质 粉小...   1
2                                 带给 常州 一场 壮观 视觉 盛宴    0
3                                     原因 不明 泌尿系统 结石    0
4                                    年 盐城 拉回来 麻麻 嫁妆    0


In [22]:
data = df['文本'].tolist()
label = df['标签'].tolist()
data = [each.strip().split() for each in data] #将语料转换成build_sentence_vector函数能够处理的分词列表格式
print(len(data), len(label))

1241 1241


In [43]:
#将文本数据转换为word2vec特征矩阵
word2vec_feature = np.concatenate([build_sentence_vector(sen,300,cn_model) for sen in data])
print(word2vec_feature.shape) #输出word2vec特征矩阵维度

(1241, 300)
