## 使用腾讯开源Word2vec实现内容相似推荐

下载地址：https://ai.tencent.com/ailab/nlp/embedding.html

数据格式：
* 下载后解压文件名为Tencent_AILab_ChineseEmbedding.txt
* 第一行是8824330 200，即行数和维度数
* 之后的每行，用空格分隔201列，其中第一个是词语，后面是Embedding


实现步骤：
1. 获取文章列表数据，包括ID、标题、内容
2. 使用jieba实现关键词提取
3. 查询腾讯word2vec，平均法得到文档embedding
4. 对于输入的ID，计算最相似的文章列表

### 1. 获取数据

In [1]:
import pandas as pd
import numpy as np

In [4]:
df = pd.read_csv("./datas/questions_wordsegs.csv")
df.head()

Unnamed: 0,id,试卷名称,试题简介,words
0,0,第1节　长度和时间的测量,(柳州中考)一个中学生的身高约为(),长度 时间 测量 柳州 中考 一个 中学生 身高
1,1,第1节　长度和时间的测量,下列长度单位换算正确的是(),长度 时间 测量 下列 长度 单位 换算 正确
2,2,第1节　长度和时间的测量,"初中生小红想对比测量一个月前后自己的身高变化,选用下列哪种尺最合适()",长度 时间 测量 初中生 小红想 对比 测量 一个月 前后 自己 身高 变化 选用 下列 哪...
3,3,第1节　长度和时间的测量,如图所示测量木块长度的方法中正确的是(),长度 时间 测量 如图所示 测量 木块 长度 方法 正确
4,4,第1节　长度和时间的测量,下列各个过程中经历的时间最接近1秒的是(),长度 时间 测量 下列 各个 过程 经历 时间 接近


### 2. 查询腾讯数据集计算文档Embedding

#### 去重后的词表

In [5]:
all_words = set()
for idx, row in df.iterrows():
    all_words.update(row["words"].split())
len(all_words)

3024

#### 查询候选词语的腾讯wordEmbedding

In [6]:
# 候选词语的embedding
word_embedding = {}

is_first_line = True
# with open("/home/pss/windir/Tencent_AILab_ChineseEmbedding.txt") as fin:
with open("./datas/small_tencent_embedding.txt",encoding='utf-8') as fin:
    for line in fin:
        if is_first_line: 
            is_first_line = False
            continue
        fields = line[:-1].split()
        if len(fields) != 201:
            continue
        word = fields[0]
        if word in all_words:
            word_embedding[word] = np.array([float(x) for x in fields[1:]])

In [11]:
print(len(word_embedding), word_embedding["长度"])

985 [ 0.005834 -0.395921 -0.180423  0.296069  0.052518 -0.054451  0.020149
 -0.044086  0.353312 -0.22374  -0.04508   0.055951 -0.174403  0.155743
 -0.012774 -0.074717  0.179427  0.190087  0.261729 -0.077895 -0.238144
  0.034836  0.179018  0.335313 -0.058311  0.170257 -0.093793  0.013557
  0.109592  0.511844  0.088042 -0.580139 -0.017787  0.020833 -0.110023
 -0.152744  0.575039  0.237301 -0.211268 -0.27189   0.730821 -0.046814
  0.93922   0.121126 -0.032281 -0.036091 -0.39794  -0.648644 -0.213008
  0.147335 -0.44408   0.079484 -0.514313  0.004092  0.105224 -0.060358
 -0.288678 -0.019406  0.138733 -0.069249 -0.069714  0.436858 -0.143623
  0.075708  0.35814  -0.335786 -0.087457  0.114769  0.047824  0.135914
  0.114568 -0.082952  0.275859  0.377795  0.264313  0.042248  0.153559
  0.165835  0.181142  0.088547 -0.008424  0.361963 -0.026601  0.647748
  0.278543 -1.1967   -0.372485  0.074411 -0.282418 -0.880456  0.279597
  0.331155  0.167894 -0.101904  0.087408  0.250657  0.094835 -0.115425
  

#### 计算每篇文章的doc embedding

In [12]:
def compute_doc_vector(words):
    words = words.split()
    embeddings = []
    for word in words:
        if word in word_embedding:
            embeddings.append(word_embedding[word])
    return np.sum(embeddings, axis=0) / len(embeddings)

df["doc_vector"] = df["words"].map(compute_doc_vector)

  import sys


In [13]:
df.head(3)

Unnamed: 0,id,试卷名称,试题简介,words,doc_vector
0,0,第1节　长度和时间的测量,(柳州中考)一个中学生的身高约为(),长度 时间 测量 柳州 中考 一个 中学生 身高,"[0.10882925, -0.372443, -0.08033349999999999, ..."
1,1,第1节　长度和时间的测量,下列长度单位换算正确的是(),长度 时间 测量 下列 长度 单位 换算 正确,"[0.043941400000000005, -0.26982680000000003, -..."
2,2,第1节　长度和时间的测量,"初中生小红想对比测量一个月前后自己的身高变化,选用下列哪种尺最合适()",长度 时间 测量 初中生 小红想 对比 测量 一个月 前后 自己 身高 变化 选用 下列 哪...,"[0.10865833333333334, -0.28194566666666665, -0..."


### 4. 对于给定文章算出最相似的10篇文章

In [14]:
# 随便挑选一篇文章ID，2583：pandas，581：PHP
article_id = 258
df.loc[df["id"]==article_id]

Unnamed: 0,id,试卷名称,试题简介,words,doc_vector
258,258,09月30日物理课堂练习201改练声音的产生,"(随州中考)如图所示,在探究“声音是由物体振动产生的”实验中,将正在发声的音叉紧靠悬线下的轻...",09 30 物理 课堂练习 201 改练 声音 产生 随州 中考 如图所示 探究 声音 物体...,"[0.17574740000000003, -0.1689654, -0.191655599..."


In [16]:
article_embedding = df.loc[df["id"]==article_id, "doc_vector"].iloc[0]
article_embedding

array([ 1.757474e-01, -1.689654e-01, -1.916556e-01,  7.697020e-02,
        8.083090e-02, -3.556480e-02,  7.456410e-02,  1.847721e-01,
        1.373630e-01,  3.422919e-01,  1.197105e-01,  4.723310e-02,
       -2.157270e-02, -4.279760e-02, -1.235848e-01,  2.178100e-03,
        1.773750e-01, -1.880477e-01, -1.122771e-01, -6.640790e-02,
       -1.180276e-01,  2.561470e-02,  1.687922e-01,  1.073239e-01,
        4.881600e-03,  6.730250e-02, -1.060451e-01,  6.912790e-02,
        1.038758e-01,  5.721760e-02,  6.908920e-02,  1.283737e-01,
       -4.925550e-02,  8.439820e-02, -8.146040e-02, -2.198169e-01,
        2.186135e-01,  9.345570e-02, -1.861646e-01,  9.296130e-02,
        2.277380e-02,  8.393710e-02,  4.866047e-01,  1.703435e-01,
        6.107210e-02, -5.514660e-02, -1.570685e-01, -3.874890e-01,
        1.479703e-01, -6.045800e-02, -1.350433e-01,  1.517390e-02,
       -1.970015e-01,  4.580400e-02,  1.030453e-01,  5.889720e-02,
        1.993840e-02,  4.998580e-02,  8.964660e-02, -1.677578e

In [17]:
# 余弦相似度
from scipy.spatial import distance
df["sim_value"] = df["doc_vector"].map(lambda x : 1 - distance.cosine(article_embedding, x))

In [18]:
df[["id", "试卷名称","试题简介", "sim_value"]].head(3)

Unnamed: 0,id,试卷名称,试题简介,sim_value
0,0,第1节　长度和时间的测量,(柳州中考)一个中学生的身高约为(),0.629796
1,1,第1节　长度和时间的测量,下列长度单位换算正确的是(),0.679925
2,2,第1节　长度和时间的测量,"初中生小红想对比测量一个月前后自己的身高变化,选用下列哪种尺最合适()",0.733528


In [21]:
# 按相似度降序排列，查询前10条
df.sort_values(by="sim_value", ascending=False)[["id", "试卷名称","试题简介", "sim_value"]].head(20)

Unnamed: 0,id,试卷名称,试题简介,sim_value
258,258,09月30日物理课堂练习201改练声音的产生,"(随州中考)如图所示,在探究“声音是由物体振动产生的”实验中,将正在发声的音叉紧靠悬线下的轻...",1.0
163,163,09月22日物理课堂练习声音的产生1,"如图所示,用悬挂着的乒乓球接触正在发声的音叉,乒乓球会多次被弹开.这个实验是用来探究( )",0.958562
154,154,第1节　声音的产生与传播,"(随州中考)如图所示,在探究“声音是由物体振动产生的”实验中,将正在发声的音叉紧靠悬线下的轻...",0.958414
161,161,09月22日物理课堂练习声音的产生1,"如图所示,用悬挂着的乒乓球接触正在发声的音叉,乒乓球被弹开.这个实验是我们在学习«声现象»一...",0.95602
160,160,09月22日物理课堂练习声音的产生1,"在探究人耳怎样听到声音时,可以用肥皂膜模拟人耳的鼓膜.如图所示,当喇叭发声时,肥皂膜将( )",0.945184
261,261,09月30日物理课堂练习201改练声音的产生,"小提琴声是通过琴弓与琴弦的摩擦使琴弦振动(如图所示),琴弦将振动传递给木质的琴码和琴箱,再使...",0.936723
167,167,09月22日物理课堂练习声音的产生2,"使正在发声的音叉接触水面,水面溅起水花,说明声音是由物体的 产生的.锣发声的时候,用手 按...",0.931543
1349,1349,20年11月18日物理练习,"(光反实验现象)如图所示是小明同学探究反射定律的实验装置。 (1)若转动F半面时,上面（可...",0.930772
1306,1306,20年11月17日物理练习,"(光反实验现象)如图所示是小明同学探究反射定律的实验装置。 (1)若转动F半面时,上面（可...",0.930377
1068,1068,20年11月05日物理练习,"(19武汉)在“探究水沸腾时温度变化的特点”的实验中,某组同学用如图甲所示实验装置进行了两次...",0.929054
