### 实现步骤：

1. 获取文章列表数据，包括ID、标题、内容
2. 使用jieba实现关键词提取
3. 查询腾讯word2vec，平均法得到文档embedding
4. 对于输入的ID，计算最相似的文章列表

#### 获取数据

In [1]:
import pandas as pd
import numpy as np

In [2]:
df = pd.read_csv("./dataset/datas/crazyant_blog_articles_wordsegs.csv")

In [3]:
df

Unnamed: 0,id,post_title,words
0,78,JavaScript对Select的子元素Option的操作,javascript select 元素 option 操作 javascript 删除 所...
1,83,当用header方法输出内容时出现“Cannot modify header informa...,当用 header 方法 输出 内容 出现 cannot modify header inf...
2,85,linux下禁止机箱蜂鸣方法,linux 禁止 机箱 蜂鸣 方法 图像 界面 注意 图形界面 即使 图像 界面 快捷键 出...
3,87,硬盘分区表丢失、修复大事记--分区表修复利器testdisk,硬盘分区 丢失 修复 大事记 -- 分区表 修复 利器 testdisk 今天 2009 1...
4,91,vi编辑器命令,vi 编辑器 命令 vi 编辑器 文字说明 模式 命令 模式 编辑 模式 末行 模式 切换 ...
...,...,...,...
262,2604,Pandas怎样对每个分组应用apply函数?,pandas 怎样 每个 分组 应用 apply 函数 pandas 怎样 每个 分组 应用...
263,2615,推荐系统实现相似推荐的流程和资源,推荐 系统 实现 相似 推荐 流程 资源 视频 位于 链接 需要 资源 整理 视频 涉及 相...
264,2623,文章写的好，但是没人看，原来标题可以这么写,文章 但是 没人 原来 标题 可以 这么 一种 方法 就是 三段式 标题 三段式 来自 百度...
265,2629,自律使我自由,自律 自由 从来 没有 完全 自由 如果 节制 放纵 自己 大吃大喝 熬夜 玩游戏 那么 导...


In [4]:
allwords = set()
for idx,row in df.iterrows():
    allwords.update(row["words"].split(" "))

In [5]:
len(allwords)

14871

In [6]:
# 候选词的embedding
word_embedding = {}
is_first_line = True

In [7]:
with open("./dataset/datas/small_tencent_embedding.txt",encoding="utf-8") as f:
    tmp = f.readlines()

In [8]:
tmp[1]

'我们 0.238955 -0.192848 -0.211907 0.150934 0.138219 -0.142815 0.109576 0.237430 0.113313 0.212766 0.185741 -0.072593 -0.038890 -0.148697 0.113447 -0.054734 -0.119707 -0.301614 0.010661 -0.373224 0.046995 -0.040254 0.217435 0.124474 0.107320 -0.154016 -0.214472 -0.026875 0.271341 0.034196 -0.048286 0.135981 -0.159336 0.291878 0.029767 -0.080823 0.075705 0.208965 -0.393423 -0.070348 0.074219 -0.010314 0.555231 0.265382 -0.203183 -0.059019 -0.227729 -0.438141 -0.154139 -0.004460 -0.155796 -0.156204 -0.280239 0.119024 0.270675 0.015977 0.061125 0.106046 0.119620 0.016656 -0.188581 0.195843 0.322265 -0.252883 0.009620 0.211928 -0.061827 0.101208 -0.118682 -0.004104 -0.315729 -0.033734 0.019271 0.093593 -0.038363 0.271059 0.076770 0.187507 0.279387 -0.091230 0.174323 0.263890 0.146483 0.175136 0.250636 -0.268815 -0.242602 0.098451 -0.340867 -0.046590 0.143537 -0.032850 -0.112147 0.059271 0.151730 0.063198 -0.010309 -0.218437 -0.250653 -0.027172 0.099709 0.089741 -0.039581 0.168280 -0.289254 0

In [9]:
tmp[1][:-1].split()

['我们',
 '0.238955',
 '-0.192848',
 '-0.211907',
 '0.150934',
 '0.138219',
 '-0.142815',
 '0.109576',
 '0.237430',
 '0.113313',
 '0.212766',
 '0.185741',
 '-0.072593',
 '-0.038890',
 '-0.148697',
 '0.113447',
 '-0.054734',
 '-0.119707',
 '-0.301614',
 '0.010661',
 '-0.373224',
 '0.046995',
 '-0.040254',
 '0.217435',
 '0.124474',
 '0.107320',
 '-0.154016',
 '-0.214472',
 '-0.026875',
 '0.271341',
 '0.034196',
 '-0.048286',
 '0.135981',
 '-0.159336',
 '0.291878',
 '0.029767',
 '-0.080823',
 '0.075705',
 '0.208965',
 '-0.393423',
 '-0.070348',
 '0.074219',
 '-0.010314',
 '0.555231',
 '0.265382',
 '-0.203183',
 '-0.059019',
 '-0.227729',
 '-0.438141',
 '-0.154139',
 '-0.004460',
 '-0.155796',
 '-0.156204',
 '-0.280239',
 '0.119024',
 '0.270675',
 '0.015977',
 '0.061125',
 '0.106046',
 '0.119620',
 '0.016656',
 '-0.188581',
 '0.195843',
 '0.322265',
 '-0.252883',
 '0.009620',
 '0.211928',
 '-0.061827',
 '0.101208',
 '-0.118682',
 '-0.004104',
 '-0.315729',
 '-0.033734',
 '0.019271',
 '0.0935

In [10]:
with open("./dataset/datas/small_tencent_embedding.txt",encoding="utf-8") as f:
    for line in f:
        if is_first_line:
            is_first_line = False
            continue
        fields = line[:-1].split()
        if len(fields) != 201:
            continue
        
        word = fields[0]
        if word in allwords:
            word_embedding[word] = np.array([float(x) for x in fields[1:]])

In [11]:
len(word_embedding)

11382

In [12]:
word_embedding["python"]

array([ 0.382475,  0.156139,  0.062302,  0.030984,  0.481495, -0.070564,
        0.466484,  0.546035, -0.238761, -0.126754,  0.063588,  0.091173,
       -0.272091, -0.113122,  0.170998, -0.139973, -0.335421, -0.1836  ,
       -0.119432, -0.026666, -0.524403, -0.290163, -0.495772,  0.136166,
        0.074637,  0.126304, -0.41948 ,  0.271968,  0.447399,  0.041005,
       -0.180788,  0.101531,  0.333039,  0.013628,  0.052285, -0.433536,
        0.494823, -0.29307 , -0.073794,  0.260313, -0.052784, -0.226162,
        0.791509, -0.203396,  0.059075, -0.082627, -0.423575, -0.371575,
       -0.568254,  0.134853,  0.174628,  0.138118,  0.059341, -0.405463,
        0.452836, -0.067161,  0.236258,  0.347981,  0.16007 , -0.213742,
        0.047517,  0.232295, -0.151182,  0.011967, -0.528855, -0.566595,
        0.287433,  1.006496,  0.00421 ,  0.031725, -0.543762,  0.194417,
        0.028565, -0.086813,  0.005247,  0.582514, -0.241997,  0.249292,
        0.14645 ,  0.213583,  0.241735, -0.29941 , 

- 计算每篇文章的doc embedding

In [13]:
def compute_doc_vector(words):
    words = words.split()
    embeddings = []
    for word in words:
        if word in word_embedding:
            embeddings.append(word_embedding[word])
    return np.sum(embeddings,axis=0) / len(embeddings)

In [14]:
df["doc_vector"] = df["words"].map(compute_doc_vector)

In [16]:
df

Unnamed: 0,id,post_title,words,doc_vector
0,78,JavaScript对Select的子元素Option的操作,javascript select 元素 option 操作 javascript 删除 所...,"[-0.013126199999999996, -0.03166106249999995, ..."
1,83,当用header方法输出内容时出现“Cannot modify header informa...,当用 header 方法 输出 内容 出现 cannot modify header inf...,"[0.173896275, -0.12689985, -0.0503381250000000..."
2,85,linux下禁止机箱蜂鸣方法,linux 禁止 机箱 蜂鸣 方法 图像 界面 注意 图形界面 即使 图像 界面 快捷键 出...,"[0.17765841463414633, -0.13135253658536586, -0..."
3,87,硬盘分区表丢失、修复大事记--分区表修复利器testdisk,硬盘分区 丢失 修复 大事记 -- 分区表 修复 利器 testdisk 今天 2009 1...,"[0.25020975, -0.19336403888888903, -0.00018789..."
4,91,vi编辑器命令,vi 编辑器 命令 vi 编辑器 文字说明 模式 命令 模式 编辑 模式 末行 模式 切换 ...,"[0.12497060176991134, -0.09836270353982311, 0...."
...,...,...,...,...
262,2604,Pandas怎样对每个分组应用apply函数?,pandas 怎样 每个 分组 应用 apply 函数 pandas 怎样 每个 分组 应用...,"[0.06635910714285706, 0.02634534761904762, -0...."
263,2615,推荐系统实现相似推荐的流程和资源,推荐 系统 实现 相似 推荐 流程 资源 视频 位于 链接 需要 资源 整理 视频 涉及 相...,"[0.08312790909090909, -0.005004499999999976, -..."
264,2623,文章写的好，但是没人看，原来标题可以这么写,文章 但是 没人 原来 标题 可以 这么 一种 方法 就是 三段式 标题 三段式 来自 百度...,"[0.22609510322580648, -0.18270135483870972, -0..."
265,2629,自律使我自由,自律 自由 从来 没有 完全 自由 如果 节制 放纵 自己 大吃大喝 熬夜 玩游戏 那么 导...,"[0.19995407407407392, -0.30916040740740725, -0..."


In [17]:
article_id = 2583

In [20]:
df[df["id"] ==2583]["doc_vector"]

256    [0.005996356060606063, 0.0679557373737372, -0....
Name: doc_vector, dtype: object

In [22]:
article_embedding = df[df["id"] ==2583]["doc_vector"].iloc[0]

In [23]:
type(article_embedding)

numpy.ndarray

In [24]:
article_embedding.shape

(200,)

In [25]:
# 余弦相似度
from scipy.spatial import distance

In [29]:
df["sim_value"] = df["doc_vector"].map(lambda x : 1- distance.cosine(article_embedding,x))

In [30]:
df

Unnamed: 0,id,post_title,words,doc_vector,sim_vlaue,sim_value
0,78,JavaScript对Select的子元素Option的操作,javascript select 元素 option 操作 javascript 删除 所...,"[-0.013126199999999996, -0.03166106249999995, ...",0.953236,0.953236
1,83,当用header方法输出内容时出现“Cannot modify header informa...,当用 header 方法 输出 内容 出现 cannot modify header inf...,"[0.173896275, -0.12689985, -0.0503381250000000...",0.868788,0.868788
2,85,linux下禁止机箱蜂鸣方法,linux 禁止 机箱 蜂鸣 方法 图像 界面 注意 图形界面 即使 图像 界面 快捷键 出...,"[0.17765841463414633, -0.13135253658536586, -0...",0.783414,0.783414
3,87,硬盘分区表丢失、修复大事记--分区表修复利器testdisk,硬盘分区 丢失 修复 大事记 -- 分区表 修复 利器 testdisk 今天 2009 1...,"[0.25020975, -0.19336403888888903, -0.00018789...",0.724130,0.724130
4,91,vi编辑器命令,vi 编辑器 命令 vi 编辑器 文字说明 模式 命令 模式 编辑 模式 末行 模式 切换 ...,"[0.12497060176991134, -0.09836270353982311, 0....",0.798271,0.798271
...,...,...,...,...,...,...
262,2604,Pandas怎样对每个分组应用apply函数?,pandas 怎样 每个 分组 应用 apply 函数 pandas 怎样 每个 分组 应用...,"[0.06635910714285706, 0.02634534761904762, -0....",0.978439,0.978439
263,2615,推荐系统实现相似推荐的流程和资源,推荐 系统 实现 相似 推荐 流程 资源 视频 位于 链接 需要 资源 整理 视频 涉及 相...,"[0.08312790909090909, -0.005004499999999976, -...",0.896456,0.896456
264,2623,文章写的好，但是没人看，原来标题可以这么写,文章 但是 没人 原来 标题 可以 这么 一种 方法 就是 三段式 标题 三段式 来自 百度...,"[0.22609510322580648, -0.18270135483870972, -0...",0.734370,0.734370
265,2629,自律使我自由,自律 自由 从来 没有 完全 自由 如果 节制 放纵 自己 大吃大喝 熬夜 玩游戏 那么 导...,"[0.19995407407407392, -0.30916040740740725, -0...",0.591319,0.591319


In [31]:
df.sort_values("sim_value",ascending=False)

Unnamed: 0,id,post_title,words,doc_vector,sim_vlaue,sim_value
256,2583,Pandas实现数据的合并concat,pandas 实现 数据 合并 concat 使用 场景 批量 合并 相同 格式 excel...,"[0.005996356060606063, 0.0679557373737372, -0....",1.000000,1.000000
252,2546,Pandas的axis参数怎么理解？,pandas axis 参数 怎么 理解 axis 参数 非常 困惑 难以 理解 视频 我会...,"[0.014649806701030969, -0.03124717268041237, 0...",0.988473,0.988473
255,2574,Pandas的Index索引有什么用途？,pandas index 索引 什么 用途 数据 存储 普通 column 用于 数据 查询...,"[0.003863167832167842, 0.018865074592074583, -...",0.987658,0.987658
259,2594,Pandas怎样实现对数据的分组统计？,pandas 怎样 实现 数据 分组 统计 pandas 怎样 实现 groupby 分组 ...,"[0.023095106583072046, 0.06942839289446184, 0....",0.987287,0.987287
240,2502,Pandas系列-DataFrame和Series数据结构,pandas 系列 dataframe series 数据结构 代码 演示 pandas 读...,"[0.06663766445182721, 0.04775676744186041, -0....",0.979710,0.979710
...,...,...,...,...,...,...
233,2404,听樊登的《非暴力沟通》,樊登 非暴力 沟通 最近 爱奇艺 知识 课程 樊登教 快乐 事业有成 第一节 樊登 非暴力 ...,"[0.19294547674418594, -0.20212805813953494, -0...",0.613794,0.613794
87,655,情理之中又意料之外的超强减肥方法,情理之中 意料之外 超强 减肥 方法 今天 人人 看到 很多 分享 一个 减肥 秘技 页面 ...,"[0.18228809202453974, -0.348092773006135, 0.00...",0.612966,0.612966
41,206,对自己将来的一些思考,自己 将来 一些 思考 今天 看到 一篇 文章 名字 直白 可以 鞭策 一辈子 文章 不看 ...,"[0.19904671929824563, -0.24740909356725144, -0...",0.605805,0.605805
265,2629,自律使我自由,自律 自由 从来 没有 完全 自由 如果 节制 放纵 自己 大吃大喝 熬夜 玩游戏 那么 导...,"[0.19995407407407392, -0.30916040740740725, -0...",0.591319,0.591319
