## 使用腾讯开源Word2vec实现内容相似推荐

下载地址：https://ai.tencent.com/ailab/nlp/embedding.html

数据格式：
* 下载后解压文件名为Tencent_AILab_ChineseEmbedding.txt
* 第一行是8824330 200，即行数和维度数
* 之后的每行，用空格分隔201列，其中第一个是词语，后面是Embedding


实现步骤：
1. 获取文章列表数据，包括ID、标题、内容
2. 使用jieba实现关键词提取
3. 查询腾讯word2vec，平均法得到文档embedding
4. 对于输入的ID，计算最相似的文章列表

### 1. 获取数据

In [2]:
import pandas as pd
import numpy as np

In [3]:
df = pd.read_csv("./datas/crazyant_blog_articles_wordsegs.csv")
df.head()

Unnamed: 0,id,post_title,words
0,78,JavaScript对Select的子元素Option的操作,javascript select 元素 option 操作 javascript 删除 所...
1,83,当用header方法输出内容时出现“Cannot modify header informa...,当用 header 方法 输出 内容 出现 cannot modify header inf...
2,85,linux下禁止机箱蜂鸣方法,linux 禁止 机箱 蜂鸣 方法 图像 界面 注意 图形界面 即使 图像 界面 快捷键 出...
3,87,硬盘分区表丢失、修复大事记--分区表修复利器testdisk,硬盘分区 丢失 修复 大事记 -- 分区表 修复 利器 testdisk 今天 2009 1...
4,91,vi编辑器命令,vi 编辑器 命令 vi 编辑器 文字说明 模式 命令 模式 编辑 模式 末行 模式 切换 ...


### 2. 查询腾讯数据集计算文档Embedding

#### 去重后的词表

In [8]:
all_words = set()
for idx, row in df.iterrows():
    all_words.update(row["words"].split())
len(all_words)

14869

#### 查询候选词语的腾讯wordEmbedding

In [22]:
# 候选词语的embedding
word_embedding = {}

is_first_line = True
# with open("/home/pss/windir/Tencent_AILab_ChineseEmbedding.txt") as fin:
with open("./datas/small_tencent_embedding.txt",encoding='utf-8') as fin:
    for line in fin:
        if is_first_line: 
            is_first_line = False
            continue
        fields = line[:-1].split()
        if len(fields) != 201:
            continue
        word = fields[0]
        if word in all_words:
            word_embedding[word] = np.array([float(x) for x in fields[1:]])

In [23]:
print(len(word_embedding), word_embedding["python"])

11378 [ 0.382475  0.156139  0.062302  0.030984  0.481495 -0.070564  0.466484
  0.546035 -0.238761 -0.126754  0.063588  0.091173 -0.272091 -0.113122
  0.170998 -0.139973 -0.335421 -0.1836   -0.119432 -0.026666 -0.524403
 -0.290163 -0.495772  0.136166  0.074637  0.126304 -0.41948   0.271968
  0.447399  0.041005 -0.180788  0.101531  0.333039  0.013628  0.052285
 -0.433536  0.494823 -0.29307  -0.073794  0.260313 -0.052784 -0.226162
  0.791509 -0.203396  0.059075 -0.082627 -0.423575 -0.371575 -0.568254
  0.134853  0.174628  0.138118  0.059341 -0.405463  0.452836 -0.067161
  0.236258  0.347981  0.16007  -0.213742  0.047517  0.232295 -0.151182
  0.011967 -0.528855 -0.566595  0.287433  1.006496  0.00421   0.031725
 -0.543762  0.194417  0.028565 -0.086813  0.005247  0.582514 -0.241997
  0.249292  0.14645   0.213583  0.241735 -0.29941  -0.192367  0.115289
  0.193353 -0.717468 -0.139603  0.110287 -0.104537  0.076995  0.669608
  0.192023 -0.157454  0.015251  0.42727   0.442922 -0.302943 -0.308798


#### 计算每篇文章的doc embedding

In [24]:
def compute_doc_vector(words):
    words = words.split()
    embeddings = []
    for word in words:
        if word in word_embedding:
            embeddings.append(word_embedding[word])
    return np.sum(embeddings, axis=0) / len(embeddings)

df["doc_vector"] = df["words"].map(compute_doc_vector)

In [25]:
df.head(3)

Unnamed: 0,id,post_title,words,doc_vector
0,78,JavaScript对Select的子元素Option的操作,javascript select 元素 option 操作 javascript 删除 所...,"[-0.009905433333333337, -0.035128016666666616,..."
1,83,当用header方法输出内容时出现“Cannot modify header informa...,当用 header 方法 输出 内容 出现 cannot modify header inf...,"[0.173896275, -0.12689985, -0.0503381250000000..."
2,85,linux下禁止机箱蜂鸣方法,linux 禁止 机箱 蜂鸣 方法 图像 界面 注意 图形界面 即使 图像 界面 快捷键 出...,"[0.17765841463414633, -0.13135253658536586, -0..."


### 4. 对于给定文章算出最相似的10篇文章

In [26]:
# 随便挑选一篇文章ID，2583：pandas，581：PHP
article_id = 2583
df.loc[df["id"]==article_id]

Unnamed: 0,id,post_title,words,doc_vector
256,2583,Pandas实现数据的合并concat,pandas 实现 数据 合并 concat 使用 场景 批量 合并 相同 格式 excel...,"[0.08943355725190855, 0.030144005089058516, -0..."


In [27]:
article_embedding = df.loc[df["id"]==article_id, "doc_vector"].iloc[0]
article_embedding

array([ 0.08943356,  0.03014401, -0.09006977, -0.02731997,  0.05179058,
        0.04674453,  0.12136632,  0.25354821,  0.02870415,  0.04621916,
        0.04734693,  0.1351055 ,  0.17485938, -0.06233441,  0.17950214,
       -0.00837079, -0.01600692, -0.27576146, -0.14170541,  0.03026148,
       -0.22526636,  0.04579459, -0.00277373,  0.3662426 ,  0.05201343,
        0.11794778,  0.07008808,  0.17864109,  0.17178644,  0.25083649,
        0.02684472,  0.20249682, -0.01191662,  0.0375168 , -0.11493228,
       -0.29814698,  0.35999032, -0.02458926, -0.22154447, -0.01708258,
        0.03299186, -0.0163032 ,  0.82471329,  0.1949902 ,  0.1692371 ,
       -0.03245536, -0.16097337, -0.37849819, -0.09599682, -0.00306864,
       -0.1398844 ,  0.05044387, -0.19399513,  0.01291793,  0.20199475,
       -0.11384116,  0.14129119,  0.21140099,  0.14539386, -0.02095362,
        0.22135324,  0.23319376,  0.09078029, -0.01802279, -0.3661004 ,
       -0.23829312, -0.02314223,  0.25474953, -0.08019111,  0.27

In [28]:
# 余弦相似度
from scipy.spatial import distance
df["sim_value"] = df["doc_vector"].map(lambda x : 1 - distance.cosine(article_embedding, x))

In [29]:
df[["id", "post_title", "sim_value"]].head(3)

Unnamed: 0,id,post_title,sim_value
0,78,JavaScript对Select的子元素Option的操作,0.946522
1,83,当用header方法输出内容时出现“Cannot modify header informa...,0.9023
2,85,linux下禁止机箱蜂鸣方法,0.835502


In [30]:
# 按相似度降序排列，查询前10条
df.sort_values(by="sim_value", ascending=False)[["id", "post_title", "sim_value"]].head(10)

Unnamed: 0,id,post_title,sim_value
256,2583,Pandas实现数据的合并concat,1.0
255,2574,Pandas的Index索引有什么用途？,0.969753
236,2447,Spark使用word2vec训练item2vec实现内容相关推荐,0.969372
223,2261,PyCharm开发PySpark程序的配置和实例,0.966778
183,1707,Python使用list字段模式或者dict字段模式读取文件的方法,0.966085
258,2591,怎样使用Pandas批量拆分与合并Excel文件？,0.966083
219,2167,使用Kmeans对Word2vec的输出做聚类,0.965381
227,2303,Spark使用JAVA编写自定义函数修改DataFrame,0.965047
42,210,使用DEDE的全国地区分类导入到其它CMS,0.964852
79,591,PHP数组使用、特性、函数的总结,0.964392
