# 如何用Python提取中文关键词？
本文一步步为你演示，如何用Python从中文文本中提取关键词。如果你需要对长文“观其大略”，不妨尝试一下。(单一文本关键词的提取方法)

In [1]:
from jieba.analyse import *
with open('../docs/JD新零售-资料收集.txt') as f:
    data = f.read()

分别使用TF-idf、TextRank方式提取关键词和权重，并且依次显示出来。（如果你不做特殊指定的话，默认显示数量为20个关键词）

In [2]:
for keyword, weight in extract_tags(data, withWeight=True):
    print('%s %s' % (keyword, weight))

Building prefix dict from the default dictionary ...
Dumping model to file cache /tmp/jieba.cache
Loading model cost 2.160 seconds.
Prefix dict has been built succesfully.


京东 0.2871547024816984
零售 0.2639121225540556
电商 0.0899797931149341
消费者 0.08866256566222547
线下 0.07255998247005857
场景 0.07138617370216692
用户 0.06992145315803808
刘强 0.0635792399080527
商品 0.061904399867642755
革命 0.0567277260284041
效率 0.05029798492144948
模型 0.0498397067057101
更好 0.04715053357049781
体验 0.04353135534916545
基础设施 0.04268601239906296
数据 0.042003133338711564
不是 0.03884139239106882
画像 0.03805667213389459
门店 0.03776298423390922
而是 0.03773963376193265


In [3]:
for keyword, weight in textrank(data, withWeight=True):
    print('%s %s' % (keyword, weight))

零售 1.0
京东 0.9040832189627115
消费者 0.5794966443688391
商品 0.45427088036398805
革命 0.38631650692968517
模型 0.35034934825413866
数据 0.3434238926605811
场景 0.3152169004696235
线下 0.3014798361060339
用户 0.2866033092154284
电商 0.24634583071698277
提升 0.23648659613330122
平台 0.23229211847334308
市场 0.22273509186748008
效率 0.21393723217277688
选择 0.21152915296640865
因子 0.20004448868567612
核心 0.19349603426957857
进行 0.19274756198248236
公司 0.18500755488296933


### 原理

我们简要讲解一下，前文出现的2种不同关键词提取方式——TF-idf和TextRank的基本原理。

为了不让大家感到枯燥，这里咱们就不使用数学公式了。后文我会给出相关的资料链接。如果你对细节感兴趣，欢迎按图索骥，查阅学习。

先说TF-idf。

它的全称是 Term Frequency - inverse document frequency。中间有个连字符，左右两侧各是一部分，共同结合起来，决定某个词的重要程度。

第一部分，就是词频（Term Frequency），即某个词语出现的频率。

我们常说“重要的事说三遍”。

同样的道理，某个词语出现的次数多，也就说明这个词语重要性可能会很高。

但是，这只是可能性，并不绝对。

例如现代汉语中的许多虚词——“的，地，得”，古汉语中的许多句尾词“之、乎、者、也、兮”，这些词在文中可能出现许多次，但是它们显然不是关键词。

这就是为什么我们在判断关键词的时候，需要第二部分（idf）配合。

逆文档频率（inverse document frequency）首先计算某个词在各文档中出现的频率。假设一共有10篇文档，其中某个词A在其中10篇文章中都出先过，另一个词B只在其中3篇文中出现。请问哪一个词更关键？

给你一分钟思考一下，然后继续读。

公布答案时间到。

答案是B更关键。

A可能就是虚词，或者全部文档共享的主题词。而B只在3篇文档中出现，因此很有可能是个关键词。

逆文档频率就是把这种文档频率取倒数。这样第一部分和第二部分都是越高越好。二者都高，就很有可能是关键词了。

TF-idf讲完了，下面我们说说TextRank。

相对于TF-idf，TextRank要显得更加复杂一些。它不是简单做加减乘除运算，而是基于图的计算。

文章来源：https://zhuanlan.zhihu.com/p/31870596?group_id=923093802266013696