# 前言

## 关键词抽取的两种方法

### 关键词分配

给定一个已有的关键词库，对于新来的文档从该词库里面匹配几个词语作为这篇文档的关键词。

### 关键词提取

针对新文档，通过算法分析，提取文档中一些词语作为该文档的关键词

# 基于 TF-IDF 算法进行关键词提取

TF-IDF 是 Term Frequency（词频） - Inverse Document Frequency(逆文档频率)。

TF-IDF 是一种数值统计，用于反映一个词对于语料中某篇文档的重要性

主要思想就是：如果某个词在一篇文档中出现的频率高，也即 TF 高；并且在语料库中其他文档中很少出现，即 DF 低，也即 IDF 高，则认为这个词具有很好的类别区分能力

## jieba中的实现

In [5]:
import jieba

In [8]:
sentence = "人工智能（Artificial Intelligence），英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能从诞生以来，理论和技术日益成熟，应用领域也不断扩大，可以设想，未来人工智能带来的科技产品，将会是人类智慧的“容器”。人工智能可以对人的意识、思维的信息过程的模拟。人工智能不是人的智能，但能像人那样思考、也可能超过人的智能。人工智能是一门极富挑战性的科学，从事这项工作的人必须懂得计算机知识，心理学和哲学。人工智能是包括十分广泛的科学，它由不同的领域组成，如机器学习，计算机视觉等等，总的说来，人工智能研究的一个主要目标是使机器能够胜任一些通常需要人类智能才能完成的复杂工作。但不同的时代、不同的人对这种“复杂工作”的理解是不同的。2017年12月，人工智能入选“2017年度中国媒体十大流行语”。"
" ".join(jieba.analyse.extract_tags(sentence, topK=20, withWeight=False, allowPOS=()))

'人工智能 智能 2017 机器 不同 人类 科学 模拟 一门 技术 计算机 研究 工作 Intelligence AI 图像识别 Artificial 12 复杂 流行语'

- withWeight：是否需要返回关键词权重值，默认值为 False；
- allowPOS：仅包括指定词性的词，默认值为空，即不筛选。

# 基于 TextRank 算法进行关键词提取

TextRank 是由 PageRank 改进而来，核心思想将文本中的词看作图中的节点，通过边相互连接，不同的节点会有不同的权重，权重高的节点可以作为关键词

## jieba实现

In [16]:
" ".join(jieba.analyse.textrank(sentence, topK=20, withWeight=False, allowPOS=("ns", "n", "vn", "v")))

'智能 人工智能 机器 人类 研究 技术 模拟 包括 科学 工作 领域 理论 计算机 年度 需要 语言 相似 方式 做出 心理学'

# 基于 LDA 主题模型进行关键词提取

用gensim实现

## TODO 实现

# 基于 pyhanlp 进行关键词提取

In [23]:
from pyhanlp import *

" ".join(HanLP.extractKeyword(sentence, 20))

'人工智能 智能 领域 人类 研究 不同 工作 包括 模拟 新的 机器 计算机 门 科学 应用 系统 理论 技术 入选 复杂'