Skip to content

文本关键词提取,对文本分词后使用多种方法提取给定语料中的关键词,包含结巴自带的 TF-IDF 算法、TextRank 算法、Scikit-Learn 包中的 TF-IDF

Notifications You must be signed in to change notification settings

jingpeicomp/mining-keywords

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

3 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

mining-keywords

关键词提取,使用多种方法提取给定语料中的关键词。步骤:

  1. 对给定的语料使用 结巴分词 进行中文分词
  2. 从分词后的词条中提取关键词

一共使用了四种方法提取关键词:

  1. 词条数目统计
  2. 结巴自带的 TF-IDF 算法、
  3. 结巴自带的 TextRank 算法、
  4. Scikit-Learn 包中的 TF-IDF 算法。

安装

依赖:

  • Python (2.7)
  • jieba (>= 0.39)
  • scikit-learn (>=0.20.2)

使用

data 目录中 origin.txt 文件是原始数据,执行 keywords.py 脚本后,输出关键词文件在 data 目录下。

About

文本关键词提取,对文本分词后使用多种方法提取给定语料中的关键词,包含结巴自带的 TF-IDF 算法、TextRank 算法、Scikit-Learn 包中的 TF-IDF

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages