基于TF-IDF的中文关键词提取

requirements

默认环境python3，需要结巴分词器的支持

$ pip install jieba

用法：

$ python gen_idf.py -i <inputdir> -o <outputfile>

用法：

$ python tfidf.py -i <idffile> -d <document> -t <topK>

$ python tfidf.py -i idf.txt -d test.txt -t 20

返回结果：

核
处理器
服务器
系统核心
封装
系列
插槽
核心
主频
产品
伊斯坦布尔
英特尔
功耗
多处理器
低仅
折合
浮点运算
性能
构建
吹起

注：该repo中提供的idf.txt由清华NLP组的新闻数据集训练获得。

Name		Name	Last commit message	Last commit date
Latest commit History 18 Commits
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
gen_idf.py		gen_idf.py
idf.txt		idf.txt
segmenter.py		segmenter.py
test.txt		test.txt
tfidf.py		tfidf.py