Name		Name	Last commit message	Last commit date
Latest commit History 63 Commits
data		data
test		test
utils		utils
01_snow_textrank.py		01_snow_textrank.py
02_jieba_tfidf.py		02_jieba_tfidf.py
03_jieba_textrank.py		03_jieba_textrank.py
04_jieba_postag.py		04_jieba_postag.py
05_ltp_postag.py		05_ltp_postag.py
06_jieba_ensemble.py		06_jieba_ensemble.py
07_w2v_rf.py		07_w2v_rf.py
README.md		README.md
analysis_for_06.py		analysis_for_06.py
demo.py		demo.py
generate_dict.py		generate_dict.py
preprocess.py		preprocess.py

Repository files navigation

shence-cup

extract keywords from a document

神策杯”2018高校算法大师赛 B榜排名top2%(13/583)

得分情况

01_snow_textrank.py:暂定
02_jieba_tfidf.py:377.5|415(custom)
03_jieba_textrank.py:204.5
04_jieba_postag.py:425.0
05_jieba_postag.py:334.5
06_jieba_ensemble.py:515
analysis_for_06.py:607.5

数据分析：

1-40000：影视新闻
40001-44060：体育新闻
44061-54060：健康新闻
54061-64060：军事新闻
64061-74060：正文文本
74061-84060：教育新闻
98296-108295:饮食菜谱

提升技巧

词性相同的情况下，选取长度大的关键词

已解决，效果有明显提升，这也符合常理，词长度在3-5之间，一般在一个标题中是一个重要词汇
存在错别字
无“手机品牌”字典

已解决：尝试增加这部分词典
像“杰森·斯坦森”、“《摇曳庄的幽奈小姐：蒸汽迷宫》”这些词，jieba分词存在缺陷

已解决：需要对包含特殊符号的句子做处理，效果有提升
标题中没有关键词

待提升：发现这种标题的规律，需要从正文中提取

这种标题一般有个特点就是：含有标点符号，比如:
- 老公遭曝光？邓莎回应质疑：他身材比我好散了吧
- 亚姐出身被前夫冷落？过档TVB专门“搞事”，视后非她莫属了？
- 高秋梓100斤是真的吗？小姐姐托举黄渤很容易，却举不起她！
- 哺乳期间怎么忌口？真的没有那么复杂
词性标错

这个是导致tf-idf提取关键字误差较大的原因

About

🐇 “神策杯”关键词提取

Report repository

Releases

No releases published

Packages

No packages published

Languages

Python 100.0%