extract keywords from a document
神策杯”2018高校算法大师赛 B榜排名top2%(13/583)
- 01_snow_textrank.py:暂定
- 02_jieba_tfidf.py:377.5|415(custom)
- 03_jieba_textrank.py:204.5
- 04_jieba_postag.py:425.0
- 05_jieba_postag.py:334.5
- 06_jieba_ensemble.py:515
- analysis_for_06.py:607.5
- 1-40000:影视新闻
- 40001-44060:体育新闻
- 44061-54060:健康新闻
- 54061-64060:军事新闻
- 64061-74060:正文文本
- 74061-84060:教育新闻
- 98296-108295:饮食菜谱
-
词性相同的情况下,选取长度大的关键词
已解决,效果有明显提升,这也符合常理,词长度在3-5之间,一般在一个标题中是一个重要词汇
-
存在错别字
-
无“手机品牌”字典
已解决:尝试增加这部分词典
-
像“杰森·斯坦森”、“《摇曳庄的幽奈小姐:蒸汽迷宫》”这些词,jieba分词存在缺陷
已解决:需要对包含特殊符号的句子做处理,效果有提升
-
标题中没有关键词
待提升:发现这种标题的规律,需要从正文中提取
这种标题一般有个特点就是:含有标点符号,比如:
老公遭曝光?邓莎回应质疑:他身材比我好散了吧
亚姐出身被前夫冷落?过档TVB专门“搞事”,视后非她莫属了?
高秋梓100斤是真的吗?小姐姐托举黄渤很容易,却举不起她!
哺乳期间怎么忌口?真的没有那么复杂
-
词性标错
这个是导致tf-idf提取关键字误差较大的原因