Skip to content

yanqiangmiffy/shence-cup

Repository files navigation

shence-cup

extract keywords from a document

神策杯”2018高校算法大师赛 B榜排名top2%(13/583)

得分情况

  • 01_snow_textrank.py:暂定
  • 02_jieba_tfidf.py:377.5|415(custom)
  • 03_jieba_textrank.py:204.5
  • 04_jieba_postag.py:425.0
  • 05_jieba_postag.py:334.5
  • 06_jieba_ensemble.py:515
  • analysis_for_06.py:607.5

数据分析:

  • 1-40000:影视新闻
  • 40001-44060:体育新闻
  • 44061-54060:健康新闻
  • 54061-64060:军事新闻
  • 64061-74060:正文文本
  • 74061-84060:教育新闻
  • 98296-108295:饮食菜谱

提升技巧

  • 词性相同的情况下,选取长度大的关键词

    已解决,效果有明显提升,这也符合常理,词长度在3-5之间,一般在一个标题中是一个重要词汇

  • 存在错别字

  • 无“手机品牌”字典

    已解决:尝试增加这部分词典

  • 像“杰森·斯坦森”、“《摇曳庄的幽奈小姐:蒸汽迷宫》”这些词,jieba分词存在缺陷

    已解决:需要对包含特殊符号的句子做处理,效果有提升

  • 标题中没有关键词

    待提升:发现这种标题的规律,需要从正文中提取

    这种标题一般有个特点就是:含有标点符号,比如:

    • 老公遭曝光?邓莎回应质疑:他身材比我好散了吧
    • 亚姐出身被前夫冷落?过档TVB专门“搞事”,视后非她莫属了?
    • 高秋梓100斤是真的吗?小姐姐托举黄渤很容易,却举不起她!
    • 哺乳期间怎么忌口?真的没有那么复杂
  • 词性标错

这个是导致tf-idf提取关键字误差较大的原因

About

🐇 “神策杯”关键词提取

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages