Skip to content

tkdsheep/TDT

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

27 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

TDT

Topic Detection and Tracking

基本思路参考CIKM‘08的paper:Automatic Online News Topic Ranking Using Media Focus and User Attention Based on Aging Theory

算法核心包括:LDA,VSM,Aging Theory,TF-IDF(with burstiness),中文分词

算法分为两步:

第一步:训练历史数据语料库,得到大部分词语的“历史文档频率”

第二步:在测试数据集上运行TDT算法,实时发现热点话题

在本地实验里,以凤凰网2013年10月的新闻数据集作为训练集,2013年12月的新闻数据集作为测试集

其中2013年12月的热点话题如下(仅限于凤凰网数据集):

中国东海防空识别区

中国嫦娥三号探月卫星

泰国政局动荡

英国首相卡梅伦访华

乌克兰出现政治危机

北京“老外扶人遭讹”不实

华东地区雾霾严重

重庆女孩电梯内摔打男婴

南非前总统曼德拉去世

朝鲜张成泽被处决

中央经济工作会议

人社部回应“延迟退休”

2014年放假安排出炉

中美军舰南海对峙

安倍政府出台三大防卫文件

南京“和平烛光祭”悼念大屠杀30万遇难同胞

中共高层纪念毛泽东诞辰120周年

山东出现“夺命快递”

多地婴儿因“夺命乙肝疫苗”死亡

人大自主招生暂停

行政诉讼法拟修改

南苏丹种族屠杀

单独二胎立法审议

安倍参拜靖国神社

中国劳教制度被正式废除

四川泸州商城连环爆炸

俄火车站遭“黑寡妇”恐怖袭击

习近平庆丰包子铺排队买包子

About

Topic Detection and Tracking

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages