-
Notifications
You must be signed in to change notification settings - Fork 0
sonyfe25cp/EventsMachine
This commit does not belong to any branch on this repository, and may belong to a fork outside of the repository.
Folders and files
Name | Name | Last commit message | Last commit date | |
---|---|---|---|---|
Repository files navigation
国内社会事件发现 全局: 根据抓取的国内新闻,进行相似度计算,找到同一事件,然后与历史事件进行对比, 增量添加到事件库中,利用PMI对事件进行分析提出关键词,对关键词作单独索引,事件用 最新报道作为其描述.页面中包含时间轴,按照发生时间逆序排列。 局部: 在前后两天的新闻中,对比几个网站的报道,共同报道的事件可以形成专题. 标注: 手工标注相似的事件,利用机器学习训练出事件相似度模型,形成各个事件的特征词 PMI计算求出各个事件中最大信息量的词 分类: 利用不同事件的特征词来分类,尝试差分特征词法 页面: 最终页:在同一个事件的页面上包含时间线,不同网站的报道,分析事件是否已经结束。 导航页:根据事件的更新情况,按照倒序来排列事件,优先排列可能成为连续事件的那些事件。地域事件列表 搜索页:根据事件的特征词进行语义扩展,用事件的第一篇报道为提示项目。 随便看看:优先排列一个月以内的事件。 页面交互:最终页添加事件是否相关的查询按钮,便于用户协同过滤,定时提纯相似度模型 任务: 1.新闻抓取 QQ新闻已经搞定 中新网待抓 凤凰网待抓 2.相似度分析(包含特征词分析) 3.页面设计 4.手工标注并用机器学习(研究) 5.搜索(查询扩展,事件搜索) 6.移动终端 pad,android,iphone