Skip to content

wangdongfrank/CCFBDC2014

 
 

Repository files navigation

#第二届中国大数据技术创新大赛作品

危害公共安全事件的关联关系挖掘及预测

本危害公共安全事件的关联关系挖掘及预测案例,提供了基于多维(时间、空间、语义)数据分析的公共安全事件管理方法,包括同类、异类事件的相关性分析,以及预测未来一段时间内同地区发生类似事件的可能性。

项目资料

项目包含参赛过程中的数据集、源代码、文档、以及BDTC报告幻灯片(PDF)。有需要进一步咨询或交流的童鞋可联系OmniEye团队成员,我们希望能和大家有更多的交流。

数据集

本赛题的数据集由海量公司提供。原始数据集主要包括从网络媒体 (包括新闻和微博)爬取的2011-2014年三类公共安全事件(公交爆炸、暴力恐怖、校园砍杀)的报道数据。原始数据集 我们也提供了下载(提取密码: k4zd)。除此之外,我们还公开了比赛过程中采集到其他数据集,以及分析过程中生成的重要结果,如事件量化特征;此类扩展数据集托管在我们OMNILab基于CKAN的数据共享平台上,可免费下载。

源代码

针对比赛数据,该项目代码提供了完整的媒体数据处理和模型生成方法,主要分为关联性分析和未来事件预测两部分。源代码托管在Github上,主要包含以下核心模块:

  • 媒体事件识别、提取、分类
  • 众包事件标注与事件分类校验
  • 时空、语义特征提取
  • 媒体传播规律、事件发生时空关联性分析
  • 基于Gradient-Boosting算法的事件预测、交叉验证

代码的详细使用文档请参考Wiki说明

文档及报告

参赛过程中的总体分析思路和结果,最终以文档的形式提交给比赛组委会。这里我们共享出提交文档以及BDTC2014会议的专场报告。文档包含在该项目源代码根目录下:

如果您使用的是Web浏览器,可直接访问论文的网页版本

公共安全事件可视化

经过语境过滤的事件分类和事件提取之后,我们获得了~1200件大小事件的发生时间、地点、以及媒体影响。针对这些数据的可视化展示请访问:http://omni-lab.github.io/CCFBDC2014/map

赛事链接

编辑时间 2014-12-24

About

Data and code repository for CCF Big Data Challenge, 2014.

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • Python 49.3%
  • PHP 40.3%
  • R 10.4%