Skip to content

shibing624/fake-news-detector

Repository files navigation

fake-news-detector

Fake News Detection Competition

背景简介

互联网虚假信息正在威胁着全球互联网的安全,其在规模、传播速度、造假手段三个方面呈现快速增长。2018年顶级国际期刊《科学》指出, 在2016年美国总统大选期间样本选民平均每人每天要接触4篇假新闻;要传播至1500个选民,假新闻的速度是真实新闻的6-20倍。 研究认为互联网虚假新闻甚至影响了英国脱欧投票和2016年美国总统大选的结果。2018年底陆续出来的DeepFake造假技术(图像视频换脸) 和DeepNude造假技术(自动生成裸体照片)给各国政府带来了恐慌。国际咨询公司Gartner预测,到2020年,互联网虚假新闻将面临泛滥之势, 基于人工智能技术的造假能力将远超于虚假检测的能力。

这种现象引起了各国政府和社会群体的空前关切和担忧,其对国家安全、个人与企业声誉和媒体信任度带来了严重冲击。为此,2019年6月, 美国国会召开听证会,讨论DeepFake(深度伪造)技术的风险和对策。呼吁国家加强虚假信息检测技术的研发,以及虚假信息治理执法。 2019年8月,人民网舆情中心也发出了同样的呼吁,目前辟谣滞后造成“空窗期”内谣言广泛传播,造假手段不断更新让人工审核力不从心, 急需开展人工智能技术和人工审核结合的联合辟谣。

本次虚假新闻检测由中国科学院计算技术研究所,以及北京智源人工智能研究院共同举办,旨在促进互联网虚假新闻检测技术的发展,营造清朗的网络空间。

任务描述

为应对当前虚假新闻泛滥的现状,将虚假新闻带来的危害最小化,我们设立此赛题以促进对虚假新闻自动化检测方法的研究。针对虚假新闻的特点,我们设立了任务:

虚假新闻文本检测:文本是新闻信息的主要载体,对新闻文本的研究有助于虚假新闻的有效识别。具体任务为:给定一个新闻事件的文本,判定该事件属于真实新闻还是虚假新闻。

Data format

Data link,数据文件请从官网下载,比赛开放,注册即可下载。

虚假新闻文本检测任务中,训练集共包含38,471条新闻,其中包含真实新闻19,186条,虚假新闻19,285条。初赛测试集共4,000条,复赛测试集3,902条,真假新闻比例与训练集基本一致。

数据字段:
        id:新闻id,每条文本中id均不相同,唯一表征一条新闻;

        text: 新闻的文本内容;

        label: 取值为{0,1},0表示真实新闻,1表示虚假新闻。

About

Fake News Detection Competition

Topics

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages