fake-news-detector

Fake News Detection Competition

Competition

背景简介

互联网虚假信息正在威胁着全球互联网的安全，其在规模、传播速度、造假手段三个方面呈现快速增长。2018年顶级国际期刊《科学》指出，在2016年美国总统大选期间样本选民平均每人每天要接触4篇假新闻；要传播至1500个选民，假新闻的速度是真实新闻的6-20倍。研究认为互联网虚假新闻甚至影响了英国脱欧投票和2016年美国总统大选的结果。2018年底陆续出来的DeepFake造假技术（图像视频换脸）和DeepNude造假技术（自动生成裸体照片）给各国政府带来了恐慌。国际咨询公司Gartner预测，到2020年，互联网虚假新闻将面临泛滥之势，基于人工智能技术的造假能力将远超于虚假检测的能力。

这种现象引起了各国政府和社会群体的空前关切和担忧，其对国家安全、个人与企业声誉和媒体信任度带来了严重冲击。为此，2019年6月，美国国会召开听证会，讨论DeepFake（深度伪造）技术的风险和对策。呼吁国家加强虚假信息检测技术的研发，以及虚假信息治理执法。 2019年8月，人民网舆情中心也发出了同样的呼吁，目前辟谣滞后造成“空窗期”内谣言广泛传播，造假手段不断更新让人工审核力不从心，急需开展人工智能技术和人工审核结合的联合辟谣。

本次虚假新闻检测由中国科学院计算技术研究所，以及北京智源人工智能研究院共同举办，旨在促进互联网虚假新闻检测技术的发展，营造清朗的网络空间。

任务描述

为应对当前虚假新闻泛滥的现状，将虚假新闻带来的危害最小化，我们设立此赛题以促进对虚假新闻自动化检测方法的研究。针对虚假新闻的特点，我们设立了任务：

虚假新闻文本检测：文本是新闻信息的主要载体，对新闻文本的研究有助于虚假新闻的有效识别。具体任务为：给定一个新闻事件的文本，判定该事件属于真实新闻还是虚假新闻。

Data format

Data link，数据文件请从官网下载，比赛开放，注册即可下载。

虚假新闻文本检测任务中，训练集共包含38,471条新闻，其中包含真实新闻19,186条，虚假新闻19,285条。初赛测试集共4,000条，复赛测试集3,902条，真假新闻比例与训练集基本一致。

数据字段：
        id：新闻id，每条文本中id均不相同，唯一表征一条新闻；

        text: 新闻的文本内容；

        label: 取值为{0,1}，0表示真实新闻，1表示虚假新闻。

Name		Name	Last commit message	Last commit date
Latest commit History 38 Commits
.github		.github
data		data
docs		docs
features		features
models		models
submits		submits
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
config.py		config.py
generate_features.py		generate_features.py
preprocess.py		preprocess.py
requirements.txt		requirements.txt
train_models.py		train_models.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

fake-news-detector

Competition

背景简介

任务描述

Data format

About

Releases

Packages

Languages

License

shibing624/fake-news-detector

Folders and files

Latest commit

History

Repository files navigation

fake-news-detector

Competition

背景简介

任务描述

Data format

About

Topics

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages