MMAI-synset

图像标签组成的多模态同义词集数据集

说明

多模态同义词集数据是建立在[1]基础上构建的，我们扩展了伊利诺伊大学香槟分校收集的Wikipedia文本同义词集数据集[1]，使其变为多模态同义词集数据。具体的，我们使用Wikipedia数据集中的所有名词短语，利用爬虫手段从Instagram社交媒体网站上爬取其对应的图像。我们将图像集合与文本标签作为多模态同义词集数据的一个实例，每个实例包含50张图片与1一个文本短语标签。

通过上述方法，我们获得了8,509个文本短语标签及其相应的425,450个图像。同时我们按照基于[1]中数据划分方式，将整个数据集分为训练集和测试集。训练集包含7,833个实例，而测试集包含676个实例。该数据集包含用于训练的3,911个同义词集和用于测试的209个同义词集。下面表显示了MMAI-Synset的统计信息。

No.	Characteristics	Quantity
1	# Noun Phrases	8,509
2	# Images	425,450
3	# Instances for Training	7833
4	# Instances for Testing	676
5	# Synonyms for Training	3911
6	# Synonyms for Testing	209

示例

helianthusannuus
sunflowers

下载

我们本文使用到的文本同义词集数据集,text_synset，对应图像数据visual_synset请按照以下步骤进行下载：

目前我们已经将数据集发布至互联网，需要使用的研究人员请发送姓名、单位和用途等信息至`peter_chen_jaon@foxmail.com, 我们将会返回数据集的下载地址。
下载完毕后，执行如下命令 cat mmai-synset/* | tar -zxvf进行解压

其他

如果你有什么需要帮助，请在发送邮件至peter_chen_jaon@foxmail.com

引用

Shen J, Lyu R, Ren X, et al. Mining Entity Synonyms with Efficient Neural Set Generation[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2019, 33: 249-256.
https://github.com/mickeystroller/SynSetMine-pytorch

VENUCE

我们发布了构建于MMAI-Synset的多模态同义标签集推断方法代码库Repo

Name		Name	Last commit message	Last commit date
Latest commit History 17 Commits
VENUE @ 25d6679		VENUE @ 25d6679
src		src
text_synset		text_synset
.gitignore		.gitignore
.gitmodules		.gitmodules
README.md		README.md
README_en.md		README_en.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

MMAI-synset

说明

示例

下载

其他

引用

VENUCE

About

Releases

Packages

bupt-mmai/MMAI-synset

Folders and files

Latest commit

History

Repository files navigation

MMAI-synset

说明

示例

下载

其他

引用

VENUCE

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Packages