Receipt-AVQA-2023

Страница соревнования на сайте конференции Диалог:

https://www.dialog-21.ru/evaluation/2023/receiptavqa2023/

Официальный Telegram канал с новостями по датасету/соревнованию:

https://t.me/receiptavga2023

Страница соревнования на платформе CodaLab (пример формата сабмита можно посмотреть в директории sample_submission репозитория):

https://codalab.lisn.upsaclay.fr/competitions/11087

Описание задачи

Участникам предлагается к выполнению задача автоматической генерации ответов на вопросы к изображению (Visual Question Answering), а также генерации ответов на вопросы с использованием текстовой информации (Question Answering).

Датасет

Датасет, на основе которого необходимо выполнить задачу, представляет собой изображения товарных чеков с текстом на английском языке и вопросы и ответы к ним. Для ответа на вопросы потребуется применение простейших операций агрегации к извлечённым данным (суммирование, умножение, усреднение и прочие).

Изображения товарных чеков взяты из датасетов CORD и SROIE2019.

Для задачи Visual Question Answering участники могут использовать в качества входных данные изображения товарных чеков и вопрос в текстовой форме.

Для задачи Question Answering для каждого товарного чека дополнительно доступен файл с текстовым содержимым товарного чека.

Изображения хранятся в директории images. В директории dev хранятся изображения для валидационной выборки. В директориях train_part1, train_part2 хранятся изображения для обучающей выборки. В директории test хранятся изображения тестовой выборки.

В директории text хранится текстовая разметка для изображений чеков (все текстовые токен с их координатами). В этой директории данные также разбиты по сплитам.

Отдельной в файле questions_answers.csv хранятся вопросы (столбец question) и ответы (столбец answer) к ним. Чтобы можно было сопоставить изображения/текстовую разметку с файлами для каждой пары вопрос-ответ предоставлена информация с выборке (столбец split) и имени файла (столбец file_name).

В файле test_questions.csv хранятся вопросы тестовой выборки с сопутствующей информацией.

История изменений датасета

v6 (17 марта)

Добавлены ответы для вопросов тестового сплита и лицензия для датасета

v5 (27 февраля)

Добавлены данные и вопросы для тестового сплита (пока без ответов)

v4 (17 февраля)

Добавлены категории вопросов в зависимости от типа возвращаемого значения (столбец question_category)
Добавлена информация о валюте чека в каждом вопросе (столбец receipt_currency)
Добавлен список типов операций, которые необходимо произвести для получения ответа (столбец operations)
Исправлен ряд опечаток в формировании вопросов

v3 (14 февраля)

Добавлены координаты текстового содержимого в формате x1,y1,x2,y2,x3,y3,x4,y4,text
Исправлено 8 ответов на вопросов для валидационной выборки
Исправлены формулировки в 3 вопросов для валидационной выборки
Исправлена опечатка в слове cash (cach -> cash)

v2 (24 января)

Заменена существенная часть вопросов (в частности, много вопросов для dev сплита)
Переформулирована небольшая часть формулировок вопросов (убраны грамматические ошибки, более развернутые формулировки вопросов)
Исправлены опечатки в ответах к ряду вопросов (< 10 вопросов-ответов)
Удалены некорректно поставленные вопросы (< 10 вопросов-ответов)

v1 (25 декабря)

Первая версия датасета

График проведения соревнования

25 декабря — публикация обучающего и валидационного датасетов;
~~18 февраля~~ 26 февраля — публикация тестового датасета;
~~1 марта~~ 10 марта — предоставление участниками результатов;
~~5 марта~~ 14 марта— публикация оценки результатов;
~~1 апреля~~ 8 апреля — предоставление участниками статей.

Name		Name	Last commit message	Last commit date
Latest commit History 12 Commits
images		images
sample_submission		sample_submission
text		text
LICENSE-CC-BY		LICENSE-CC-BY
README.md		README.md
questions_answers.csv		questions_answers.csv
test_questions_answers.csv		test_questions_answers.csv

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Receipt-AVQA-2023

Описание задачи

Датасет

История изменений датасета

v6 (17 марта)

v5 (27 февраля)

v4 (17 февраля)

v3 (14 февраля)

v2 (24 января)

v1 (25 декабря)

График проведения соревнования

About

Releases 5

Packages

License

dialogue-evaluation/Receipt-AVQA-2023

Folders and files

Latest commit

History

Repository files navigation

Receipt-AVQA-2023

Описание задачи

Датасет

История изменений датасета

v6 (17 марта)

v5 (27 февраля)

v4 (17 февраля)

v3 (14 февраля)

v2 (24 января)

v1 (25 декабря)

График проведения соревнования

About

Resources

License

Stars

Watchers

Forks

Releases 5

Packages 0

Packages