Skip to content

dialogue-evaluation/Receipt-AVQA-2023

Repository files navigation

Receipt-AVQA-2023

Страница соревнования на сайте конференции Диалог:

https://www.dialog-21.ru/evaluation/2023/receiptavqa2023/

Официальный Telegram канал с новостями по датасету/соревнованию:

https://t.me/receiptavga2023

Страница соревнования на платформе CodaLab (пример формата сабмита можно посмотреть в директории sample_submission репозитория):

https://codalab.lisn.upsaclay.fr/competitions/11087

Описание задачи

Участникам предлагается к выполнению задача автоматической генерации ответов на вопросы к изображению (Visual Question Answering), а также генерации ответов на вопросы с использованием текстовой информации (Question Answering).

Датасет

Датасет, на основе которого необходимо выполнить задачу, представляет собой изображения товарных чеков с текстом на английском языке и вопросы и ответы к ним. Для ответа на вопросы потребуется применение простейших операций агрегации к извлечённым данным (суммирование, умножение, усреднение и прочие).

Изображения товарных чеков взяты из датасетов CORD и SROIE2019.

Для задачи Visual Question Answering участники могут использовать в качества входных данные изображения товарных чеков и вопрос в текстовой форме.

Для задачи Question Answering для каждого товарного чека дополнительно доступен файл с текстовым содержимым товарного чека.

Изображения хранятся в директории images. В директории dev хранятся изображения для валидационной выборки. В директориях train_part1, train_part2 хранятся изображения для обучающей выборки. В директории test хранятся изображения тестовой выборки.

В директории text хранится текстовая разметка для изображений чеков (все текстовые токен с их координатами). В этой директории данные также разбиты по сплитам.

Отдельной в файле questions_answers.csv хранятся вопросы (столбец question) и ответы (столбец answer) к ним. Чтобы можно было сопоставить изображения/текстовую разметку с файлами для каждой пары вопрос-ответ предоставлена информация с выборке (столбец split) и имени файла (столбец file_name).

В файле test_questions.csv хранятся вопросы тестовой выборки с сопутствующей информацией.

История изменений датасета

v6 (17 марта)

  • Добавлены ответы для вопросов тестового сплита и лицензия для датасета

v5 (27 февраля)

  • Добавлены данные и вопросы для тестового сплита (пока без ответов)

v4 (17 февраля)

  • Добавлены категории вопросов в зависимости от типа возвращаемого значения (столбец question_category)
  • Добавлена информация о валюте чека в каждом вопросе (столбец receipt_currency)
  • Добавлен список типов операций, которые необходимо произвести для получения ответа (столбец operations)
  • Исправлен ряд опечаток в формировании вопросов

v3 (14 февраля)

  • Добавлены координаты текстового содержимого в формате x1,y1,x2,y2,x3,y3,x4,y4,text
  • Исправлено 8 ответов на вопросов для валидационной выборки
  • Исправлены формулировки в 3 вопросов для валидационной выборки
  • Исправлена опечатка в слове cash (cach -> cash)

v2 (24 января)

  • Заменена существенная часть вопросов (в частности, много вопросов для dev сплита)
  • Переформулирована небольшая часть формулировок вопросов (убраны грамматические ошибки, более развернутые формулировки вопросов)
  • Исправлены опечатки в ответах к ряду вопросов (< 10 вопросов-ответов)
  • Удалены некорректно поставленные вопросы (< 10 вопросов-ответов)

v1 (25 декабря)

  • Первая версия датасета

График проведения соревнования

  • 25 декабря — публикация обучающего и валидационного датасетов;
  • 18 февраля 26 февраля — публикация тестового датасета;
  • 1 марта 10 марта — предоставление участниками результатов;
  • 5 марта 14 марта— публикация оценки результатов;
  • 1 апреля 8 апреля — предоставление участниками статей.