Для оценки качества текстовых заданий вида "вопрос-ответ" используется метрика F1. Метрика F1 рассчитывается по всем токенам в предсказанном (после постобработки сгенерированного текста) и истинном ответах и выражает среднее гармоническое точности (precision) и полноты (recall) предсказанных ответов. Стандартная формула для метрики:
Для оценки ответов на вопросы (TextQA):
где — количество общих токенов для предсказанного и истинного ответа;
— количество токенов в предсказанном ответе;
— количество токенов в истинном ответе.
Для оценки качества математических заданий вида "вопрос-ответ" используется метрика Exact Match (EM)
EM принимает значение 1, если все токены в предсказанном ответе (после постобработки сгенерированного текста) полностью совпадают с токенами в истинном ответе, в противном случае значение метрики
Данная метрика используется для математических задач с множественным выбором (MathQA), где ответом может выступать либо только буква, соответствующая правильному варианту ответа из предложенных, либо число, соответствующее правильному решению математической задачи, либо комбинация правильной буквы и числа.
Для оценки качества решения задач text-to-image используются две основные метрики: FID и CLIP. Данные метрики широко используются в задачах генерации изображений по тексту.
FID — это расстояние Фреше между двумя многомерными распределениями Гаусса:
Вместо прямого сравнения изображений пиксель за пикселем, FID сравнивает среднее значение и стандартное отклонение одного из более глубоких слоев в сверточной нейронной сети. Эти слои расположены ближе к выходным узлам, которые соответствуют объектам реального мира, таким как определенная порода собак или самолет, и дальше от мелких слоев рядом с входным изображением. В результате они имеют тенденцию имитировать человеческое восприятие сходства изображений. Значение метрики тем лучше, чем оно ближе к 0, при этом метрика ненормированная и значения сильно зависят от объема выборки, используемой для ее измерения.
CLIP score – метрика, которая позволяет оценить, насколько визуальное представление соответствует текстовому описанию. Для расчета метрики используется нейронная сеть CLIP, которая для каждой пары "картинка-текст" выдает соответствующие текстовый и визуальный эмбеддинги. Полученные репрезентации сравниваются по косинусному расстоянию (cosine similarity). Cosine similarity отражает меру сходства между двумя векторами и вычисляется по формуле:
где
Косинусное расстояние равно 1, если соответствующие текстовые и визуальные векторные репрезентации совпадают – и 0, если полностью отличны друг от друга. Общее значение CLIP score вычисляется как усредненное значение метрики, рассчитанное по всем тестовым примерам для этой задачи.
Финальная метрика для оценки задачи text-to-image представляет собой комбинацию метрик FID и CLIP score и рассчитывается по следующей формуле:
Для задачи оценки качества сгенерированных текстовых описаний изображений используются метрики METEOR и CLIP score.
METEOR – метрика, основанная на анализе n-грамм и ориентированная на использование статистической и точной оценки исходного текста. Данная метрика использует функции сопоставления синонимов вместе с точным соответствием слов.
Алгоритм сначала проводит выравнивание текста между двумя предложениями – строкой эталонного перевода и строкой входного текста для оценивания. Затем используется несколько этапов установления соответствия между словами машинного перевода и эталонного перевода для сопоставления двух строк:
- Точное установление соответствия — определяются строки, которые являются идентичными в эталонном и машинном переводе.
- Установление соответствия основ — проводится стемминг (выделение основы слова), и определяются слова с одинаковым корнем в эталонном и машинном переводе.
- Установление соответствия синонимов — определяются слова, которые являются синонимами в соответствии с RuWordNet.
Выравнивание — это множество соответствий между n-граммами. На соответствие налагается следующее ограничение: каждый n-грамм в предложении-кандидате должен соответствовать одному или ни одному n-грамму в эталонном предложении. Если есть два выравнивания с тем же количеством совпадений, то выбирается то, которое имеет наименьшее количество пересечений для совпадений. Этапы сравнения с эталонными переводами выполняются последовательно, и на каждом из них ко множеству соответствий добавляются только те n-граммы, которые не имели соответствия на предыдущих этапах. Как только будет пройден последний этап, окончательное значение точности (precision) n-грамм вычисляется по следующей формуле:
где
Значение полноты (recall) n-грамм (общий n-грамм для эталонных переводов) вычисляется по следующей формуле:
где
В результате METEOR рассчитывается как комбинация точности и полноты, используя формулу гармонического среднего, в которой вес полноты в 9 раз больше веса точности:
Общее значение метрики METEOR вычисляется как усредненное значение метрики, рассчитанное по всем тестовым примерам для этой задачи.
CLIP score – метрика, которая позволяет оценить, насколько текстовое описание соответствует визуальному представлению. Метрика рассчитывается аналогично метрике, использующейся в задаче image generation.
Финальная метрика для оценки задачи ImageCaptioning рассчитывается как среднее значение метрик METEOR и CLIP score.
Для задачи VisualQA используется метрика METEOR. METEOR рассчитывается аналогично метрике, описанной в задаче image captioning. Однако добавлены некоторые модификации:
- Учитывается, в какой пропорции предсказанный численный результат отличается от реального численного результата. Для этого из пары предсказанного и эталонного результата выбирается наименьшее число и делится на большее. Таким образом, если числа совпадают, то метрика для этой пары равна 1, в противном случае метрика вычисляется пропорционально.
- Осуществляется перевод числительных из текстового формата в числовой: "три" - 3.
В качестве основной метрики для оценки решений участников используется метрика 1 - NED (NED - Normalized Edit Distance), которая рассчитывается следующим образом:
где
Метрика по каждой из открытых задач изменяется от 0 до 1, где 0 – наихудшее значение, 1 – наилучшее.
Для каждой из 6 скрытых задач рассчитывается соответствующая ей скрытая метрика