No description, website, or topics provided.
Switch branches/tags
Nothing to show
Clone or download
Fetching latest commit…
Cannot retrieve the latest commit at this time.
Permalink
Failed to load latest commit information.
baseline init Sep 28, 2018
README.md

README.md

CFT2018 contest: исправление опечаток

Материалы к соревнованию по исправлению опечаток CFT2018 contest.

Описание задачи

CFT2018 — соревнование по определению корректности введённых пользователями ФИО и исправлению опечаток в них. Соревнование включает в себя две задачи:

  • определение корректности введённых ФИО (классификация на 3 класса: корректно 0, есть опечатки 1, мусор вместо ФИО 2);
  • исправление опечаток во введённых ФИО (только при наличии опечаток).

Наличие отчества в ФИО не является обязательным. Мусором считается строк, содержащая не ФИО.

Формат набора данных

Для обучения моделей предоставляется обучающая выборка, содержащая следующие колонки:

  • id — идендификатор (несёт вспомогательную роль)
  • fullname — исходное ФИО из анкеты (может не иметь отчества)
  • country — страна из анкеты
  • target — целевая переменная
  • fullname_true — исправленное ФИО (присутствует только в строках с классом "есть опечатки").

Для оценки качества предоставляется тестовая выборка, в которой колонки target и fullname_true отсутствуют.

Формат решения

В проверяющую систему необходимо отправить файл с предсказаниями в формате csv, содержащий следующие колонки:

  • id
  • target
  • fullname_true (можно не заполнять для строк с предсказаниями класса, отличного от "есть опечатки").

Использование открытых данных и библиотек

Система оценки

  1. Для задачи определения корректности введённых ФИО целевая метрика: F1 с макроусреднением (то есть усредняется F1, посчитанный отдельно для каждого класса).
  2. Для задачи исправления опечаток, считается точность (доля правильно исправленных ФИО). Подсчёт ведётся только на объектах класса "есть опечатки", при этом корректно исправленная опечатка требует предсказание наличия опечаток (то есть требуется и предсказать класс "есть опечатки", и правильно исправить ФИО).
  3. Итоговый результат вычисляется как среднее арифметическое метрик каждой из задач.

Функции для вычисления качества можно найти в baseline/scoring.py.