Skip to content
master
Go to file
Code

Latest commit

 

Git stats

Files

Permalink
Failed to load latest commit information.
Type
Name
Latest commit message
Commit time
 
 
 
 

README.md

CFT2018 contest: исправление опечаток

Материалы к соревнованию по исправлению опечаток CFT2018 contest.

Описание задачи

CFT2018 — соревнование по определению корректности введённых пользователями ФИО и исправлению опечаток в них. Соревнование включает в себя две задачи:

  • определение корректности введённых ФИО (классификация на 3 класса: корректно 0, есть опечатки 1, мусор вместо ФИО 2);
  • исправление опечаток во введённых ФИО (только при наличии опечаток).

Наличие отчества в ФИО не является обязательным. Мусором считается строк, содержащая не ФИО.

Формат набора данных

Для обучения моделей предоставляется обучающая выборка, содержащая следующие колонки:

  • id — идендификатор (несёт вспомогательную роль)
  • fullname — исходное ФИО из анкеты (может не иметь отчества)
  • country — страна из анкеты
  • target — целевая переменная
  • fullname_true — исправленное ФИО (присутствует только в строках с классом "есть опечатки").

Для оценки качества предоставляется тестовая выборка, в которой колонки target и fullname_true отсутствуют.

Формат решения

В проверяющую систему необходимо отправить файл с предсказаниями в формате csv, содержащий следующие колонки:

  • id
  • target
  • fullname_true (можно не заполнять для строк с предсказаниями класса, отличного от "есть опечатки").

Использование открытых данных и библиотек

Система оценки

  1. Для задачи определения корректности введённых ФИО целевая метрика: F1 с макроусреднением (то есть усредняется F1, посчитанный отдельно для каждого класса).
  2. Для задачи исправления опечаток, считается точность (доля правильно исправленных ФИО). Подсчёт ведётся только на объектах класса "есть опечатки", при этом корректно исправленная опечатка требует предсказание наличия опечаток (то есть требуется и предсказать класс "есть опечатки", и правильно исправить ФИО).
  3. Итоговый результат вычисляется как среднее арифметическое метрик каждой из задач.

Функции для вычисления качества можно найти в baseline/scoring.py.

About

Materials for CFT 2018 Contest: mistakes correction

Topics

Resources

Releases

No releases published

Packages

No packages published
You can’t perform that action at this time.