Ukranian NER annotation project
Switch branches/tags
Nothing to show
Clone or download
Fetching latest commit…
Cannot retrieve the latest commit at this time.
Permalink
Type Name Latest commit message Commit time
Failed to load latest commit information.
data
doc
models
scripts
.gitignore
README.md

README.md

NER-анотація українського корпусу

Опис даних

Корпус розмічених даних знаходиться в папці data/. Всього в корпусі:

 • 229 текстів
 • 217381 токенів
 • 6751 сутностей NER:
  • ПЕРС - 4060
  • ЛОК - 1442
  • ОРГ - 649
  • РІЗН - 600

Первинним джерелом даних є відкритий корпус українських текстів. Для кожного обробленого тексту з корпусу наявні два файли:

 • файл з розширенням tok.txt містить токенізовану версію тексту (токенізація зроблена за наступними правилами)
 • файл з розширенням tok.ann містить NER-анотації до цього тексту у форматі Brat Standoff Format (кожний рядок файлу містить 3 записи, розділені табуляцією: номер анотації, початковий і кінцевий індекс в тексті — у даному випадку, токенізованому — через пробіл, текст сутності)

Анотація виконана двома анотаторами на кожний текст за наступними правилами, розбіжності в результатах виправлені третім анотатором.

Для тренування і валідації моделей рекомендовано використовувати Стандартне розбиття на DEV і TEST набори.

Ліцензія

Ці дані доступні для використання згідно умов ліцензії "Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License"

Creative Commons License
"Корпус NER-анотацій українських текстів" by lang-uk is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.
Based on a work at https://github.com/lang-uk/ner-uk.