Skip to content

Serhiy-Shekhovtsov/ner-uk

 
 

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

74 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

NER-анотація українського корпусу

Опис даних

Корпус розмічених даних знаходиться в папці data/. Всього в корпусі:

  • 229 текстів
  • 217381 токенів
  • 6751 сутностей NER:
    • ПЕРС - 4060
    • ЛОК - 1442
    • ОРГ - 649
    • РІЗН - 600

Первинним джерелом даних є відкритий корпус українських текстів. Для кожного обробленого тексту з корпусу наявні два файли:

  • файл з розширенням tok.txt містить токенізовану версію тексту (токенізація зроблена за наступними правилами)
  • файл з розширенням tok.ann містить NER-анотації до цього тексту у форматі Brat Standoff Format (кожний рядок файлу містить 3 записи, розділені табуляцією: номер анотації, початковий і кінцевий індекс в тексті — у даному випадку, токенізованому — через пробіл, текст сутності)

Анотація виконана двома анотаторами на кожний текст за наступними правилами, розбіжності в результатах виправлені третім анотатором.

Для тренування і валідації моделей рекомендовано використовувати Стандартне розбиття на DEV і TEST набори.

Ліцензія

Ці дані доступні для використання згідно умов ліцензії "Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License"

Creative Commons License
"Корпус NER-анотацій українських текстів" by lang-uk is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.
Based on a work at https://github.com/lang-uk/ner-uk.

About

Ukranian NER annotation project

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Languages

  • Common Lisp 97.8%
  • Python 1.8%
  • Shell 0.4%