Skip to content

brown-uk/corpus

master
Switch branches/tags
Code

Latest commit

 

Git stats

Files

Permalink
Failed to load latest commit information.
Type
Name
Latest commit message
Commit time
Jul 27, 2022
doc
Jul 27, 2022
Jan 9, 2019
Feb 20, 2022

Браунський корпус української мови

Завдання

Створити відкритий, збалансований за жанрами та в майбутньому проанотований корпус сучасної української мови (БрУК) обсягом 1 млн слововживань. Корпус побудований на засадах, що були покладені в основу відомого корпусу англійської мови Brown.

Структура репозиторію

  • misc - допоміжні файли
  • data - фрагменти текстів, зібрані для корпусу
    • good - перевірені фрагменти, написані літературною українською мовою
    • so-so - перевірені фрагменти, що містять помилки
    • bad - перевірені фрагменти, що зовсім не відповідають вимогам (наприклад, усне мовлення)
    • unprocessed - фрагменти, що чекають на перевірку
  • doc - документація: вимоги до фрагментів та рішення щодо мовних питань
  • scripts - допоміжні скрипти: обчислення статистики та список доданих творів

Команда

  • Василь Старко
  • Андрій Рисін
  • Ольга Гавура
  • Наталія Чейлитко
  • Мар’яна Романишин
  • Настасія Осідач
  • Катерина Альошкіна
  • Катерина Бобровник
  • Христина Кулак
  • Оксана Кунікевич
  • Тетяна Матвєєва
  • Ірина Возна
  • Ян Бутельський

Ліцензія

Дані корпусу доступні для використання згідно з умовами ліцензії "Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License" (http://creativecommons.org/licenses/by-nc-sa/4.0/)

Інші проекти

  • ВЕСУМ - Великий електронний словник української мови
  • LanguageTool - вільний програмний засіб для перевірки граматики та стилю для української мови
  • lang-uk - проект, метою якого є покращення комп'ютерної обробки україномовних текстів

About

Браунський корпус української мови

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published