Браунський корпус української мови
Python Groovy
Switch branches/tags
Nothing to show
Clone or download
Latest commit 20888cd May 16, 2018

README.md

Браунський корпус української мови

Завдання

Створити відкритий, збалансований за жанрами та в майбутньому проанотований корпус сучасної української мови (БрУК) обсягом 1 млн слововживань. Корпус побудований на засадах, що були покладені в основу відомого корпусу англійської мови Brown.

Структура репозиторію

 • misc - допоміжні файли
 • data - фрагменти текстів, зібрані для корпусу
  • good - перевірені фрагменти, написані літературною українською мовою
  • so-so - перевірені фрагменти, що містять помилки
  • bad - перевірені фрагменти, що зовсім не відповідають вимогам (наприклад, усне мовлення)
  • unprocessed - фрагменти, що чекають на перевірку
 • doc - документація: вимоги до фрагментів та рішення щодо мовних питань
 • scripts - допоміжні скрипти: обчислення статистики та список доданих творів

Команда

 • Василь Старко
 • Андрій Рисін
 • Ольга Гавура
 • Наталія Чейлитко
 • Мар’яна Романишин
 • Настасія Осідач
 • Катерина Альошкіна
 • Катерина Бобровник
 • Христина Кулак
 • Оксана Кунікевич
 • Тетяна Матвєєва
 • Ірина Возна
 • Ян Бутельський

Ліцензія

Дані корпусу доступні для використання згідно з умовами ліцензії "Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License" (http://creativecommons.org/licenses/by-nc-sa/4.0/)

Інші проекти

 • ВЕСУМ - Великий електронний словник української мови
 • LanguageTool - вільний програмний засіб для перевірки граматики та стилю для української мови
 • lang-uk - проект, метою якого є покращення комп'ютерної обробки україномовних текстів