Skip to content
Branch: master
Go to file
Code

Latest commit

Files

Permalink
Failed to load latest commit information.
Type
Name
Latest commit message
Commit time
 
 
doc
 
 
 
 
 
 
 
 
 
 

README.md

Браунський корпус української мови

Завдання

Створити відкритий, збалансований за жанрами та в майбутньому проанотований корпус сучасної української мови (БрУК) обсягом 1 млн слововживань. Корпус побудований на засадах, що були покладені в основу відомого корпусу англійської мови Brown.

Структура репозиторію

  • misc - допоміжні файли
  • data - фрагменти текстів, зібрані для корпусу
    • good - перевірені фрагменти, написані літературною українською мовою
    • so-so - перевірені фрагменти, що містять помилки
    • bad - перевірені фрагменти, що зовсім не відповідають вимогам (наприклад, усне мовлення)
    • unprocessed - фрагменти, що чекають на перевірку
  • doc - документація: вимоги до фрагментів та рішення щодо мовних питань
  • scripts - допоміжні скрипти: обчислення статистики та список доданих творів

Команда

  • Василь Старко
  • Андрій Рисін
  • Ольга Гавура
  • Наталія Чейлитко
  • Мар’яна Романишин
  • Настасія Осідач
  • Катерина Альошкіна
  • Катерина Бобровник
  • Христина Кулак
  • Оксана Кунікевич
  • Тетяна Матвєєва
  • Ірина Возна
  • Ян Бутельський

Ліцензія

Дані корпусу доступні для використання згідно з умовами ліцензії "Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License" (http://creativecommons.org/licenses/by-nc-sa/4.0/)

Інші проекти

  • ВЕСУМ - Великий електронний словник української мови
  • LanguageTool - вільний програмний засіб для перевірки граматики та стилю для української мови
  • lang-uk - проект, метою якого є покращення комп'ютерної обробки україномовних текстів

About

Браунський корпус української мови

Resources

Releases

No releases published
You can’t perform that action at this time.