Permalink
Branch: master
Find file Copy path
24ac531 Nov 30, 2017
1 contributor

Users who have contributed to this file

54 lines (37 sloc) 6.12 KB

Великий електронний словник української мови (ВЕСУМ)

Що це: мета проекту великого електронного словника української мови — створити відкритого електронного всеохопного словника, що міститиме слова української мови з парадигмами відмінювання. Окрім граматичної інформації, словник пропонує заміни слів-покручів, подає розрізнення омонімів з відмінними парадигмами, позначки рідковживаних слів тощо. Відкритість словника означає, що будь-хто може користуватися цим словником на свої потреби, й водночас будь-хто може (і мусить!:)) вносити пропозиції щодо вдосконалення словника.

Навіщо: щоб створити програмні засоби, що підтримують українську мову чи аналізують тексти українською мовою: автоматична перевірка орфографії, граматики та стилю, класифікація текстів, виділення іменованих сутностей, data mining тощо. Словник буде корисним на потреби створення корпусів, перевірки лінгвістичних гіпотез та аналізу лексики та морфології української мови.

Для кого: для мовознавців, комп'ютерних лінгвістів, програмістів, та всіх зацікавлених, що працюють з українською мовою.

Як працює: проект словника викладено на https://github.com/brown-uk/dict_uk. Проект містить слова та парадигми відмінювання. Кожне слово і кожна форма має набір тегів. Щоб згенерувати словник потрібно запустити скрипт (вимагає java 8 і gradle 2.11), що згенерує словник з усіма можливими словоформами.

Що всередині: ~197 тис. слів, з яких генерується ~3,4 млн словоформ. Кожна словоформа має лему та набір тегів (частина мови, морфологічні ознаки та додаткові позначки).

Де використовується: наразі у проектах перевірки орфографії (hunspell, зокрема у браузері Firefox та офісному ПЗ Libreoffice.org) та перевірки граматики в програмі LanguageTool. Планується використання в pymorphy2, Elastic Search, Solar.

Специфіка: хоч словник є незалежним і відкритим джерелом, його розробляли разом з модулем перевірки української граматики та стилю в LanguageTool. LanguageTool має додаткову функціональність, що добре доповнює словник і дає змогу використовувати його ще ефективніше. Для прикладу, український модуль в LanguageTool забезпечує розбиття українських текстів на речення та слова, динамічне тегування (наприклад, для складених слів, що їх пишуть через дефіс і що їх неможливо додати до словника в повному обсязі), часткове зняття омонімії в текстах тощо.

Ліцензії розповсюдження: GPLv3.

Чим не є: цей словник не є академічним, над ним не працюють жодні інститути та академії, тож він не претендує на істину в останній інстанції. Натомість він призначений для практичного вжитку в системах Natural Language Processing. Над словником працювали багато фахівців у галузі мовознавства, його успішно застосовано в ПЗ.

Більше:

Документація:

Приклад виходу:

Повний виходовий файл у форматі з відступами можна стягнути у розділі випусків (dict_corp_vis.txt.bz2):

Поточна статистика:

Що далі: словник постійно поповнюють та вдосконалюють (додають нові інформативні теги, виправляють помилки, вводять формати виводу тощо). У планах: створити веб-інтерфейс для користування словником, автоматичний морфологічний аналіз на основі словника.

Як ви можете взяти участь: почати використовувати словник і повідомляти про проблеми або можливі вдосконалення. Найпростіше це зробити на сторінці https://github.com/brown-uk/dict_uk/issues, форумі http://r2u.org.ua/forum/viewforum.php?f=45, але можна і електронною поштою.