Project to generate POS tag dictionary for Ukrainian language
Branch: master
Clone or download
Permalink
Type Name Latest commit message Commit time
Failed to load latest commit information.
bin Use gradle wrapper in afx Dec 25, 2016
data new words Feb 5, 2019
distr update hunspell/xpi/oxt gradle scripts Feb 6, 2019
doc noninfl tag reorg Feb 5, 2019
gradle/wrapper version update: groovy 2.5.5, gradle 5.1 Jan 13, 2019
out new words Feb 5, 2019
src add subst.lst Feb 5, 2019
test vocative updates Jan 20, 2019
.gitignore build/doc files update Sep 8, 2016
Dockerfile Add Docker instructions Mar 9, 2018
LICENSE Initial commit Oct 27, 2015
README.md copyright updates Jan 13, 2019
VERSION v4.4.2 Feb 5, 2019
build.gradle add subst.lst Feb 5, 2019
gradlew version update: groovy 2.5.5, gradle 5.1 Jan 13, 2019
gradlew.bat version update: groovy 2.5.5, gradle 5.1 Jan 13, 2019

README.md

Це — великий електронний словник української мови (ВЕСУМ).

This is a project to generate POS tag dictionary for Ukrainian language.

Опис

Словник містить слова та їхні парадигми з відповідними тегами, а також іншу інформацію,
зокрема:
* додаткові теги: slang, rare, bad...
* пропоновані заміни для покручів
* зв’язок між базовими та порівняльними формами прикметників
* керування відмінками для прикметників

Для всіх файлів в data/dict цей проект генерує всі можливі словоформи з тегами частин мови
за допомогою правил афіксів у каталозі data/affix.

Вимоги до програмних засобів

  • java (JDK >= 8)
  • 4Гб вільної пам'яті

Застосування

зі словником можна робити дві речі:
  1. згенерувати всі можливі словоформи для слів, що вже є в словнику (див. параграф «Як запускати» нижче)
  2. генерувати форми для довільних слів в інтерактивному режимі: докладніше

Як встановити

  • Встановити java (JDK 8 або новішу)
  • (Лише для Windows) встановити і запустити git bash
  • Клонувати проект: git clone https://github.com/brown-uk/dict_uk.git
  • Зайти в теку проекту: cd dict_uk

Як запускати

`./gradlew expand`

або для Windows:

`bin/expand_win.sh`

На виході:
  • out/dict_corp_vis.txt - словник у візуальному форматі (з відступами, згрупований за лемами) для перегляду, аналізу і опрацьовування
  • out/dict_corp_lt.txt - словник у табличному форматі для використання в ПЗ, зокрема з цього файлу генеруємо словник morfologik, що використовується в LanguageTool
  • out/words.txt - список всіх відомих словоформ
  • out/words_spell.txt - список всіх відомих словоформ, правильних з погляду правопису
  • out/lemmas.txt - список лем

Ліцензія

Дані словника доступні для використання згідно з умовами ліцензії "Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License" (https://creativecommons.org/licenses/by-nc-sa/4.0/)

Програмні засоби вільно розповсюджується за умов ліцензії GPL версії 3.

Зауваження: похідні проекти мають свої ліцензії

Copyright (c) 2019 Андрій Рисін (arysin@gmail.com), Василь Старко, команда БрУК

Похідні проекти

Description

For all files in data/dict the project generates all possible word forms with POS tags
by using affix rules from files in data/affix.

Required software

  • java (JDK >= 8)
  • 4G of free RAM

How to run

`./gradlew expand`

or on Windows:

`bin/expand_win.sh`

Output:
  • out/dict_corp_vis.txt - Dictionary in visual (indented) format for review, analysis or conversion
  • out/dict_corp_lt.txt - Dictionary in flat format (is used for preparing morfologik dictionary that can be used by LanguageTool)
  • out/words.txt - list of all unique known words
  • out/words_spell.txt - words valid for spelling
  • out/lemmas.txt - list of unique lemmas

Building under docker

sudo docker build -t brown-uk/dict_uk .
sudo docker run -d --name dict_uk brown-uk/dict_uk /bin/bash
sudo docker cp dict_uk:/src/out/ ./out
sudo chown -R $USER: ./out
sudo docker stop dict_uk

License

Dictionary data are distributed under "Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License" (https://creativecommons.org/licenses/by-nc-sa/4.0/)

Software is distributed under GPLv3.

Note: derivative projects have different licenses

Copyright (c) 2019 Andriy Rysin (arysin@gmail.com), Vasyl Starko, BrUK team

Derivative Projects