LanguageTool API NLP UK

Утиліта аналізу тексту:

groovy TagText.groovy -i <input_file> -o <output_file>

Аналізує текст і записує результат у виходовий файл:

розбиває на речення
розбиває на лексеми
проставляє теги для лексем
робить базове зняття омонімії (наразі алгоритм розомонімізації знімає лише близько тисячі найпростіших випадків омонімії)

Головні опції:

--semanticTags - додає семантичні теги; цей тип тегування базується на Українському семантичному лексиконі (УСЛ), дані якого лежать тут
--tokenFormat - формат <token><alts>...</alts></token> замість <tokenReading><token>...</token></tokenReading>
--disambiguate=frequency|context зняття омонімії за статистикою

Для тегування лексем використовується словник української мови з проекту ВЕСУМ

УВАГА: в онлайнових українських текстах дуже часто вживають латинські літери замість українських, різні символи апострофів тощо. Для якісного аналізу текстів дуже важливо очистити на «нормалізувати» тексти. Тому майже завжди перед аналізом текстів варто опрацювати їх утилітою CleanText.groovy

Утиліта розбиття тексту:

groovy TokenizeText.groovy -w -u -i <input_file> -o <output_file>

Аналізує текст і записує результат у виходовий файл:

розбиває на речення (-s)
розбиває на токени (-w) (результати включають пунктуацію тому всі токени розділяються вертикальними рисками)
розбиває на слова (-u)

Ліцензія

Проект LanguageTool API NLP UK розповсюджується за умов ліцензії GPL версії 3

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

README_tools.md

README_tools.md

LanguageTool API NLP UK

Утиліта аналізу тексту:

Утиліта розбиття тексту:

Ліцензія

Files

README_tools.md

Latest commit

History

README_tools.md

File metadata and controls

LanguageTool API NLP UK

Утиліта аналізу тексту:

Утиліта розбиття тексту:

Ліцензія