Skip to content

Latest commit

 

History

History
44 lines (24 loc) · 2.56 KB

README_tools.md

File metadata and controls

44 lines (24 loc) · 2.56 KB

LanguageTool API NLP UK

Утиліта аналізу тексту:

groovy TagText.groovy -i <input_file> -o <output_file>

Аналізує текст і записує результат у виходовий файл:

  • розбиває на речення
  • розбиває на лексеми
  • проставляє теги для лексем
  • робить базове зняття омонімії (наразі алгоритм розомонімізації знімає лише близько тисячі найпростіших випадків омонімії)

Головні опції:

  • --semanticTags - додає семантичні теги; цей тип тегування базується на Українському семантичному лексиконі (УСЛ), дані якого лежать тут
  • --tokenFormat - формат <token><alts>...</alts></token> замість <tokenReading><token>...</token></tokenReading>
  • --disambiguate=frequency|context зняття омонімії за статистикою

Для тегування лексем використовується словник української мови з проекту ВЕСУМ

УВАГА: в онлайнових українських текстах дуже часто вживають латинські літери замість українських, різні символи апострофів тощо. Для якісного аналізу текстів дуже важливо очистити на «нормалізувати» тексти. Тому майже завжди перед аналізом текстів варто опрацювати їх утилітою CleanText.groovy

Утиліта розбиття тексту:

groovy TokenizeText.groovy -w -u -i <input_file> -o <output_file>

Аналізує текст і записує результат у виходовий файл:

  • розбиває на речення (-s)
  • розбиває на токени (-w) (результати включають пунктуацію тому всі токени розділяються вертикальними рисками)
  • розбиває на слова (-u)

Ліцензія

Проект LanguageTool API NLP UK розповсюджується за умов ліцензії GPL версії 3