Skip to content

brown-uk/nlp_uk

master
Switch branches/tags

Name already in use

A tag already exists with the provided branch name. Many Git commands accept both tag and branch names, so creating this branch may cause unexpected behavior. Are you sure you want to create this branch?
Code

Files

Permalink
Failed to load latest commit information.
Type
Name
Latest commit message
Commit time
doc
 
 
src
 
 
 
 
 
 
 
 
 
 
 
 
 
 

LanguageTool API NLP UK

This is a project to demonstrate NLP API from LanguageTool for Ukrainian language.

Це — проект демонстрації API для обробляння природної мови в LanguageTool для української мови.

Використовує мову groovy, засоби для токенізації та тегування також мають скрипти-обгортки для python3 та java. Рекомендована версія groovy - 4.0.10 або новіше.

Для запуску скриптів потрібно встановити мову groovy

УВАГА: при першому запуску потрібно мережеве з'єднання, щоб скрипти могли звантажити потрібні модулі

ПРИМІТКА: скрипт gradle потрібен лише для розробників

Для невеликих текстів приклад розбиття та тегування також можна переглянути на сторінці аналізу LanguageTool

Основні скрити аналізу текстів знаходяться в каталозі src/main/groovy/ua/net/nlp/tools

Використання

Утиліта розбиття тексту: TokenizeText.groovy

Утиліта аналізу тексту: TagText.groovy

докладніше про утиліти аналізу

Допоміжні утиліти:

докладніше про допоміжні утиліти

Використання (найпростіший шлях)

Встановити JDK 17 (https://www.oracle.com/java/technologies/downloads/#jdk17-windows)

Чистити файл

UNIX:
./gradlew -q cleanText -Pargs="-i <мій-файл.txt>"
Windows:
gradlew.bat -q cleanText -Pargs="-i <мій-файл.txt>"

Буде створено файл <мій-файл.good.txt> в якому виправлено знайдені проблеми зі словами.

Тегувати файл

UNIX:
./gradlew -q tagText -Pargs="-i <мій-файл.txt> -su"
Windows:
gradlew.bat -q tagText -Pargs="-i <мій-файл.txt> -su"

Буде створено файл <мій-файл.tagged.xml>. Прапорець "-su" генерує файл невідомих слів.

Використовувані програмні засоби

Для аналізу текстів використовується український модуль LanguageTool

Для тегування лексем використовується словник української мови з проекту ВЕСУМ

Ліцензія

Проект LanguageTool API NLP UK розповсюджується за умов ліцензії GPL версії 3

Copyright (c) 2022 Андрій Рисін (arysin@gmail.com)

About

This is a project to demonstrate NLP API from LanguageTool for Ukrainian language.

Resources

License

Stars

Watchers

Forks

Packages

No packages published

Contributors 4

  •  
  •  
  •  
  •