Приложение, которое позволяет скачивать произвольную HTML-страницу посредством HTTP-запроса на жесткий диск компьютера и выдает статистику по количеству уникальных слов в консоль.
- JDK 8+
- Maven
- БД (например MySQL, Oracle)
Компиляция и запуск проекта осуществляется следующим образом:
$ mvn package
$ java -jar target/Assignment-1.0-SNAPSHOT-jar-with-dependencies.jar
примечание: по умолчанию приложение иcпользует DOM для парсинга, в случае необходимости обработки страниц содержащих большие объемы информации можно использовать SAX алгоритм, для этого нужно запустить приложение с параметром SAX:
$ java -jar target/Assignment-1.0-SNAPSHOT-jar-with-dependencies.jar SAX
После запуска приложения пользователю будет предложено ввести строку с адресом web-страницы.
Пример входной строки: https://www.simbirsoft.com/.
В качестве результата работы в консоль будет выведена статистика с количеством уникальных слов в тексте.
Пример:
РАЗРАБОТКА -1
ПРОГРАММНОГО - 2
ОБЕСПЕЧЕНИЯ - 4