Распределенная обработка текстовых данных с использованием брокера сообщений

Цель задания:

Реализовать распределённую систему обработки текстовых данных, где секции текста рассылаются на обработку через брокер сообщений (message broker). Несколько воркеров параллельно обрабатывают секции и отправляют результаты на агрегатор. Воркеры выполняют набор задач

Шаги выполнения:

Подготовка данных:

Загрузите или создайте набор текстовых данных. Это могут быть, например, книги, статьи или большой корпус текста. Разделите данные на секции для распределения между узлами.

Разработка приложения:

Общая задача: Необходимо решить следующие задачи для обработки текстовых данных:

Подсчёт количества слов.
Поиск N наиболее часто встречающихся слов (top-N).
Простой анализ тональности — выбрать и реализовать один из подходов:
- Лексиконный (словарь положительных/отрицательных слов) — прост в реализации.
- Наивный байес/предобученная модель.
Замена всех имён в тексте на заданное подстановку. Для простоты можно:
- Использовать регулярные выражения (заглавные слова, контекст) или
- Подключить лёгкую NER-библиотеку (в Java — OpenNLP или StanfordNLP — опционально).
Сортировка предложений по длине (в символах) и возврат отсортированного списка.

Структура системы (компоненты)

Producer / Splitter
- Читает корпус, разбивает на секции (например, по параграфам, по N предложений или по байтам).
- Отправляет задания в очередь/exchange (сообщения с id задания и секцией текста).
Worker (несколько экземпляров)
- Подписывается на очередь задач.
- Обрабатывает секцию и отправляет результат в очередь результатов/на агрегатор.
Aggregator / Collector
- Получает частичные результаты от всех воркеров.
- Агрегирует: суммирует word counts, объединяет топ-N (merge топов), усредняет/агрегирует тональность, собирает модифицированный текст/заменённые имена (если нужно), объединяет отсортированные предложения (опционально — сохраняет per-section).
Result sink / storage
- Сохраняет финальные результаты в файл/JSON для отчёта.

Формат сообщений можете придумать самостоятельно

Эксперименты и анализ результатов:

Оцените масштабируемость приложения. Используйте различные объемы данных и количество воркеров для определения, насколько эффективно приложение масштабируется.

Name		Name	Last commit message	Last commit date
Latest commit History 4 Commits
.github		.github
.gradle		.gradle
.idea		.idea
gradle/wrapper		gradle/wrapper
src/main/java		src/main/java
README.md		README.md
build.gradle.kts		build.gradle.kts
gradlew		gradlew
gradlew.bat		gradlew.bat

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

Распределенная обработка текстовых данных с использованием брокера сообщений

Цель задания:

Шаги выполнения:

Рекомендуемый брокер

Подготовка данных:

Разработка приложения:

Структура системы (компоненты)

Формат сообщений можете придумать самостоятельно

Эксперименты и анализ результатов:

About

Uh oh!

Releases

Packages

Languages

AdvancedJavaLabs/lab2-vityaman

Folders and files

Latest commit

History

Repository files navigation

Распределенная обработка текстовых данных с использованием брокера сообщений

Цель задания:

Шаги выполнения:

Рекомендуемый брокер

Подготовка данных:

Разработка приложения:

Структура системы (компоненты)

Формат сообщений можете придумать самостоятельно

Эксперименты и анализ результатов:

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages