Цель работы

Лабораторная работа: Реализация MapReduce для анализа данных о продажах с ипользованием HADOOP!!!

Цель работы

Ознакомиться с концепцией распределенных вычислений на примере модели MapReduce. Научиться разрабатывать многопоточную систему для обработки больших данных и применять её для анализа данных о продажах.

Описание задачи

У вас в репозитории есть несколько CSV-файлов, представляющих данные о продажах, например:

transaction_id,product_id,category,price,quantity
1,101,electronics,300.00,2
2,102,books,15.00,5
3,101,electronics,300.00,1
4,103,toys,25.00,4
5,102,books,15.00,3

Необходимо:

Вычислить общую выручку для каждой категории товаров.
Подсчитать общее количество проданных товаров по категориям.
Отсортировать категории по общей выручке в порядке убывания.

Пример вывода:

Category      Revenue    Quantity
electronics   900.00     3
books         120.00     8
toys          100.00     4

Требования

Основная часть:

Используем hadoop
Написать реализацию MapReduce для обработки CSV-файлов.
Реализовать многопоточность в каждой фазе:
- Map — обработка строк из файлов.
- Shuffle/Sort — группировка данных по категориям.
- Reduce — вычисление итоговых значений для каждой категории.
Сохранить результат в файл.
Обеспечить потокобезопасность при работе с общими данными.
Реализовать поддержку одновременной обработки большого количества файлов.

Дополнительные задачи (по желанию):

Добавить возможность выбора метрики анализа (например, подсчёт средней цены товара в категории).

Результаты

Результатом работы является сам код, файл с результатами и экспериментальные данные по быстродействию работы написанного кода при изменении числа worker-ов / частей, на которые разбивается файл

Name		Name	Last commit message	Last commit date
Latest commit History 18 Commits
.github		.github
data		data
gradle/wrapper		gradle/wrapper
scripts		scripts
src/main/java/org/itmo/lab4		src/main/java/org/itmo/lab4
.gitattributes		.gitattributes
.gitignore		.gitignore
README.md		README.md
build.gradle.kts		build.gradle.kts
compose.yml		compose.yml
gradlew		gradlew
gradlew.bat		gradlew.bat
hadoop.png		hadoop.png
settings.gradle.kts		settings.gradle.kts

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

Лабораторная работа: Реализация MapReduce для анализа данных о продажах с ипользованием HADOOP!!!

Цель работы

Описание задачи

Требования

Результаты

About

Uh oh!

Releases

Packages

Languages

AdvancedJavaLabs/lab4-Bromles

Folders and files

Latest commit

History

Repository files navigation

Лабораторная работа: Реализация MapReduce для анализа данных о продажах с ипользованием HADOOP!!!

Цель работы

Описание задачи

Требования

Результаты

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages