Репозиторий проектов Apache Spark+Scala

Описание

Открытая школа – это практический курс, рассчитанный на 16 часов вебинаров и 32 часа самостоятельной практики, включая финальный проект.

Проект включает в себя разработку ETL-пайплайнов для обработки и анализа больших данных. Используя инструменты Scala и Apache Spark, реализованы решения для обработки данных в рамках Hadoop экосистемы. AirFlow используется для организации и автоматизации рабочих процессов.

Технологии

Apache Spark
Hadoop
Apache AirFlow
Scala
SQL
ETL

Структура

Номер проекта	Название проекта	Краткое описание
Проект 8	Пайплайн обработки и трансформации данных	Разработка ETL-пайплайна для загрузки и обработки данных из разных источников, создание широкой таблицы и витрины данных в Hadoop, а также их выгрузка в PostgreSQL.
Проект 7	Эмуляция Data Skew	Решение проблемы перекоса данных в Spark, включая генерацию и оптимизацию DataFrame с Data Skew.
Проект 6	Автоматизированный Data Pipeline	Создание DAG в Airflow для автоматизации процесса проверки и подсчета строк в таблице Hadoop, отправка результатов по электронной почте.
Проект 5	Работа с данными в Hadoop и PostgreSQL	ETL-операции в Hadoop и PostgreSQL, включая загрузку данных и создание широкой и отфильтрованных таблиц.
Проект 4	Анализ данных популярных песен и артистов	Анализ данных о популярных песнях и артистах с использованием Spark, включая оптимизацию запросов.
Проект 3	Задания по Scala и Apache Spark	Решение задач на Scala с использованием Spark, включая работу с датасетами, DataFrame, агрегирование и ранжирование данных.
Проект 2	Задание по Apache Spark (PySpark)	Использование PySpark для обработки и агрегации больших данных, включая создание RDD и DataFrame.
Проект 1	Задание на MapReduce	Решение задачи поиска числа в массиве с использованием MapReduce в HDFS.
Проект 0	Задание на запуск Hadoop в Docker	Работа с Hadoop HDFS в Docker, включая создание директорий, управление файлами и настройку контейнеров.

Name		Name	Last commit message	Last commit date
Latest commit History 12 Commits
final_project8		final_project8
project0		project0
project1		project1
project2		project2
project3		project3
project4		project4
project5		project5
project6		project6
project7		project7
README.md		README.md
logo-wide.jpeg		logo-wide.jpeg

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Репозиторий проектов Apache Spark+Scala

Описание

Технологии

Структура

About

Languages

reekuu/scala_spark_pipelines_t1

Folders and files

Latest commit

History

Repository files navigation

Репозиторий проектов Apache Spark+Scala

Описание

Технологии

Структура

About

Topics

Resources

Stars

Watchers

Forks

Languages