Name		Name	Last commit message	Last commit date
parent directory ..
Dodo Pizza & Databricks - Real project analysis.pdf		Dodo Pizza & Databricks - Real project analysis.pdf
README.md		README.md
Spark Streaming Demo.ipynb		Spark Streaming Demo.ipynb

README.md

DE or DIE #3

Дата мероприятия: 16.07.2020.
Формат мероприятия: online.

Доклады

Разбор реального проекта: E2E пайплайн для прогнозирования закупок ингредиентов в пиццериях c помощью Spark Streaming

Авторы:
Ксения Томак, Дарья Буланова, Михаил Кумачев, Data Engineering Team, Dodo Pizza
Иван Трусов, Solutions Architect, Databricks

Материалы доклада:

Запись выступления на YouTube.
Презентация в формате PDF.
Демо. Jupyter notebook с примерами кода (Spark Streaming).

О чем первый доклад

Dodo Pizza совместно с Databricks сделали проект по решению задачи прогнозирования закупок ингредиентов в пиццериях. В рамках проекта был разработан набор near real-time и batch пайплайнов для сбора данных из источника, загрузки их в Delta Lake и подготовки витрин для использования в машинном обучении.

В рамках нашего выступления мы подробно разберем каждый из этапов и уделим особое внимание подводным камням при реализации проекта.

Часть 1:

Описание проекта и базовой инфраструктуры
Архитектура решения
Change Data Capture из MySQL в EventHubs, используя Kafka Connect и Debezium

Часть 2:

Data modeling с помощью DataVault 2.0. Переливка данных с помощью Spark Streaming
Наполнение витрин данных
Интеграция с ML-пайплайнами
CI/CD для пайплайнов данных

Стек используемых технологий

Cloud provider: Azure
Data Source: Azure MySQL DB
CDC pipeline: Kafka Connect + Debezium + Azure Event Hubs
Processing: Spark + Spark Streaming on Databricks
Storage layer: Delta Lake + Azure Data Lake Storage
CI/CD: GitHub Actions + Databricks REST API
Implementation language: Python

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

03

03

Dodo Pizza & Databricks - Real project analysis.pdf

Dodo Pizza & Databricks - Real project analysis.pdf

README.md

README.md

Spark Streaming Demo.ipynb

Spark Streaming Demo.ipynb

README.md

DE or DIE #3

Доклады

Разбор реального проекта: E2E пайплайн для прогнозирования закупок ингредиентов в пиццериях c помощью Spark Streaming

О чем первый доклад

Стек используемых технологий

Files

03

Directory actions

More options

Directory actions

More options

Latest commit

History

03

Folders and files

parent directory

Dodo Pizza & Databricks - Real project analysis.pdf

Dodo Pizza & Databricks - Real project analysis.pdf

README.md

README.md

Spark Streaming Demo.ipynb

Spark Streaming Demo.ipynb

README.md

DE or DIE #3

Доклады

Разбор реального проекта: E2E пайплайн для прогнозирования закупок ингредиентов в пиццериях c помощью Spark Streaming

О чем первый доклад

Стек используемых технологий