Skip to content

Latest commit

 

History

History

03

DE or DIE #3

Дата мероприятия: 16.07.2020.
Формат мероприятия: online.

Доклады

Разбор реального проекта: E2E пайплайн для прогнозирования закупок ингредиентов в пиццериях c помощью Spark Streaming

Авторы:
Ксения Томак, Дарья Буланова, Михаил Кумачев, Data Engineering Team, Dodo Pizza
Иван Трусов, Solutions Architect, Databricks

Материалы доклада:

О чем первый доклад

Dodo Pizza совместно с Databricks сделали проект по решению задачи прогнозирования закупок ингредиентов в пиццериях. В рамках проекта был разработан набор near real-time и batch пайплайнов для сбора данных из источника, загрузки их в Delta Lake и подготовки витрин для использования в машинном обучении.

В рамках нашего выступления мы подробно разберем каждый из этапов и уделим особое внимание подводным камням при реализации проекта.

Часть 1:

  • Описание проекта и базовой инфраструктуры
  • Архитектура решения
  • Change Data Capture из MySQL в EventHubs, используя Kafka Connect и Debezium

Часть 2:

  • Data modeling с помощью DataVault 2.0. Переливка данных с помощью Spark Streaming
  • Наполнение витрин данных
  • Интеграция с ML-пайплайнами
  • CI/CD для пайплайнов данных

Стек используемых технологий

  • Cloud provider: Azure
  • Data Source: Azure MySQL DB
  • CDC pipeline: Kafka Connect + Debezium + Azure Event Hubs
  • Processing: Spark + Spark Streaming on Databricks
  • Storage layer: Delta Lake + Azure Data Lake Storage
  • CI/CD: GitHub Actions + Databricks REST API
  • Implementation language: Python