В этом репозитории собраны документы и различные примеры для работы с сервисом Yandex Data Proc.
Структура основных материалов:
- Инструкция по диагностике работы заданий Spark
- Инструкция по настройке внешней базы данных Apache Hive Metastore
- Настройка S3A Committers для оптимизации записи в Yandex Object Storage
- Копирование дополнительных файлов на узлы Data Proc
- Настройка кластера Data Proc для работы с Apache Kafka
- Использование автоскейлинга в заданиях Spark
- Управление дополнительными компонентами Python
- Автоматизация настройки хранения ноутбуков Zeppelin в Object Storage
- Использование Delta Lake
Примеры вспомогательных скриптов и программ: