Skip to content

Latest commit

 

History

History

05

DE or DIE #5

Дата мероприятия: 24.12.2020.
Формат мероприятия: online.

Доклады

Использование Scala UDF в PySpark

Автор: Андрей Титов, Senior Spark Engineer, NVIDIA.

Материалы первого доклада:

О чем первый доклад

В своем докладе я поделюсь своим опытом использования пользовательских функций в высокопроизводительных PySpark приложениях.

При использовании PySpark часто забывают о возможности использования UDF, написанных на Scala/Java. А ведь это отличный способ увеличить производительность вашего приложения.

К сожалению, в официальной документации приводится самый базовый вариант их применения, который имеет ряд ограничений и не раскрывает всех возможностей применения Scala/Java UDF в PySpark.

В своем докладе я расскажу, как:

  • заставить PySpark автоматически выводить тип данных, возвращаемых в UDF;
  • создать pyspark.sql.Column на базе UDF вместо использования spark.sql(…);
  • использовать Singleton Pattern для сохранения данных между вызовами функций и работы с внешними источниками из UDF;
  • избежать повторного вызова UDF на одних и тех же данных;
  • настроить логирование с помощью встроенного log4j.

Мой первый Data Lake

Автор: Дмитрий Шалин, Data Engineer, СБЕР.

Материалы второго доклада:

  • Запись выступления на YouTube.
  • Презентация в формате PDF.
  • Демо. Код создания ETL + примеры контроля качества, про которые рассказывается в докладе.

О чем второй доклад

Если зайти в YouTube и забить data lake, получим большое количество докладов от сотрудников крупных компаний, которые имеют в своем арсенале большие деньги, широкую экспертизу, численность под реализацию end-to-end процесса работы с данными и самое главное – время.

В своем докладе я расскажу историю, как будучи сотрудником стартапа, в сжатые сроки, как и главное зачем, собирал хранилище и какие шаги позволили избежать проблемы масштабирования в будущем. Покажу по шагам (1,2,3) как уже в первую неделю, не имея глубоких знаний языка программирования, хранилищ, облачных сервисов, заложить фундамент.

Основное внимание будет уделено базе по ETL, качеству (как идеи, что это часть ETL) и основам баз данных.