Name		Name	Last commit message	Last commit date
parent directory ..
Andrey Titov – Advanced usage patterns of Scala UDF in PySpark.pdf		Andrey Titov – Advanced usage patterns of Scala UDF in PySpark.pdf
Dmitry Shalin – My first Data Lake.pdf		Dmitry Shalin – My first Data Lake.pdf
README.md		README.md

README.md

DE or DIE #5

Дата мероприятия: 24.12.2020.
Формат мероприятия: online.

Доклады

Использование Scala UDF в PySpark

Автор: Андрей Титов, Senior Spark Engineer, NVIDIA.

Материалы первого доклада:

Запись выступления на YouTube.
Презентация в формате PDF.

О чем первый доклад

В своем докладе я поделюсь своим опытом использования пользовательских функций в высокопроизводительных PySpark приложениях.

При использовании PySpark часто забывают о возможности использования UDF, написанных на Scala/Java. А ведь это отличный способ увеличить производительность вашего приложения.

К сожалению, в официальной документации приводится самый базовый вариант их применения, который имеет ряд ограничений и не раскрывает всех возможностей применения Scala/Java UDF в PySpark.

В своем докладе я расскажу, как:

заставить PySpark автоматически выводить тип данных, возвращаемых в UDF;
создать pyspark.sql.Column на базе UDF вместо использования spark.sql(…);
использовать Singleton Pattern для сохранения данных между вызовами функций и работы с внешними источниками из UDF;
избежать повторного вызова UDF на одних и тех же данных;
настроить логирование с помощью встроенного log4j.

Мой первый Data Lake

Автор: Дмитрий Шалин, Data Engineer, СБЕР.

Материалы второго доклада:

Запись выступления на YouTube.
Презентация в формате PDF.
Демо. Код создания ETL + примеры контроля качества, про которые рассказывается в докладе.

О чем второй доклад

Если зайти в YouTube и забить data lake, получим большое количество докладов от сотрудников крупных компаний, которые имеют в своем арсенале большие деньги, широкую экспертизу, численность под реализацию end-to-end процесса работы с данными и самое главное – время.

В своем докладе я расскажу историю, как будучи сотрудником стартапа, в сжатые сроки, как и главное зачем, собирал хранилище и какие шаги позволили избежать проблемы масштабирования в будущем. Покажу по шагам (1,2,3) как уже в первую неделю, не имея глубоких знаний языка программирования, хранилищ, облачных сервисов, заложить фундамент.

Основное внимание будет уделено базе по ETL, качеству (как идеи, что это часть ETL) и основам баз данных.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

05

05

Andrey Titov – Advanced usage patterns of Scala UDF in PySpark.pdf

Andrey Titov – Advanced usage patterns of Scala UDF in PySpark.pdf

Dmitry Shalin – My first Data Lake.pdf

Dmitry Shalin – My first Data Lake.pdf

README.md

README.md

README.md

DE or DIE #5

Доклады

Использование Scala UDF в PySpark

О чем первый доклад

Мой первый Data Lake

О чем второй доклад

Files

05

Directory actions

More options

Directory actions

More options

Latest commit

History

05

Folders and files

parent directory

Andrey Titov – Advanced usage patterns of Scala UDF in PySpark.pdf

Andrey Titov – Advanced usage patterns of Scala UDF in PySpark.pdf

Dmitry Shalin – My first Data Lake.pdf

Dmitry Shalin – My first Data Lake.pdf

README.md

README.md

README.md

DE or DIE #5

Доклады

Использование Scala UDF в PySpark

О чем первый доклад

Мой первый Data Lake

О чем второй доклад