# Введение в Spark

### Что такое Spark

`Apache Spark is a unified computing engine and a set of libraries for parallel data processing on
computer clusters.`

* способ параллельного программирования (как Map Reduce)
* набор библиотек (Scala) и выполняемых файлов (spark-submit)
* гораздо более функциональный, чем Map Reduce
* похож на pandas
* активно развивается (только что вышле версия 3.0)
* мы будем использовать версию 2.4
* нет привязки к Hadoop, но мы будем рассматривать spark именно в связке с Hadoop

Хорошая книга от автора Spark - https://github.com/databricks/Spark-The-Definitive-Guide

Активно ей пользуюсь сам, большинство материала взято оттуда.

### Что входит в Spark

![](spark_toolkit.png)


### Что такое pyspark

* spark предоставляет API на нескольких языках
* наиболее популярное python API - pyspark
    * Scala, Java, SQL, R
* производительность не страдает (разберем ниже)

`If you use just the Structured APIs, you can expect all languages to have similar performance characteristics`


### Как работают Spark приложения

![](spark_apps.png)

* `driver`: исполняет программу
    * поддерживает инфорацию о приложении
    * исполняет код программы 
    * планирует и запускает работу executor-ов
* `executor`: выполняет вычисления
    * исполняет код, переданный driver-ом (JAR)
    * отчитывается перед driver-ом о состоянии процесса вычисления
* `cluster manager`: управляет физическими машинами и выделяет ресурсы spark приложениям
    * standalone, YARN, Mesos

### Запуск приложения и режимы исполнения 

* приложения могут быть
    * интерактивными (shell) - python, scala, SQL
    * скомпилированными (JAR)
* `execution mode`: возможность управления размещением процессов (driver, executors)
    * `cluster mode`: все в кластере 
    * `client mode`: driver работает вне кластера, executor-ы - в кластере
    * `local mode`: все работает локально (потоки)
* `spark session`: объект, через который происходит работа со spark-ом (driver-ом) 


### Основные абстракции

![](rdd_dataframe.png)

* `RDD (Resilient Distributed Dataset)`: набор объектов, разбитых на разделы (`partitions`)
* `Dataset`: набор типизированных записей, разбитых на разделы  
* `Dataframe`: набор записей типа `Row`, разбитых на разделы

* `Low level API` (RDD)
* `Structured API` (Dataset, Dataframe)
* Dataset: только в Scala и Java API


### Dataframe 

![](dataframe.png)

* таблица, состоящая из строк и столбцов
    * похожа на датафреймы в pandas и R
* `schema`: список, определяющий структуру строки (имена и типы колонок)
* `partition`: набор строк датафрейма, расположенных на одном узле кластера
    * определяют возможность параллелизма (executors + partitions)
* `Row`: строка датафрейма (объект)
* `Column`: элемент строки (объект)
* spark работает со своими типами данных (ByteType, IntegerType, StringType, ...)


### Трансформации и действия

* методы spark делятся на трансформации (`transformation`) и действия (`action`)
* все объекты (Dataframe, RDD, ...) неизменяемы (immutable)
* чтобы изменить объект нужно задать инструкцию его изменения (transformation)
* результат трансформации - объект (например, Dataframe)
* `lazy evaluation`: трансформации выполняются только во время действия (`action`)
    * используется оптимизатор (`Catalyst`)
    * план исполнения можно посмотреть
* `action`: вычисление, возвращающее результат
    * подразумевает перемещение данных между экзекьюторами и драйвером
    * посмотреть данные на консоли
    * собрать данные на драйвере (с преобразованием в `native` тип данных)
    * сохранение данных в источник

### Движение данных

![](ideal.png)

### Основные действия

(для материалов, не слайд)

Основными действиями (`action`), которыми мы будем далее активно пользоваться, являются:

**collect()**

Возвращает dataframe как список строк (list of Row)

**take()**

Аналогично collect(), только первые N строк

**first()**

Возвращает первую строку, как Row

**count()**

Возвращает количество строк в датафрейме


**saveAs<file>()**

Сохраняет датафрейм в файл (в HDFS).

**saveAsTable()**

Сохраняет датафрейм в таблицу (Hive)