# Практическое введение в PySpark для Data Scientists

---

by Roman Pilyugin

## Содержание

---


1. [Немного теории. RDD, Transformation, Action](#theory)
2. [Если я уже умею в Python и Pandas](#forSkilledPeople)
3. [Сравнение операций Pandas и PySpark](#PandasVsPySpark)
    1. [Чтение данных](#csvRead)
    3. [Некоторые основные примеры манипуляций с данными](#moreOps)
    4. [Визуализация данным](#pics)
    5. [Сохранение данных](#storeData)
4. [Погружаемся в Machine Learning](#ML)

##  Немного теории. RDD, Transformation, Action <a name =theory></a>

**RDD** (Resilient Distributed Dataset) - Это фундаментальная абстракция структуры данных в Spark. Ее можно представить в виде неизменяемой коллекции объектов. Сама коллекция может быть размещена по нескольким нодам (отдельным машинам) для параллельной обработки.

**Transformation** - операция, результатом которой является новый RDD. Таким образром, transformation задает связь ( последовательность) между RDD в виде последовательности преобразований. 

*Надо отметить, что все операции Transformation выполняются в **Lazy mode**, т.е. пока не вызвать одну из оперций Action, то преобразования не выполняются.*

### Основные операции Transformation

* map(function) — *применяет функцию function к каждому элементу датасета*

* .filter(function) — *возвращает все элементы датасета, на которых функция function вернула истинное значение*

* .distinct([numTasks]) — *возвращает датасет, который содержит уникальные элементы исходного датасета*

**Также стоит отметить об операциях над множествами, смысл которых понятен из названий:**

* .union(otherDataset)

* .intersection(otherDataset)

* .cartesian(otherDataset) — *новый датасет содержит в себе всевозможные пары (A,B), где первый элемент принадлежит исходному датасету, а второй — датасету-аргументу*





**Action** - операции, результат которых появляется немедленно, в отличии от Transformation. Это могут быть операции для вывода результата вычислений, сохранения в отдельный файл или выгрузка во внешнее хранилище.
*Можно сказать, что Action операция опзволяет извлечь данные из RDD.*

### Основные операции Action


* .saveAsTextFile(path) — *сохраняет данные в текстовый файл (в hdfs, на локальную машину или в любую другую поддерживаемую файловую систему — полный список можно посмотреть в документации)*

* .collect() — *возвращает элементы датасета в виде массива. Как правило, это применяется в случаях, когда данных в датасете уже мало (применены различные фильтры и преобразования) — и необходима визуализация, либо дополнительный анализ данных, например средствами пакета Pandas*

* .take(n) — *возвращает в виде массива первые n элементов датасета*

* .count() — *возвращает количество элементов в датасете*

* .reduce(function) — *знакомая операция для тех, кто знаком с MapReduce. Из механизма этой операции следует, что функция function (которая принимает на вход 2 аргумента возвращает одно значение) должна быть обязательно коммутативной и ассоциативной*



## Если я уже умею в Python и Pandas <a name=forSkilledPeople></a>

<p>Для практикующего специалиста по анализу данных PySpark может быть полезен когда: </p>


*   Уже знакомы c Python (Scala, Java, R) и Pandas DataFrame
*   Есть возможность развернуть кластер для обработки данных
*   Нужно обрабатывать больше объемы данных [^1].

[^1]:   Под большими данными понимаются те, что не помещаются в оперативной памяти одного компьютера



## Сравнение операций Pandas и PySpark <a name=PandasVsPySpark></a>

### Чтение данных<a name=csvRead></a>

__Как это в Pandas__
```python
import pandas as pd
df = pd.read_csv('/FileStore/tables/gt_sales_by_pos_month.csv')
```

__В PySpark__

In [None]:
df = spark.read.options(header=True)\
                .options(inferSchema=True)\
                .csv('/FileStore/tables/gt_sales_by_pos_month.csv')

### Манипуляции с данными <a name=manipulation></a>

#### Взглянем на результат предыдущей операции
__Как это в Pandas__
```python
df
df.head(5)
```

__В PySpark__

In [None]:
df.show()
df.show(5)

в остально все похоже:

In [None]:
df.columns # узнаем про колонки в таблице
df.dtypes # узнаем про типы данных в такблице

Операции с колонками

__В Pandas__
```python
df.drop('pmsm_pos_code', axis=1)
```

__В PySpark__

In [None]:
df.drop('pmsm_pos_code')

В PySpark нет понятия индекса и axis

__Фильтрация__

In [None]:
df[df.meg_mrsp > 85]

In [None]:
df[(df.meg_mrsp > 85)&(df.brand_variant=='JADE LA ROSE 100 SSL')]