# Введение в Spark и Python

Давайте научимся использовать Spark с Python с помощью библиотеки pyspark! Перед продолжением работы с этим кодом обязательно просмотрите лекцию, объясняющую Spark и RDD.

Эта тетрадка будет служить справочным кодом для раздела Big Data (большие данные) курса, влючающие в себя веб-сервисы Amazon. Лекция предоставит более полное объяснение того, что делает код.

## Создание SparkContext

Сначала нам нужно создать SparkContext. Мы импортируем его из pyspark:

In [1]:
from pyspark import SparkContext

Теперь создайте SparkContext. SparkContext представляет собой соединение с кластером Spark и может использоваться для создания RDD и трансляции переменных на этот кластер.

*Примечание! У вас будет только один SparkContext за один раз, при нашем рабочем раскладе.*

In [2]:
sc = SparkContext()

## Базовые операции

Начнем с примера 'hello world' (привет мир), который просто читает текстовый файл. Для начала создадим текстовый файл.

Давайте напишем пример текстового файла для чтения. Мы используем для этого специальные команды jupyter notebook, но если хотите можете использовать любой .txt файл:

In [9]:
%%writefile example.txt
first line
second line
third line
fourth line

Overwriting example.txt


### Создание RDD

Теперь мы можем принять текстовый файл, используя метод **textFile** из созданного нами SparkContext. Этот метод прочитает текстовый файл из HDFS, локальной файловой системы (доступной на всех
узлах) или из любой URI файловых систем, поддерживаемых Hadoop, и вернет его как строки RDD.

In [7]:
textFile = sc.textFile('example.txt')

Основная абстракция Spark - это распределенная коллекция элементов, называемая Resilient Distributed Dataset (RDD) (устойчивый распределенный набор данных). RDD могут быть созданы из Hadoop InputFormats (например, файлов HDFS) или путем преобразования других RDD.

### Действия

Мы только что создали RDD, используя метод textFile, и можем выполнять операции с этим объектом, такие как подсчет строк.

У RDD есть действия, которые возвращают значения, и преобразования, которые возвращают указатели на новые RDD. Давайте начнем с нескольких действий:

In [8]:
textFile.count()

4

In [10]:
textFile.first()

'first line'

### Преобразования

Теперь мы можем использовать преобразования. Например, преобразование фильтра вернет новый RDD с подмножеством элементов в файле. Давайте создадим пример преобразования, используя метод filter(). Этот метод (как и собственная функция фильтра Python) будет возвращать только те элементы, которые удовлетворяют условию. Попробуем поискать строки, содержащие слово «second». В результате чего мы обнаружим, что должна быть только одна такая строка.

In [11]:
secfind = textFile.filter(lambda line: 'second' in line)

In [12]:
# RDD
secfind

PythonRDD[7] at RDD at PythonRDD.scala:43

In [13]:
# Исполните действие на преобразование
secfind.collect()

['second line']

In [14]:
# Исполните действие на преобразование
secfind.count()

1

Обратите внимание, что преобразования не будут отображать вывод и не будут выполняться, пока не будет вызвано действие. В следующей лекции: Advanced Spark и Python мы начнем видеть больше примеров такого преобразования и действие отношения!

# Прекрасная работа!