# Resilient Distributed Datasets (RDDs)
Spark revolves around the concept of a resilient distributed dataset (RDD), which is a fault-tolerant collection of elements that can be operated on in parallel. There are two ways to create RDDs: parallelizing an existing collection in your driver program, or referencing a dataset in an external storage system, such as a shared filesystem, HDFS, HBase, or any data source offering a Hadoop InputFormat.

Основной прикол в том, что RDD используются для вычислениях на целом кластере, об этом стоит думать, когда пишешь код

In [4]:
# Inicilization
import findspark
findspark.init()

from pyspark import SparkContext, SparkConf

conf = SparkConf().setAppName("appName").setMaster("local")
sc = SparkContext(conf=conf)

In [5]:
sc

In [10]:
# Parallelized Collections
data = [1, 2, 3, 4, 5]
distData = sc.parallelize(data)
type(distData)

pyspark.rdd.RDD

In [11]:
# External Datasets
# distFile = sc.textFile("data.txt")

PySpark can create distributed datasets from any storage source supported by Hadoop, including your local file system, HDFS, Cassandra, HBase, Amazon S3, etc. Spark supports text files, SequenceFiles, and any other Hadoop InputFormat

Similarly to text files, SequenceFiles can be saved and loaded by specifying the path. The key and value classes can be specified, but for standard Writables this is not required.

In [19]:
rdd = sc.parallelize(range(1, 4)).map(lambda x: (x, "a" * x))
rdd.take(1)
# Не работает
# rdd.saveAsSequenceFile("path/to/file")
# sorted(sc.sequenceFile("path/to/file").collect())

[(1, 'a')]

# Basic Operation

In [30]:
lines = sc.textFile("data/numbers.txt")
lineLengths = lines.map(lambda s: len(s))
totalLength = lineLengths.reduce(lambda a, b: a + b)
print(f'data - {lines.collect()}')
print(f'total length - {totalLength}')

data - ['1 2 3 4 5 6 7 8 9']
total length - 17


In [25]:
lineLengths.persist()

PythonRDD[46] at RDD at PythonRDD.scala:53

# Passing Functions to Spark
Spark’s API relies heavily on passing functions in the driver program to run on the cluster. There are three recommended ways to do this:

In [33]:
def myFunc(s):
    words = s.split(" ")
    return len(words)

sc.textFile("data/numbers.txt").map(myFunc).collect()

[9]

Это просто рандомные примеры, если хотите увидеть все функции, то

https://spark.apache.org/docs/latest/rdd-programming-guide.html#:~:text=list%20of%20objects.-,Transformations,-The%20following%20table
    

In [38]:
sc.textFile("data/numbers.txt").distinct().collect()

['1 2 3 4 5 6 7 8 9']

Есть маленькая проблема, я не могу запустить этот код на кластере и посмотреть как оно будет работать

По идее всё это отличается от обычного датасета только некой низкоуровневостью и набором реализованных функций, так что если вы работаете с RDD, то просто гуглите в документацию приставку rdd и будет счастье
