Resilient Distributed Dataset (RDD) es la principal abstracción de Spark.
Son una colección de elementos particionados a través de los nodos del cluster que pueden operar en paralelo.
Hay tres características principales de los RDDs:
* **Dependencia**: RDDs mantienen un registro de cómo se crean a partir de otros datasets. Por ejemplo, un RDD puede ser creado a partir de otro RDD mediante un map, filter, etc. Esto permite a Spark reconstruir un RDD en caso de fallo de un nodo.
*
* **Particionado**: RDDs son particionados en múltiples particiones que pueden ser computadas en diferentes nodos del cluster.
*
* **Función de cálculo**: RDDs soportan dos tipos de operaciones: transformaciones y acciones. Las transformaciones crean un nuevo RDD a partir de uno existente, mientras que las acciones devuelven un valor al programa driver después de computar un dataset.

In [0]:
import findspark

findspark.init()

from pyspark.sql import SparkSession
from pyspark import SparkContext

# Creación de sesión de Spark que a su vez crea el SparkContext

spark = SparkSession.builder.master("local[*]").getOrCreate()

# Punto de entrada a Spark para trabajar con RDDs
sc: SparkContext = spark.sparkContext


In [0]:
# Creación de RDD vacío
rdd = sc.emptyRDD()

In [0]:
# Creación de RDD vacío con parallelize
empty_parallelized_rdd = sc.parallelize([], numSlices=3)

In [0]:
# Obtener el número de particiones del RDD
empty_parallelized_rdd.getNumPartitions()

In [0]:
# Creación de RDD con datos con parallelize
parallelized_rdd = sc.parallelize([1, 2, 3, 4], numSlices=3)
parallelized_rdd.collect()

In [0]:
# Creación de RDD desde un archivo de texto con textFile
rdd_text = sc.textFile(name=r"../../data/rdd_source.txt")
rdd_text.collect()

In [None]:
# Creación de RDD desde un archivo de texto con wholeTextFiles
rdd_whole_text = sc.wholeTextFiles(r"../../data/rdd_source.txt")
rdd_whole_text.collect()

In [2]:
# Creación de RDD a partir de otro RDD existente
rdd_from_rdd = parallelized_rdd.map(lambda x: x + 1)
rdd_from_rdd.collect()

[2, 3, 4, 5]

In [3]:
# Creación de RDD desde un DataFrame
df = spark.createDataFrame(data=[(1, 2), (3, 4)], schema=["a", "b"])
df.show()

rdd_from_df = df.rdd
rdd_from_df.collect()

+---+---+
|  a|  b|
+---+---+
|  1|  2|
|  3|  4|
+---+---+



[Row(a=1, b=2), Row(a=3, b=4)]