[![img/pythonista.png](img/pythonista.png)](https://www.pythonista.io)

# Introducción a *Resilient Distributed Datasets (RDD)*

Para poder procesar de forma distribuida grandes volúmenes de datos, *Apache Spark* utiliza los *Resilient Distributed Datasets (RDD)*, los cuales son abstracciones de datos que pueden ser particionadas y ditribuidas de forma consistente dentro del cluster por medio del *SparkContext* y también pueden ser operados de forma paralela.

El objetivo principal de los *RDD* es el de garantizar.

* La adecuada ejecución de cargas de cómputo en memoria.
* Realización de operaciones de evaluación "perezosa" (*lazy evaluation*).
* Garantizar la tolerancia a fallos.
* Garantizar la inmutabilidad de los datos.
* Contar con la capacidad de particionamiento de los datos en un clúster.
* Garantizar la persistencia de los datos.
* Permitir la realización de operaciones granulares.



https://spark.apache.org/docs/latest/rdd-programming-guide.html#overview

## Creación de un *RDD*.

Existen dos formas de crear un*RDD*.

* Utilizando el método [```pyspark.SparkContext.parallelize()```](https://spark.apache.org/docs/latest/api/python/reference/api/pyspark.SparkContext.parallelize.html) sobre una colección de *Python*.
* Referenciando un [dataset](https://spark.apache.org/docs/latest/api/python/reference/api/pyspark.SparkContext.parallelize.html) en un sistema de almacenamiento externo.

In [1]:
from pyspark.sql import SparkSession

In [2]:
spark = SparkSession.builder.appName("Introduccion a RDD").getOrCreate()

In [3]:
rdd_lista = spark.sparkContext.parallelize('1,2,3,4')

In [7]:
rdd_lista

ParallelCollectionRDD[0] at readRDDFromFile at PythonRDD.scala:274

In [4]:
rdd_texto = spark.sparkContext.textFile('00_Preliminar.ipynb')

In [5]:
rdd_texto

00_Preliminar.ipynb MapPartitionsRDD[2] at textFile at NativeMethodAccessorImpl.java:0

## Operaciones de *RDDs*.

Las operaciones son acciones que pueden ser asignadas como tareas de procesamiento de un clúster. Los *RRD* pueden realizar operaciones de dos tipos:

* **Transformaciones**. Son operaciones perezosas, que dan por resultado un nuevo *RDD*. Una operación perezosa no se realiza hasta que el objeto resultante de dicha operación se utilizado. Algunas transformaciones son [```flatMap()```](https://spark.apache.org/docs/latest/api/python/reference/api/pyspark.RDD.flatMap.html), [```map()```](https://spark.apache.org/docs/latest/api/python/reference/api/pyspark.RDD.map.html), [```reduceByKey()```](https://spark.apache.org/docs/latest/api/python/reference/api/pyspark.RDD.reduceByKey.html), [```filter()```](https://spark.apache.org/docs/latest/api/python/reference/api/pyspark.RDD.filter.html), [```sortByKey()```](https://spark.apache.org/docs/latest/api/python/reference/api/pyspark.RDD.sortByKey.html).
* [**Acciones**](https://spark.apache.org/docs/latest/rdd-programming-guide.html#actions). Son operaciones que realizan cómputos a partir del *RDD* y regresan algún valor. Algunas acciones son [```count()```](https://spark.apache.org/docs/latest/api/python/reference/api/pyspark.RDD.count.html), [```collect()```](https://spark.apache.org/docs/latest/api/python/reference/api/pyspark.RDD.collect.html), [```first()```](https://spark.apache.org/docs/latest/api/python/reference/api/pyspark.RDD.first.html), [```max()```](https://spark.apache.org/docs/latest/api/python/reference/api/pyspark.RDD.max.html), [```reduce()```](https://spark.apache.org/docs/latest/api/python/reference/api/pyspark.RDD.reduce.html).

https://spark.apache.org/docs/latest/rdd-programming-guide.html#rdd-operations

https://www.analyticsvidhya.com/blog/2021/10/a-comprehensive-guide-to-pyspark-rdd-operations/


In [8]:
rdd_lista.count()

7

In [15]:
palabras = rdd_texto.flatMap(lambda line: line.split(" "))

<p style="text-align: center"><a rel="license" href="http://creativecommons.org/licenses/by/4.0/"><img alt="Licencia Creative Commons" style="border-width:0" src="https://i.creativecommons.org/l/by/4.0/80x15.png" /></a><br />Esta obra está bajo una <a rel="license" href="http://creativecommons.org/licenses/by/4.0/">Licencia Creative Commons Atribución 4.0 Internacional</a>.</p>
<p style="text-align: center">&copy; José Luis Chiquete Valdivieso. 2022.</p>