[![img/pythonista.png](img/pythonista.png)](https://www.pythonista.io)

# Introducción a *Resilient Distributed Datasets (RDD)*

Para poder procesar de forma distribuida grandes volúmenes de datos, *Apache Spark* utiliza los *Resilient Distributed Datasets (RDD)*, los cuales son abstracciones de datos que pueden ser particionadas y distribuidas de forma consistente dentro del cluster por medio del *SparkContext* y también pueden ser operados de forma paralela.

Un *RDD* es una colección de datos que no necesariamente debe de tener una estructura o esquema.

Las caracterísitcas principales de los *RDD* son:

* Permite realizar la adecuada ejecución de cargas de cómputo en memoria.
* Permite la ejecución de operaciones de evaluación "perezosa" (*lazy evaluation*).
* Son estructuras con tolerancia a fallos.
* Son estructuras inmutables.
* Cuenta con la capacidad de particionamiento de los datos en un clúster.
* Garantizar la persistencia de los datos.
* Permitir la realización de operaciones granulares.



https://spark.apache.org/docs/latest/rdd-programming-guide.html#resilient-distributed-datasets-rdds

## Creación de un *RDD*.

Existen dos formas de crear un *RDD*.

* Utilizando el método [```pyspark.SparkContext.parallelize()```](https://spark.apache.org/docs/latest/api/python/reference/api/pyspark.SparkContext.parallelize.html) sobre una colección de *Python*.
* Referenciando un [*dataset* externo](https://spark.apache.org/docs/latest/rdd-programming-guide.html#external-datasets) en un sistema de almacenamiento externo.
    * [```SparkContext.textFile()```](https://spark.apache.org/docs/latest/api/python/reference/api/pyspark.SparkContext.textFile.html)
    * [```SparkContext.wholeTextFiles()```](https://spark.apache.org/docs/latest/api/python/reference/api/pyspark.SparkContext.wholeTextFiles.html)
    * [```SparkContext.pickleFile()```](https://spark.apache.org/docs/latest/api/python/reference/api/pyspark.SparkContext.pickleFile.html)
    * [```SparkContext.sequenceFile()```](https://spark.apache.org/docs/latest/api/python/reference/api/pyspark.SparkContext.sequenceFile.html)
    * [```SparkContext.binaryFiles()```](https://spark.apache.org/docs/latest/api/python/reference/api/pyspark.SparkContext.binaryFiles.html)
    * [```SparkContext.binaryRecords()```](https://spark.apache.org/docs/latest/api/python/reference/api/pyspark.SparkContext.binaryRecords.html)

**Ejemplo:**

* La siguiente celda creará una aplicación de *Spark*.

In [None]:
from pyspark.sql import SparkSession
spark = SparkSession.builder.appName("Introduccion a RDD").getOrCreate()

* La siguiente celda creará un *RDD* llamado ```rdd_lista``` a partir de un objeto de tipo ```list``` de *Python*.

In [None]:
rdd_lista = spark.sparkContext.parallelize([1, 2, 3, [4, 5], 6, 7])

In [None]:
rdd_lista

* La siguiente celda leerá el archivo de texto [```data/quijote.txt```](data/quijote.txt), el cual contiene el texto completo del libro "El ingenioso hidalgo don Quijote de la Mancha" de Miguel de Cervantes Saavedra el cual fue publicado por el [proyecto Gutenberg](https://www.gutenberg.org/files/2000/2000-0.txt) y creará el *RDD* con nombre ```rdd_texto```.

In [None]:
rdd_texto = spark.sparkContext.textFile('data/quijote.txt')

In [None]:
rdd_texto

## Operaciones de *RDDs*.

Las operaciones son acciones que pueden ser asignadas como tareas de procesamiento de un clúster. Los *RRD* pueden realizar operaciones de dos tipos:

* [**Transformaciones**](https://spark.apache.org/docs/latest/rdd-programming-guide.html#transformations). Son operaciones perezosas, que dan por resultado un nuevo *RDD*. Una operación perezosa no se realiza hasta que el objeto resultante de dicha operación es utilizado. Algunas transformaciones son [```flatMap()```](https://spark.apache.org/docs/latest/api/python/reference/api/pyspark.RDD.flatMap.html), [```map()```](https://spark.apache.org/docs/latest/api/python/reference/api/pyspark.RDD.map.html), [```reduceByKey()```](https://spark.apache.org/docs/latest/api/python/reference/api/pyspark.RDD.reduceByKey.html), [```filter()```](https://spark.apache.org/docs/latest/api/python/reference/api/pyspark.RDD.filter.html), [```sortByKey()```](https://spark.apache.org/docs/latest/api/python/reference/api/pyspark.RDD.sortByKey.html).
* [**Acciones**](https://spark.apache.org/docs/latest/rdd-programming-guide.html#actions). Son operaciones que realizan cómputos a partir del *RDD* y regresan algún valor. Algunas acciones son [```count()```](https://spark.apache.org/docs/latest/api/python/reference/api/pyspark.RDD.count.html), [```collect()```](https://spark.apache.org/docs/latest/api/python/reference/api/pyspark.RDD.collect.html), [```first()```](https://spark.apache.org/docs/latest/api/python/reference/api/pyspark.RDD.first.html), [```max()```](https://spark.apache.org/docs/latest/api/python/reference/api/pyspark.RDD.max.html), [```reduce()```](https://spark.apache.org/docs/latest/api/python/reference/api/pyspark.RDD.reduce.html).

https://spark.apache.org/docs/latest/rdd-programming-guide.html#rdd-operations

https://www.analyticsvidhya.com/blog/2021/10/a-comprehensive-guide-to-pyspark-rdd-operations/


### Ejemplos de acciones.

* Las siguientes celdas utilizarán el método [```pyspark.RDD.count()```](https://spark.apache.org/docs/latest/api/python/reference/api/pyspark.RDD.count.html), el cual regresa el número de elementos de un *RDD*.

In [None]:
rdd_lista.count()

In [None]:
rdd_texto.count()

* Las siguientes celdas utilizarán el método [```pyspark.RDD.first()```](https://spark.apache.org/docs/latest/api/python/reference/api/pyspark.RDD.first.html), el cual regresa el primer elemento de un *RDD*.

In [None]:
rdd_lista.first()

In [None]:
rdd_texto.first()

* Las siguientes celdas utilizarán el método [```pyspark.RDD.collect()```](https://spark.apache.org/docs/latest/api/python/reference/api/pyspark.RDD.count.html), el cual regresará un objeto de tipo ```list``` de *Python* con cada elemento del *RDD*. En este caso, cada línea del texto.

In [None]:
lineas_quijote = rdd_texto.collect()

In [None]:
len(lineas_quijote)

In [None]:
lineas_quijote[0:15]

### Ejemplos de transformaciones.

* La siguiente celda creará un nuevo *RDD* en el que el método [```pyspark.RDD.flatMap()```](https://spark.apache.org/docs/latest/api/python/reference/api/pyspark.RDD.flatMap.html) tratará a cada palabra del texto como un elemento al aplicar el método [```str.split()```](https://www.w3schools.com/python/ref_string_split.asp) de *Python* a cada línea del *RDD* ```rdd_texto```.

In [None]:
rdd_texto.flatMap(lambda x: x.split(" "))

In [None]:
rdd_texto.flatMap(lambda x: x.split(" ")).collect()

La siguiente celda creará un *RDD* similar al de la celda anterior y ejecutará la función [```pyspark.RDD.filter()```](https://spark.apache.org/docs/latest/api/python/reference/api/pyspark.RDD.filter.html), la cual a su vez creará otro *RDD* que excluya los textos vacíos. A este nuevo *RDD* se le dará el mombre de ```palabras_quijote```.

In [None]:
palabras_quijote = rdd_texto.flatMap(lambda x: x.split(" "))\
    .filter(lambda x: x != "")

In [None]:
palabras_quijote

In [None]:
palabras_quijote.collect()

### Ejemplo de conteo de palabras.

La siquiente celda creará el *RDD* ```conteo_palabras``` que contiene el conteo de cada palabra del *RDD* ```palabras_quijote```.

* El método [```pyspark.RDD.map()```](https://spark.apache.org/docs/latest/api/python/reference/api/pyspark.RDD.map.html) de la forma ```(<palabra>, 1)```.
* El método [```pyspark.RDD.reduceByKey()```](https://spark.apache.org/docs/latest/api/python/reference/api/pyspark.RDD.reduceByKey.html) agrupará cada palabra y contará las veces que esta se repite.

In [None]:
conteo_palabras = palabras_quijote.map(lambda palabra: (palabra, 1))\
.reduceByKey(lambda a, b: a + b)

In [None]:
conteo_palabras.collect()

* El método [```pyspark.RDD.sortBy()```](https://spark.apache.org/docs/latest/api/python/reference/api/pyspark.RDD.sortBy.html) regresará un *RDD* ordenado en forma descendente a partir del *RDD* ```conteo_palabras```. 

In [None]:
conteo_ord = conteo_palabras.sortBy(lambda x: x[1], ascending=False)

In [None]:
conteo_ord.collect()

El método [```pyspark.RDD.take()```](https://spark.apache.org/docs/latest/api/python/reference/api/pyspark.RDD.take.html) regresará un objeto de tipo ```list```de *Python* con los primeros 50 elementos del *RDD* ```conteo_ord```.

In [None]:
conteo_50 = conteo_ord.take(50)

In [None]:
conteo_50

* Ahora se realizarán todas las expresiones previas en una sola expresión.

In [None]:
rdd_texto.flatMap(lambda x: x.split(" "))\
    .filter(lambda x: x != None)\
    .map(lambda palabra: (palabra, 1))\
    .reduceByKey(lambda a, b: a + b)\
    .sortBy(lambda x: x[1], ascending=False)\
    .take(50)

## Operaciones de escritura de un *RDD*.

* [```saveAsHadoopDataset()```](https://spark.apache.org/docs/latest/api/python/reference/api/pyspark.RDD.saveAsHadoopDataset.html)
* [```saveAsNewAPIHadoopDataset()```](https://spark.apache.org/docs/latest/api/python/reference/api/pyspark.RDD.saveAsNewAPIHadoopDataset.html)
* [```saveAsPickleFile()```](https://spark.apache.org/docs/latest/api/python/reference/api/pyspark.RDD.saveAsPickleFile.html)
* [```saveAsHadoopDataset()```](https://spark.apache.org/docs/latest/api/python/reference/api/pyspark.RDD.saveAsHadoopDataset.html)
* [```saveAsHadoopFile()```](https://spark.apache.org/docs/latest/api/python/reference/api/pyspark.RDD.saveAsHadoopFile.html)
* [```saveAsSequenceFile()```](https://spark.apache.org/docs/latest/api/python/reference/api/pyspark.RDD.saveAsSequenceFile.html)
* [```saveAsTextFile()```](https://spark.apache.org/docs/latest/api/python/reference/api/pyspark.RDD.saveAsTextFile.html)	 

In [None]:
!rm -rf ./conteo 

In [None]:
conteo_ord.saveAsTextFile('conteo')

In [None]:
!ls ./conteo

In [None]:
nuevo_conteo = spark.sparkContext.textFile("./conteo/*")

In [None]:
nuevo_conteo.collect()

In [None]:
spark.stop()

<p style="text-align: center"><a rel="license" href="http://creativecommons.org/licenses/by/4.0/"><img alt="Licencia Creative Commons" style="border-width:0" src="https://i.creativecommons.org/l/by/4.0/80x15.png" /></a><br />Esta obra está bajo una <a rel="license" href="http://creativecommons.org/licenses/by/4.0/">Licencia Creative Commons Atribución 4.0 Internacional</a>.</p>
<p style="text-align: center">&copy; José Luis Chiquete Valdivieso. 2022.</p>