### RDD: Resilient Distributed Datasets

-   Colección inmutable y distribuida de elementos que pueden manipularse en paralelo

-   Un programa Spark opera sobre RDDs:

    -   Creación de RDDs

    -   Transformación de RDDs (map, filter, etc.)

    -   Realización de acciones sobre RDDs para obtener resultados

-   Spark automáticamente distribuye los datos y paraleliza las operaciones

#### Creación de RDDs

Dos formas:

-   Paralelizando una colección en el programa driver

In [2]:
# Ejemplo en PySpark
rdd1 = sc.parallelize([1,2,3])

import numpy as np
rdd2=sc.parallelize(np.array(range(100)))
print(rdd2.glom().collect())

In [3]:
// Ejemplo en Scala
val rdd3 = sc.parallelize(List(1, 2, 3))

val rdd4 = sc.parallelize(1 to 100)

val lista = rdd4.glom().collect()


-   Leyendo datos de un fichero

In [5]:
# Ejemplo en PySpark (fichero ../datos/quijote.txt)
quijote = sc.textFile("../datos/quijote.txt")
print(quijote.take(1000))

In [6]:
// Ejemplo en Scala (fichero ../datos/quijote.txt)
val quijote = sc.textFile("../datos/quijote.txt")
quijote.take(1000).foreach(println)

### Particiones

Spark divide el RDD en en conjunto de particiones

-   El número de particiones por defecto es función del tamaño del
    cluster o del número de bloques del fichero (p.e. bloques HDFS)

-   Se puede especificar otro valor en el momento de crear el RDD

In [8]:
rdd = sc.parallelize([1,2,3,4], 2)
print(rdd.glom().collect())
print(rdd.getNumPartitions())

In [9]:
val rdd = sc.parallelize(List(1,2,3,4), 2)
println(rdd.partitions.size)
val parti = rdd.glom().collect()

### Transformaciones

Operaciones sobre RDDs que devuelven un nuevo RDD

-   Se computan de forma “perezosa” ( *lazy* )

-   Normalmente, ejecutan una función (anónima o no) sobre cada uno de
    los elementos del RDD de origen

In [11]:
quijs = quijote.filter(lambda l: "Quijote" in l)
sanchs = quijote.filter(lambda l: "Sancho" in l)
quijssancs = quijs.intersection(sanchs)
quijssancs.cache()

In [12]:
val quijs = quijote.filter(l => l contains "Quijote")
val sanchs = quijote.filter(l => l contains "Sancho")
val quijssancs = quijs.intersection(sanchs)

### Acciones

Obtienen datos de salida a partir de los RDDs

-   Devuelven valores al driver o al sistema de almacenamiento

-   Fuerzan a que se realicen las transformaciones pendientes

In [14]:
nqs = quijssancs.count()
print("Líneas con Quijote y Sancho {0}".format(nqs))
for l in quijssancs.takeSample(False,10):
    print(l)

In [15]:
val nqs = quijssancs.count()
println("Líneas con Quijote y Sancho:"+nqs)

quijssancs.takeSample(false,10).foreach(println)
quijssancs.collect().foreach(println)