# Arquitecturas Cloud y Big Data
#
### Modulo 6 - Dia 2
### 4. Introducción a PySpark: RDDs

#### ¿Qué es RDD (Resilient Distributed Datasets)?

El sistema de Apache Spark trabaja con los datos bajo un concepto denominado RDD (Resilient Distributed Datasets) o Conjuntos de datos distribuidos resistentes, en español.

Los RDDs poseen unas características específicas que ayudan a procesar los datos de una forma más eficaz. A continuación, te exponemos cuáles son estas características:

#

- Inmutables: estos no se pueden modificar una vez han sido creados.
- Distribuidos: hace referencia a los RDD (Resilient Distributed Datasets) que están divididos en particiones que están repartidas en el clúster.
- Resilientes: en caso de perder una partición, esta se regenera automáticamente.

In [0]:
# Crear un RDD (Resilient Distributed Datasets - Conjuntos de datos distribuidos resistentes) a partir de una lista de elementos.

numeros = sc.parallelize([1,2,3,4,5,6,7,8,9,10], 2)

In [0]:
# Contar los elementos del RDD
print(numeros.count())

10


In [0]:
# Visualizar elementos del RDD
numeros.collect()

Out[3]: [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]

In [0]:
# Ver el tipo de dato almacenado en la variable
type(numeros)

Out[4]: pyspark.rdd.RDD

In [0]:
# Ver numero de particiones
numeros.getNumPartitions()

Out[5]: 2

#### Funcione Lambda
#
##### Funciones lambda (o anónimas) de Python
#
- Son funciones anónimas. Por ejemplo, para sumar dos números:
  ###### lambda a, b: a + b
  
- Se pueden usar cuando haya que pasar una función como parámetro.
- Tienen una única instrucción cuyo valor corresponde al valor devuelto.

#### RDDs: Transformaciones más comunes
#
- map(func)
- filter(func)
- flatMap(func)
- distinct()
- union(otroRDD)
- sample()
#
A continuación, se explicaran cada una de estas transformaciones.

##### Transformación map() : 
Crea un nuevo RDD a partir de otro aplicando una transformación a cada elemento original.

In [0]:
# Crear RDD 
numeros = sc.parallelize([1,2,3,4,5])

# Aplicar transformación map()
num3 = numeros.map(lambda x: 3 * x)

# Visualizar elemento RDD num3
num3.collect()

Out[6]: [3, 6, 9, 12, 15]

In [0]:
# 1 - Cuestiones sobre "map()" 
   # ¿Cuál es el tamaño del rdd de salida?

# Crear RDD 
palabras = sc.parallelize(['HOLA', 'Que', 'TAL', 'Bien'])

# Aplicar transformación map()
pal_minus = palabras.map(lambda elemento: elemento.lower())

# Visualizar elemento RDD pal_minus
print(palabras.collect())
print(pal_minus.collect())

['HOLA', 'Que', 'TAL', 'Bien']
['hola', 'que', 'tal', 'bien']


In [0]:
# 2 - Cuestiones sobre "map()" 
    #¿Podemos cambiar el tipo de los elementos de los RDD con un map?

# Crear RDD 
palabras = sc.parallelize(['HOLA', 'Que', 'TAL', 'Bien'])

# Aplicar transformación map()
pal_long = palabras.map(lambda p: len(p))

# Visualizar elemento RDD pal_long
print(palabras.collect())
print(pal_long.collect())

['HOLA', 'Que', 'TAL', 'Bien']
[4, 3, 3, 4]
