## Creación de RDDs

### Usando SparkContext

El método sparkContext.parallelize nos permite crear un RDD a partir de una lista o una tupla

In [4]:
import pyspark
# Carga ufnciones extra
from pyspark.sql.functions import * 
from pyspark.sql import SparkSession

In [5]:
import os
os.environ["JAVA_HOME"] = "/usr/lib/jvm/java-8-openjdk-amd64"

In [None]:
sc = SparkSession.builder.appName('creando_rdds').getOrCreate()

In [None]:
lista = ['en', 'un', 'lugar', 'de', 'un', 'gran', 'pais']

In [None]:
lista_rdd = sc.sparkContext.parallelize(lista, 4)

In [None]:
lista_rdd

In [None]:
lista_rdd.collect()

### Usando conjuntos de datos externos

A partir de una fuente de almacenamiento, se puede utilizar la función textFile del sparkContext

In [None]:
text = sc.sparkContext.textFile('../data/file.txt')

In [None]:
text

In [None]:
text.collect()

## Operaciones

### Acciones

In [None]:
rdd = sc.sparkContext.parallelize([4,1,2,6,1,5,3,3,2,4])

##### collect()

In [None]:
rdd.collect()

In [None]:
lista = rdd.collect()
print('El tercer elemento de la lista es %d'% lista[2])

In [None]:
lista

##### count()

In [None]:
print('El RDD contiene %d elementos'% rdd.count())

##### countByValue()

In [None]:
rdd.countByValue()

##### reduce()

Agrega los elementos de un RDD según la función que se le pase como parámetro. La función debe cumplir las siguientes propiedades para que pueda ser calculada en paralelo.

        A+B = B+A
        (A+B)+C = A+(B+C)
       
       
 Ejemplo: Multiplicar los valores de rdd y sumar los resultados

In [None]:
rdd2 = rdd.map(lambda x: x*2)
sum_total = rdd2.reduce(lambda x,y: x+y)

In [None]:
rdd.collect()

In [None]:
rdd2.collect()

In [None]:
sum_total

Ejemplo 2:  Crear un diccionario con elementos (x,1) y suma las apariciones por elemento

In [None]:
rdd_text = sc.sparkContext.parallelize(['red', 'red', 'blue', 'green', 'green', 'yellow'])
rdd_aux = rdd_text.map(lambda x: (x,1))
rdd_result = rdd_aux.reduceByKey(lambda x,y: x+y)

In [None]:
rdd_aux.collect()

In [None]:
rdd_result.collect()

#### foreach()

In [None]:
def impar(x):
    if x%2 == 1:
        print('%d es impar'% x)

rdd.foreach(impar)

In [None]:
rdd.collect()

##### collectAsMap()

In [None]:
sc.sparkContext.parallelize([('a','b'), ('c','d')]).collectAsMap()

In [None]:
sc.sparkContext.parallelize([('a','b'), ('c','d'), ('h', 'i')]).collectAsMap()

### Transformaciones

##### map()

In [None]:
t1 = rdd.map(lambda x: x*2)
t1.collect()

##### filter()

In [None]:
num = sc.sparkContext.parallelize([4,1,2,6,1,5,3, 1000, 100, 2000])
num.filter(lambda x: x < 50).collect()

#### distinct()

In [None]:
rdd.collect()

In [None]:
rdd.distinct().collect()

##### union()

In [None]:
city1 = sc.sparkContext.parallelize(['Barcelona', 'Madrid', 'Paris'])
# city2 = sc.sparkContext.parallelize(['Madrid', 'Londres', 'Roma'])
city2 = sc.sparkContext.parallelize(('Madrid', 'Londres'))
city1.union(city2).collect()

In [None]:
text.coalesce(1)