In [0]:
# RDDs: Acciones
# Devuelven un valor (relativo al RDD)
# Desencadena la ejecución de toda la secuencia de transformaciones  necesarias para obtener dicho valor.
# Ejecuta la "receta"


# ACCIONES MÁS COMUNES:
    # count(): Devuelve el número de elementos del RDD
    # reduce(func): Agrega los elementos del RDD usando func
    # take(n): Devuelve una lista con los primeros n elementos  del RDD
    # collect(): Devuelve una lista con todos los elementos del  RDD
    # takeOrdered(n[,key=func]): Devuelve n elementos en orden ascendente. Opcionalmente se puede especificar la clave de ordenación

In [0]:
# Devuelve el número de elementos del RDD

numeros = sc.parallelize([1, 2, 3, 4, 5, 6, 7, 8, 9, 10])

pares = numeros.filter(lambda elemento: elemento % 2 == 0)

pares.count()

Out[3]: 5

In [0]:
# Devuelve una lista con los primeros "n" elementos del  RDD (cuando usar collect() supone mucha memoria)

numeros = sc.parallelize([5, 3, 2, 1, 4])

print(numeros.take(3))

[5, 3, 2]


In [0]:
# Devuelve una lista con los primeros "n" elementos del  RDD en orden ascendente

numeros = sc.parallelize([3, 2, 1, 4, 5])

print(numeros.takeOrdered(3))

[1, 2, 3]


In [0]:
# si quieres descendente

numeros = sc.parallelize([3, 2, 1, 4, 5])

print(numeros.takeOrdered(3, lambda elem: -elem))

[5, 4, 3]


In [0]:
# Agrega todos los elementos del RDD por pares hasta  obtener un único valor (expresión lambda)

numeros = sc.parallelize([1, 2, 3, 4, 5])

numeros.reduce(lambda elem1, elem2: elem1 + elem2)

Out[8]: 15

In [0]:
# Aquí se engaña a reduce, porque realmente no es suma, sino concatenación

palabras = sc.parallelize(["HOLA", "Que", "TAL", "Bien"])

pal_minus = palabras.map(lambda elemento: elemento.lower())

print(pal_minus.reduce(lambda elem1, elem2: elem1 + "-" + elem2))

hola-que-tal-bien


In [0]:
# Aquí no podemos usar solo lambda, necesitamos más pasos y crear una función

def cadena_larga(elem1, elem2):

    if len(elem1) >= len(elem2):
        return elem1
    else:
        return elem2
    
palabras2 = sc.parallelize(['Como', 'te', 'encuentras', 'hoy'])
    
palabras2.reduce(cadena_larga)       # La función te compara dos elementos, y reduce hace que se comparen todos y solo quede uno

Out[17]: 'encuentras'