In [1]:
from pyspark import SparkContext

In [2]:
sc = SparkContext.getOrCreate()
sc

In [3]:
rdd = sc.parallelize(range(1,6))
rdd.collect()

[1, 2, 3, 4, 5]

# Alternativas a collect ya que puede saturar la memoria

- take(n)
- takeSample(WithRep, n, [seed])
- top(n)
- takeOrdered(n, [order])

In [4]:
rdd.take(3)

[1, 2, 3]

In [5]:
rdd.takeSample(False, 3)

[4, 3, 5]

In [6]:
rdd.takeSample(True, 12)

[4, 2, 5, 4, 5, 2, 5, 4, 5, 4, 4, 5]

In [7]:
rdd.top(4) #Orden descendente

[5, 4, 3, 2]

In [8]:
rdd.takeOrdered(3)

[1, 2, 3]

In [9]:
rdd.takeOrdered(3, key=lambda x: -x)

[5, 4, 3]

# reduce(operacion) combina los elementos utilizando un operador

In [10]:
rdd.reduce(lambda x,y : x+y)

15

In [11]:
rdd.reduce(lambda x,y : x-y)

-13

In [12]:
rdd.reduce(lambda x,y : x*y)

120

In [13]:
rdd.reduce(lambda x,y : x/y)

0.008333333333333333

In [14]:
from operator import add, sub, mul

In [15]:
rdd.reduce(add)

15

In [16]:
rdd.reduce(sub)

-13

In [17]:
rdd.reduce(mul)

120

In [18]:
rdd_vacio = sc.parallelize([])

In [19]:
rdd_vacio.collect()

[]

In [20]:
rdd_vacio.reduce(add)

ValueError: Can not reduce() empty RDD

# fold(valorCero, operación)

In [None]:
rdd.collect()

In [None]:
rdd.reduce(add)

In [None]:
rdd.fold(0, add) # Fold crea el valor cero para la operación en cada partición y luego al final otra vez

In [None]:
rdd.glom().collect() #glom genera una particion en los datos

In [None]:
rdd.fold(1, mul)

In [None]:
rdd = sc.parallelize([380, 240, 295, 100])

In [None]:
rdd.fold(300, lambda x,y:max(x,y))

# aggregate( valorCero, seqOp, combOp)
- seqOp - Este operador es usado para acumular los resultados de cada partición
- combOp - Este operador es usado para acumular los resultados de todas las particiones

In [None]:
rdd = sc.parallelize(range(1,6), 3)
rdd.getNumPartitions()

In [None]:
rdd.glom().collect()

In [None]:
rdd.aggregate(0, lambda x,y: add(x,y),lambda x,y: sub(x,y))

In [None]:
# -(1)-(2+3)-(4+5)

# Acciones para contar elementos
- count() devuelve un numero entero con el número exacto de elementos del RDD
- countApprox(timeout, confidence = 0.95) version aproximada de count()
    - timeout = tiempo en milisegundos
    - confidence = probabilidad de obtener el valor real
- countApproxDistinct(relativeSD = 0.05) devuelve una estimación de valores únicos

In [21]:
rdd = sc.parallelize(range(10000), 16)

In [22]:
rdd.count()

10000

In [23]:
rdd.distinct().count()

10000

In [24]:
rdd.countApprox(1, 0.95)

10000

In [29]:
rdd.countApproxDistinct(0.05)

9760

# countbyValue() retorna el número de veces que aparece cada elemento como un mapa o diccionario

In [31]:
rdd = sc.parallelize(list("hola mundo"))

In [33]:
rdd.collect()

['h', 'o', 'l', 'a', ' ', 'm', 'u', 'n', 'd', 'o']

In [35]:
rdd.countByValue()

defaultdict(int,
            {' ': 1,
             'a': 1,
             'd': 1,
             'h': 1,
             'l': 1,
             'm': 1,
             'n': 1,
             'o': 2,
             'u': 1})

In [36]:
rdd.countByValue().items()

dict_items([(' ', 1), ('a', 1), ('m', 1), ('h', 1), ('n', 1), ('o', 2), ('l', 1), ('d', 1), ('u', 1)])