Aspectos avanzados
==================

### Acumuladores

Permiten agregar valores desde los *worker nodes*, que se pasan al
*driver*

-   Útiles para contar eventos

-   Solo el driver puede acceder a su valor

-   Acumuladores usados en transformaciones de RDDs pueden ser
    incorrectos

    -   Si el RDD se recalcula, el acumulador puede actualizarse

    -   En acciones, este problema no ocurre

-   Por defecto, los acumuladores son enteros o flotantes
    - Es posible crear “acumuladores a medida” usando [`AccumulatorParam`](https://spark.apache.org/docs/1.5.2/api/python/pyspark.html#pyspark.AccumulatorParam)

In [None]:
from test_helper import Test
from __future__ import print_function

from numpy.random import randint
npares = sc.accumulator(0)
def esPar(n):
    global npares
    if n%2 == 0:
        npares += 1
rdd = sc.parallelize(randint(100, size=10000))
rdd.foreach(esPar)
print("N pares: %d" % npares.value)

### Variables de broadcast

-   Por defecto, todas las variables compartidas son enviadas a todos
    los workers

    -   Se reenvían en cada operación en la que aparezcan

-   Variables de broadcast: permiten enviar de forma eficiente variables
    de solo lectura a los workers

    -   Se envían solo una vez

In [None]:
dicc=sc.broadcast({"a":"alpha","b":"beta","c":"gamma"})

rdd=sc.parallelize([("a", 1),("b", 3),("a", -4),("c", 0)])
reduced_rdd = rdd.reduceByKey(lambda x,y: x+y).map(lambda (x,y): (dicc.value[x],y))

Test.assertEquals(reduced_rdd.collect(), [('alpha',-3), ('gamma',0), ('beta',3)])

### Trabajando a nivel de partición

Una operación map se hace para cada elemento de un RDD

-   Puede implicar operaciones redundantes (p.e. abrir una conexión a
    una BD)

-   Puede ser poco eficiente

Se pueden hacer `map` y `foreach` una vez por partición:

-   Métodos `mapPartitions()`, `mapPartitionsWithIndex()` y
    `foreachPartition()`

In [None]:
nums = sc.parallelize([1,2,3,4,5,6,7,8,9], 2)
print(nums.glom().collect())

def sumayCuenta(nums):
    sumaCuenta = [0,0]
    for num in nums:
        sumaCuenta[0] += num
        sumaCuenta[1] += 1
    return sumaCuenta
    
print(nums.mapPartitions(sumayCuenta).glom().collect())

def sumayCuentaIndex(index, nums):
    return index,sumayCuenta(nums)
    
print(nums.mapPartitionsWithIndex(sumayCuentaIndex).collect())

### Conexión con programas externos (*Piping*)

Pipes con programas en otros lenguajes que puedan leer de la entrada
estándar y escribir en la salida estándar

-   Método `pipe()`: lee de stdin y escribe en stdout

-   Cada elemento de un RDD se lee/escribe como String

-   El script debe ser facilitado a todos los nodos de cómputo
    $\Rightarrow$ `SparkContext.addFile(path)`, `SparkFiles.get(path)`

In [None]:
from pyspark.files import SparkFiles
rdd = sc.parallelize(["uno", "dos", "tres", "cuatro"])
script = "aux/echoupper.sh"
scriptName = "echoupper.sh"
sc.addFile(script)
pipeRDD = rdd.pipe(SparkFiles.get(scriptName))
print(pipeRDD.collect())