# Broadcast and Accumulator variables

In [1]:
import pyspark
sc = pyspark.SparkContext(appName="accumulators")

## Accumulators

Accumulators are variables that are used for aggregating information across the executors. For example, we can calculate how many records are corrupted or count events that occur during job execution for debugging purposes

In [3]:
acc = sc.accumulator(0)

In [4]:
rdd = sc.textFile("data/shakespeare.txt")

In [5]:
rdd.foreach(lambda x: acc.add(1))

In [6]:
# Wartość dostępna jest jako
acc.value

165349

In [7]:
# Akumulatory można opakowywać w funkję, jeżeli zachodzi taka potrzeba
def function_with_acc(x):
    acc.add(1)

In [8]:
rdd.foreach(function_with_acc)

In [9]:
acc.value

6510

In [10]:
# Zainicjujmy kolejny akumulator
acc2 = sc.accumulator(0)

In [11]:
# ... i związaną funkcję
def split_and_countspaces(x):
    acc2.add(x.count(" "))
    return x.split()

In [None]:
words = rdd.flatMap(split_and_countspaces)

### Exercise 

* Jaka jest wartość `acc2`?
* Pobierz 15 wyrazów: jaka jest teraz wartość `acc2`?
* Pobierz jeszcze raz i sprawdź wartość.
* Użyj `words.cache()`, pobierz 15 wyrazów i sprawdź `acc2.value`.
* Weż pierwsze 15 wyrazów i sprawdź `acc2.value`.

## Broadcasts

Zmienne tylko do odczytu pozwalające przekazywać argumenty do zadań. 

In [None]:
# Zmiennych tych używa się do przekazywania argumentów; wartości te mogą być dość duże
br = sc.broadcast(["Markus", "Titus", "hate", "die"])

In [None]:
br.value

In [None]:
def line_of_love(line):
    t = 0
    for word in br.value:
        if word in line:
            t += 1
    return t > 1

In [None]:
rdd.filter(line_of_love).take(5)

In [None]:
rdd.filter(line_of_love).takeSample(False, 5)