In [1]:
import org.apache.spark.sql.{DataFrame, SparkSession}

# Variables broadcast

Las variables broadcast son variables de sólo lectura que se mandan una sola vez a cada nodo en lugar de ser enviadas con cada una de las tareas.

## ¿Cómo implementamos variables broadcast?
### Cómo se define la variable broadcast

Para definir una variable broadcast necesitamos llamarla a través del contexto de Spark

In [2]:
val broadcastVar = sc.broadcast(Array(1, 2, 3))

### Cómo consultar la variable broadcast
Para poder consultar su valor utilizamos el método value

In [3]:
broadcastVar.value

Array(1, 2, 3)

### Cómo se destruye una variable broadcast
Antes de destruir una variable broadcast se sugiere qitar su persistencia

In [4]:
broadcastVar.unpersist

Y ya después eliminarla

In [5]:
broadcastVar.destroy

## Escenario hipotético 1
Supongamos que queremos contar los elementos gramaticales de un párrafo y tenemos un Mapa de cada palabra con su categoría gramatical.

Para ello, supongamos que tenemos un diccionario como este (si nos va bien):


### Sin broadcast

In [6]:
 val dictionary = Map(("man"-> "noun"), ("is"->"verb"),("mortal"->"adjective"))

Supongamos también que tenemos una función que cuenta cuántas veces encuentra estos elementos gramaticales en nuestro párrafo 


In [7]:
 def getElementsCount(word :String, dictionary:Map[String,String]):(String,Int) = {
dictionary.filter{ case (wording,wordType) => wording.equals((word))}.map(x => (x._2,1)).headOption.getOrElse(("unknown" -> 1)) //some dummy logic
}

Y usamos esa función para contar cada elemento gramatical encontrado con un set de datos definido:

In [8]:
val words = sc.parallelize(Array("man","is","mortal","mortal","1234","789","456","is","man"))
val grammarElementCounts = words.map( word => getElementsCount(word,dictionary)).reduceByKey((x,y) => x+y)

¿Hizo lo que queríamos?

In [9]:
grammarElementCounts.collect

Array((adjective,2), (noun,2), (unknown,3), (verb,2))

Sí, pero, aunque a nivel local está bien, puede ser problemático cuando lo queramos implementar en el clúster porque se requeriría ese diccionario en cada tarea en todos y cada uno de los ejecutores (tal vez un diccionariod e este tamaño no importa mucho, pero qué va  apasar cuando tengamos un diccionario de miles o decenas o centenas de miles de elementos).

### Con broadcast
Tengo el mismo diccionario, sólo que tengo que convertirlo en una variable broadcast.

In [10]:
val broadCastDictionary = sc.broadcast(dictionary)

Cambiamos un poco nuestra función getElementsCount

In [11]:
def getElementsCount(word :String, dictionary:org.apache.spark.broadcast.Broadcast[Map[String,String]]):(String,Int) = {
dictionary.value.filter{ case (wording,wordType) => wording.equals((word))}.map(x => (x._2,1)).headOption.getOrElse(("unknown" -> 1))
}

En lugar del diccionario crudo pasamos el diccionario broadbast

In [12]:
val words = sc.parallelize(Array("man","is","mortal","mortal","1234","789","456","is","man"))
val grammarElementCounts = words.map( word => getElementsCount(word,broadCastDictionary)).reduceByKey((x,y) => x+y)

In [13]:
grammarElementCounts.collect

Array((adjective,2), (noun,2), (unknown,3), (verb,2))

## Escenario hipotético 2
Supongamos que queremos hacer un join con un RDD de mayor tamaño que otro (lo mismo funciona para Data Frames).


### Sin broadcast

In [14]:
val names_df = spark.read.option("header","true").csv("names")

In [15]:
names_df.show()

+--------+--------+---------+----+
|  Nombre|    Ap_p|     Ap_m|  id|
+--------+--------+---------+----+
|Libertad| Badillo|Hernandez| 001|
|  Ursula| Fuentes|   Berain| 002|
| Mariana| Orantes|   Garcia| 003|
|Consuelo|  Quinto|Hernandez| 004|
|   David|Esquivel|   Garcia| 005|
|  Rafael| Vazquez|  Vazquez| 006|
| Vincent|   Isaac|  Anturez|007 |
+--------+--------+---------+----+



In [16]:
val address_df = spark.read.option("header","true").csv("address")

In [17]:
address_df.show()

+---+-----+-----------+
| id|broad|       spec|
+---+-----+-----------+
|001|india|      Dheli|
|002|  usa|Springfield|
|003|india|    Calcuta|
+---+-----+-----------+



In [18]:
val joined = names_df.join(address_df, "id")

In [19]:
joined.show()

+---+--------+-------+---------+-----+-----------+
| id|  Nombre|   Ap_p|     Ap_m|broad|       spec|
+---+--------+-------+---------+-----+-----------+
|001|Libertad|Badillo|Hernandez|india|      Dheli|
|002|  Ursula|Fuentes|   Berain|  usa|Springfield|
|003| Mariana|Orantes|   Garcia|india|    Calcuta|
+---+--------+-------+---------+-----+-----------+



Entonces, con el join anterior tanto names como addresses sufrirían de un shuffling en el clúster para poder llevar a cabo el join.

## Suponiendo que tenemos RDDs
Podríamos mandar el menor RDD a cada ejecutor con cada tarea

In [27]:
val names = sc.textFile("namesRDD").map(line => (line.split(",")(3),line))
val addresses = sc.textFile("addressRDD").map(line=>(line.split(",")(0),line))
val addressesMap = addresses.collect().toMap
val joined = names.map(v=>(v._2,(addressesMap(v._1))))

Esto no resuelve del todo la situación, ya que para cada tarea en cada nodo estamos mandando una gran cantidad de datos, lo cual hace este procedimiento ineficiente.


### Con variables broadcast

In [24]:
import org.apache.spark.sql.functions.broadcast

In [25]:
val joinedBroad = names_df.join(broadcast(address_df), Seq("id"))

In [26]:
joinedBroad.show()

+---+--------+-------+---------+-----+-----------+
| id|  Nombre|   Ap_p|     Ap_m|broad|       spec|
+---+--------+-------+---------+-----+-----------+
|001|Libertad|Badillo|Hernandez|india|      Dheli|
|002|  Ursula|Fuentes|   Berain|  usa|Springfield|
|003| Mariana|Orantes|   Garcia|india|    Calcuta|
+---+--------+-------+---------+-----+-----------+



Al crear una variable broadcast, esta se mandará a cada nodo una sola vez, reduciendo así el tráfico en la red.

## Fuentes teóricas y de los ejercicios
* https://books.japila.pl/apache-spark-internals/apache-spark-internals/2.4.4/spark-broadcast.html
* https://spark.apache.org/docs/2.2.0/rdd-programming-guide.html#broadcast-variables
* https://blog.knoldus.com/broadcast-variables-in-spark-how-and-when-to-use-them/
* http://www.prathapkudupublog.com/2018/06/accumulators-and-broadcast-variables-in.html
* https://vishnuviswanath.com/spark_rdd_part2.html
