## Variables Compartidas y Clusters

### 1. Introducción a las Variables Compartidas y Clusters
En el contexto de la computación distribuida, las variables compartidas son mecanismos que permiten compartir datos entre los nodos de un clúster de manera eficiente. Estas variables son esenciales para optimizar el rendimiento y reducir la redundancia en operaciones distribuidas, especialmente en frameworks como Apache Spark.

### 2. Variables Compartidas Distribuidas
Las variables compartidas distribuidas son un tipo de variable que se replica en todos los nodos de un clúster, permitiendo que cada nodo acceda a una copia local de los datos. Esto evita la necesidad de enviar grandes volúmenes de datos repetidamente a través de la red, lo que mejora el rendimiento.

### 3. ¿Qué son las Variables Compartidas?
Las variables compartidas son de dos tipos principales:

- **Broadcast Variables**: Variables de solo lectura que se envían a todos los nodos del clúster.

- **Acumuladores**: Variables que permiten agregar valores de manera distribuida, generalmente para realizar operaciones como conteos o sumas.

### 4. ¿Qué son las Variables Distribuidas?
Las variables distribuidas son aquellas que se almacenan y gestionan en un entorno distribuido, como un clúster. Estas variables pueden ser compartidas entre múltiples tareas o nodos, lo que facilita la ejecución de operaciones paralelas y distribuidas.

### 5. Transmisión de Variables (Broadcast Variables)
Las Broadcast Variables son útiles cuando se necesita compartir grandes conjuntos de datos, como tablas de búsqueda o modelos de machine learning, con todos los nodos del clúster.

- **Casos de uso**:

  - **Tablas de búsqueda**: Compartir una tabla de referencia para evitar enviarla repetidamente.

  - **Modelos de machine learning**: Distribuir un modelo entrenado para su uso en la inferencia distribuida.

- **Ejemplo práctico en Scala con Databricks**:

In [None]:
val broadcastVar = sc.broadcast(Array(1, 2, 3, 4, 5))
val result = sc.parallelize(Array(1, 2, 3)).map(x => broadcastVar.value(x))
result.collect().foreach(println)

### 6. Acumuladores
Los acumuladores son variables que permiten agregar valores de manera distribuida. Son útiles para realizar operaciones como conteos, sumas o estadísticas.

- **Casos de uso**:

   - **Contadores**: Contar eventos o elementos en un conjunto de datos.

   - **Sumas**: Acumular valores numéricos.

   - **Estadísticas**: Calcular métricas distribuidas.

- Ejemplo práctico en Scala con Databricks:

In [None]:
val accum = sc.longAccumulator("Mi Acumulador")
sc.parallelize(Array(1, 2, 3, 4)).foreach(x => accum.add(x))
println(accum.value) // Imprime 10

### 7. Acumuladores Personalizados
En algunos casos, es necesario crear acumuladores personalizados para satisfacer necesidades específicas que no están cubiertas por los acumuladores estándar.

- **Creación de acumuladores personalizados**:

   - Definir una clase que extienda AccumulatorV2.

   - Implementar los métodos necesarios para inicializar, agregar y combinar valores.

- **Ejemplo práctico**:

In [None]:
class MiAcumulador extends AccumulatorV2[Int, Int] {
  private var _value = 0
  def isZero: Boolean = _value == 0
  def copy(): MiAcumulador = new MiAcumulador
  def reset(): Unit = { _value = 0 }
  def add(v: Int): Unit = { _value += v }
  def merge(other: AccumulatorV2[Int, Int]): Unit = { _value += other.value }
  def value: Int = _value
}

val miAccum = new MiAcumulador
sc.register(miAccum, "Mi Acumulador Personalizado")
sc.parallelize(Array(1, 2, 3)).foreach(x => miAccum.add(x))
println(miAccum.value) // Imprime 6

### 8. Conclusión
Las variables compartidas y los acumuladores son herramientas fundamentales en la computación distribuida, especialmente en entornos como Apache Spark. Permiten optimizar el rendimiento, reducir la redundancia y facilitar operaciones complejas en clústeres. Su uso adecuado puede mejorar significativamente la eficiencia de las aplicaciones distribuidas.