# Acciones
Una acción en un RDD de Spark es una operación que devuelve un valor al driver del programa. En otras palabras, una acción es una operación que desencadena la ejecución de las transformaciones previas realizadas en el RDD y devuelve el resultado final al programa.

Es importante destacar que cada vez que se realiza una acción en un RDD, se activa la evaluación perezosa (lazy evaluation) de las transformaciones previas, lo que significa que Spark solo ejecuta las transformaciones necesarias para generar el resultado de la acción solicitada.

Algunos ejemplos de acciones comunes en un RDD son: count, collect, reduce, first, take, ...

Existes dos tipos de acción:
* **Driver**: Realiza cálculos en el ejecutor y devuelve el resultado al driver.
* **Distribuidas**: Se ejcutan en los nodos del clúster.

In [1]:
import findspark

findspark.init()

from pyspark.sql import SparkSession
from pyspark import SparkContext

spark = SparkSession.builder.appName("Acciones").getOrCreate()

sc: SparkContext = spark.sparkContext

# Función `reduce` en Spark
La función reduce() de Spark es una acción que combina los elementos de un RDD utilizando una función dada y devuelve el resultado al driver del programa. La función reduce() se aplica en un RDD y toma una función de dos argumentos que se utiliza para combinar los elementos del RDD de manera iterativa.

La función reduce() comienza combinando los dos primeros elementos del RDD utilizando la función dada. Luego, combina el resultado con el tercer elemento del RDD, y así sucesivamente, hasta que se han combinado todos los elementos del RDD. Finalmente, devuelve el resultado final al driver del programa.

In [3]:
rdd = sc.parallelize([2, 4, 6, 8, 10])

rdd.reduce(lambda x, y: x + y)

x: 2, y: 4
x: None, y: 6
x: None, y: 8
x: None, y: 10


In [4]:
rdd.reduce(lambda x, y: x * y)

3840

# Función `count` en Spark
La función count() de Spark es una acción que devuelve el número total de elementos en un RDD. Es una operación muy simple pero muy útil que se utiliza comúnmente para contar el número de elementos en un RDD.

In [5]:
rdd.count()

5

# Función `collect` en Spark
La función collect() de Spark es una acción que devuelve todos los elementos de un RDD al driver del programa como una lista de Python. Se utiliza comúnmente para recuperar los resultados de cálculos en el RDD y trabajar con ellos en el programa cliente. Sin embargo, debe usarse con precaución en RDDs muy grandes para evitar problemas de memoria.

In [7]:
collect = rdd.collect()
print(type(collect))
print(collect)

<class 'list'>
[2, 4, 6, 8, 10]


# Funciones `take`, `max` y `saveAsTextFile` en Spark
**take**: La función take() de Spark es una acción que devuelve los primeros n elementos de un RDD como una lista de Python. Se utiliza comúnmente cuando se desea recuperar un pequeño conjunto de elementos de un RDD para su procesamiento y es más eficiente que la función collect().

**max**: La función max() de Spark es una acción que devuelve el valor máximo en un RDD. Se puede aplicar a RDDs que contienen valores numéricos o valores alfanuméricos. Si se utiliza en un RDD que contiene valores alfanuméricos, la función max() devuelve el valor máximo basado en el orden lexicográfico de los elementos del RDD.

**saveAsTextFile**: La función saveAsTextFile() de Spark es una acción que se utiliza para guardar un RDD en formato de texto plano en un sistema de archivos compatible. Cada partición del RDD se guarda como un archivo separado en el directorio especificado, y el contenido de cada archivo es el resultado de aplicar la función toString() a cada elemento del RDD.

In [0]:
take = rdd.take(3)
print(type(take))
print(take)

In [0]:
rdd_max = rdd.max()
print(type(rdd_max))
print(rdd_max)

In [11]:
og_num_partitions = rdd.getNumPartitions()
rdd_5_partitions = rdd.coalesce(5)
rdd_5_partitions.saveAsTextFile("../../foo")

<class 'list'>
[2, 4, 6]
<class 'int'>
10
