## Que es un RDD?

Un RDD (Resilient Distributed Dataset) es la unidad fundamental de datos en Apache Spark, y es una abstracción de datos distribuidos y tolerantes a fallos. Los RDDs son la estructura básica utilizada para representar y manipular datos en un entorno distribuido con Spark.

Aquí hay algunas características clave de los RDDs:

Distribuido: Un RDD se divide en particiones que se distribuyen en diferentes nodos de un clúster de Spark. Esto permite que los datos se procesen de manera paralela en un entorno distribuido.

Tolerante a fallos: Los RDDs mantienen la tolerancia a fallos a través del seguimiento de las transformaciones aplicadas a los datos. Si un nodo falla, Spark puede reconstruir las particiones perdidas a partir de la información sobre las transformaciones aplicadas.

Inmutabilidad: Los RDDs son inmutables, lo que significa que una vez que se crea un RDD, no se puede modificar. Sin embargo, puedes realizar transformaciones para obtener nuevos RDDs basados en el original.

Operaciones Transformacionales y de Acción: Puedes realizar dos tipos principales de operaciones en un RDD: transformaciones y acciones. Las transformaciones crean un nuevo RDD a partir de uno existente (por ejemplo, map, filter), mientras que las acciones realizan algún tipo de cómputo y devuelven un resultado al programa del usuario (por ejemplo, count, collect).

Lazy Evaluation: Spark utiliza una estrategia llamada "evaluación perezosa" (lazy evaluation), lo que significa que las transformaciones en un RDD no se ejecutan de inmediato. Spark espera hasta que se solicita una acción para ejecutar las transformaciones.

### Aquí hay un ejemplo simple de cómo trabajar con RDDs en Spark usando PySpark (la interfaz de Spark para Python):

In [1]:
# Importa la clase SparkContext desde la biblioteca PySpark
from pyspark import SparkContext

# Intenta obtener o crear el SparkContext existente
try:
    sc = SparkContext.getOrCreate()
except:
    # Si no existe, crea un nuevo SparkContext con modo local y nombre "NuevaAplicacion"
    sc = SparkContext("local", "NuevaAplicacion")

try:
    # Tu código Spark aquí

    # Crea un RDD a partir de una lista de palabras ("Hola" y "Mundo")
    rdd = sc.parallelize(["Hola", "Mundo"])

    # Ejecuta una acción para recolectar los resultados del RDD en el programa principal
    result = rdd.collect()

    # Itera sobre los resultados e imprime cada palabra
    for word in result:
        print(word)

finally:
    # Detén el SparkContext al final, independientemente de si hay excepciones o no
    sc.stop()


Hola
Mundo
