**Creación de un RDD desde una lista**

 

En este ejemplo, creamos un RDD a partir de una lista de números y luego aplicamos una transformación para multiplicar cada número por 2. La acción collect() recopila los resultados y los muestra.

In [1]:
import findspark
findspark.init()

In [2]:
from pyspark import SparkContext

# Crea un contexto Spark
sc = SparkContext("local", "EjemploRDD")
#sc=  SparkContext(appName="MyAppName")
 
# Crea un RDD a partir de una lista
rdd = sc.parallelize([1, 2, 3, 4, 5])

# Realiza una transformación: multiplica cada elemento por 2
rdd_multiplicado = rdd.map(lambda x: x * 2)

# Realiza una acción: muestra los resultados
print(rdd_multiplicado.collect())
#rdd_multiplicado.collect()
# Detén el contexto Spark
sc.stop()

[2, 4, 6, 8, 10]


La línea que proporcionaste es un fragmento de código PySpark que inicializa un nuevo SparkContext. Desglosaré cada parte de la línea:

 

 

**sc = SparkContext("local", "EjemploRDD")**

 

* **sc:** Es la variable donde estás guardando tu nuevo SparkContext.

* **SparkContext:** Es una clase de PySpark que representa la conexión a un clúster de Spark y se utiliza para crear RDDs, acumuladores y variables de transmisión en ese clúster.

* **"local":** Es el modo maestro que estás especificando para tu SparkContext. El string "local" indica que Spark debería ejecutarse en un modo local de un solo núcleo. Puedes especificar "local[n]" para usar n núcleos; por ejemplo, "local[4]" usaría 4 núcleos.

* **"EjemploRDD":** Es el nombre que estás dando a tu aplicación Spark. Este nombre aparecerá en tu interfaz de usuario de Spark y en los registros para ayudarte a diferenciar entre diferentes aplicaciones Spark que podrías estar ejecutando.

 

 

Resilient Distributed Dataset (RDD) a partir de una lista de Python. Vamos a desglosar cada parte de esta línea:

 

 

**rdd = sc.parallelize([1, 2, 3, 4, 5])**

 

* **rdd:** Es el nombre que le estás dando a tu nuevo RDD.

 

* **sc:** Es el SparkContext que estás utilizando para crear el RDD. El **SparkContext** es una client-side object que representa la conexión a un clúster de Spark, y se utiliza para crear RDDs, acumuladores y variables de transmisión en ese clúster.

 

* **parallelize:** Es un método de **SparkContext** que crea un nuevo RDD a partir de una colección iterable (en este caso, una lista de Python). El RDD resultante tiene elementos que están distribuidos en los nodos del clúster.

 

* **[1, 2, 3, 4, 5]:** Es la lista de Python que estás usando como fuente de datos para tu RDD. Contiene cinco elementos: los números del 1 al 5

 

**rdd_multiplicado = rdd.map(lambda x: x * 2)**

 

* **rdd_multiplicado:** Es la variable donde estás guardando tu nuevo RDD, que será el resultado de aplicar una función a cada elemento del RDD original (rdd).

 

* **rdd:** Es el RDD original sobre el que estás realizando la operación. Es el RDD que creaste en la línea anterior del código que analizamos anteriormente.

 

* **map:** Es un método que toma una función como argumento y aplica esa función a cada elemento del RDD, produciendo un nuevo RDD.

 

* **lambda x: x * 2:** Es la función que estás aplicando a cada elemento del RDD. Esta función toma un argumento (x) y devuelve el resultado de multiplicar x por 2.

 

**print(rdd_multiplicado.collect())**

 

* **rdd_multiplicado:** Es el RDD sobre el cual estás realizando operaciones. Este RDD fue creado en una línea anterior de tu código y contiene los resultados de multiplicar cada elemento de un RDD original por 2.

 

* **collect():** Es un método que se utiliza para recuperar todos los elementos de un RDD a la memoria del programa driver como una lista de Python. Este es un tipo de acción en Spark, lo que significa que desencadena la ejecución de todas las transformaciones que se han definido anteriormente en el flujo de trabajo de Spark.

 

* **print(...):** Es una función de Python que se utiliza para imprimir su argumento a la consola. En este caso, estás imprimiendo la lista de elementos que fue retornada por rdd_multiplicado.collect().

**Carga de un RDD desde un archivo de texto**

 

En este ejemplo, cargamos un archivo de texto como un RDD y luego aplicamos una transformación para filtrar las líneas que contienen la palabra "Python".

In [3]:
#from pyspark import SparkContext

# Crea un contexto Spark
sc = SparkContext("local", "EjemploRDD")

# Carga un archivo de texto como un RDD
rdd = sc.textFile("archivo.txt")


# Realiza una transformación: filtra líneas que contienen la palabra "Python"
rdd_filtrado = rdd.filter(lambda linea: "Python" in linea)


# Realiza una acción: muestra los resultados
print(rdd_filtrado.collect())

# Detén el contexto Spark
sc.stop()

['Python, conocido por su simplicidad y versatilidad, es uno de los lenguajes de programación más populares en el mundo de la informática. Su sintaxis legible y su comunidad activa de desarrolladores lo convierten en una elección ideal para una amplia variedad de aplicaciones. ', 'En el campo de la inteligencia artificial, Python se destaca con bibliotecas como TensorFlow y PyTorch, que impulsan avances en el aprendizaje profundo. ', 'Además, Python es una excelente opción para la automatización de tareas, desde la administración de servidores hasta la creación de scripts para simplificar procesos.', 'Con su amplio ecosistema de bibliotecas y su legado en la comunidad de código abierto, Python sigue siendo un lenguaje poderoso y en constante crecimiento que continúa influyendo en numerosos campos de la tecnología y la informática.']


**Reducción de un RDD**

En este ejemplo, creamos un RDD a partir de una lista de números y luego aplicamos una reducción para calcular la suma de todos los elementos.

In [4]:
#from pyspark import SparkContext

# Crea un contexto Spark
sc = SparkContext("local", "EjemploRDD")

# Crea un RDD a partir de una lista de números
rdd = sc.parallelize([1, 2, 3, 4, 5])

# Realiza una reducción para sumar todos los elementos
suma = rdd.reduce(lambda x, y: x + y)

# Muestra el resultado
print(suma)

# Detén el contexto Spark
sc.stop()

15
