# Ejercicio Práctico RDDs

In [1]:
import findspark
findspark.init()

import pandas as pd
import pyspark
from pyspark.sql import SparkSession

**spark = SparkSession.builder.getOrCreate()**

**SparkSession.builder**
* Este es un método de construcción que se utiliza para configurar una nueva sesión de Spark. **SparkSession** es una clase que actúa como un punto de entrada para leer datos en Spark y para realizar varias operaciones en esos datos.

**getOrCreate()**
* Este método intenta obtener una **SparkSession** existente si hay una; de lo contrario, crea una nueva. Esencialmente, este método asegura que no termines con múltiples sesiones de Spark en tu aplicación, lo que podría causar problemas.

**sc = spark.sparkContext**

**spark.sparkContext**
* Una vez que tienes una **SparkSession**, puedes utilizarla para obtener el **SparkContext** actual utilizando la propiedad sparkContext.
**SparkContext**  es un cliente que se utiliza para interactuar con el clúster de Spark. Esencialmente, es el punto de entrada para cualquier funcionalidad de Spark.
* Aunque con la introducción de SparkSession en Spark 2.0, **SparkContext** se utiliza menos directamente para las operaciones diarias de Spark, todavía es necesario para ciertas operaciones y para configurar algunas configuraciones a nivel más bajo.

In [2]:
spark = SparkSession.builder.getOrCreate()
sc = spark.sparkContext

**RDD (Resilient Distributed Dataset) desde una lista de Python usando el método parallelize.**

A continuación desgloso cada parte del código:

**data= [1, 2, 3, 4, 5]**

* Esta línea está creando una lista de Python que contiene cinco elementos (los números del 1 al 5).

**myRDD= sc.parallelize(data)**

* Esta línea está realizando varias operaciones:

**sc.parallelize**

* Este método del **SparkContext (sc)** está siendo usado para crear un RDD.
* El método **parallelize** toma una colección existente en tu programa driver (en este caso, la lista **data**) y la distribuye a través de los nodos en tu clúster de Spark para crear un RDD.

**(data)**

* Estás pasando tu lista data como el argumento para el método **parallelize**. Esto le dice a Spark que quieres crear un RDD que contenga todos los elementos de **data**.

**myRDD**

Estás asignando el **RDD** resultante a una variable llamada **myRDD**.

In [3]:
data= [1, 2, 3, 4, 5]
myRDD= sc.parallelize(data)

In [4]:
filteredRDD = myRDD.filter(lambda x: x > 2)
filteredRDD.collect()

[3, 4, 5]

El está aplicando una transformación map a myRDD, creando un nuevo RDD llamado newRDD. Aquí está el desglose de cada componente del código:

**myRDD.map(lambda x: x*2)**

* **myRDD:** Este es el RDD original que creaste a partir de tu lista de datos.
* **map(...):** Este es un método de RDD que aplica una función a cada elemento en el RDD.
* **lambda x: x*2:** Esta es una función lambda que toma un elemento x y devuelve ese elemento multiplicado por 2.

**newRDD=**

Estás asignando el nuevo **RDD** resultante a una variable llamada **newRDD**.

In [5]:
newRDD= myRDD.map(lambda x: x*2)

In [6]:
result = newRDD.collect()
print(result)

[2, 4, 6, 8, 10]


En el código  estás aplicando una transformación **map** al RDD **myRDD**. Dentro de esta transformación, estás utilizando una función lambda para generar un rango de números desde **1** hasta **x-1** (porque **range** excluye el valor final) para cada elemento **x** en el **myRDD**.


En el código proporcionado, estás aplicando una transformación map al RDD myRDD. Dentro de esta transformación, estás utilizando una función lambda para generar un rango de números desde 1 hasta x-1 (porque range excluye el valor final) para cada elemento x en el myRDD. Aquí está el desglose del código:


**myRDD.map(lambda x: range(1, x))**

* **myRDD:** Este es tu RDD original que contiene los números del 1 al 5.
* **map(...):** Este es un método de RDD que aplica una función a cada elemento del RDD.
* **lambda x**: range(1, x): Esta es una función lambda que toma un elemento **x** y devuelve un objeto de rango que representa números desde **1** hasta **x-1**.

**mapRDD=**

* Estás asignando el nuevo RDD resultante a una variable llamada **mapRDD**.


In [7]:
mapRDD= myRDD.map(lambda x: range(1,x))

Este fragmento de código es un ejemplo de cómo usar Apache Spark, una plataforma de computación de clúster de código abierto diseñada para procesar y analizar grandes conjuntos de datos. Vamos a desglosar el código línea por línea:

**result = mapRDD.collect()**

* **mapRDD.collect():** Este método es usado para recuperar todos los elementos de un RDD (Resilient Distributed Dataset) de Spark a la memoria del controlador (o driver) como una lista de Python. El mapRDD es un RDD que se ha creado previamente mediante alguna operación de transformación (como map, filter, etc.) sobre un RDD original.

**result_as_lists = [list(r) for r in result]**

* **[list(r) for r in result]:** Este fragmento de código es una comprensión de lista (list comprehension) que itera sobre todos los elementos en la lista result y convierte cada elemento r en una lista de Python. Esto puede ser útil si, por ejemplo, cada elemento en result es un iterable (como una tupla) y deseas convertir cada iterable en una lista.

**print(result_as_lists)**

* **print(result_as_lists):** Finalmente, este comando imprime la representación de cadena de la lista result_as_lists a la consola, permitiendo que veas el contenido de result_as_lists

In [8]:
result = mapRDD.collect()
result_as_lists = [list(r) for r in result]
print(result_as_lists)

[[], [1], [1, 2], [1, 2, 3], [1, 2, 3, 4]]


El fragmento de código que has proporcionado es un ejemplo de cómo usar PySpark, la interfaz de Python para Apache Spark, para crear y manipular Resilient Distributed Datasets (RDDs). Desglosaremos cada línea del código para entender qué está haciendo:

**data = [1, 2, 3, 4, 5, 6]**

* En esta línea se está creando una lista de Python llamada data que contiene seis números enteros.


**myRDD = sc.parallelize(data)**

* Aquí, **sc.parallelize(data)** está llamando al método parallelize en el SparkContext (sc) para crear un RDD a partir de la lista data. Un RDD es una colección de elementos tolerante a fallos que puede ser operada en paralelo. En este caso, estamos creando un RDD que contiene los mismos elementos que la lista data.


**newRDD = myRDD.filter(lambda x: x % 2 == 0)**

* En esta línea, estamos usando el método filter para crear un nuevo RDD que contiene solo los elementos del myRDD que satisfacen la condición especificada por la función lambda, que es retener solo los números que son divisibles por 2 (es decir, solo los números pares). La función lambda toma un argumento x y retorna True si x es divisible por 2 y False de lo contrario. Entonces, newRDD será un RDD que contiene solo los números 2, 4 y 6.


In [13]:
data= [1, 2, 3, 4, 5, 6]

myRDD= sc.parallelize(data)
newRDD= myRDD.filter(lambda x: x%2 == 0)

El método distinct en PySpark se utiliza para eliminar elementos duplicados de un RDD. Cuando aplicas este método a un RDD, obtienes un nuevo RDD que contiene solo elementos únicos del RDD original.

En tu fragmento de código:

**newRDD = myRDD.distinct()**

* Estás creando un newRDD que contiene todos los elementos únicos de myRDD. Si myRDD contiene elementos duplicados, estos serán eliminados en newRDD.

* Por ejemplo, si myRDD se creó a partir de una lista que contiene elementos duplicados como la siguiente:

           data = [1, 2, 2, 3, 3, 3, 4, 5, 6, 6]

           myRDD = sc.parallelize(data)

* Entonces, después de aplicar el método distinct, newRDD contendrá cada número del 1 al 6 exactamente una vez, eliminando las duplicaciones presentes en myRDD.

* Es importante tener en cuenta que el método distinct puede causar una gran cantidad de operaciones de shuffle de datos, especialmente si el RDD original tiene un gran número de elementos duplicados, lo que puede resultar en un proceso bastante costoso en términos de tiempo y recursos computacionales.


In [14]:
newRDD= myRDD.distinct()

El fragmento de código que has proporcionado es otro ejemplo de cómo trabajar con PySpark para manipular RDDs. Aquí está el desglose línea por línea:


**from operator import add**

Aquí estás importando la función add del módulo operator. Esta función toma dos números como argumentos y devuelve su suma.


**myRDD = sc.parallelize([('a', 1), ('a', 2), ('a', 3), ('b', 1)])**

En esta línea, estás creando un RDD llamado myRDD a partir de una lista de tuplas, donde cada tupla consta de una letra (una cadena) y un número.


**newRDD= myRDD.reduceByKey(add)**

Aquí estás usando el método reduceByKey para combinar los valores de **myRDD** que tienen la misma clave (en este caso, la primera componente de cada tupla) aplicando la función add.

El resultado, **newRDD**, será un RDD que contiene solo dos elementos: una tupla con la clave **'a'** y la suma de todos los valores asociados con la clave **'a'** en **myRDD** (que es 6) y una tupla con la clave **'b'** y la suma de todos los valores asociados con la clave **'b'** en **myRDD** (que es 1).

Por lo tanto, **newRDD** será algo como esto:

**[('a', 6), ('b', 1)]**

o puede que el orden sea inverso dependiendo de cómo Spark decida ordenar las claves:


**[('b', 1), ('a', 6)]**

Este proceso es una parte fundamental de la programación MapReduce, que es el paradigma de programación subyacente de Spark. En esta operación específica, estás realizando la "reducción" de los datos, donde los valores para cada clave son combinados (reducidos) en un solo valor usando la función de adición (add).

In [15]:
from operator import add

myRDD = sc.parallelize([('a', 1), ('a', 2), ('a', 3), ('b', 1)])
newRDD= myRDD.reduceByKey(add)

In [16]:
newRDD= myRDD.sortByKey()
newRDD.collect()

[('a', 1), ('a', 2), ('a', 3), ('b', 1)]

In [17]:
data= [1, 2, 3, 4, 5]

myRDD= sc.parallelize(data)
myRDD.reduce( lambda x, y: x * y)

120

In [18]:
data= ['Python', 'Scala', 'Python', 'R', 'Python', 'Java', 'R' ]

myRDD= sc.parallelize(data)

myRDD.countByValue().items()

dict_items([('Python', 3), ('Scala', 1), ('R', 2), ('Java', 1)])

In [19]:
data= [('a', 1), ('b', 1), ('c', 1), ('a', 1)]
myRDD = sc.parallelize(data)

myRDD.countByKey().items()

dict_items([('a', 2), ('b', 1), ('c', 1)])