<a href="https://colab.research.google.com/github/RogerCS17/portfolio-python/blob/main/Big%20Data/Spark/exercises_spark02.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Transformaciones en un RDD

Las Transformaciones crear un RDD a partir de uno existente y  nos permiten:
- Dividir el elemento de entrada
- Filtrar elementos
- Realizar cálculos de algún tipo.

Tenemos categorías en las transformacion:
- Tranformaciones Generales: map, filter, flatMap, groupByKey, combineByKey.
- Transformaciones matemáticas o estadísticas: sampleByKey, randomSplit.
- Transformacion de conjunto o relacionales: cogroup, join, subtractByKey, fullOuterJoin, leftOuterJoin, rightOuterJoin.
- Transformaciones basadas en estructuras de datos: partitionBy, repartition, zipwithIndex, coalesce.

In [1]:
# Instalamos spark
!pip install pyspark

# Importamos Spark
from pyspark.sql import SparkSession

# Iniciamos la sesión
spark = SparkSession.builder.getOrCreate()

# Creamos el SparkContext
sc = spark.sparkContext



In [2]:
# Creamos un rdd
rdd = sc.parallelize([1,2,3,4,5])

# Se muestra el resultado
rdd.collect()

[1, 2, 3, 4, 5]

## Función Map

In [3]:
# Restamos uno a cada elemento del RDD
rdd_subtraction = rdd.map(lambda x: x - 1)

# Se muestra el resultado
rdd_subtraction.collect()

[0, 1, 2, 3, 4]

In [4]:
# Creamos un rdd con nombres
rdd_names = sc.parallelize(["Roger", "Omar", "Cabrera", "Silva"])

# Aplicamos función map() para que retorne a mayúsculas los elementos
rdd_upper = rdd_names.map(lambda x: x.upper())

# Se muestra el resultado
rdd_upper.collect()

['ROGER', 'OMAR', 'CABRERA', 'SILVA']

## Función flatMap

In [5]:
# Con la función map()
rdd_square = rdd.map(lambda x: (x, x**2))

# Se muestra el resultado
rdd_square.collect()

[(1, 1), (2, 4), (3, 9), (4, 16), (5, 25)]

In [6]:
# Con la función flatMap()
rdd_square_flat = rdd.flatMap(lambda x: (x, x**2))

# Se muestra el resultado
rdd_square_flat.collect()

[1, 1, 2, 4, 3, 9, 4, 16, 5, 25]

## Función filter

In [7]:
# Función filter()
# Filtramos los elementos pares del rdd original
rdd_even_numbers = rdd.filter(lambda x: x%2 == 0)

# Se muestra el resultado
rdd_even_numbers.collect()

[2, 4]

In [8]:
# Creamos un rdd con nombres
rdd_names = sc.parallelize(["Jose", "Juan", "Joaquin", "lucía", "Karla", "Katia"])

# Filtamos los nombres que empiecen con 'J' y su siguiente letra sea la 'o'
rdd_names_filter = rdd_names.filter(lambda x: x.startswith("J") and x.find("o") == 1 )

# Se muestra el resultado
rdd_names_filter.collect()

['Jose', 'Joaquin']

## Función coalesce

In [9]:
# Creamos nuestro RDD con particiones
rdd = sc.parallelize([1,2,3,4,5], 10)

# Se muestra las particiones
rdd.getNumPartitions()

10

In [10]:
# Modificamos las particiones con coalesce()
rdd_coalesce = rdd.coalesce(5)

# Se muestra el resultado
rdd_coalesce.getNumPartitions()

5

## Función repartition

In [11]:
# Creamos un rdd
rdd = sc.parallelize([1,2,3,4,5], 3)

# Se muestra las particiones
rdd.getNumPartitions()

3

In [12]:
# Realizamos la partición
rdd_repartition = rdd.repartition(7)

# Mostramos el resultado
rdd_repartition.getNumPartitions()

7

coalesce vs repartition:

coalesce se usa solo para reducir el número de particiones. Esta es una versión optimizada de repartition donde el movimiento de los datos a través de las particiones es menor

Nota:

repartition y coalesce son operaciones muy costosas ya que mezclan los datos en muchas particiones, por lo tanto, intente minimizar el uso de estas tanto como sea posible

## Función reduceByKey

In [13]:
# Creamos una colección clave valor
data = [("a", 1), ("b", 2), ("a", 3), ("b", 4), ("a", 5), ("c", 6)]

# Creamos el rdd con la colección
rdd = sc.parallelize(data)

# Se muestra el resultado
rdd.collect()

[('a', 1), ('b', 2), ('a', 3), ('b', 4), ('a', 5), ('c', 6)]

In [14]:
# Reducimos por llave
rdd_reduce = rdd.reduceByKey(lambda x, y: x + y)

# Se muestra el resultado
rdd_reduce.collect()

[('b', 6), ('c', 6), ('a', 9)]

## Ejercicios

1. Cree un RDD llamado lenguajes que contenga los siguientes lenguajes de programación: Python, R, C, Scala, Rugby y SQL.

In [15]:
# Creación de lista con los lenguajes de programación
list_languages = ["Python", "R", "C", "Scala", "Ruby", "SQL"]

# Creación del RDD
rdd_languages = sc.parallelize(list_languages)

# Se muestra el resultado
rdd_languages.collect()

['Python', 'R', 'C', 'Scala', 'Ruby', 'SQL']

- Obtenga un nuevo RDD a partir del RDD lenguajes donde todos los lenguajes de programación estén en mayúsculas.

In [16]:
# Se utiliza la función map
rdd_upper_languages = rdd_languages.map(lambda x: x.upper())

# Se muestra el resultado
rdd_upper_languages.collect()

['PYTHON', 'R', 'C', 'SCALA', 'RUBY', 'SQL']

- Obtenga un nuevo RDD a partir del RDD lenguajes donde todos los lenguajes de programación estén en minúsculas.

In [17]:
# Se utiliza la función map
rdd_lower_languages = rdd_languages.map(lambda x: x.lower())

# Se muestra el resultado
rdd_lower_languages.collect()

['python', 'r', 'c', 'scala', 'ruby', 'sql']

- Cree un nuevo RDD que solo contenga aquellos lenguajes de programación que comiencen con la letra R.

In [18]:
# Se utiliza la función filter
rdd_languages_r = rdd_languages.filter(lambda x: x.startswith("R"))

# Se muestra el resultado
rdd_languages_r.collect()

['R', 'Ruby']

2. Cree un RDD llamado pares que contenga los números pares existentes en el intervalo [20;30].

In [19]:
# Se crea la lista de pares en ese intervalo
list_even = [x for x in range(20,31) if x%2 ==0]

# Se crea el RDD que contendrá la lista de apres
rdd_even_interval = sc.parallelize(list_even)

# Se muestra el resultado
rdd_even_interval.collect()

[20, 22, 24, 26, 28, 30]

- Cree el RDD llamado sqrt, este debe contener la raíz cuadrada de los elementos que componen el RDD pares.

In [20]:
# Se crea el RDD que contendrá las raíz cuadrada de los elemento
rdd_sqrt = rdd_even_interval.map(lambda x: x **0.5)

# Se muestra el resultado
rdd_sqrt.collect()

[4.47213595499958,
 4.69041575982343,
 4.898979485566356,
 5.0990195135927845,
 5.291502622129181,
 5.477225575051661]

- Obtenga una lista compuesta por los números pares en el intervalo [20;30] y sus respectivas raíces cuadradas. Un ejemplo del resultado deseado para el intervalo [50;60] sería la lista [50, 7.0710678118654755, 52, 7.211102550927978, 54, 7.3484692283495345, 56, 7.483314773547883, 58, 7.615773105863909, 60, 7.745966692414834].



In [21]:
# Se crea el RDD con la función reducedByKey
rdd_sqrt_flat  = rdd_even_interval.flatMap(lambda x: (x, x**0.5))

# Se muestra el resultado
rdd_sqrt_flat.collect()

[20,
 4.47213595499958,
 22,
 4.69041575982343,
 24,
 4.898979485566356,
 26,
 5.0990195135927845,
 28,
 5.291502622129181,
 30,
 5.477225575051661]

- Eleve el número de particiones del RDD sqrt a 20.

In [22]:
# Se aplica la función repartition
rdd_sqrt_repartition = rdd_sqrt.repartition(20)

# Se muestra el resultado
rdd_sqrt_repartition.getNumPartitions()

20

- Si tuviera que disminuir el número de particiones luego de haberlo establecido en 20, ¿qué función utilizaría para hacer más eficiente su código?

In [23]:
# Usamos coalesce ya que esta optimizado para reducir las particiones
rdd_sqrt_coalesce = rdd_sqrt_repartition.coalesce(5)

# Se muestra el resultado
rdd_sqrt_coalesce.getNumPartitions()

5