# **Spark con PySpark**

## Introducción

### `Ventajas y desventajas de trabajar con Spark en Google Colab`

Ventajas:
- Fácil acceso
- Ejecutar Spark en prácticamente cualquier dispositivo, los recursos están en la nube.
- Como los recursos están la nube, no hay que preocuparse por los recursos de hardware
- Trabajo en equipo, más sencillo el trabajo colaborativo. Varias personas pueden trabajar sobre un mismo notebook.


Desventajas:
- No se guardan las configuraciones de Spark luego de un tiempo
> No obstante el notebook permanece intacto. Se puede volver a ejecutar las líneas de código para tener la configuración nuevamente.
- Escalabilidad, como el servicio es gratuito, los recursos son limitados.
> Para llevarlo a ambientes productivos, necesitamos una infraestructura capaz de brindarnos estas especificaciones.

## Instalaciones Necesarias para trabajar con Spark en Colab

### `Descarga e instalación de Apache Spark en Colab`
Se explica celda por celda las instalaciones necesarias. Para fines prácticos, utilizar la celda de abajo que instala todo junto.

In [None]:
# Instalar SDK Java 8
!apt-get install openjdk-8-jdk-headless -qq > /dev/null

In [None]:
# Descargar Spark 3.2.4
!wget -q https://archive.apache.org/dist/spark/spark-3.2.4/spark-3.2.4-bin-hadoop3.2.tgz

In [None]:
# Descomprimir el archivo descargado de Spark
!tar xf spark-3.2.4-bin-hadoop3.2.tgz

In [None]:
# Establecer las variables de entorno
import os

os.environ["JAVA_HOME"] = "/usr/lib/jvm/java-8-openjdk-amd64"
os.environ["SPARK_HOME"] = "/content/spark-3.2.4-bin-hadoop3.2"

In [None]:
# Instalar la librería findspark
!pip install -q findspark

In [None]:
# Instalar pyspark
!pip install -q pyspark

[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m316.9/316.9 MB[0m [31m2.3 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
  Building wheel for pyspark (setup.py) ... [?25l[?25hdone


In [None]:
### verificar la instalación ###
import findspark
findspark.init()

from pyspark.sql import SparkSession
spark = SparkSession.builder.master("local[*]").getOrCreate()

In [None]:
# Probando la sesión de Spark
df = spark.createDataFrame([{"Hola": "Mundo"} for x in range(10)])
# df.show(10, False)
df.show()

+-----+
| Hola|
+-----+
|Mundo|
|Mundo|
|Mundo|
|Mundo|
|Mundo|
|Mundo|
|Mundo|
|Mundo|
|Mundo|
|Mundo|
+-----+



### `Descarga e instalación de Apache Spark en una sola celda (Utilizar esta opción)`
Para fines prácticos, toda la instalación está en una celda, así luego de ejecutarse ya se puede trabajar con Spark.

In [None]:
# Instalar SDK Java 8
!apt-get install openjdk-8-jdk-headless -qq > /dev/null

# Descargar Spark 3.2.4
!wget -q https://archive.apache.org/dist/spark/spark-3.2.4/spark-3.2.4-bin-hadoop3.2.tgz

# Descomprimir el archivo descargado de Spark
!tar xf spark-3.2.4-bin-hadoop3.2.tgz

# Establecer las variables de entorno
import os

os.environ["JAVA_HOME"] = "/usr/lib/jvm/java-8-openjdk-amd64"
os.environ["SPARK_HOME"] = "/content/spark-3.2.4-bin-hadoop3.2"

# Instalar la librería findspark
!pip install -q findspark

# Instalar pyspark
!pip install -q pyspark

### verificar la instalación ###
### Levantar una sesión de Spark ###
import findspark
findspark.init()

from pyspark.sql import SparkSession
spark = SparkSession.builder.master("local[*]").getOrCreate()
###################################################################

# Probando la sesión de Spark
df = spark.createDataFrame([{"Hola": "Mundo"} for x in range(10)])
# df.show(10, False)
df.show()

[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m317.0/317.0 MB[0m [31m4.6 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
  Building wheel for pyspark (setup.py) ... [?25l[?25hdone
+-----+
| Hola|
+-----+
|Mundo|
|Mundo|
|Mundo|
|Mundo|
|Mundo|
|Mundo|
|Mundo|
|Mundo|
|Mundo|
|Mundo|
+-----+



## `Importante: Carga de archivos en Google Colab`

Dos formas de cargar los archivos para resolver los ejercicios:

1. **Montando el drive para acceder a los contenidos** de la unidad.

  Utilizar esta opción si los datos para los ejercicios se cargan en una carpeta del drive y se quiere acceder a ella.

2. **Utilizando el cuadro de archivos**, donde se carga el archivo que se quiere trabajar. Se guarda temporalmente.
> Esta es la forma que voy a estar utizando.

In [None]:
# Levantar una sesión de Spark
import findspark
findspark.init()
from pyspark.sql import SparkSession

spark = SparkSession.builder.appName('Cap2').master('local(*)').getOrCreate()
spark

### 1. Utilizando el montado al drive y yendo hacia la carpeta donde se encuentra el archivo

In [None]:
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [None]:
rdd_texto = sc.wholeTextFiles('/content/drive/MyDrive/Spark/data-ej-PySpark-RDD/el_valor_del_big_data.txt')
rdd_texto.collect()

[('file:/content/drive/MyDrive/Spark/data-ej-PySpark-RDD/el_valor_del_big_data.txt',
  'El valor y la realidad de big data\r\n\r\nEn los últimos años, han surgido otras "dos V": valor y veracidad. Los datos poseen un valor intrínseco. Sin embargo, no tienen ninguna utilidad hasta que dicho valor se descubre. Resulta igualmente importante: ¿cuál es la veracidad de sus datos y cuánto puede confiar en ellos?\r\n\r\nHoy en día, el big data se ha convertido en un activo crucial. Piense en algunas de las mayores empresas tecnológicas del mundo. Gran parte del valor que ofrecen procede de sus datos, que analizan constantemente para generar una mayor eficiencia y desarrollar nuevos productos.\r\n\r\nAvances tecnológicos recientes han reducido exponencialmente el coste del almacenamiento y la computación de datos, haciendo que almacenar datos resulte más fácil y barato que nunca. Actualmente, con un mayor volumen de big data más barato y accesible, puede tomar decisiones empresariales más acert

### 2. Utilizando el cuadro de archivos, donde se carga el archivo que se quiere trabajar. Se guarda temporalmente.

> Esta es la forma que voy a estar utizando


In [None]:
rdd_texto = sc.wholeTextFiles('./el_valor_del_big_data.txt')
rdd_texto.collect()

[('file:/content/el_valor_del_big_data.txt',
  'El valor y la realidad de big data\r\n\r\nEn los últimos años, han surgido otras "dos V": valor y veracidad. Los datos poseen un valor intrínseco. Sin embargo, no tienen ninguna utilidad hasta que dicho valor se descubre. Resulta igualmente importante: ¿cuál es la veracidad de sus datos y cuánto puede confiar en ellos?\r\n\r\nHoy en día, el big data se ha convertido en un activo crucial. Piense en algunas de las mayores empresas tecnológicas del mundo. Gran parte del valor que ofrecen procede de sus datos, que analizan constantemente para generar una mayor eficiencia y desarrollar nuevos productos.\r\n\r\nAvances tecnológicos recientes han reducido exponencialmente el coste del almacenamiento y la computación de datos, haciendo que almacenar datos resulte más fácil y barato que nunca. Actualmente, con un mayor volumen de big data más barato y accesible, puede tomar decisiones empresariales más acertadas y precisas.\r\n\r\nIdentificar el v

## Spark UI en Colab

In [None]:
# Instalar SDK java 8
!apt-get install openjdk-8-jdk-headless -qq > /dev/null

# Descargar Spark
!wget -q https://archive.apache.org/dist/spark/spark-3.3.4/spark-3.3.4-bin-hadoop3.tgz

# Descomprimir la version de Spark
!tar xf spark-3.3.4-bin-hadoop3.tgz

# Establecer las variables de entorno
import os

os.environ["JAVA_HOME"] = "/usr/lib/jvm/java-8-openjdk-amd64"
os.environ["SPARK_HOME"] = "/content/spark-3.3.4-bin-hadoop3"

# Descargar findspark
!pip install -q findspark

# Crear la sesión de Spark
import findspark
findspark.init()
from pyspark.sql import SparkSession

spark = (
    SparkSession.builder
    .config('spark.ui.port', '4050')
    .getOrCreate()
)

from google.colab import output
output.serve_kernel_port_as_window(4050, path='/jobs/index.html')
from pyspark.sql.functions import col

spark.range(10000).toDF("id").filter(col('id') / 2 == 0).write.mode('overwrite').parquet('/output')

## Introducción a los RDD en Spark

### Creación de una SparkSessión:
> SparkSession permite:
- Crear DataFrames
- Leer fuentes de datos
- Acceder a metadatos de catálogos
- Emitir consultas Spark SQL

In [None]:
# Creando una sesión de Spark en pyspark
import findspark
findspark.init()

from pyspark.sql import SparkSession
spark = SparkSession.builder.master("local[*]").appName('Curso Pyspark').getOrCreate()
spark

### ¿Qué es una RDD? Resilient Distributed Dataset
Es la abstracción principal de Spark
Características:
- Dependencias: puede recrear un RDD a partir de estas.
- Particiones
- Función de cálculo

#### Diferentes formas de crear un RDD

In [None]:
# Diferentes formas de crear un RDD

# Creando la sesión de Spark
import findspark
findspark.init()

from pyspark.sql import SparkSession
spark = SparkSession.builder.getOrCreate()

# creando el sparkContext
sc = spark.sparkContext

# Crear un RDD vacío
rdd_vacio = sc.emptyRDD

# Crear un RDD con parallelize
rdd_vacio3 = sc.parallelize([], 3)
rdd_vacio3.getNumPartitions()
rdd = sc.parallelize([1,2,3,4,5])
rdd.collect()

# Crear un RDD desde un archivo de texto
rdd_texto = sc.textFile('./rdd_source.txt')
rdd_texto.collect()
rdd_texto_completo = sc.wholeTextFiles('./rdd_source.txt')
rdd_texto_completo.collect()

# Crear un RDD desde otro RDD
rdd_suma = rdd.map(lambda x: x + 1)
rdd_suma.collect()

# Crear un RDD desde un dataframe
df = spark.createDataFrame([(1, 'jose'), (2, 'juan')], ['id', 'nombre'])

df.show()

rdd_df = df.rdd
rdd_df.collect()

+---+------+
| id|nombre|
+---+------+
|  1|  jose|
|  2|  juan|
+---+------+



[Row(id=1, nombre='jose'), Row(id=2, nombre='juan')]

### **Ejercicios**

1) Cree una sesión de Spark con nombre Cap2 y asegúrese de que emplea todos los cores disponibles para ejecutar en su ambiente de trabajo.

2) Cree dos RDD vacíos, uno de ellos no debe contener particiones y el otro debe tener 5 particiones. Utilice vías diferentes para crear cada RDD.

3) Cree un RDD que contenga los números primos que hay entre 1 y 20.

4) Cree un nuevo RDD a partir del RDD creado en el ejercicio anterior el cuál solo contenga los números primos mayores a 10.

5) Descargue el archivo de texto adjunto a esta lección como recurso y guárdelo en una carpeta llamada data en el ambiente de trabajo de Colab.

- a) Cree un RDD a partir de este archivo de texto en donde todo el documento esté contenido en un solo registro. ¿Cómo podría saber la dirección donde está guardado el archivo de texto a partir del RDD creado?

- b) Si necesitara crear un RDD a partir del archivo de texto cargado previamente en donde cada línea del archivo fuera un registro del RDD, ¿cómo lo haría?

In [None]:
# Ejercicio 1
import findspark
findspark.init()
from pyspark.sql import SparkSession

spark = SparkSession.builder.appName('Cap2').master('local(*)').getOrCreate()
spark

In [None]:
# Ejercicio 2
sc = spark.sparkContext
rdd1 = sc.emptyRDD()
rdd2 = sc.parallelize([], 5)

In [None]:
rdd1.getNumPartitions()

0

In [None]:
rdd2.getNumPartitions()

5

In [None]:
# Ejercicio 3
rdd_primo = sc.parallelize([2,3,5,7,11,13,17,19])
rdd_primo

ParallelCollectionRDD[9] at readRDDFromFile at PythonRDD.scala:274

In [None]:
# Ejercicio 4
rdd_primo.filter(lambda x: x > 10).collect()

[11, 13, 17, 19]

In [None]:
# Ejercicio 5
# a)

### Dos formas de cargar los archivos para resolver los ejercicios: ###

### 1. Utilizando el montado al drive y yendo hacia la carpeta donde se encuentrar el archivo ###
# rdd_texto = sc.wholeTextFiles('/content/drive/MyDrive/Spark/data-ej-PySpark-RDD/el_valor_del_big_data.txt')

#Esta es la que voy a estar utizando a lo largo de todos los notebooks
### 2. Utilizando el cuadro de archivos, donde se carga el archivo que se quiere trabajar. Se guarda temporalmente ###
rdd_texto = sc.wholeTextFiles('./el_valor_del_big_data.txt')
rdd_texto.collect()

[('file:/content/el_valor_del_big_data.txt',
  'El valor y la realidad de big data\r\n\r\nEn los últimos años, han surgido otras "dos V": valor y veracidad. Los datos poseen un valor intrínseco. Sin embargo, no tienen ninguna utilidad hasta que dicho valor se descubre. Resulta igualmente importante: ¿cuál es la veracidad de sus datos y cuánto puede confiar en ellos?\r\n\r\nHoy en día, el big data se ha convertido en un activo crucial. Piense en algunas de las mayores empresas tecnológicas del mundo. Gran parte del valor que ofrecen procede de sus datos, que analizan constantemente para generar una mayor eficiencia y desarrollar nuevos productos.\r\n\r\nAvances tecnológicos recientes han reducido exponencialmente el coste del almacenamiento y la computación de datos, haciendo que almacenar datos resulte más fácil y barato que nunca. Actualmente, con un mayor volumen de big data más barato y accesible, puede tomar decisiones empresariales más acertadas y precisas.\r\n\r\nIdentificar el v

In [None]:
# b)
rdd_texto1= sc.textFile('./el_valor_del_big_data.txt')
rdd_texto1.collect()

['El valor y la realidad de big data',
 '',
 'En los últimos años, han surgido otras "dos V": valor y veracidad. Los datos poseen un valor intrínseco. Sin embargo, no tienen ninguna utilidad hasta que dicho valor se descubre. Resulta igualmente importante: ¿cuál es la veracidad de sus datos y cuánto puede confiar en ellos?',
 '',
 'Hoy en día, el big data se ha convertido en un activo crucial. Piense en algunas de las mayores empresas tecnológicas del mundo. Gran parte del valor que ofrecen procede de sus datos, que analizan constantemente para generar una mayor eficiencia y desarrollar nuevos productos.',
 '',
 'Avances tecnológicos recientes han reducido exponencialmente el coste del almacenamiento y la computación de datos, haciendo que almacenar datos resulte más fácil y barato que nunca. Actualmente, con un mayor volumen de big data más barato y accesible, puede tomar decisiones empresariales más acertadas y precisas.',
 '',
 'Identificar el valor del big data no pasa solo por ana

---

## Transformaciones en un RDD

### Los RDD son inmutables y cada operación crea un nuevo RDD.

Principales operaciones:
- *`Transformaciones`*:
crean un nuevo RDD, como dividir el elemento de entrada, filtrar elementos, realizar cálculos de algún tipo, etc.
  - Transformaciones generales: map, filter, flatMap, groupByKey, sortByKey, combineByKey, etc.
  - Transformaciones matemáticas o estadísticas: sampleByKey, randomSplit, etc.
  - Transformaciones de conjunto o relacionales: cogroup, join, subtractByKey, fullOuterJoin, leftOuterJoin, rightOuterJoin, etc.
  - Transformaciones basadas en estructuras de datos: partitionBy, repartition, zipWithIndex, coalesce, etc.

- *`Acciones`*

> Posee Lazy Evaluation

### map

In [None]:
# Transformaciones: función map
import findspark
findspark.init()
from pyspark.sql import SparkSession

spark = SparkSession.builder.getOrCreate()
sc = spark.sparkContext

rdd = sc.parallelize([1,2,3,4,5])

In [None]:
rdd_resta = rdd.map(lambda x: x - 1)
rdd_resta.collect()

[0, 1, 2, 3, 4]

In [None]:
rdd_par = rdd.map(lambda x: x % 2 == 0)
rdd_par.collect()

[False, True, False, True, False]

In [None]:
rdd_texto = sc.parallelize(['jose', 'juan', 'lucia'])
rdd_mayuscula = rdd_texto.map(lambda x: x.upper())
rdd_mayuscula.collect()

['JOSE', 'JUAN', 'LUCIA']

In [None]:
rdd_hola = rdd_texto.map(lambda x: 'Hola ' + x)
rdd_hola.collect()

['Hola jose', 'Hola juan', 'Hola lucia']

### flatMap

In [None]:
# Transformaciones: función flatMap
import findspark
findspark.init()
from pyspark.sql import SparkSession

spark = SparkSession.builder.getOrCreate()
sc = spark.sparkContext

rdd = sc.parallelize([1,2,3,4,5])

In [None]:
rdd_cuadrado = rdd.map(lambda x: (x, x ** 2))
rdd_cuadrado.collect()

[(1, 1), (2, 4), (3, 9), (4, 16), (5, 25)]

In [None]:
rdd_cuadrado_flat = rdd.flatMap(lambda x: (x, x ** 2))
rdd_cuadrado_flat.collect()

[1, 1, 2, 4, 3, 9, 4, 16, 5, 25]

In [None]:
rdd_texto = sc.parallelize(['jose', 'juan', 'lucia'])
rdd_mayuscula = rdd_texto.flatMap(lambda x: (x, x.upper()))
rdd_mayuscula.collect()

['jose', 'JOSE', 'juan', 'JUAN', 'lucia', 'LUCIA']

### filter

In [None]:
# Transformaciones: función filter
import findspark
findspark.init()
from pyspark.sql import SparkSession

spark = SparkSession.builder.getOrCreate()
sc = spark.sparkContext

rdd = sc.parallelize([1,2,3,4,5,6,7,8,9])

In [None]:
rdd_par = rdd.filter(lambda x: x % 2 == 0)
rdd_par.collect()

[2, 4, 6, 8]

In [None]:
rdd_impar = rdd.filter(lambda x: x % 2 != 0)
rdd_impar.collect()


[1, 3, 5, 7, 9]

In [None]:
rdd_texto = sc.parallelize(['jose', 'juaquin', 'juan', 'lucia', 'karla', 'katia'])
rdd_k = rdd_texto.filter(lambda x: x.startswith('k'))
rdd_k.collect()

['karla', 'katia']

In [None]:
rdd_filtro = rdd_texto.filter(lambda x: x.startswith('j') and x.find('u') == 1)
rdd_filtro.collect()

['juaquin', 'juan']

### coalesce

In [None]:
# Transformaciones: función coalesce
import findspark
findspark.init()
from pyspark.sql import SparkSession

spark = SparkSession.builder.getOrCreate()
sc = spark.sparkContext

rdd = sc.parallelize([1,2,3.4,5], 10)

In [None]:
rdd.getNumPartitions()

10

In [None]:
rdd.coalesce(5)
rdd.getNumPartitions()

10

In [None]:
rdd5 = rdd.coalesce(5)
rdd5.getNumPartitions()

5

### repartition

In [None]:
# Transformaciones: función repartition
import findspark
findspark.init()
from pyspark.sql import SparkSession

spark = SparkSession.builder.getOrCreate()
sc = spark.sparkContext

rdd = sc.parallelize([1,2,3,4,5], 3)

In [None]:
rdd.getNumPartitions()

3

In [None]:
rdd7 = rdd.repartition(7)
rdd7.getNumPartitions()

7

### reduceByKey

In [None]:
# Transformaciones: función reduceByKey
import findspark
findspark.init()
from pyspark.sql import SparkSession

spark = SparkSession.builder.getOrCreate()
sc = spark.sparkContext

rdd = sc.parallelize(
    [('casa', 2),
     ('parque', 1),
     ('que', 5),
     ('casa', 1),
     ('escuela', 2),
     ('casa', 1),
     ('que', 1)]
)

In [None]:
rdd.collect()

[('casa', 2),
 ('parque', 1),
 ('que', 5),
 ('casa', 1),
 ('escuela', 2),
 ('casa', 1),
 ('que', 1)]

In [None]:
rdd_reducido = rdd.reduceByKey(lambda x,y: x + y)
rdd_reducido.collect()

[('parque', 1), ('que', 6), ('casa', 4), ('escuela', 2)]

### **Ejercicios**

1. Cree un RDD llamado lenguajes que contenga los siguientes lenguajes de programación: Python, R, C, Scala, Ruby y SQL.

  a. Obtenga un nuevo RDD a partir del RDD lenguajes donde todos los lenguajes de programación estén en mayúsculas.

  b. Obtenga un nuevo RDD a partir del RDD lenguajes donde todos los lenguajes de programación estén en minúsculas.

  c. Cree un nuevo RDD que solo contenga aquellos lenguajes de programación que comiencen con la letra R.



2. Cree un RDD llamado pares que contenga los números pares existentes en el intervalo [20;30].

  a. Cree el RDD llamado sqrt, este debe contener la raíz cuadrada de los elementos que componen el RDD pares.

  b. Obtenga una lista compuesta por los números pares en el intervalo [20;30] y sus respectivas raíces cuadradas.
  
  Un ejemplo del resultado deseado para el intervalo [50;60] sería la lista [50, 7.0710678118654755, 52, 7.211102550927978, 54, 7.3484692283495345, 56, 7.483314773547883, 58, 7.615773105863909, 60, 7.745966692414834].

  c. Eleve el número de particiones del RDD sqrt a 20.

  d. Si tuviera que disminuir el número de particiones luego de haberlo establecido en 20, ¿qué función utilizaría para hacer más eficiente su código?

3. Cree un RDD del tipo clave valor a partir de los datos adjuntos como recurso a esta lección. Tenga en cuenta que deberá procesar el RDD leído para obtener el resultado solicitado. Supongamos que el RDD resultante de tipo clave valor refleja las transacciones realizadas por número de cuentas. Obtenga el monto total por cada cuenta.

> Tip: Cree su propia función para procesar el RDD leído.

In [None]:
# Levantar la sesión de Spark
import findspark
findspark.init()
from pyspark.sql import SparkSession

spark = SparkSession.builder.getOrCreate()
sc = spark.sparkContext

In [None]:
# 1 RDD con todos los lenguajes
lenguajes = sc.parallelize(['Python', 'R', 'C', 'Scala', 'Ruby', 'SQL'])
lenguajes.collect()

['Python', 'R', 'C', 'Scala', 'Ruby', 'SQL']

In [None]:
# 1 a.
rdd_may = lenguajes.map(lambda x: x.upper())
rdd_may.collect()

['PYTHON', 'R', 'C', 'SCALA', 'RUBY', 'SQL']

In [None]:
# 1 b.
rdd_min = lenguajes.map(lambda x: x.lower())
rdd_min.collect()

['python', 'r', 'c', 'scala', 'ruby', 'sql']

In [None]:
# 1 c.
rdd_r = lenguajes.filter(lambda x: x.startswith('R'))
rdd_r.collect()

['R', 'Ruby']

In [None]:
# 2
rdd_pares = sc.parallelize([20, 22, 24, 26, 28, 30])
rdd_pares.collect()

[20, 22, 24, 26, 28, 30]

In [None]:
# 2 a.
import math

rdd_sqrt = rdd_pares.map(lambda x: math.sqrt(x))
rdd_sqrt.collect()

[4.47213595499958,
 4.69041575982343,
 4.898979485566356,
 5.0990195135927845,
 5.291502622129181,
 5.477225575051661]

In [None]:
# 2 b.
lista = rdd_pares.flatMap(lambda x: (x, math.sqrt(x))).collect()
print(lista)

[20, 4.47213595499958, 22, 4.69041575982343, 24, 4.898979485566356, 26, 5.0990195135927845, 28, 5.291502622129181, 30, 5.477225575051661]


In [None]:
# 2 c.
sqrt20 = rdd_sqrt.repartition(20)
sqrt20.getNumPartitions()

20

In [None]:
# 2 d.
sqrt5 = sqrt20.coalesce(5)
sqrt5.getNumPartitions()

5

In [None]:
# 3
rdd = sc.textFile('./transacciones')
rdd.collect()

['(1001, 52.3)',
 '(1005, 20.8)',
 '(1001, 10.1)',
 '(1004, 52.7)',
 '(1005, 20.7)',
 '(1002, 85.3)',
 '(1004, 20.9)']

In [None]:
def proceso(s):
  return (s.replace('()', '').replace(')', '').split(', '))

In [None]:
rdd_llave_valor = rdd.map(proceso)
rdd_llave_valor.collect()

[['(1001', '52.3'],
 ['(1005', '20.8'],
 ['(1001', '10.1'],
 ['(1004', '52.7'],
 ['(1005', '20.7'],
 ['(1002', '85.3'],
 ['(1004', '20.9']]

In [None]:
rdd_llave_valor.reduceByKey(lambda x, y: float(x) + float(y)).collect()

[('(1001', 62.4), ('(1005', 41.5), ('(1004', 73.6), ('(1002', '85.3')]

---

## Acciones sobre un RDD en Spark

### Lazy evaluation

rdd original
- Filtrar azules
- Filtrar rojos
- Mostrar el número de registros --> Acción
- Tomar sólo los negros
- Mostrar el número de registros --> Acción

### Tipos de acciones
Dos tipos:
- Driver
- Distributed

### reduce

In [None]:
# Acciones: función reduce
import findspark
findspark.init()
from pyspark.sql import SparkSession

spark = SparkSession.builder.getOrCreate()
sc = spark.sparkContext

In [None]:
rdd = sc.parallelize([2,4,6,8])
rdd.reduce(lambda x,y: x + y)

20

In [None]:
rdd1 = sc.parallelize([1,2,3,4])
rdd1.reduce(lambda x,y: x * y)

24

### count

In [None]:
# Acciones: función count
import findspark
findspark.init()
from pyspark.sql import SparkSession

spark = SparkSession.builder.getOrCreate()
sc = spark.sparkContext

In [None]:
rdd = sc.parallelize(['j', 'o', 's', 'e'])
rdd.count()

4

In [None]:
rdd1 = sc.parallelize([item for item in range(10)])
rdd1.count()

10

### collect

In [None]:
# Acciones: función collect
import findspark
findspark.init()
from pyspark.sql import SparkSession

spark = SparkSession.builder.getOrCreate()
sc = spark.sparkContext

In [None]:
rdd = sc.parallelize('Hola Apache Spark!'.split(' '))
rdd.collect()

['Hola', 'Apache', 'Spark!']

In [None]:
rdd1 = sc.parallelize([(item, item ** 2) for item in range(20)])
rdd1.collect()

[(0, 0),
 (1, 1),
 (2, 4),
 (3, 9),
 (4, 16),
 (5, 25),
 (6, 36),
 (7, 49),
 (8, 64),
 (9, 81),
 (10, 100),
 (11, 121),
 (12, 144),
 (13, 169),
 (14, 196),
 (15, 225),
 (16, 256),
 (17, 289),
 (18, 324),
 (19, 361)]

### take, max y saveAsTextFile

In [None]:
# Acciones: funciones take, max y saveAsTextFile
import findspark
findspark.init()
from pyspark.sql import SparkSession

spark = SparkSession.builder.getOrCreate()
sc = spark.sparkContext

In [None]:
# take
rdd = sc.parallelize('La programación es bella'.split(' '))
rdd.take(2)
rdd.take(4)

['La', 'programación', 'es', 'bella']

In [None]:
# max
rdd1 = sc.parallelize([item/(item + 1) for item in range(10)])
rdd1.max()
rdd1.collect()

[0.0,
 0.5,
 0.6666666666666666,
 0.75,
 0.8,
 0.8333333333333334,
 0.8571428571428571,
 0.875,
 0.8888888888888888,
 0.9]

In [None]:
# saveAsTextFile
rdd.collect()
rdd.saveAsTextFile('./rdd')
rdd.coalesce(1).saveAsTextFile('./rdd1')

### **Ejercicios**

1. Cree un RDD llamado importes a partir del archivo adjunto a esta lección como recurso.

  a. ¿Cuántos registros tiene el RDD importes?

  b. ¿Cuál es el valor mínimo y máximo del RDD importes?

  c. Cree un RDD top15 que contenga los 15 mayores valores del RDD importes. Tenga en cuenta que pueden repetirse los valores. Por último, escriba el RDD top15 como archivo de texto en la carpeta data/salida.

2. Cree una función llamada factorial que calcule el factorial de un número dado como parámetro. Utilice RDDs para el cálculo.

In [None]:
# Levantar una sesión de Spark
import findspark
findspark.init()
from pyspark.sql import SparkSession

spark = SparkSession.builder.getOrCreate()
sc = spark.sparkContext

In [None]:
# 1
importes = sc.textFile('./num.txt')
# importes.collect()

In [None]:
# 1 a.
importes.count()

233

In [None]:
# 1 b.
importes.min()


'1'

In [None]:
# 1 b.
importes.max()

'99'

In [1]:
# # 1 c.
lista_top15 = importes.top(15)
print(lista_top15)

top15 = sc.parallelize(lista_top15)
top15.saveAsTextFile('./data/salida')

In [None]:
# 2
def factorial(n):
  if n == 0:
    return 1
  else:
    rdd = sc.parallelize(list(range(1, n+1)))
    return rdd.reduce(lambda x,y: x*y)

In [None]:
print(factorial(0))
print(factorial(1))
print(factorial(2))
print(factorial(3))
print(factorial(4))
print(factorial(5))

1
1
2
6
24
120


---

## Aspectos avanzados sobre RDD

### Almacenamiento y cache

El almacenamiento en caché permite que Spark conserve los datos en todos los cálculos y operaciones. Almacena el RDD, tanto como sea posible, en la memoria. Si los datos que se solicitan para almacenar en caché son más grandes que la memoria disponible, el rendimiento disminuirá, porque se utilizará disco en lugar de memoria.
Podemos marcar un RDD como almacenado en caché usando persist() o cache()
cache() es simplemente un sinónimo de persist(MEMORY_ONLY).
persist() puede usar memoria o disco o ambos.

Valores posibles para el nivel de almacenamiento

| Nivel de Almacenamiento | Significado |
|----------|--------------------|
| MEMORY_ONLY  | Almacena RDD como objetos Java deserializados en la JVM. Si el RDD no cabe en la memoria, algunas particiones no se almacenarán en caché y se volverán a calcular sobre la marcha cada vez que se necesiten. Este el nivel por defecto. |
| MEMORY_AND_DISK  | Almacena RDD como objetos Java deserializados en la JVM. Si el RDD no cabe en la memoria, almacena las particiones que no quepan en el disco y las lee desde allí cuando sea necesario.   |
| DISK_ONLY  | Almacene las particiones RDD solo en el disco. |
| MEMORY_ONLY_2,MEMORY_AND_DISK_2, etc | Igual que los niveles anteriores, pero replica cada partición en dos nodos del clúster.   |

El nivel de almacenamiento a elegir depende de la situación
- Si los RDD caben en la memoria, usar MEMORY_ONLY ya que es la opción más rápida para el rendimiento de ejecución.
- DISK_ONLY no debe usarse a menos que sus cálculos sean costosos.
- Utilizar almacenamiento replicado para una mejor tolerancia a fallas si se puede ahorrar la memoria adicional necesaria. Esto evitará que se vuelvan a calcular las particiones perdidas para obtener la mejor disponibilidad.
- Se puede utilizar la función persist() para liberar el contenido en caché.




In [None]:
# Almacenamiento en caché
import findspark
findspark.init()
from pyspark.sql import SparkSession
from pyspark.storagelevel import StorageLevel

spark = SparkSession.builder.getOrCreate()
sc = spark.sparkContext

rdd = sc.parallelize([item for item in range(10)])

In [None]:
rdd.persist(StorageLevel.MEMORY_ONLY)

ParallelCollectionRDD[130] at readRDDFromFile at PythonRDD.scala:274

In [None]:
rdd.unpersist()

ParallelCollectionRDD[130] at readRDDFromFile at PythonRDD.scala:274

In [None]:
rdd.persist(StorageLevel.DISK_ONLY)

ParallelCollectionRDD[130] at readRDDFromFile at PythonRDD.scala:274

In [None]:
rdd.unpersist()

ParallelCollectionRDD[130] at readRDDFromFile at PythonRDD.scala:274

In [None]:
rdd.cache()

ParallelCollectionRDD[130] at readRDDFromFile at PythonRDD.scala:274

### Particionado

In [None]:
# HashPartitioner
import findspark
findspark.init()
from pyspark.sql import SparkSession

spark = SparkSession.builder.getOrCreate()
sc = spark.sparkContext

rdd = sc.parallelize(['x', 'y', 'z'])

In [None]:
hola = 'Hola'
hash(hola)

-7265645624913798811

In [None]:
num_particiones = 6
# indice = hash(item) % num_particiones

In [None]:
hash('x') % num_particiones

0

In [None]:
hash('y') % num_particiones

5

In [None]:
hash('z') % num_particiones

2

### Broadcast y variables

In [None]:
# Broadcast variables
import findspark
findspark.init()
from pyspark.sql import SparkSession

spark = SparkSession.builder.getOrCreate()
sc = spark.sparkContext

rdd = sc.parallelize([item for item in range(10)])

uno = 1
br_uno = sc.broadcast(uno)

In [None]:
rdd1 = rdd.map(lambda x: x + br_uno.value)
rdd1.collect()

[1, 2, 3, 4, 5, 6, 7, 8, 9, 10]

In [None]:
br_uno.unpersist()

In [None]:
rdd1  = rdd.map(lambda x: x + br_uno.value)
rdd1.collect()

[1, 2, 3, 4, 5, 6, 7, 8, 9, 10]

In [None]:
br_uno.destroy()

In [None]:
rdd1  = rdd.map(lambda x: x + br_uno.value)
# Va a lanzar un error
# rdd1.take(5)

### Acumuladores

In [None]:
# Acumuladores
import findspark
findspark.init()
from pyspark.sql import SparkSession

spark = SparkSession.builder.getOrCreate()
sc = spark.sparkContext

acumulador = sc.accumulator(0)
rdd = sc.parallelize([2,4,6,8,10])

In [None]:
rdd.foreach(lambda x: acumulador.add(x))
print(acumulador.value)

30


In [None]:
rdd1 = sc.parallelize('Mi nombre es Jose Miguel y me siento genial'.split(' '))
acumulador1 = sc.accumulator(0)
rdd1.foreach(lambda x: acumulador1.add(1))
print(acumulador1.value)

9


### Ejercicios

Los datos adjuntos como recurso a esta lección contienen los importes de ventas en un día en un supermercado.

1. Cree un RDD importes a partir de los datos adjuntos a esta lección como recurso. Emplee acumuladores para obtener el total de ventas realizadas y el importe total de las ventas.

2. Si se conoce que a cada venta hay que restarle un importe fijo igual a 10 pesos por temas de impuestos.

  a. ¿Cómo restaría este impuesto de cada venta utilizando una variable broadcast para acelerar el proceso?

  b. Cree un RDD llamado ventas_sin_impuestos a partir de la propuesta del inciso a que contenga las ventas sin impuestos.

  c. Destruya la variable broadcast creada luego de emplearla para crear el RDD del inciso b.

3. Persista el RDD ventas_sin_impuestos en los siguientes niveles de persistencia.

  a. Memoria

  b. Disco solamente

  c. Memoria y disco

In [41]:
import findspark
findspark.init()
from pyspark.sql import SparkSession

spark = SparkSession.builder.getOrCreate()
sc = spark.sparkContext

In [42]:
# 1
importes = sc.textFile('./rdd.txt')
importes.take(5)

['527', '386', '701', '240', '941']

In [43]:
total_ventas = sc.accumulator(0)
importe_total = sc.accumulator(0)

importes.foreach(lambda x: total_ventas.add(1))
importes.foreach(lambda x: importe_total.add(float(x)))

valor_total_ventas = total_ventas.value
valor_importe_total = importe_total.value

print(f'Valor del total de ventas: {valor_total_ventas}')
print(f'Valor del importe total: {valor_importe_total}')

Valor del total de ventas: 10000
Valor del importe total: 5042335.0


In [44]:
# 2 a.
# Variable broadcast, va a estar disponible en todos los ejecutores para acelerar el proceso
impuesto = sc.broadcast(10)

In [45]:
# 2 b.
ventas_sin_impuestos = importes.map(lambda x: float(x) - impuesto.value)
ventas_sin_impuestos.take(5)

[517.0, 376.0, 691.0, 230.0, 931.0]

In [46]:
# 2 c.
impuesto.destroy()

In [47]:
# 3 Persista el RDD ventas_sin_impuestos en los siguientes niveles de persistencia:
from pyspark.storagelevel import StorageLevel

In [48]:
# 3 a. persistencia en memoria
ventas_sin_impuestos.cache()

PythonRDD[87] at RDD at PythonRDD.scala:53

In [49]:
# 3 b. persistencia en disco solamente
ventas_sin_impuestos.unpersist()
ventas_sin_impuestos.persist(StorageLevel.DISK_ONLY)

PythonRDD[87] at RDD at PythonRDD.scala:53

In [50]:
# 3 c. persistencia en memoria y disco
ventas_sin_impuestos.unpersist()
ventas_sin_impuestos.persist(StorageLevel.MEMORY_AND_DISK)

PythonRDD[87] at RDD at PythonRDD.scala:53

-----------------------------------------------------------------------------------