# **Spark con PySpark**

## Introducción

### `Ventajas y desventajas de trabajar con Spark en Google Colab`

Ventajas:
- Fácil acceso
- Ejecutar Spark en prácticamente cualquier dispositivo, los recursos están en la nube.
- Como los recursos están la nube, no hay que preocuparse por los recursos de hardware
- Trabajo en equipo, más sencillo el trabajo colaborativo. Varias personas pueden trabajar sobre un mismo notebook.


Desventajas:
- No se guardan las configuraciones de Spark luego de un tiempo
> No obstante el notebook permanece intacto. Se puede volver a ejecutar las líneas de código para tener la configuración nuevamente.
- Escalabilidad, como el servicio es gratuito, los recursos son limitados.
> Para llevarlo a ambientes productivos, necesitamos una infraestructura capaz de brindarnos estas especificaciones.

## Instalaciones

### `Descarga e instalación de Apache Spark en Colab`

In [None]:
# Instalar SDK Java 8
!apt-get install openjdk-8-jdk-headless -qq > /dev/null

In [None]:
# Descargar Spark 3.2.4
!wget -q https://archive.apache.org/dist/spark/spark-3.2.4/spark-3.2.4-bin-hadoop3.2.tgz

In [None]:
# Descomprimir el archivo descargado de Spark
!tar xf spark-3.2.4-bin-hadoop3.2.tgz

In [None]:
# Establecer las variables de entorno
import os

os.environ["JAVA_HOME"] = "/usr/lib/jvm/java-8-openjdk-amd64"
os.environ["SPARK_HOME"] = "/content/spark-3.2.4-bin-hadoop3.2"

In [None]:
# Instalar la librería findspark
!pip install -q findspark

In [None]:
# Instalar pyspark
!pip install -q pyspark

[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m316.9/316.9 MB[0m [31m2.3 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
  Building wheel for pyspark (setup.py) ... [?25l[?25hdone


In [None]:
### verificar la instalación ###
import findspark
findspark.init()

from pyspark.sql import SparkSession
spark = SparkSession.builder.master("local[*]").getOrCreate()

In [None]:
# Probando la sesión de Spark
df = spark.createDataFrame([{"Hola": "Mundo"} for x in range(10)])
# df.show(10, False)
df.show()

+-----+
| Hola|
+-----+
|Mundo|
|Mundo|
|Mundo|
|Mundo|
|Mundo|
|Mundo|
|Mundo|
|Mundo|
|Mundo|
|Mundo|
+-----+



### `Descarga e instalación de Apache Spark en una sola celda`

In [None]:
# Instalar SDK Java 8
!apt-get install openjdk-8-jdk-headless -qq > /dev/null

# Descargar Spark 3.2.4
!wget -q https://archive.apache.org/dist/spark/spark-3.2.4/spark-3.2.4-bin-hadoop3.2.tgz

# Descomprimir el archivo descargado de Spark
!tar xf spark-3.2.4-bin-hadoop3.2.tgz

# Establecer las variables de entorno
import os

os.environ["JAVA_HOME"] = "/usr/lib/jvm/java-8-openjdk-amd64"
os.environ["SPARK_HOME"] = "/content/spark-3.2.4-bin-hadoop3.2"

# Instalar la librería findspark
!pip install -q findspark

# Instalar pyspark
!pip install -q pyspark

### verificar la instalación ###
import findspark
findspark.init()

from pyspark.sql import SparkSession
spark = SparkSession.builder.master("local[*]").getOrCreate()

# Probando la sesión de Spark
df = spark.createDataFrame([{"Hola": "Mundo"} for x in range(10)])
# df.show(10, False)
df.show()

+-----+
| Hola|
+-----+
|Mundo|
|Mundo|
|Mundo|
|Mundo|
|Mundo|
|Mundo|
|Mundo|
|Mundo|
|Mundo|
|Mundo|
+-----+



## Introducción a los RDD en Spark

### Creación de una SparkSessión:
> SparkSession permite:
- Crear DataFrames
- Leer fuentes de datos
- Acceder a metadatos de catálogos
- Emitir consultas Spark SQL

In [None]:
# Creando una sesión de Spark en pyspark
import findspark
findspark.init()

from pyspark.sql import SparkSession
spark = SparkSession.builder.master("local[*]").appName('Curso Pyspark').getOrCreate()
spark

### ¿Qué es una RDD? Resilient Distributed Dataset
Es la abstracción principal de Spark
Características:
- Dependencias: puede recrear un RDD a partir de estas.
- Particiones
- Función de cálculo

#### Diferentes formas de crear un RDD

In [None]:
# Diferentes formas de crear un RDD

# Creando la sesión de Spark
import findspark
findspark.init()

from pyspark.sql import SparkSession
spark = SparkSession.builder.getOrCreate()

# creando el sparkContext
sc = spark.sparkContext

# Crear un RDD vacío
rdd_vacio = sc.emptyRDD

# Crear un RDD con parallelize
rdd_vacio3 = sc.parallelize([], 3)
rdd_vacio3.getNumPartitions()
rdd = sc.parallelize([1,2,3,4,5])
rdd.collect()

# Crear un RDD desde un archivo de texto
rdd_texto = sc.textFile('./rdd_source.txt')
rdd_texto.collect()
rdd_texto_completo = sc.wholeTextFiles('./rdd_source.txt')
rdd_texto_completo.collect()

# Crear un RDD desde otro RDD
rdd_suma = rdd.map(lambda x: x + 1)
rdd_suma.collect()

# Crear un RDD desde un dataframe
df = spark.createDataFrame([(1, 'jose'), (2, 'juan')], ['id', 'nombre'])

df.show()

rdd_df = df.rdd
rdd_df.collect()

+---+------+
| id|nombre|
+---+------+
|  1|  jose|
|  2|  juan|
+---+------+



[Row(id=1, nombre='jose'), Row(id=2, nombre='juan')]

### **Ejercicios**

1) Cree una sesión de Spark con nombre Cap2 y asegúrese de que emplea todos los cores disponibles para ejecutar en su ambiente de trabajo.

2) Cree dos RDD vacíos, uno de ellos no debe contener particiones y el otro debe tener 5 particiones. Utilice vías diferentes para crear cada RDD.

3) Cree un RDD que contenga los números primos que hay entre 1 y 20.

4) Cree un nuevo RDD a partir del RDD creado en el ejercicio anterior el cuál solo contenga los números primos mayores a 10.

5) Descargue el archivo de texto adjunto a esta lección como recurso y guárdelo en una carpeta llamada data en el ambiente de trabajo de Colab.

- a) Cree un RDD a partir de este archivo de texto en donde todo el documento esté contenido en un solo registro. ¿Cómo podría saber la dirección donde está guardado el archivo de texto a partir del RDD creado?

- b) Si necesitara crear un RDD a partir del archivo de texto cargado previamente en donde cada línea del archivo fuera un registro del RDD, ¿cómo lo haría?

In [None]:
# Ejercicio 1
import findspark
findspark.init()

from pyspark.sql import SparkSession

spark = SparkSession.builder.appName('Cap2').master('local(*)').getOrCreate()

spark

In [None]:
# Ejercicio 2
sc = spark.sparkContext
rdd1 = sc.emptyRDD()
rdd2 = sc.parallelize([], 5)

In [None]:
rdd1.getNumPartitions()

0

In [None]:
rdd2.getNumPartitions()

5

In [None]:
# Ejercicio 3
rdd_primo = sc.parallelize([2,3,5,7,11,13,17,19])
rdd_primo

ParallelCollectionRDD[42] at readRDDFromFile at PythonRDD.scala:274

In [None]:
# Ejercicio 4
rdd_primo.filter(lambda x: x > 10).collect()

[11, 13, 17, 19]

In [None]:
# Ejercicio 5
# a)
rdd_texto = sc.wholeTextFiles('./data/el_valor_del_big_data.txt')
rdd_texto.collect()

[('file:/content/data/el_valor_del_big_data.txt',
  'El valor y la realidad de big data\r\n\r\nEn los últimos años, han surgido otras "dos V": valor y veracidad. Los datos poseen un valor intrínseco. Sin embargo, no tienen ninguna utilidad hasta que dicho valor se descubre. Resulta igualmente importante: ¿cuál es la veracidad de sus datos y cuánto puede confiar en ellos?\r\n\r\nHoy en día, el big data se ha convertido en un activo crucial. Piense en algunas de las mayores empresas tecnológicas del mundo. Gran parte del valor que ofrecen procede de sus datos, que analizan constantemente para generar una mayor eficiencia y desarrollar nuevos productos.\r\n\r\nAvances tecnológicos recientes han reducido exponencialmente el coste del almacenamiento y la computación de datos, haciendo que almacenar datos resulte más fácil y barato que nunca. Actualmente, con un mayor volumen de big data más barato y accesible, puede tomar decisiones empresariales más acertadas y precisas.\r\n\r\nIdentificar

In [None]:
# b)
rdd_texto1= sc.textFile('./data/el_valor_del_big_data.txt')
rdd_texto1.collect()

['El valor y la realidad de big data',
 '',
 'En los últimos años, han surgido otras "dos V": valor y veracidad. Los datos poseen un valor intrínseco. Sin embargo, no tienen ninguna utilidad hasta que dicho valor se descubre. Resulta igualmente importante: ¿cuál es la veracidad de sus datos y cuánto puede confiar en ellos?',
 '',
 'Hoy en día, el big data se ha convertido en un activo crucial. Piense en algunas de las mayores empresas tecnológicas del mundo. Gran parte del valor que ofrecen procede de sus datos, que analizan constantemente para generar una mayor eficiencia y desarrollar nuevos productos.',
 '',
 'Avances tecnológicos recientes han reducido exponencialmente el coste del almacenamiento y la computación de datos, haciendo que almacenar datos resulte más fácil y barato que nunca. Actualmente, con un mayor volumen de big data más barato y accesible, puede tomar decisiones empresariales más acertadas y precisas.',
 '',
 'Identificar el valor del big data no pasa solo por ana

## Transformaciones en un RDD

### Los RDD son inmutables y cada operación crea un nuevo RDD.

Principales operaciones:
- *`Transformaciones`*:
crean un nuevo RDD, como dividir el elemento de entrada, filtrar elementos, realizar cálculos de algún tipo, etc.
  - Transformaciones generales: map, filter, flatMap, groupByKey, sortByKey, combineByKey, etc.
  - Transformaciones matemáticas o estadísticas: sampleByKey, randomSplit, etc.
  - Transformaciones de conjunto o relacionales: cogroup, join, subtractByKey, fullOuterJoin, leftOuterJoin, rightOuterJoin, etc.
  - Transformaciones basadas en estructuras de datos: partitionBy, repartition, zipWithIndex, coalesce, etc.

- *`Acciones`*

> Posee Lazy Evaluation

### map

In [None]:
# Transformaciones: función map

import findspark
findspark.init()
from pyspark.sql import SparkSession

spark = SparkSession.builder.getOrCreate()

sc = spark.sparkContext

rdd = sc.parallelize([1,2,3,4,5])

rdd_resta = rdd.map(lambda x: x - 1)
rdd_resta.collect()

rdd_par = rdd.map(lambda x: x % 2 == 0)

rdd_par.collect()

rdd_texto = sc.parallelize(['jose', 'juan', 'lucia'])

rdd_mayuscula = rdd_texto.map(lambda x: x.upper())

rdd_mayuscula.collect()

rdd_hola = rdd_texto.map(lambda x: 'Hola ' + x)

rdd_hola.collect()

### flatMap

In [None]:
# Transformaciones: función flatMap

import findspark
findspark.init()
from pyspark.sql import SparkSession

spark = SparkSession.builder.getOrCreate()

sc = spark.sparkContext

rdd = sc.parallelize([1,2,3,4,5])

rdd_cuadrado = rdd.map(lambda x: (x, x ** 2))

rdd_cuadrado.collect()

rdd_cuadrado_flat = rdd.flatMap(lambda x: (x, x ** 2))

rdd_cuadrado_flat.collect()

rdd_texto = sc.parallelize(['jose', 'juan', 'lucia'])

rdd_mayuscula = rdd_texto.flatMap(lambda x: (x, x.upper()))

rdd_mayuscula.collect()

### filter

In [None]:
# Transformaciones: función filter

import findspark
findspark.init()
from pyspark.sql import SparkSession

spark = SparkSession.builder.getOrCreate()
sc = spark.sparkContext

rdd = sc.parallelize([1,2,3,4,5,6,7,8,9])

rdd_par = rdd.filter(lambda x: x % 2 == 0)

rdd_par.collect()

rdd_impar = rdd.filter(lambda x: x % 2 != 0)

rdd_impar.collect()

rdd_texto = sc.parallelize(['jose', 'juaquin', 'juan', 'lucia', 'karla', 'katia'])

rdd_k = rdd_texto.filter(lambda x: x.startswith('k'))

rdd_k.collect()

rdd_filtro = rdd_texto.filter(lambda x: x.startswith('j') and x.find('u') == 1)

rdd_filtro.collect()

### coalesce

In [None]:
# Transformaciones: función coalesce

import findspark
findspark.init()
from pyspark.sql import SparkSession

spark = SparkSession.builder.getOrCreate()
sc = spark.sparkContext

rdd = sc.parallelize([1,2,3.4,5], 10)

rdd.getNumPartitions()

rdd.coalesce(5)
rdd.getNumPartitions()

rdd5 = rdd.coalesce(5)

rdd5.getNumPartitions()

### repartition

In [None]:
# Transformaciones: función repartition

import findspark
findspark.init()
from pyspark.sql import SparkSession

spark = SparkSession.builder.getOrCreate()
sc = spark.sparkContext

rdd = sc.parallelize([1,2,3,4,5], 3)

rdd.getNumPartitions()

rdd7 = rdd.repartition(7)

rdd7.getNumPartitions()

### reduceByKey

In [None]:
# Transformaciones: función reduceByKey

import findspark
findspark.init()
from pyspark.sql import SparkSession

spark = SparkSession.builder.getOrCreate()
sc = spark.sparkContext

rdd = sc.parallelize(
    [('casa', 2),
     ('parque', 1),
     ('que', 5),
     ('casa', 1),
     ('escuela', 2),
     ('casa', 1),
     ('que', 1)]
)

rdd.collect()

rdd_reduciodo = rdd.reduceByKey(lambda x,y: x + y)

rdd_reduciodo.collect()

### Ejercicios

In [None]:
# Transacciones
# (1001, 52.3)
# (1005, 20.8)
# (1001, 10.1)
# (1004, 52.7)
# (1005, 20.7)
# (1002, 85.3)
# (1004, 20.9)


## Acciones sobre un RDD en Spark

### Lazy evaluation

rdd original
- Filtrar azules
- Filtrar rojos
- Mostrar el número de registros --> Acción
- Tomar sólo los negros
- Mostrar el número de registros --> Acción

### Tipos de acciones
Dos tipos:
- Driver
- Distributed

### reduce

In [None]:
# Acciones: función reduce

import findspark
findspark.init()
from pyspark.sql import SparkSession

spark = SparkSession.builder.getOrCreate()
sc = spark.sparkContext

rdd = sc.parallelize([2,4,6,8])

rdd.reduce(lambda x,y: x + y)

rdd1 = sc.parallelize([1,2,3,4])

rdd1.reduce(lambda x,y: x * y)

### count

In [None]:
# Acciones: función count

import findspark
findspark.init()
from pyspark.sql import SparkSession

spark = SparkSession.builder.getOrCreate()
sc = spark.sparkContext

rdd = sc.parallelize(['j', 'o', 's', 'e'])

rdd.count()

rdd1 = sc.parallelize([item for item in range(10)])

rdd1.count()

### collect

In [None]:
# Acciones: función collect

import findspark
findspark.init()
from pyspark.sql import SparkSession

spark = SparkSession.builder.getOrCreate()
sc = spark.sparkContext

rdd = sc.parallelize('Hola Apache Spark!'.split(' '))

rdd.collect()

rdd1 = sc.parallelize([(item, item ** 2) for item in range(20)])

rdd1.collect()



### take, max y saveAsTextFile

In [None]:
# Acciones: funciones take, max y saveAsTextFile

import findspark
findspark.init()
from pyspark.sql import SparkSession

spark = SparkSession.builder.getOrCreate()
sc = spark.sparkContext

# take

rdd = sc.parallelize('La programación es bella'.split(' '))

rdd.take(2)

rdd.take(4)

# max

rdd1 = sc.parallelize([item/(item + 1) for item in range(10)])

rdd1.max()

rdd1.collect()

# saveAsTextFile

rdd.collect()

rdd.saveAsTextFile('./rdd')

rdd.coalesce(1).saveAsTextFile('./rdd1')

### Ejercicios

## Aspectos avanzados sobre RDD

### Almacenamiento y cache

El almacenamiento en caché permite que Spark conserve los datos en todos los cálculos y operaciones. Almacena el RDD, tanto como sea posible, en la memoria. Si los datos que se solicitan para almacenar en caché son más grandes que la memoria disponible, el rendimiento disminuirá, porque se utilizará disco en lugar de memoria.
Podemos marcar un RDD como almacenado en caché usando persist() o cache()
cache() es simplemente un sinónimo de persist(MEMORY_ONLY).
persist() puede usar memoria o disco o ambos.

Valores posibles para el nivel de almacenamiento

| Nivel de Almacenamiento | Significado |
|----------|--------------------|
| MEMORY_ONLY  | Almacena RDD como objetos Java deserializados en la JVM. Si el RDD no cabe en la memoria, algunas particiones no se almacenarán en caché y se volverán a calcular sobre la marcha cada vez que se necesiten. Este el nivel por defecto. |
| MEMORY_AND_DISK  | Almacena RDD como objetos Java deserializados en la JVM. Si el RDD no cabe en la memoria, almacena las particiones que no quepan en el disco y las lee desde allí cuando sea necesario.   |
| DISK_ONLY  | Almacene las particiones RDD solo en el disco. |
| MEMORY_ONLY_2,MEMORY_AND_DISK_2, etc | Igual que los niveles anteriores, pero replica cada partición en dos nodos del clúster.   |

El nivel de almacenamiento a elegir depende de la situación
- Si los RDD caben en la memoria, usar MEMORY_ONLY ya que es la opción más rápida para el rendimiento de ejecución.
- DISK_ONLY no debe usarse a menos que sus cálculos sean costosos.
- Utilizar almacenamiento replicado para una mejor tolerancia a fallas si se puede ahorrar la memoria adicional necesaria. Esto evitará que se vuelvan a calcular las particiones perdidas para obtener la mejor disponibilidad.
- Se puede utilizar la función persist() para liberar el contenido en caché.




In [None]:
# Almacenamiento en caché

import findspark
findspark.init()
from pyspark.sql import SparkSession

spark = SparkSession.builder.getOrCreate()
sc = spark.sparkContext

rdd = sc.parallelize([item for item in range(10)])

from pyspark.storagelevel import StorageLevel

rdd.persist(StorageLevel.MEMORY_ONLY)

rdd.unpersist()

rdd.persist(StorageLevel.DISK_ONLY)

rdd.unpersist()

rdd.cache()

### Particionado

In [None]:
# HashPartitioner

import findspark
findspark.init()
from pyspark.sql import SparkSession

spark = SparkSession.builder.getOrCreate()
sc = spark.sparkContext

rdd = sc.parallelize(['x', 'y', 'z'])

hola = 'Hola'

hash(hola)

num_particiones = 6

# indice = hash(item) % num_particiones

hash('x') % num_particiones

hash('y') % num_particiones

hash('z') % num_particiones



### Broadcast y variables

In [None]:
# Broadcast variables

import findspark
findspark.init()
from pyspark.sql import SparkSession

spark = SparkSession.builder.getOrCreate()
sc = spark.sparkContext

rdd = sc.parallelize([item for item in range(10)])

uno = 1

br_uno = sc.broadcast(uno)

rdd1 = rdd.map(lambda x: x + br_uno.value)

rdd1.collect()

br_uno.unpersist()

rdd1  = rdd.map(lambda x: x + br_uno.value)

rdd1.collect()

br_uno.destroy()

rdd1  = rdd.map(lambda x: x + br_uno.value)

rdd1.take(5)



### Acumuladores

In [None]:
# Acumuladores

import findspark
findspark.init()
from pyspark.sql import SparkSession

spark = SparkSession.builder.getOrCreate()
sc = spark.sparkContext

acumulador = sc.accumulator(0)

rdd = sc.parallelize([2,4,6,8,10])

rdd.foreach(lambda x: acumulador.add(x))

print(acumulador.value)

rdd1 = sc.parallelize('Mi nombre es Jose Miguel y me siento genial'.split(' '))

acumulador1 = sc.accumulator(0)

rdd1.foreach(lambda x: acumulador1.add(1))

print(acumulador1.value)

### Ejercicios

-----------------------------------------------------------------------------------