# Apache Spark

Sistema diseñado para procesar datos de manera distribuida sobre clusters. Spark puede procesar cantidades de datos en el orden de terabytes incluso petabytes.

El concepto de Spark es imaginar un cluster como una memoria gigante, la memoria resultante de combinar las memorias de todos los clusters. Se prioriza el uso de memoria y consigue ser muy rápido el procesamiento de la inforamción, mayor que si utilizara MapReduce (Google).

Spark utiliza MapReduce para algunas ateas de clasificación mediante regresión. Apache Spark esta implementado en Scala que es ejecutado en la máquina virtual de Java. Además de Spark ofrece interfaces de programación para Java, Python y R.

## Caracteristicas

* Velocidad de procesamiento
* Soporte multilenguaje
* Análisis avanzado

Se puede desarrollar en tres maneras:
1. solo : standalone. Utiliza como base HDFS y encima se encuentra spark.
2. Hadoop (Yarn, adminsitrador de recursos) : Base HDFS -> Yarn/Mesos(kernel administrador del cluster) -> Spark
3. Spark con MapReduce (Spark In MapReduce, SIMR) : Base HDFS -> MapReduce y dentro se encuentra Spark

![apache-spark.jpg](img/apache-spark.jpg)

## Componentes de Spark

![apache-spark-core.jpg](img/apache-spark-core.jpg)

Cuando se ejecuta Spark en un ambiente distribuida se distinguen dos tipos de procesos: driver y executor. Un proceso driver conectado a 3 procesos excutor localizados en dos nodos del cluster:

![gestor-cluster.png](img/gestor-cluster.png)

driver: proceso principal. Este proceso tiene un objeto SparkContext que te permite conectar con el gestor del cluster y reservar procesos executor en los distintos nodos del cluster. Cada uno de los nodos del cluster (tambien se conocen como worker) pordrá ejecutar uno o varios procesos executor que almaenará fragmentos de los datos del programa y realizará operaciones sobre ellos. Durante la ejecución irá enviando peticiones a los distintos procesos executor que pueden contactar enre ellos para realizar tareas y comunicar con el proceso driver para devolver resultados.

## RDD (Resilient Distributed Datasets)

Tipo de datos básicos. Estos datos almacenan información de manera distribuida entre todos los equipos del cluster. Durante la ejecución de un programa Sparck se construyen varios RDDs que se dividen en distintos fragmentos y son almacenados en la memoria de los equipos del cluster.

### Caracteristicas

Están formados por un conjunto de registros, también llamados elementos, todos del mismo tipo. Por ejemplo, si cargamos un RDD a partir de un archivo plano se creará un RDD de cadenas de texto, una por cada linea del archivo.

En Scala o Java, al declarar un RDD se debe definir el tipo de los registros:
* Lenguajes estáticos : RDD[String] en Scala y JavaRDD en Java.
* Lenguajes dinámicos : Python se pueden mezclar los tipos de datos.

RDDs han sido diseñados desde el inicio para ser distribuidos: Los registros que lo componen se repartirán entre los clúster.

Para realizar esta distribución: los RDDs se dividen en particiones. Cada partición se almacena únciamente en un proceso executor dentro de un nodo del clúster, aunque un proceso executor puede albergar distintas particiones de distintos RDDs. El número de particiones en las que dividir un RDD se puede configurar e incluso cambiar a lo largo de la ejecución, por default es el número de núcleos de procesamiento disponibles en el clúster.

Para decidir qué registros forman parte de cada partición, Spark utiliza particionadores, que son funciones que toman un registro y devuelven el número de la partición a la que pertenecen. Estos particionadores se puede configurar si se desea mejorar el rendimiento o dejar el default.

Los RDDs son inmutables: no se puede modificar ni actualizar. Una vez creado, así permanece hasta que se termina la ejecución del programa.

### Ejemplo

Cómo se pordría particionar un RDD de 13 parejas (int, str) sobre 3 procesos executor utilizando el rango de valores del primer elemento de la pareja.

![particionandoRDD.png](img/particionandoRDD.png)

## Operaciones que admite los RDDs
Transformaciones y acciones pero ninguna de ellas modifica el RDD.

### Transformaciones
Son operaciones que toman un RDD de partida y crean un nuevo RDD, dejando el original intacto.

Ejemplos: son aplicar una función a todos los registros del RDD (por ejemplo, sumar una cierta cantidad), filtrar únicamente aquellos registros que cumplan una cierta condición u ordenarlos mediante algún campo.

### Acciones

Son operaciones que realizan algún cómputo sobre el RDD y devuelven un valor, dejando también el RDD original inalterado.

Ejemplos: sumar todos los elementos almacenados en un RDD de números, generando un valor final, o "vaciar" un RDD a un archivo de texto.

## Concepto importante del RDD: Resilencia

Tienen la capacidad de recuperar su estado inicial cuando exista algún problema. Esto se debe a que los RDDs son particionados y cada particion ha sido almacenada en un proceso executor. Por lo que apartir de su estado inicial, repite las transformaciones que tiene programadas. De esta manera, regenera las particiones perdidas.

## SparkContext

método inicial para trabajar con PySpark

In [1]:
#conda install -c conda-forge findspark
import findspark
findspark.init()

In [2]:
import pyspark

In [11]:
sc = pyspark.SparkContext(appName="Prueba") # sc objeto que apunta a SC al cluster local

In [12]:
type(sc)

pyspark.context.SparkContext

In [13]:
sc.master

'local[*]'

In [14]:
sc.appName

'Prueba'

In [15]:
import random

In [16]:
# Crando un RDD de 5 enteros: se crea en la memoria del proceso driver
r = sc.parallelize([1,2,3,4,5])
type(r)

pyspark.rdd.RDD

In [19]:
#sc.stop()

In [18]:
# Creando un RDD de 3 cadenas de texto
r = sc.parallelize(["hola", "hi", "ciso"])
type(r)

pyspark.rdd.RDD