# Introducción a [Apache Spark](https://spark.apache.org/)

![Spark](https://upload.wikimedia.org/wikipedia/commons/f/f3/Apache_Spark_logo.svg)

## Plataforma de computación cluster rápida

-   Extiende modelo MapReduce soportando de manera eficiente otros tipos
    de computación:
    -   queries interactivas
    -   procesado _streaming_
-   Soporta computaciones en memoria
-   Mejora a MapReduce para aplicaciones complejas (10-20x más rápido)

### Propósito general

-   Modos de funcionamiento batch, interactivo o streaming
-   Reduce el número de herramientas a emplear y mantener

### Historia

-   Iniciado en el 2009 en el UC Berkeley RAD Lab (AMPLab)

    -   Motivado por la ineficiencia de MapReduce para trabajos
        iterativos e interactivos

-   Mayores contribuidores: [Databricks](https://databricks.com/),
    Yahoo! e Intel

-   Declarado open source en marzo del 2010

-   Transferido a la Apache Software Foundation en junio de 2013, TLP en
    febrero de 2014

-   Uno de los proyectos Big Data más activos

-   Versión 1.0 lanzada en mayo de 2014

#### Características de Spark

-   Soporta gran variedad de workloads: batch, queries interactivas,
    streaming, machine learning, procesado de grafos

-   APIs en Scala, Java, Python, SQL y R

-   Shells interactivos en Scala, Python, SQL y R

-   Se integra con otras soluciones BigData: HDFS, Cassandra, etc.

### La pila Spark
![sparkstack](http://persoal.citius.usc.es/tf.pena/TCDM/figs/sparkstack.png)

(Fuente: H. Karau, A. Konwinski, P. Wendell, M. Zaharia, "Learning Spark", O'Reilly, 2015)

## APIs del Spark Core
Spark ofrece dos APIs:

 - API estructurada o de alto nivel
 - API de bajo nivel

Cada API ofrece diferentes tipos de datos:

 - Se recomienda usar la API estructurada por su mayor rendimiento
 - La API de bajo nivel permite un mayor control sobre la distribución de los datos
 - La API de alto nivel utiliza las primitivas de bajo nivel

## Tipos de datos en la API estructurada

### Datasets
Colección distribuida de objetos del mismo tipo

- Introducida en Spark > 1.6
- El API para Datasets sólo está disponible en Scala y Java
- No está disponible en Python ni R debido al tipado dinámico de estos lenguages

### DataFrames
Un DataFrame es un DataSet organizado en columnas con nombre

- Conceptualmente equivalente a una tabla en una base de datos relacional o un dataframe en Python Pandas o R
- El API para DataFrames está disponible en Scala, Java, Python y R
- En [Java](http://spark.apache.org/docs/latest/api/java/index.html "Interface Row") y [Scala](http://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.sql.Row "trait Row extends Serializable"), un DataFrame es un DataSet de objetos de tipo *Row*


## Tipos de datos en la API de bajo nivel
### RDDs (Resilient Distributed Datasets)

Lista distribuida de objetos
- Tipos de datos básico de Spark v1.X


## Mejor rendimiento de la API estructurada

- Spark con DataFrames y DataSets se aprovecha del uso de datos con estructura para optimizar el rendimiento utilizando el optimizador de consultas [Catalyst](https://databricks.com/blog/2015/04/13/deep-dive-into-spark-sqls-catalyst-optimizer.html "Deep Dive into Spark SQL’s Catalyst Optimizer")  y el motor de ejecución [Tungsten](https://databricks.com/blog/2015/04/28/project-tungsten-bringing-spark-closer-to-bare-metal.html "Project Tungsten: Bringing Apache Spark Closer to Bare Metal").

<img src="https://databricks.com/wp-content/uploads/2015/02/Screen-Shot-2015-02-16-at-9.46.39-AM.png" alt="Mejora de rendimiento" style="width: 650px;"/>

Fuente: [Recent performance improvements in Apache Spark: SQL, Python, DataFrames, and More](https://databricks.com/blog/2015/04/24/recent-performance-improvements-in-apache-spark-sql-python-dataframes-and-more.html "Recent performance improvements in Apache Spark: SQL, Python, DataFrames, and More")


## Conceptos clave
![sparkcontext](http://persoal.citius.usc.es/tf.pena/TCDM/figs/sparkcontext.png)

(Fuente: H. Karau, A. Konwinski, P. Wendell, M. Zaharia, "Learning Spark", O'Reilly, 2015)

#### Driver

-   Crea un `SparkContext`

-   Convierte el programa de usuario en tareas:

    -   `DAG` de operaciones lógico -> plan de ejecución físico

-   Planifica las tareas en los ejecutores

#### SparkSession y SparkContext

-   `SparkSession`: punto de entrada de todas las funcionalidades de Spark

    -   Permite especificar la configuración de la aplicación Spark
    -   En el shell de Spark se crea automáticamente, y en el notebook se puede crear automáticamente, aunque aquí lo creamos a mano (variable `spark`)

-   `SparkContext`: realiza la conexión con el cluster
`
    -   Se crea a partir del `SparkSession`
    -   Punto de entrada para la API de bajo nivel
    -   En el notebook (o el shell de Spark), se define automáticamente (variable `sc`)

-   Creación en un script Python

In [1]:
%pip install pyspark

Collecting pyspark
  Downloading pyspark-3.5.3.tar.gz (317.3 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m317.3/317.3 MB[0m [31m23.5 MB/s[0m eta [36m0:00:00[0m00:01[0m00:01[0m
[?25h  Installing build dependencies ... [?25ldone
[?25h  Getting requirements to build wheel ... [?25ldone
[?25h  Preparing metadata (pyproject.toml) ... [?25ldone
[?25hCollecting py4j==0.10.9.7 (from pyspark)
  Downloading py4j-0.10.9.7-py2.py3-none-any.whl.metadata (1.5 kB)
Downloading py4j-0.10.9.7-py2.py3-none-any.whl (200 kB)
Building wheels for collected packages: pyspark
  Building wheel for pyspark (pyproject.toml) ... [?25ldone
[?25h  Created wheel for pyspark: filename=pyspark-3.5.3-py2.py3-none-any.whl size=317840629 sha256=b7f5023445aa0c1809d7c615bd4f78a9d13ceb8730463a9da95cab2c87a3d52e
  Stored in directory: /Users/luisi/Library/Caches/pip/wheels/97/f5/c0/947e2c0942b361ffe58651f36bd7f13772675b3863fd63d1b1
Successfully built pyspark
Installing collected packages: 

In [2]:
from pyspark.sql import SparkSession
# Creamos un objeto SparkSession (o lo obtenemos si ya está creado)
spark = SparkSession \
  .builder \
  .appName("Mi aplicacion") \
  .config("spark.alguna.opcion.de.configuracion", "algun-valor") \
  .master("local[*]") \
  .getOrCreate()

sc = spark.sparkContext

24/11/05 16:34:42 WARN Utils: Your hostname, MacBook-Pro.local resolves to a loopback address: 127.0.0.1; using 172.18.26.240 instead (on interface en0)
24/11/05 16:34:42 WARN Utils: Set SPARK_LOCAL_IP if you need to bind to another address
Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
24/11/05 16:34:45 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable


#### Executors

-   Ejecutan las tareas individuales y devuelven los resultados al
    Driver

-   Proporcionan almacenamiento en memoria para los datos de las tareas

#### Cluster Manager

-   Componente *enchufable* en Spark

-   YARN, Mesos o Spark Standalone

## Instalación de Spark
1. Descargar Apache Spark de http://spark.apache.org/downloads.html
    - La versión "Pre-built for Hadoop 3.x and later" incorpora Hadoop
    - También se puede descargar un versión sin Hadoop para usar una instalación de Hadoop ya disponible
    - Alternativamente, es posible construir Spark desde el código fuente
2. Extraer el fichero descargado

## Ejecución de Spark
1. Usando consolas interactivas
    - Scala: `spark-shell`
    - Python: `pyspark`
        - Instalar los paquetes necesarios (instalad `jupyter` si planeáis utilizarlo):
            - `pip install pyspark jupyter ipython`
        - Añadir en el `PATH` las carpetas de las instalaciones con `pip`:
            - `export PATH=$PATH:~/.local/bin`
        - Si se quiere ejecutar Spark en el clúster hay que hacer que pueda encontrar la instalación de Hadoop:
            - `export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop`
        - Python con [IPython](https://ipython.org/): `PYSPARK_DRIVER_PYTHON=ipython pyspark`
        - Python con [Jupyter](https://jupyter.org/): `PYSPARK_DRIVER_PYTHON=jupyter PYSPARK_DRIVER_PYTHON_OPTS="notebook" pyspark`
    - R: `sparkR`
    - SQL: `spark-sql`
    - Usando [Apache Zeppelin](https://zeppelin.apache.org/)
2. Lanzando un script con `spark-submit`

In [3]:
# Ejemplo: muestra la versión de PySpark
print("Versión de PySpark {0}".format(spark.version))

Versión de PySpark 3.5.3


## Documentación
La documentación oficial sobre Apache Spark esté en https://spark.apache.org/docs/latest/

La documentación de las APIS para los distintos lenguajes está en:

  - Python: https://spark.apache.org/docs/latest/api/python/
  - Scala: https://spark.apache.org/docs/latest/api/scala/
  - Java: https://spark.apache.org/docs/latest/api/java/