![Apache Spark](media/00.apache-spark.png)

# 01 - INTRODUCCIÓN A APACHE SPARK
---

Apache Spark se puede definir cómo una plataforma de computación cluster rápida que e ha pensado para ejecutar programas paralelos en cluster con decenas y centenares de máquinas.

Lo que hace es extender el modelo MapReduce desarrollado inicialmente por google y llevado al mundo open source en apache hadoop.

El modelo map reduce inicial solo soportaba un tipo de computación, denominada computación en batch.
* Básicamente lo que hace es que tenemos un montón de datos almacenados en los discos duros de los nodos de nuestros cluster y ejecutamos un procesamiento.


## Plataforma de computación cluster rápida

Extiende modelo MapReduce soportando de manera eficiente otros tipos de computación:
* Queries interactivas
* Procesado streaming
* Soporta computaciones en memoria
* Mejora a MapReduce para aplicaciones complejas (10-20x más rápido)
* Reduce el uso del disco que en el caso de hadoop es bastante elevado.


## Propósito general

* Modos de funcionamiento batch, interactivo o streaming
* Reduce el número de herramientas a emplear y mantener


## Historia

Inicia en el **2009** en el UC Berkeley RAD Lab (AMPLab)
* Motivado por la ineficiencia de MapReduce para trabajos iterativos e interactivos

Mayores contribuidores: 
* Databricks,
* Yahoo! e Intel

Declarado open source en **marzo del 2010**

Transferido a la **Apache Software Foundation en junio de 2013**, TLP en **febrero de 2014**

Uno de los proyectos Big Data **más activos**

Versión 1.0 lanzada en **mayo de 2014**


## Características de Spark

Soporta gran variedad de workloads: batch, queries interactivas, streaming, machine learning, procesado de grafos

APIs en **Scala, Java, Python, SQL y R**

Shells interactivos en **Scala y Python**

Se integra con otras soluciones BigData: **HDFS, Cassandra, etc**.


## La Pila Spark

![La pila Spark](media/01.pila_spark.png)

(Fuente: H. Karau, A. Konwinski, P. Wendell, M. Zaharia, “Learning Spark”, O’Reilly, 2015)

## Conceptos clave

![Conceptos clave](media/02.key_concepts.png)

(Fuente: H. Karau, A. Konwinski, P. Wendell, M. Zaharia, “Learning Spark”, O’Reilly, 2015)

### Driver

Crea un SparkContext

Convierte el programa de usuario en tareas:
* DAG de operaciones lógico -> plan de ejecución físico

Planifica las tareas en los ejecutores

### Spark Context

El SparkContext realiza la conexión con el cluster
* Permite construir RDDs a partir de ficheros, listas u otros objetos

En el notebook (o el shell de Spark), se define automáticamente (variable `sc`)

Creación en un script Python:

```py
from pyspark import SparkContext
sc = SparkContext(master="local", appName="Mi app")
```

Creación en un programa Scala:

```scala
import org.apache.spark.SparkContext
import org.apache.spark.SparkContext._
import org.apache.spark.SparkConf
val conf = new SparkConf().setMaster("local").setAppName("My App")
val sc = new SparkContext(conf)
```

### Executors

Ejecutan las tareas individuales y devuelven los resultados al Driver

Proporcionan almacenamiento en memoria para los datos de las tareas

### Cluster Manager

Componente *enchufable* en Spark

YARN, Mesos o Spark Standalone

## Instalación de pySpark y configuración de Spark Context

Se puede trabajar con la API de Python o de Scala, para este notebook todo lo trabajaremos con Python.

* API PySpark: http://spark.apache.org/docs/latest/api/python/index.html
* API Scala: https://spark.apache.org/docs/latest/api/scala/index.html

In [12]:
!pip install pyspark

[33mYou are using pip version 9.0.1, however version 18.0 is available.
You should consider upgrading via the 'pip install --upgrade pip' command.[0m


In [15]:
# Create apache spark context
from pyspark import SparkContext
sc = SparkContext(master="local", appName="Mi app")

In [14]:
# Stop apache spark context
sc.stop()