Introducción a Apache Spark
===========================

## [Apache Spark](http://spark.apache.org/)

### Plataforma de computación cluster rápida

-   Extiende modelo MapReduce soportando de manera eficiente otros tipos
    de computación

    -   queries interactivas

    -   procesado streaming

-   Soporta computaciones en memoria

-   Mejora a MapReduce para aplicaciones complejas (10-20x más rápido)

#### Propósito general

-   Modos de funcionamiento batch, interactivo o streaming

-   Reduce el número de herramientas a emplear y mantener


#### Historia

-   Iniciado en el 2009 en el UC Berkeley RAD Lab (AMPLab)

    -   Motivado por la ineficiencia de MapReduce para trabajos
        iterativos e interactivos

-   Mayores contribuidores: [Databricks](https://databricks.com/),
    Yahoo! e Intel

-   Declarado open source en marzo del 2010

-   Transferido a la Apache Software Foundation en junio de 2013, TLP en
    febrero de 2014

-   Uno de los proyectos Big Data más activos

-   Versión 1.0 lanzada en mayo de 2014

#### Características de Spark

-   Soporta gran variedad de workloads: batch, queries interactivas,
    streaming, machine learning, procesado de grafos

-   APIs en Scala, Java, Python, SQL y R

-   Shells interactivos en Scala y Python

-   Se integra con otras soluciones BigData: HDFS, Cassandra, etc.

### La pila Spark

<img src=figs/sparkstack.png width=700 alt="La pila Spark"/>

### Conceptos clave

<img src=figs/sparkcontext.png width=700 alt="Conceptos clave"/>

#### Driver

-   Crea un `SparkContext`

-   Convierte el programa de usuario en tareas:

    -   `DAG` de operaciones lógico $\rightarrow$ plan de ejecución
        físico

-   Planifica las tareas en los ejecutores

#### SparkContext

-   El SparkContext realiza la conexión con el cluster

    -   Permite construir RDDs a partir de ficheros, listas u otros
        objetos

-   En el shell, se define automáticamente (variable `sc`)

-   Creación en un script Python

                from pyspark import SparkContext
                sc = SparkContext(master="local", appName="Mi app")

#### Executors

-   Ejecutan las tareas individuales y devuelven los resultados al
    Driver

-   Proporcionan almacenamiento en memoria para los datos de las tareas

#### Cluster Manager

-   Componente *enchufable* en Spark

-   YARN, Mesos o Spark Standalone


### RDD: Resilient Distributed Datasets

-   Colección inmutable y distribuida de elementos que pueden
    manipularse en paralelo

-   Un programa Spark opera sobre RDDs:

    -   Creación de RDDs

    -   Transformación de RDDs (map, filter, etc.)

    -   Realización de acciones sobre RDDs para obtener resultados

-   Spark automáticamente distribuye los datos y paraleliza las
    operaciones

#### Creación de RDDs

Dos formas:

-   Paralelizando una colección en el programa driver

In [1]:
!pip install pyspark

Collecting pyspark
[31m  Could not find a version that satisfies the requirement pyspark (from versions: )[0m
[31mNo matching distribution found for pyspark[0m


In [17]:
from pyspark import SparkContext
sc = SparkContext._active_spark_context

In [18]:
from __future__ import print_function

numeros = sc.parallelize(["uno", "dos", "tres"])

import numpy as np
array = sc.parallelize(np.array(range(100)))
print(array.glom().collect())

[[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24], [25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49], [50, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68, 69, 70, 71, 72, 73, 74], [75, 76, 77, 78, 79, 80, 81, 82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99]]



-   Leyendo datos de un fichero

In [19]:
quijote = sc.textFile("datos/quijote.txt")

### Particiones

Spark divide el RDD en en conjunto de particiones

-   El número de particiones por defecto es función del tamaño del
    cluster o del número de bloques del fichero (p.e. bloques HDFS)

-   Se puede especificar otro valor en el momento de crear el RDD

In [20]:
rdd = sc.parallelize([1, 2, 3, 4], 2)
print("N de Particiones {0}".format(rdd.getNumPartitions()))
print("Particiones {0}".format(rdd.glom().collect()))

N de Particiones 2
Particiones [[1, 2], [3, 4]]


-   Volveremos sobre las particiones más adelante

### Transformaciones

Operaciones sobre RDDs que devuelven un nuevo RDD

-   Se computan de forma “perezosa” (*lazy*)

-   Normalmente, ejecutan una función (anónima o no) sobre cada uno de
    los elementos del RDD de origen

In [21]:
quijs = quijote.filter(lambda l: "Quijote" in l)
sanchs = quijote.filter(lambda l: "Sancho" in l)
quijssanchs = quijs.intersection(sanchs)
quijssanchs.cache()

PythonRDD[34] at RDD at PythonRDD.scala:48

### Acciones

Obtienen datos de salida a partir de los RDDs

-   Devuelven valores al driver o al sistema de almacenamiento

-   Fuerzan a que se realicen las transformaciones pendientes

In [22]:
nquijs = quijssanchs.count()
print("Líneas con Quijote y Sancho: {0}\n".format(nquijs))

print("Muestra de 10 de estas líneas, sin repetición")
for l in quijssanchs.takeSample(False, 10):
    print(l)

print("\n\nTodas las líneas\n {0}".format(quijssanchs.collect()))

Líneas con Quijote y Sancho: 350

Muestra de 10 de estas líneas, sin repetición
don Quijote y turbaban el corazón de Sancho. De cuando en cuando, rebuznaba
-Duerme tú, Sancho -respondió don Quijote-, que naciste para dormir; que
-Por Dios, Sancho -dijo don Quijote-, que, por solas estas últimas razones
-Por cierto -dijo don Quijote-, que la parsimonia y limpieza con que Sancho
Quedó pasmado don Quijote, absorto Sancho, suspenso el primo, atónito el
don Quijote y su buen escudero Sancho Panza pasaron en la venta que, por su
don Quijote buen trecho, volvió la cabeza y vio que Sancho venía, y
-Tú me harás desesperar, Sancho -dijo don Quijote-. Ven acá, hereje: ¿no te
partieron los dos, y don Quijote y Sancho después, como se ha dicho: don
-¿Qué te parece, Sancho amigo? -dijo a este punto don Quijote-. ¿No oyes lo


Todas las líneas
 [u'Quijote-. Mas yo te juro, Sancho Panza, a fe de caballero andante, que', u'-Pues yo te digo, Sancho amigo -dijo don Quijote-, que es tan verdad que', u'de 