## **CHAPTER TWO: PRACTICE**


# A process of Spark Core ...

All Spark Core processes (and Spark in general) follow, approximately, the
same structure.

> 1. Setting environment / application / context.

> 2. Loading data in RDDs.

> 3. Manipulation of RDDs.

> 4. Generation of results.

> 5. Closure / release of the environment / application / context

## RDD Creation

Any RDD must be created on a SparkContext (more on what a SparkContext is, would be explained later) using any of the following functions:

* sc.parallelize (col): Creates an RDD that distributes the content of “col” between cluster nodes
* sc.textFile (path): Creates an RDD on a file in a file system

## EXAMPLE:

Find the mean of 1000 number

**Before:**

In [1]:
#time start to running
import datetime
#Calculamos el tiempo de ejecucion
timestart= datetime.datetime.now()

import numpy as np

x = np.mean(range(1000))
print("Mean value: " + str(x))

timeend = datetime.datetime.now()
timedelta = round((timeend-timestart).total_seconds(), 2) 
print("Time: " + str(timedelta) + " seconds")

Mean value: 499.5
Time: 0.23 seconds


**With Spark**

In [7]:
# -*- coding: utf-8 -*-
#time start to running
import datetime

# Configuration properties
APP_NAME = 'standalone-app'
MASTER = 'local[*]'

from pyspark import SparkContext, SparkConf

conf = SparkConf().setAppName(APP_NAME)
conf = conf.setMaster(MASTER)
sc = SparkContext.getOrCreate(conf = conf)

#Calculamos el tiempo de ejecucion
timestart= datetime.datetime.now()
rdd = sc.parallelize(range(1000), 10) # 10 number of partitions
print("Mean value: " + str(rdd.mean()))

# Stop the spark context
sc.stop()

timeend = datetime.datetime.now()
timedelta = round((timeend-timestart).total_seconds(), 2) 
print("Time: " + str(timedelta) + " seconds")

Mean value: 499.5
Time: 1.42 seconds


## EXAMPLE 2

Create a rrd over a file

In [8]:
# -*- coding: utf-8 -*-

# Import required packages
import os
import sys

# Configuration properties
APP_NAME = 'interactive-script'
MASTER = 'local[*]'
SPARK_HOME = '/Users/erikapat/Documents/Spark/spark'
PYSPARK_LIB = 'pyspark.zip'
PY4J_LIB = 'py4j-0.10.4-src.zip'

# Spark initialization
os.environ['SPARK_HOME'] = SPARK_HOME
sys.path.insert(0, os.path.join(SPARK_HOME, 'python'))
sys.path.insert(0, os.path.join(SPARK_HOME, 'python', 'lib'))
sys.path.insert(0, os.path.join(SPARK_HOME, 'python', 'lib', PYSPARK_LIB))
sys.path.insert(0, os.path.join(SPARK_HOME, 'python', 'lib', PY4J_LIB))

from pyspark import SparkContext, SparkConf

conf = SparkConf().setAppName(APP_NAME)
conf = conf.setMaster(MASTER)
sc = SparkContext.getOrCreate(conf = conf)

# Application code
textFile = sc.textFile('README.md') 

textFile.count()

filteredLines = textFile.filter(lambda line: "Spark" in line)
filteredLines.count()

# Stop the spark context
sc.stop()

## Operations on RDDs

There are two types of operations that can be performed on an RDD:

**Transformations:** receive an RDD as input and generate a modified RDD to the
     exit.

**Actions:** receive an RDD as input, perform some type of computation on the
     same and generate as a result a resulting value or an operation of
     persistence / saving of results.
    
* The key to Spark's speed is that ONLY SHARES produce
“Really” an execution distributed in the cluster à Lazy evaluation.
* Spark is responsible (automatically) for organizing the execution of operations on a
RDD so that:
* Memory usage is minimized (e.g. parse + filtering vs. filtering + parsing).
* Maximize the reuse of data already loaded into memory.

## RDD CREATION

In [14]:
# -*- coding: utf-8 -*-

# Import required packages
import os
import sys

# Configuration properties
APP_NAME = 'rdd-creation'
MASTER = 'local[*]'
SPARK_HOME = '/home/erikapat/Dropbox/conento/conento_prueba/PRUEBA DATA ARQUITECT/'
PYSPARK_LIB = 'pyspark.zip'
PY4J_LIB = 'py4j-0.10.4-src.zip'

# Spark initialization
os.environ['SPARK_HOME'] = SPARK_HOME
sys.path.insert(0, os.path.join(SPARK_HOME, 'python'))
sys.path.insert(0, os.path.join(SPARK_HOME, 'python', 'lib'))
sys.path.insert(0, os.path.join(SPARK_HOME, 'python', 'lib', PYSPARK_LIB))
sys.path.insert(0, os.path.join(SPARK_HOME, 'python', 'lib', PY4J_LIB))


## RDD TRANSFORMATION 

# Transformaciones

Una transformación se ejecuta sobre un RDD y genera otro RDD a la salida.
Se pueden encadenar y se ejecutan en el orden óptimo al solicitar la primera acción.

**Transformaciones mediante aplicación de una función de usuario:**

* rdd.map(func): Aplica “func” a cada elemento del RDD (un resultado por elemento)
* rdd.flatMap(func): Aplica “func” a cada elemento del RDD y “aplana” el resultado
* rdd.filter(func): Filtra aquellos elementos del RDD para los que “func” devuelve False
* rdd.groupBy(func): Devuelve los elementos de RDD agrupados según el resultado de “func”
* rdd.sortBy(func, asc): Devuelve los elementos de RDD ordenador según el resultado de “func”

**Transformaciones basadas en funciones de conjunto**

* rdd.union(rdd): Devuelve la unión de dos RDD
* rdd.intersection(rdd): Devuelve la intersección de dos RDD
* rdd.cartesian(rdd): Devuelve el producto cartesiano de los elementos de dos RDD

**Otras transformaciones**

* rdd.distinct() Devuelve los elementos únicos del RDD (no preserva el orden)
* rdd.sample(rep, prob, seed) Devuelve una muestra del RDD aplicando los par‡metros establecidos

In [86]:

# -*- coding: utf-8 -*-

# Import required packages
import os
import sys

# Configuration properties
APP_NAME = 'rdd-transformations'
MASTER = 'local[*]'
SPARK_HOME = '/home/erikapat/Dropbox/conento/conento_prueba/PRUEBA DATA ARQUITECT/'
PYSPARK_LIB = 'pyspark.zip'
PY4J_LIB = 'py4j-0.10.4-src.zip'

# Spark initialization
os.environ['SPARK_HOME'] = SPARK_HOME
sys.path.insert(0, os.path.join(SPARK_HOME, 'python'))
sys.path.insert(0, os.path.join(SPARK_HOME, 'python', 'lib'))
sys.path.insert(0, os.path.join(SPARK_HOME, 'python', 'lib', PYSPARK_LIB))
sys.path.insert(0, os.path.join(SPARK_HOME, 'python', 'lib', PY4J_LIB))

from pyspark import SparkContext, SparkConf

conf = SparkConf().setAppName(APP_NAME)
conf = conf.setMaster(MASTER)
sc = SparkContext.getOrCreate(conf = conf)

# Transformation: map
rdd1 = sc.parallelize(['a', 'b', 'c', 'a', 'c'])
rdd2 = rdd1.map(lambda element: (element, 1))
print(rdd1.collect())
print(rdd2.collect())


['a', 'b', 'c', 'a', 'c']
[('a', 1), ('b', 1), ('c', 1), ('a', 1), ('c', 1)]


## Acciones

Una acción se ejecuta sobre un RDD y produce:

* La ejecución “real” de todas las transformaciones previas sobre los RDD involucrados.
* La obtención de un resultado (RDD, objeto o fichero) tras la aplicación de una función
(de usuario o no) sobre el RDD resultante de todas las transformaciones previas.

**Acciones de aplicación de una función de usuario**

* rdd.reduce(func): Agrega el RDD aplicando “func” a cada par de elementos (recursivamente)


**Acciones de aplicación de funciones matemáticas (“reduce predefinido”)**

* rdd.count(): Cuenta el número de elementos en el RDD
* rdd.max(): Devuelve el máximo de los elementos incluidos en el RDD
* rdd.min(): Devuelve el mínimo de los elementos incluidos en el RDD
* rdd.sum(): Devuelve la suma de los elementos del RDD
* rdd.mean(): Devuelve la media de los elementos del RDD
* rdd.stdev(): Devuelve la desviación estándar de los elementos del RDD
* rdd.variance(): Devuelve la varianza de los elementos del RDD

**Acciones de conversión de datos Spark a Python**

* rdd.collect() Devuelve una colección con todos los elementos del RDD
* rdd.take(n) Devuelve una colección con los n primeros elementos del RDD
* rdd.first() Devuelve el primer elemento del RDD

**Acciones de persistencia**

rdd.saveAsTextFile(path) Guarda el RDD como ficheros de texto plano en “path” (directorio)

In [97]:

# Import required packages
import os
import sys

# Configuration properties
APP_NAME = 'rdd-actions'
MASTER = 'local[*]'
SPARK_HOME = '/home/erikapat/Dropbox/conento/conento_prueba/PRUEBA DATA ARQUITECT/'
PYSPARK_LIB = 'pyspark.zip'
PY4J_LIB = 'py4j-0.10.4-src.zip'

# Spark initialization
os.environ['SPARK_HOME'] = SPARK_HOME
sys.path.insert(0, os.path.join(SPARK_HOME, 'python'))
sys.path.insert(0, os.path.join(SPARK_HOME, 'python', 'lib'))
sys.path.insert(0, os.path.join(SPARK_HOME, 'python', 'lib', PYSPARK_LIB))
sys.path.insert(0, os.path.join(SPARK_HOME, 'python', 'lib', PY4J_LIB))

from pyspark import SparkContext, SparkConf

conf = SparkConf().setAppName(APP_NAME)
conf = conf.setMaster(MASTER)
sc = SparkContext.getOrCreate(conf = conf)





In [98]:
# Action: reduce
rdd1 = sc.parallelize([('a', 1), ('b', 2), ('c', 3)])
rdd1.reduce(lambda el1, el2: (el1[0] + el2[0], el1[1] + el2[1]))



# Actions: count, max, min, sum, mean, stdev, variance
rdd1 = sc.parallelize(list(range(100)))
rdd1.count()
rdd1.max()
rdd1.min()
rdd1.sum()
rdd1.mean()
rdd1.stdev()
rdd1.variance()


# Actions: collect, take, first
rdd1 = sc.parallelize([('a', 1), ('c', 10), ('b', 2)])
rdd1.collect()
rdd1.take(1)
rdd1.first()


('a', 1)

In [99]:

# Actions: saveAsTextFile
rdd1 = sc.parallelize([('a', 1), ('c', 10), ('b', 2)])
rdd1.saveAsTextFile('/home/erikapat/Dropbox/conento/conento_prueba/PRUEBA DATA ARQUITECT/output')



In [96]:
# Stop the spark context
sc.stop()

## Pair RDDs

* Un Pair RDD es un tipo especial de RDD en el que la información almacenada tiene la
estructura clave-valor (en Python una tupla/lista de 2 elementos)
* Se pueden crear mediante la aplicación de un map inicial a un RDD en el que se crea la
estructura clave-valor manualmente (se devuleve una tupla/lista por cada elemento).
* Todas las transformaciones y acciones disponibles para RDDs pueden usarse también
para Pair RDDs (teniendo cuidado en que ahora cada elemento es una tupla/lista).
* Adicionalmente, Spark incluye algunas transformaciones y acciones específicas que sólo
aplican a Pair RDDs


## Transformaciones (sólo Pair RDDs)**

**Transformaciones basadas en operaciones por clave**

* rdd.sortByKey(asc) Devuelve el RDD con los elementos ordenados por clave
* rdd.reduceByKey(func) Devuleve un RDD resultante de aplicar “func” a los elementos de cada clave

**Transformaciones basadas en cruces**

* rdd.join(rdd) Sobre (K, V) y (K, W) devuelve (K, (V, W)) para los K existentes en ambos RDD
* rdd.leftOuterJoin(rdd) join pero manteniendo los K que estén en el primer RDD y no en el segundo
* rdd.rightOuterJoin(rdd) join pero manteniendo los K que estén en el segundo RDD y no en el primero
* rdd.fullOuterJoin(rdd) join pero manteniendo todos los K aunque no haya coincidencia



In [101]:

# Import required packages
import os
import sys

# Configuration properties
APP_NAME = 'pair-rdd-transformations'
MASTER = 'local[*]'
SPARK_HOME = '/Users/miguel/Documents/Spark/spark'
PYSPARK_LIB = 'pyspark.zip'
PY4J_LIB = 'py4j-0.10.4-src.zip'

# Spark initialization
os.environ['SPARK_HOME'] = SPARK_HOME
sys.path.insert(0, os.path.join(SPARK_HOME, 'python'))
sys.path.insert(0, os.path.join(SPARK_HOME, 'python', 'lib'))
sys.path.insert(0, os.path.join(SPARK_HOME, 'python', 'lib', PYSPARK_LIB))
sys.path.insert(0, os.path.join(SPARK_HOME, 'python', 'lib', PY4J_LIB))

from pyspark import SparkContext, SparkConf

conf = SparkConf().setAppName(APP_NAME)
conf = conf.setMaster(MASTER)
sc = SparkContext.getOrCreate(conf = conf)



# Transformation: sortByKey
rdd1 = sc.parallelize(['2014-12-31', '2015-01-25', '2016-05-17', '2016-11-08', '2017-01-05', '2014-08-06'])
rdd2 = rdd1.groupBy(lambda element: element.split('-')[0])
print([(key, list(value)) for (key, value) in rdd2.collect()])
rdd3 = rdd2.sortByKey()
print([(key, list(value)) for (key, value) in rdd3.collect()])


# Transformation: reduceByKey
rdd1 = sc.parallelize(['2014-12-31', '2015-01-25', '2016-05-17', '2016-11-08', '2017-01-05', '2014-08-06'])

def parseDate(date):
    year, month, day = date.split('-')
    return (year, month + '-' + day)

rdd2 = rdd1.map(parseDate)

def maxDate(date1, date2):
    if date1 > date2:
        return date1
    else:
        return date2
    
rdd3 = rdd2.reduceByKey(maxDate).sortByKey()
print(rdd2.collect())
print(rdd3.collect())



# Transformation: join, leftOuterJoin, rightOuterJoin, fullOuterJoin
rdd1 = sc.parallelize([(2014, 10000), (2015, 20000), (2016, 30000)])
rdd2 = sc.parallelize([(2014, -500), (2016, -6000), (2017, -9000)])

rdd3 = rdd1.join(rdd2).sortByKey()
print(rdd3.collect())

rdd3 = rdd1.leftOuterJoin(rdd2).sortByKey()
print(rdd3.collect())

rdd3 = rdd1.rightOuterJoin(rdd2).sortByKey()
print(rdd3.collect())

rdd3 = rdd1.fullOuterJoin(rdd2).sortByKey()
print(rdd3.collect())

# Stop the spark context
sc.stop()

[('2014', ['2014-12-31', '2014-08-06']), ('2015', ['2015-01-25']), ('2017', ['2017-01-05']), ('2016', ['2016-05-17', '2016-11-08'])]
[('2014', ['2014-12-31', '2014-08-06']), ('2015', ['2015-01-25']), ('2016', ['2016-05-17', '2016-11-08']), ('2017', ['2017-01-05'])]
[('2014', '12-31'), ('2015', '01-25'), ('2016', '05-17'), ('2016', '11-08'), ('2017', '01-05'), ('2014', '08-06')]
[('2014', '12-31'), ('2015', '01-25'), ('2016', '11-08'), ('2017', '01-05')]
[(2014, (10000, -500)), (2016, (30000, -6000))]
[(2014, (10000, -500)), (2015, (20000, None)), (2016, (30000, -6000))]
[(2014, (10000, -500)), (2016, (30000, -6000)), (2017, (None, -9000))]
[(2014, (10000, -500)), (2015, (20000, None)), (2016, (30000, -6000)), (2017, (None, -9000))]


## Acciones (sólo Pair RDDs)

**Acciones basadas en operaciones por clave**

* rdd.countByKey() Cuenta el número de elementos en cada una de las claves

**Acciones de extracción de elementos del Pair RDD**

* rdd.keys() Obtiene un RDD a partir de las claves del RDD original
* rdd.values() Obtiene un RDD a partir de los valores del RDD original

In [103]:

# Import required packages
import os
import sys

# Configuration properties
APP_NAME = 'pair-rdd-actions'
MASTER = 'local[*]'
SPARK_HOME = '/Users/miguel/Documents/Spark/spark'
PYSPARK_LIB = 'pyspark.zip'
PY4J_LIB = 'py4j-0.10.4-src.zip'

# Spark initialization
os.environ['SPARK_HOME'] = SPARK_HOME
sys.path.insert(0, os.path.join(SPARK_HOME, 'python'))
sys.path.insert(0, os.path.join(SPARK_HOME, 'python', 'lib'))
sys.path.insert(0, os.path.join(SPARK_HOME, 'python', 'lib', PYSPARK_LIB))
sys.path.insert(0, os.path.join(SPARK_HOME, 'python', 'lib', PY4J_LIB))

from pyspark import SparkContext, SparkConf

conf = SparkConf().setAppName(APP_NAME)
conf = conf.setMaster(MASTER)
sc = SparkContext.getOrCreate(conf = conf)



# Action: countByKey
rdd1 = sc.parallelize(['2014-12-31', '2015-01-25', '2016-05-17', '2016-11-08', '2017-01-05', '2014-08-06'])

def parseDate(date):
    year, month, day = date.split('-')
    return (year, month + '-' + day)

rdd2 = rdd1.map(parseDate)
rdd2.countByKey()



# Action: keys, values
rdd3 = rdd2.keys()
print(rdd3.collect())

rdd4 = rdd2.values()
print(rdd4.collect())


# Stop the spark context
sc.stop()

['2014', '2015', '2016', '2016', '2017', '2014']
['12-31', '01-25', '05-17', '11-08', '01-05', '08-06']


## Variables compartidas

Imaginemos el siguiente código...

`counter = 0
rdd = sc.parallelize(data)
def increment_counter(x):
global counter
counter += x
rdd.map(increment_counter)
print("Counter value: ", counter)`

¿Qué valor tendrá “counter” al finalizar la ejecución del mismo sobre un cluster?

## Variables compartidas
* NO podemos utilizar variables locales en funciones ejecutadas de forma distribuida en
Spark.
* Aunque el resultado puede ser correcto ejecutado en local, no tiene por qué serlo al
ejecutarlo en el cluster.
* Spark pone a nuestra disposición dos herarmientas que nos permiten trabajar con “variables
compartidas” entre nodos del cluster:
*Accumulators.
* Broadcast variables.

## Accumulators

* Un accumulator es una variable numérica visible y accesible desde todos los nodos de un
cluster involucrados en la ejecución de un proceso.
* Sobre esta variable numérica únicamente se pueden ejecutar operaciones de incremento,
por lo que podremos utilizarlos para almacenar:
* Contadores.
* Sumas.

**Casos de uso:**
* Debug: contar “maps” en los que se da una situación específíca.
* Traza: número total de registros procesados hasta un momento dado.
* ...

**Creación de accumulators**

* sc.accumulator(initial) Crea un accumulator y lo inicializa al valor de “initial”

**Incremento de accumulators**

* accum.add(value) Incrementa el valor del accumulator en “value”

**Recuperación del valor de accumulators**

* accum.value Recupera el valor actual de un accumulator

## Broadcast variables
* Una variable broadcast permite crear una variable de sólo lectura accesible desde todos
los nodos de un cluster involucrados en la ejecución de un proceso.
* Son útiles cuando tenemos algún dato / estructura (no excesivamente grande) necesaria
para la ejecución de tareas map / reduce de forma distribuida.
* Evitan tener que distribuir y parsear datos comunes a todas las tareas.

Casos de uso:
* Tareas “dependientes” de resultados previos: valores de filtrado a partir de resultados de
map/reduce previos.
* Tablas de asociación: traducción de códigos a descripciones.
* ...

## Creación de broadcast variables

* sc.broadcast(var) Crea una variable compartida a partir del valor “local” de “var”
Recuperación del valor de broadcast variables

* broadcastVar.value Recupera el valor de una variable compartida

In [111]:

# Import required packages
import os
import sys

# Configuration properties
APP_NAME = 'pair-rdd-actions'
MASTER = 'local[*]'
SPARK_HOME = '/Users/miguel/Documents/Spark/spark'
PYSPARK_LIB = 'pyspark.zip'
PY4J_LIB = 'py4j-0.10.4-src.zip'

# Spark initialization
os.environ['SPARK_HOME'] = SPARK_HOME
sys.path.insert(0, os.path.join(SPARK_HOME, 'python'))
sys.path.insert(0, os.path.join(SPARK_HOME, 'python', 'lib'))
sys.path.insert(0, os.path.join(SPARK_HOME, 'python', 'lib', PYSPARK_LIB))
sys.path.insert(0, os.path.join(SPARK_HOME, 'python', 'lib', PY4J_LIB))

from pyspark import SparkContext, SparkConf

conf = SparkConf().setAppName(APP_NAME)
conf = conf.setMaster(MASTER)
sc = SparkContext.getOrCreate(conf = conf)


# Accumulators
errors = sc.accumulator(0)

def parseDate(date):
    try:
        year, month, day = date.split('-')
        return (year, month + '-' + day)
    except:
        errors.add(1)

rdd1 = sc.parallelize(['2014-12-31', '2015-01-25', '2016-05-17', '2016-', '2017-01-05', '2014-06'])
rdd2 = rdd1.map(parseDate)
results = rdd2.collect()

print(errors.value)


# Broadcast variables
students = dict()
students['25'] = 'Cristina'
students['12'] = 'Lucia'
studentsBC = sc.broadcast(students)

subjects = dict()
subjects['0'] = 'Lengua'
subjects['1'] = 'Matematicas'
subjectsBC = sc.broadcast(subjects)

rdd1 = sc.parallelize([(25, 0, 10), (25, 1, 8), (12, 0, 7), (12, 1, 9)])

def translate(element):
    return (studentsBC.value[str(element[0])], subjectsBC.value[str(element[1])], element[2])

rdd2 = rdd1.map(translate)
print(rdd2.collect())


# Stop the spark context
sc.stop()

2
[('Cristina', 'Lengua', 10), ('Cristina', 'Matematicas', 8), ('Lucia', 'Lengua', 7), ('Lucia', 'Matematicas', 9)]


# ORDEN DE ANÁLISIS 


1.- Carga y tratamiento inicial: Spark Core.

2.- Consulta y análisis exploratorio: Spark SQL.

3.- Machine learning: MLlib.

4.- ...

## SparkContext vs. SparkSession
* Para poder hacer uso de Spark Core, lo primero que hay que hacer es crear un objeto de
tipo SparkContext.
* Para poder hacer uso de Spark SQL, lo primero que hay que hacer es crear un objeto de
tipo SparkSession.
* Spark SQL está construido “sobre” Spark Core, por lo que un objeto de tipo SparkSession
SIEMPRE contiene un objeto de tipo SparkContext.
* En versiones anteriores de Spark había que crear explícitamente un SparkContext y, luego,
pasarlo como parámetro en la creación de un SQLContext o HiveContext.
* A partir de la versión 2.0, SparkSession nos da un único punto de acceso a todo.

In [113]:
# Import required packages
import os
import sys

# Configuration properties
APP_NAME = 'spark-session'
MASTER = 'local[*]'
SPARK_HOME = '/Users/miguel/Documents/Spark/spark'
PYSPARK_LIB = 'pyspark.zip'
PY4J_LIB = 'py4j-0.10.4-src.zip'

# Spark initialization
os.environ['SPARK_HOME'] = SPARK_HOME
sys.path.insert(0, os.path.join(SPARK_HOME, 'python'))
sys.path.insert(0, os.path.join(SPARK_HOME, 'python', 'lib'))
sys.path.insert(0, os.path.join(SPARK_HOME, 'python', 'lib', PYSPARK_LIB))
sys.path.insert(0, os.path.join(SPARK_HOME, 'python', 'lib', PY4J_LIB))

from pyspark import SparkConf
from pyspark.sql import SparkSession

conf = SparkConf().setAppName(APP_NAME)
conf = conf.setMaster(MASTER)
spark = SparkSession.builder.config(conf = conf).getOrCreate()
sc = spark.sparkContext

# Stop the spark session
spark.stop() 

## **PYSPARK AND SQL QUERIES**

https://dataplatform.cloud.ibm.com/exchange/public/entry/view/972c1d5333a2d12ccdbd2437298e8567

# DATA FRAMES


# Creación de DataFrames

* spark.createDataFrame(rdd,[schema]) Creación de un DataFrame a partir de un RDD (con esquema
opcional)
* spark.read.[format](<path>) Creación de un DataFrame mediante lectura directa de un fichero
de datos “estructurado”

In [115]:
# Import required packages
import os
import sys

# Configuration properties
APP_NAME = 'dataframe-creation'
MASTER = 'local[*]'
SPARK_HOME = '/Users/miguel/Documents/Spark/spark'
PYSPARK_LIB = 'pyspark.zip'
PY4J_LIB = 'py4j-0.10.4-src.zip'

# Spark initialization
os.environ['SPARK_HOME'] = SPARK_HOME
sys.path.insert(0, os.path.join(SPARK_HOME, 'python'))
sys.path.insert(0, os.path.join(SPARK_HOME, 'python', 'lib'))
sys.path.insert(0, os.path.join(SPARK_HOME, 'python', 'lib', PYSPARK_LIB))
sys.path.insert(0, os.path.join(SPARK_HOME, 'python', 'lib', PY4J_LIB))


In [117]:

from pyspark import SparkConf
from pyspark.sql import SparkSession

conf = SparkConf().setAppName(APP_NAME)
conf = conf.setMaster(MASTER)
spark = SparkSession.builder.config(conf = conf).getOrCreate()
sc = spark.sparkContext

from pyspark.sql.types import Row, StringType, LongType, StructField, StructType



In [118]:

###############################
# Infer the schema from Row RDD
###############################

# Read the file
kickstarter = sc.textFile('/home/erikapat/Dropbox/Spark/spark-sql/labs/data/live.tsv')

# Function used to parse and transform to Row each line
def parseKickstarter(line):
    fields = line.split('\t')
    return Row(country = fields[3], amount = fields[1])

# Transform RDD into RDD of Rows
row_kickstarter = kickstarter.map(parseKickstarter)
row_kickstarter.take(10)
[(row['country'], row['amount']) for row in row_kickstarter.take(10)]

# Convert Row RDD into DataFrame
kick_df = spark.createDataFrame(row_kickstarter)

# Check type and contents
type(kick_df)
kick_df.show(10)
kick_df.printSchema()



###############################
# Explicitly specify the schema
###############################


+------+-------+
|amount|country|
+------+-------+
| 15823|     US|
|  6859|     US|
| 17906|     US|
| 67081|     US|
| 32772|     RW|
|  2065|     US|
|577844|     US|
|  4952|     US|
| 45959|     US|
|214035|     US|
+------+-------+
only showing top 10 rows

root
 |-- amount: string (nullable = true)
 |-- country: string (nullable = true)



## Operaciones sobre DataFrames
Una vez disponemos de un conjunto de datos “estructurado”, Spark SQL pone a nuestra
disposición un abanico amplio de operaciones para trabajar sobre el mismo.
* Estas operaciones cubrirán las mismas funcionalidades que se pueden hacer con este tipo
de estructuras en SQL (al igual que en R y Python).
* En concreto:
 Inspección de estructura: entender cómo están organizados los datos.
    
 Inspección de contenido: visualizar los valores concretos de los datos.
    
 Consulta: incluyendo dentro de esta consulta...
    
* Selección de columnas.
* Filtrado.
* Ordenación.
* Agrupación y agregación.
* Unión

## Inspección de estructura

En primer lugar, Spark SQL pone a nuestra disposición herramientas suficientes para poder
tener una visión clara de la estructura que siguen nuestros datos:
* Nombres de campos.
* Tipos.
* ...

#### Inspección de estructura

* df.dtypes Listado de columnas con nombre y tipo
* df.schema Visualización del esquema como StructType
* df.printSchema() Visualización “formateada” del esquema
* df.columns Listado de columnas del DataFrame

## Inspección de contenido


* df.show(n) Muestra n filas en formato tabla
* df.head(n) Muestra n filas como lista de objetos Row
* df.take(n) Muestra n filas como lista de objetos Row
* df.first() Muestra la primera fila como objeto Row
* df.count() Recuperación del número de filas
* df.distinct() Recuperación de las filas únicas
* df.describe() Cálculo de estadísticos básicos

In [122]:

# Import required packages
import os
import sys

# Configuration properties
APP_NAME = 'dataframe-inspection'
MASTER = 'local[*]'
SPARK_HOME = '/Users/miguel/Documents/Spark/spark'
PYSPARK_LIB = 'pyspark.zip'
PY4J_LIB = 'py4j-0.10.4-src.zip'

# Spark initialization
os.environ['SPARK_HOME'] = SPARK_HOME
sys.path.insert(0, os.path.join(SPARK_HOME, 'python'))
sys.path.insert(0, os.path.join(SPARK_HOME, 'python', 'lib'))
sys.path.insert(0, os.path.join(SPARK_HOME, 'python', 'lib', PYSPARK_LIB))
sys.path.insert(0, os.path.join(SPARK_HOME, 'python', 'lib', PY4J_LIB))

from pyspark import SparkConf
from pyspark.sql import SparkSession

conf = SparkConf().setAppName(APP_NAME)
conf = conf.setMaster(MASTER)
spark = SparkSession.builder.config(conf = conf).getOrCreate()
sc = spark.sparkContext

from pyspark.sql.types import Row

# Read the file
kickstarter = sc.textFile('/home/erikapat/Dropbox/Spark/spark-sql/labs/data/live.tsv')

# Function used to parse and transform to Row each line
def parseKickstarter(line):
    fields = line.split('\t')
    return Row(country = fields[3], amount = int(fields[1]))

# Transform RDD into RDD of Rows
row_kickstarter = kickstarter.map(parseKickstarter)

# Convert Row RDD into DataFrame
kick_df = spark.createDataFrame(row_kickstarter)



###############################
# Structure inspection
###############################


## Consultas sobre DataFrames

* Spark SQL pone a nuestra disposición dos formas muy distintas de consultar el contenido de DataFrames:

** Mediante la utilización de funciones especificas de consulta.

** Mediante la ejecución de consultas SQL.

* En el caso de las funciones específicas de consulta, Spark SQL nos ofrece una función
para cada posible fragmento (clause) de una query SQL. Así, tendremos funciones
específicas para selección de columnas, filtrado, ordenación, agregación...
* En el caso de SQL, únicamente tendremos que “registrar” nuestro(s) DataFrame(s) como
tabla/vista lógica de datos y podremos utilizar sintáxis SQL (casi completa) para definir
nuestras consultas.
* Inicialmente, Spark SQL sólo ofrecía funciones específicas, pero, poco a poco, ha ido dando
cada vez más soporte a la utilización directa de SQL (por motivos obvios).

## Referencia a columnas

* df.<column_name> Referencia (sólo referencia) a columna como atributo
* df[‘<column_name>’] Referencia (sólo referencia) a columna por nombre7

## Referencia a columnas

* df.<column_name> Referencia (sólo referencia) a columna como atributo
* df[‘<column_name>’] Referencia (sólo referencia) a columna por nombre

In [125]:

# Import required packages
import os
import sys

# Configuration properties
APP_NAME = 'dataframe-query'
MASTER = 'local[*]'
SPARK_HOME = '/Users/miguel/Documents/Spark/spark'
PYSPARK_LIB = 'pyspark.zip'
PY4J_LIB = 'py4j-0.10.4-src.zip'

# Spark initialization
os.environ['SPARK_HOME'] = SPARK_HOME
sys.path.insert(0, os.path.join(SPARK_HOME, 'python'))
sys.path.insert(0, os.path.join(SPARK_HOME, 'python', 'lib'))
sys.path.insert(0, os.path.join(SPARK_HOME, 'python', 'lib', PYSPARK_LIB))
sys.path.insert(0, os.path.join(SPARK_HOME, 'python', 'lib', PY4J_LIB))

from pyspark import SparkConf
from pyspark.sql import SparkSession

conf = SparkConf().setAppName(APP_NAME)
conf = conf.setMaster(MASTER)
spark = SparkSession.builder.config(conf = conf).getOrCreate()
sc = spark.sparkContext

from pyspark.sql.types import Row

# Read the file
kickstarter = sc.textFile('/home/erikapat/Dropbox/Spark/spark-sql/labs/data/live.tsv')

# Function used to parse and transform to Row each line
def parseKickstarter(line):
    fields = line.split('\t')
    return Row(country = fields[3], amount = int(fields[1]))

# Transform RDD into RDD of Rows
row_kickstarter = kickstarter.map(parseKickstarter)

# Convert Row RDD into DataFrame
kick_df = spark.createDataFrame(row_kickstarter)


###############################
# Referencing columns
###############################

# As attributes
kick_df.amount

# As indexes
kick_df['amount']



Column<b'amount'>

## Consultas sobre DataFrames basadas en SQL

* df.createTempView(<name>) Registra el DataFrame con el nombre <name> para su posterior
uso como tabla SQL
* df.createOrReplaceTempView(<name>) Registra o sustituye el DataFrame con el nombre <name> para
su posterior uso como tabla SQL
* spark.sql(<query>) Ejecuta la <query> sobre las tablas registradas en la sesión

In [126]:

# Import required packages
import os
import sys

# Configuration properties
APP_NAME = 'dataframe-sql'
MASTER = 'local[*]'
SPARK_HOME = '/Users/miguel/Documents/Spark/spark'
PYSPARK_LIB = 'pyspark.zip'
PY4J_LIB = 'py4j-0.10.4-src.zip'

# Spark initialization
os.environ['SPARK_HOME'] = SPARK_HOME
sys.path.insert(0, os.path.join(SPARK_HOME, 'python'))
sys.path.insert(0, os.path.join(SPARK_HOME, 'python', 'lib'))
sys.path.insert(0, os.path.join(SPARK_HOME, 'python', 'lib', PYSPARK_LIB))
sys.path.insert(0, os.path.join(SPARK_HOME, 'python', 'lib', PY4J_LIB))

from pyspark import SparkConf
from pyspark.sql import SparkSession

conf = SparkConf().setAppName(APP_NAME)
conf = conf.setMaster(MASTER)
spark = SparkSession.builder.config(conf = conf).getOrCreate()
sc = spark.sparkContext

from pyspark.sql.types import *

# Read files
live = sc.textFile('/home/erikapat/Dropbox/Spark/spark-sql/labs/data/live.tsv')
most = sc.textFile('/home/erikapat/Dropbox/Spark/spark-sql/labs/data/most-backed.tsv')

# Functions used to parse and transform to Row each line
def parseLive(line):
    fields = line.split('\t')
    return Row(location = fields[6], amount_live = int(fields[1]))

def parseMost(line):
    fields = line.split('\t')
    return Row(location = fields[6], amount_most = int(fields[1]))

# Transform RDD into RDD of Rows
row_live = live.map(parseLive)
row_most = most.map(parseMost)

# Convert Row RDD into DataFrame
live_df = spark.createDataFrame(row_live)
most_df = spark.createDataFrame(row_most)


###################################
# Registring dataframe as SQL table
###################################

# Register new table
live_df.createTempView('live')

# Register/Update existing table
live_df.createOrReplaceTempView('live')
most_df.createOrReplaceTempView('most')


###################################
# Execute SQL queries
###################################
 
# Execute queries using (almost) complete SQL
spark.sql('SELECT * FROM most').show()

spark.sql('SELECT LENGTH(location) FROM most').show()

spark.sql('SELECT location, amount_live FROM live WHERE amount_live > 100000').show()

spark.sql('SELECT COUNT(*), MAX(amount_most) FROM most WHERE location LIKE \'%Los Angeles%\'').show()

spark.sql('SELECT COUNT(*), MAX(amount_most) FROM most WHERE location LIKE \'%Los Angeles%\'').show()

spark.sql('''SELECT live.location, MAX(amount_live), MAX(amount_most) 
             FROM live, most
             WHERE live.location = most.location
             GROUP BY live.location''').show()


# Stop the spark session
spark.stop() 

+-----------+-----------------+
|amount_most|         location|
+-----------+-----------------+
|    8782571|  Los Angeles, CA|
|    6465690|       Denver, CO|
|    5408916|  Los Angeles, CA|
|    5702153|    San Diego, CA|
|    3336371|San Francisco, CA|
|   20338986|    Palo Alto, CA|
|    4188927|Newport Beach, CA|
|    3986929|       Irvine, CA|
|    2090104|        Derby, UK|
|    3007370|  Toronto, Canada|
|    6333295|     Tokyo, Japan|
|   10266845|    Palo Alto, CA|
|    3845170|     Tokyo, Japan|
|   12779843| Redwood City, CA|
|    5545991|     Tokyo, Japan|
|    3246588|       Dallas, TX|
|    8596474|  Los Angeles, CA|
|   13285226|     Portland, OR|
|    2933252|Newport Beach, CA|
|    5764229|  Minneapolis, MN|
+-----------+-----------------+
only showing top 20 rows

+----------------+
|length(location)|
+----------------+
|              15|
|              10|
|              15|
|              13|
|              17|
|              13|
|              17|
|              1

## De Spark a Python

* df.rdd Convierte un DataFrame de Spark en un RDD de Rows
* df.toPandas() Convierte un DataFrame de Spark en uno de pandas
Persistencia

* df.write.[format](<path>) Salva un DataFrame a fichero

## SPARK STRAMING

https://github.com/clumdee/Python-and-Spark-for-Big-Data-master