Consultas en Spark usando SparkR
===

* *30 min* | Última modificación: Junio 22, 2019

Spark SQL es una interfaz para el procesamiento de datos estructurados usando el lenguaje SQL, desarrollada directamente en el proyecto Apache Spark. En adición, Spark SQL también puede ser usado para leer datos de Apache Hive. Spark SQL opera sobre DataFrames, los cuales son Datasets (RDD) organizado por columnas identificadas por nombres, los cuales equivalen a tablas en los sistemas de bases de datos relacionales.

Al finalizar este tutorial, el lector estará en capacidad de:

* Leer distintos tipos de archivos en Spark usando R.

* Realizar operaciones sobre DataFrames en Spark desde R.

* Realizar consultas SQL en Spark.

* Realizar consultas en SQL directamente sobre archivos.


## Preparación

In [1]:
%load_ext rpy2.ipython

In [2]:
%%R
## Instalación
#
#install.packages('SparkR')
#

NULL


In [3]:
##
## Esta función se usará para ejecutar comandos en el 
## sistema operativo y capturar la salida.
##
# systemp <- function(command) cat(system(command, intern = TRUE), sep = '\n')

In [4]:
%%R
library(SparkR)
sparkR.session(enableHiveSupport = FALSE)
setLogLevel("ERROR")

Attaching package: ‘SparkR’



    cov, filter, lag, na.omit, predict, sd, var, window



    as.data.frame, colnames, colnames<-, drop, endsWith, intersect,
    rank, rbind, sample, startsWith, subset, summary, transform, union





Launching java with spark-submit command /usr/local/spark/bin/spark-submit   sparkr-shell /tmp/RtmpLZLidu/backend_port93b30b95e46 


## Creación de DataFrames

A continuación se presenta la carga de DataFrames desde diferentes formatos.

### Formato JSON

Se crea un archivo en formato JSON en la máquina local.

In [5]:
%%writefile people.json
{"id": 1,  "firstname": "Vivian",   "surname": "Hamilton", "birthdate": "1971-07-08",  "color": "green",  "quantity": 1 }
{"id": 2,  "firstname": "Karen",    "surname": "Holcomb",  "birthdate": "1974-05-23",  "color": "green",  "quantity": 4 }
{"id": 3,  "firstname": "Cody",     "surname": "Garrett",  "birthdate": "1973-04-22",  "color": "orange", "quantity": 1 }
{"id": 4,  "firstname": "Roth",     "surname": "Fry",      "birthdate": "1975-01-29",  "color": "black",  "quantity": 1 }
{"id": 5,  "firstname": "Zoe",      "surname": "Conway",   "birthdate": "1974-07-03",  "color": "blue",   "quantity": 2 }
{"id": 6,  "firstname": "Gretchen", "surname": "Kinney",   "birthdate": "1974-10-18",  "color": "violet", "quantity": 1 }
{"id": 7,  "firstname": "Driscoll", "surname": "Klein",    "birthdate": "1970-10-05",  "color": "blue",   "quantity": 5 }
{"id": 8,  "firstname": "Karyn",    "surname": "Diaz",     "birthdate": "1969-02-24",  "color": "red",    "quantity": 1 }
{"id": 9,  "firstname": "Merritt",  "surname": "Guy",      "birthdate": "1974-10-17",  "color": "indigo", "quantity": 4 }
{"id": 10, "firstname": "Kylan",    "surname": "Sexton",   "birthdate": "1975-02-28",  "color": "black",  "quantity": 4 }
{"id": 11, "firstname": "Jordan",   "surname": "Estes",    "birthdate": "1969-12-07",  "color": "indigo", "quantity": 4 }
{"id": 12, "firstname": "Hope",     "surname": "Coffey",   "birthdate": "1973-12-24",  "color": "green",  "quantity": 5 }
{"id": 13, "firstname": "Vivian",   "surname": "Crane",    "birthdate": "1970-08-27",  "color": "gray",   "quantity": 5 }
{"id": 14, "firstname": "Clio",     "surname": "Noel",     "birthdate": "1972-12-12",  "color": "red",    "quantity": 5 }
{"id": 15, "firstname": "Hope",     "surname": "Silva",    "birthdate": "1970-07-01",  "color": "blue",   "quantity": 5 }
{"id": 16, "firstname": "Ayanna",   "surname": "Jarvis",   "birthdate": "1974-02-11",  "color": "orange", "quantity": 5 }
{"id": 17, "firstname": "Chanda",   "surname": "Boyer",    "birthdate": "1973-04-01",  "color": "green",  "quantity": 4 }
{"id": 18, "firstname": "Chadwick", "surname": "Knight",   "birthdate": "1973-04-29",  "color": "yellow", "quantity": 1 }

Writing people.json


In [6]:
## Copia el archivo people.json al archivo /tmp/people.json en el HDFS
!hdfs dfs -copyFromLocal people.json /tmp/people.json

In [7]:
%%R
##
## La función spark.read.json() carga directamente
## el archivo en JSON con un DataFrame.
##
df <- read.df('/tmp/people.json', # archivo
              'json')             # formato

##
## La función show() permite cargar 
## los datos del DataFrame a R
##
collect(df)

    birthdate  color firstname id quantity  surname
1  1971-07-08  green    Vivian  1        1 Hamilton
2  1974-05-23  green     Karen  2        4  Holcomb
3  1973-04-22 orange      Cody  3        1  Garrett
4  1975-01-29  black      Roth  4        1      Fry
5  1974-07-03   blue       Zoe  5        2   Conway
6  1974-10-18 violet  Gretchen  6        1   Kinney
7  1970-10-05   blue  Driscoll  7        5    Klein
8  1969-02-24    red     Karyn  8        1     Diaz
9  1974-10-17 indigo   Merritt  9        4      Guy
10 1975-02-28  black     Kylan 10        4   Sexton
11 1969-12-07 indigo    Jordan 11        4    Estes
12 1973-12-24  green      Hope 12        5   Coffey
13 1970-08-27   gray    Vivian 13        5    Crane
14 1972-12-12    red      Clio 14        5     Noel
15 1970-07-01   blue      Hope 15        5    Silva
16 1974-02-11 orange    Ayanna 16        5   Jarvis
17 1973-04-01  green    Chanda 17        4    Boyer
18 1973-04-29 yellow  Chadwick 18        1   Knight


### Formato CSV

A continuación se ejemplifica como procesar un archivo de texto para convertirlo en un DataFrame. 

In [8]:
%%writefile people.csv
id,firstname,surname,birthdate,color,quantity
1,Vivian,Hamilton,1971-07-08,green,1
2,Karen,Holcomb,1974-05-23,green,4
3,Cody,Garrett,1973-04-22,orange,1
4,Roth,Fry,1975-01-29,black,1
5,Zoe,Conway,1974-07-03,blue,2
6,Gretchen,Kinney,1974-10-18,violet,1
7,Driscoll,Klein,1970-10-05,blue,5
8,Karyn,Diaz,1969-02-24,red,1
9,Merritt,Guy,1974-10-17,indigo,4
10,Kylan,Sexton,1975-02-28,black,4
11,Jordan,Estes,1969-12-07,indigo,4
12,Hope,Coffey,1973-12-24,green,5
13,Vivian,Crane,1970-08-27,gray,5
14,Clio,Noel,1972-12-12,red,5
15,Hope,Silva,1970-07-01,blue,5
16,Ayanna,Jarvis,1974-02-11,orange,5
17,Chanda,Boyer,1973-04-01,green,4
18,Chadwick,Knight,1973-04-29,yellow,1

Writing people.csv


In [9]:
## copia el archivo al HDFS
!hdfs dfs -copyFromLocal people.csv /tmp/people.csv

In [10]:
%%R
head(read.df('/tmp/people.csv',  # ubicación y nombre del archivo
             'csv',              # formato
             header = TRUE))     # encabeamiento

  id firstname  surname  birthdate  color quantity
1  1    Vivian Hamilton 1971-07-08  green        1
2  2     Karen  Holcomb 1974-05-23  green        4
3  3      Cody  Garrett 1973-04-22 orange        1
4  4      Roth      Fry 1975-01-29  black        1
5  5       Zoe   Conway 1974-07-03   blue        2
6  6  Gretchen   Kinney 1974-10-18 violet        1


In [11]:
%%R
str(read.df('/tmp/people.csv', 'csv', header = TRUE))

'SparkDataFrame': 6 variables:
 $ id       : chr "1" "2" "3" "4" "5" "6"
 $ firstname: chr "Vivian" "Karen" "Cody" "Roth" "Zoe" "Gretchen"
 $ surname  : chr "Hamilton" "Holcomb" "Garrett" "Fry" "Conway" "Kinney"
 $ birthdate: chr "1971-07-08" "1974-05-23" "1973-04-22" "1975-01-29" "1974-07-03" "1974-10-18"
 $ color    : chr "green" "green" "orange" "black" "blue" "violet"
 $ quantity : chr "1" "4" "1" "1" "2" "1"


In [12]:
%%R
##
## Lectura del archivo como lineas de texto
##
df <- read.text('/tmp/people.csv')
head(df)

                                          value
1 id,firstname,surname,birthdate,color,quantity
2          1,Vivian,Hamilton,1971-07-08,green,1
3            2,Karen,Holcomb,1974-05-23,green,4
4            3,Cody,Garrett,1973-04-22,orange,1
5                 4,Roth,Fry,1975-01-29,black,1
6                5,Zoe,Conway,1974-07-03,blue,2


## Operaciones sobre DataFrames

In [13]:
%%R
df <- read.df('/tmp/people.csv', 'csv', header = TRUE)
head(df)

  id firstname  surname  birthdate  color quantity
1  1    Vivian Hamilton 1971-07-08  green        1
2  2     Karen  Holcomb 1974-05-23  green        4
3  3      Cody  Garrett 1973-04-22 orange        1
4  4      Roth      Fry 1975-01-29  black        1
5  5       Zoe   Conway 1974-07-03   blue        2
6  6  Gretchen   Kinney 1974-10-18 violet        1


In [14]:
%%R
##
## Imprime el esquema en formato de arbol
##
printSchema(df)

root
 |-- id: string (nullable = true)
 |-- firstname: string (nullable = true)
 |-- surname: string (nullable = true)
 |-- birthdate: string (nullable = true)
 |-- color: string (nullable = true)
 |-- quantity: string (nullable = true)


In [15]:
%%R
##
## Selección de una columna en particular
##
head(collect(select(df, 'firstname')))

  firstname
1    Vivian
2     Karen
3      Cody
4      Roth
5       Zoe
6  Gretchen


In [16]:
%%R
##
## Selección de varias columnas
##
head(select(df, c('firstname', 'surname')))

  firstname  surname
1    Vivian Hamilton
2     Karen  Holcomb
3      Cody  Garrett
4      Roth      Fry
5       Zoe   Conway
6  Gretchen   Kinney


In [17]:
%%R
##
## Filtrado de registros usando condicionales
##
head(filter(df, df$color == 'blue'))

  id firstname surname  birthdate color quantity
1  5       Zoe  Conway 1974-07-03  blue        2
2  7  Driscoll   Klein 1970-10-05  blue        5
3 15      Hope   Silva 1970-07-01  blue        5


In [18]:
%%R
##
## Consultas
##   Se crea una vista temporal
##   que desaparece cuando se cierra la
##   sesión actual de SparkR
##
createOrReplaceTempView(df, 'peopleview') ## este es el nombre de la tabla

## Se realiza la consulta usando directamente SQL
sqlDF <- sql('SELECT * FROM peopleview')
head(sqlDF)

  id firstname  surname  birthdate  color quantity
1  1    Vivian Hamilton 1971-07-08  green        1
2  2     Karen  Holcomb 1974-05-23  green        4
3  3      Cody  Garrett 1973-04-22 orange        1
4  4      Roth      Fry 1975-01-29  black        1
5  5       Zoe   Conway 1974-07-03   blue        2
6  6  Gretchen   Kinney 1974-10-18 violet        1


In [19]:
%%R
head(summarize(groupBy(df,            ## DataFrame
                       df$quantity),  ## Columna para realizar la agregación
               count=n(df$quantity))) ## Cuenta la cantidad de registros por valor en quantity

  quantity count
1        5     6
2        1     6
3        4     5
4        2     1


## Ejecución de SQL directamente sobre archivos

Spark SQL permite ejecutar directamente SQL sobre archivos indicando el tipo de archivo.

In [20]:
%%R
## SQL sobre un archivo en formato JSON
head(sql('SELECT * FROM json.`/tmp/people.json`'))

   birthdate  color firstname id quantity  surname
1 1971-07-08  green    Vivian  1        1 Hamilton
2 1974-05-23  green     Karen  2        4  Holcomb
3 1973-04-22 orange      Cody  3        1  Garrett
4 1975-01-29  black      Roth  4        1      Fry
5 1974-07-03   blue       Zoe  5        2   Conway
6 1974-10-18 violet  Gretchen  6        1   Kinney


In [21]:
%%R
## SQL sobre un archivo en formato CSV
head(sql('SELECT * FROM csv.`/tmp/people.csv`'))

  _c0       _c1      _c2        _c3    _c4      _c5
1  id firstname  surname  birthdate  color quantity
2   1    Vivian Hamilton 1971-07-08  green        1
3   2     Karen  Holcomb 1974-05-23  green        4
4   3      Cody  Garrett 1973-04-22 orange        1
5   4      Roth      Fry 1975-01-29  black        1
6   5       Zoe   Conway 1974-07-03   blue        2


In [22]:
%%R
## SQL sobre un archivo en formato CSV
head(sql('SELECT DISTINCT(_c4)  FROM csv.`/tmp/people.csv`'))

     _c4
1 violet
2 orange
3  green
4 yellow
5 indigo
6   gray


## Ejemplos

Los siguientes ejemplos son realizados usando el archivo `people.json` creado al principio de este tutorial.

In [23]:
%%R
df <- read.df('/tmp/people.json', 'json')

### Ejemplo 1

Seleccione las personas cuya fecha de nacimiento sea del año 1974 en adelante.

In [24]:
%%R
##
## Se usa la función filter() del DataFrame
##
head(filter(df, df$birthdate >= '1974'))

   birthdate  color firstname id quantity surname
1 1974-05-23  green     Karen  2        4 Holcomb
2 1975-01-29  black      Roth  4        1     Fry
3 1974-07-03   blue       Zoe  5        2  Conway
4 1974-10-18 violet  Gretchen  6        1  Kinney
5 1974-10-17 indigo   Merritt  9        4     Guy
6 1975-02-28  black     Kylan 10        4  Sexton


In [25]:
%%R
##
## Se crea una vista temporal para ejecutar
## una consulta SQL sobre ella
##
createOrReplaceTempView(df, 'peopleview')
head(sql('SELECT * FROM peopleview WHERE YEAR(birthdate) >= 1974'))

   birthdate  color firstname id quantity surname
1 1974-05-23  green     Karen  2        4 Holcomb
2 1975-01-29  black      Roth  4        1     Fry
3 1974-07-03   blue       Zoe  5        2  Conway
4 1974-10-18 violet  Gretchen  6        1  Kinney
5 1974-10-17 indigo   Merritt  9        4     Guy
6 1975-02-28  black     Kylan 10        4  Sexton


### Ejemplo 2

Obtenga una lista de colores únicos.

In [26]:
%%R
##
## Se usa la función distinct() del DataFrame
##
head(distinct(select(df, 'color')))

   color
1 violet
2 orange
3  green
4 yellow
5 indigo
6   gray


In [27]:
%%R
##
## Como una consulta 
##
head(sql('SELECT DISTINCT(color) FROM peopleview'))

   color
1 violet
2 orange
3  green
4 yellow
5 indigo
6   gray


### Ejemplo 3

Ordene la tabla por cantidad y luego por color.

In [28]:
%%R
##
## Note que las funciones se aplican de derecha 
## a izquierda -- este ejemplo no corre en sparkR
##
head(orderBy(df, 'color', 'quantity'))

   birthdate color firstname id quantity surname
1 1975-01-29 black      Roth  4        1     Fry
2 1975-02-28 black     Kylan 10        4  Sexton
3 1974-07-03  blue       Zoe  5        2  Conway
4 1970-07-01  blue      Hope 15        5   Silva
5 1970-10-05  blue  Driscoll  7        5   Klein
6 1970-08-27  gray    Vivian 13        5   Crane


In [29]:
%%R
##
## Como una consulta de SQL
##
head(sql('SELECT * FROM peopleview ORDER BY quantity, color'))

   birthdate  color firstname id quantity  surname
1 1975-01-29  black      Roth  4        1      Fry
2 1971-07-08  green    Vivian  1        1 Hamilton
3 1973-04-22 orange      Cody  3        1  Garrett
4 1969-02-24    red     Karyn  8        1     Diaz
5 1974-10-18 violet  Gretchen  6        1   Kinney
6 1973-04-29 yellow  Chadwick 18        1   Knight


In [30]:
%%R
sparkR.stop()

**Limpieza del directorio de trabajo**

In [31]:
!rm people.*
!rm -rf spark-warehouse

In [32]:
!hdfs dfs -rm /tmp/people*

Deleted /tmp/people.csv
Deleted /tmp/people.json


In [33]:
!hdfs dfs -ls /tmp