# Preparación

Establecemos las variables de ambiente

In [None]:
Sys.setenv(SPARK_HOME='/opt/spark')
.libPaths(c(file.path(Sys.getenv('SPARK_HOME'), 'R', 'lib'), .libPaths()))

Cargamos la librería de `SparkR`

In [None]:
library(SparkR)

Creamos el _contexto_ de `Spark`, y agregando la biblioteca de `spark-csv`

In [None]:
sc <- sparkR.init(sparkPackages="com.databricks:spark-csv_2.11:1.2.0")

Por último, creamos el contexto de _SparkSQL_

In [None]:
sqlContext <- sparkRSQL.init(sc)

La documentación está [aquí](https://spark.apache.org/docs/latest/sparkr.html) y [aquí](https://spark.apache.org/docs/latest/api/R/index.html)

# Dataframes

Usando el ejemplo clásico del _dataset_ `iris`

In [None]:
iris.rdd <- createDataFrame(sqlContext, iris)

In [None]:
head(iris.rdd)

También se pueden crear los `dataframes` desde archivo

In [None]:
tsum_a <- read.df(sqlContext, "data/data_tsumoto/TSUM_A.CSV", "com.databricks.spark.csv", header="true")

In [None]:
head(tsum_a)

In [None]:
printSchema(tsum_a)

In [None]:
head(select(tsum_a, tsum_a$SEX))

In [None]:
head(select(tsum_a, 'Admission'))

In [None]:
head(filter(tsum_a, tsum_a$SEX == 'M'))


In [None]:
head(summarize(groupBy(tsum_a, tsum_a$SEX), count = n(tsum_a$SEX)))

In [None]:
tsum_a_summary <- describe(tsum_a)

In [None]:
tsum_a_summary

In [None]:
nrow(tsum_a)

In [None]:
?collect # Collect convierte el objeto Spark DataFrame a un data.frame de R

Lo cual permitirá utilizar funciones de `R` clásicas como `ggplot`

In [None]:
registerTempTable(tsum_a, "tsum_a")

In [None]:
vacios <- collect(sql(sqlContext, "select * from tsum_a where SEX = ''")) # Esto ya es un data.frame de R

In [None]:
vacios

In [None]:
head(vacios, n = 20)

In [None]:
library(ggplot2)

In [None]:
ggplot(data=vacios, aes(x=factor(Diagnosis))) + 
    geom_bar() + 
    theme(axis.text.x=element_text(angle = -45, hjust = 0))

`SparkR` al igual que `pyspark`, puede leer fácilmente archivos `JSON`

In [None]:
projects <- read.df(sqlContext = sqlContext, path = "data/world_bank/world_bank.json", source = "json")

In [None]:
projects # Es un SparkR DataFrame, no un data.frame de R

In [None]:
printSchema(projects)

In [None]:
registerTempTable(projects, 'wb_projects')

In [None]:
head(sql(sqlContext, 'select countryname, source from wb_projects order by source, countryname limit 5')) 
# Esto es un Spark DataFrame

## Manipulación de datos

In [None]:
tsum_a

In [None]:
collect(select(tsum_a, "SEX", "Diagnosis")) # Seleccionar un conjunto de columnas

El filtrado se realiza normalmente (nota las diferentes maneras de hacer referencia a las columnas)

In [None]:
head(filter(tsum_a, tsum_a$Diagnosis == "SLE"))

In [None]:
head(summarize(groupBy(tsum_a, tsum_a$Admission), count=n(tsum_a$Admission)))

Probablemente sean ruido esos caracteres raros, ordenemos

In [None]:
conteo_admisiones <- summarize(groupBy(tsum_a, tsum_a$Admission), count=n(tsum_a$Admission))
head(arrange(conteo_admisiones, desc(conteo_admisiones$count)), n = 10)