# Taller de procesamiento de BigData en Spark + R
Manuel Parra (manuelparra@decsai.ugr.es). <a href="http://sci2s.ugr.es/es">Soft Computing and Intelligent Information Systems</a>
. <a href="http://sci2s.ugr.es/dicits/">Distributed Computational Intelligence and Time Series</a>. **University of Granada**.
![logos](https://sites.google.com/site/manuparra/home/header.png)

# Machine Learning con ``sparklyr```

Biblioteca de Machine Learning Spark (MLlib) con la Interfaz sparklyr

**Carácteristicas fundamentales:**

La bilbioteca sparklyr proporciona enlaces a la biblioteca de ML distribuida de Spark. En particular, sparklyr le permite acceder a las rutinas de ML proporcionadas por el paquete spark.ml de Spark. Además junto con la interfaz dplyr de sparklyr, puede crear y afinar fácilmente los flujos de trabajo de ML en Spark, orquestados enteramente dentro de R.
Sparklyr proporciona tres familias de funciones que puede utilizar con el aprendizaje de máquina Spark:

- Algoritmos de aprendizaje automático para el análisis de datos (funciones  ml_*)
- Transformadores de características para manipular características individuales (funciones ft_*)
- Funciones para manipular Spark DataFrames (funciones sdf_*)

El flujo de trabajo para el análisis de datos con sparklyr podría estar compuesto de las siguientes etapas:

- Realizar consultas SQL a través de la interfaz sparklyr dplyr,
- Utilizar la familia de funciones sdf_ y ft_ para generar nuevas columnas o particionar su conjunto de datos,
- Elegir un algoritmo de aprendizaje automático apropiado de la familia de funciones ml_ * para modelar los datos,
- Inspeccionar la calidad del ajuste de su modelo y usarlo para hacer predicciones con nuevos datos,
- Recopilar los resultados para la visualización y análisis posterior en R

En esta sección vamos a trabajar con las herramientas que proporciona la biblioteca sparklyr para Machine Learning.
Como vamos a ver, la funcionalidad es muy similar a la de la biblioteca SparkR, aunque cambia el nombre de las funciones y varios extras más.


## Inicialización del entorno

Es necesario reiniciar Spark para poder trabajar con esta sesión de sparklyr     

<p><span style="background-color:red;color:white">&nbsp; &nbsp; Es necesario reiniciar Spark para poder trabajar con esta sesión de sparklyr &nbsp; &nbsp;</span></p>

Ahora para conectar con Spark y abrir una sesión usaremos la siguiente sintaxis (simiar a la del paquete SparkR aunque con ligeras diferencias):

In [None]:
# Usamos la libreria sparklyr y dplyr.

# Ajustar el nivel de visualización de errores !
options(warn=0)

# Incluimos la bilbioteca de sparklyr
library(sparklyr)
# Usamos la biblioteca para el manejo de los datos.
library(dplyr)

# Abrimos la conexión. Importante indicar la versión de Spark que tenemos instalada. En nuestro caso tenemos la 2.0.1
sc <- spark_connect(master = "local", version = "2.0.1")

Si queremos conectarnos a un entorno Spark completo dentro de un cluster usaríamos la siguiente información:

In [None]:
# Abrimos la conexión ahora a un clúster
sc <- spark_connect(master = "spark://HOST:PORT", version = "2.0.1")

# Donde HOST y PORT deben ser indicados tal y como el adminstrador de clúster tenga establecido.

## Parada de la sesion con Spark

In [None]:
# Paramos la sesion y el contexto de Spark, para liberar recursos
spark_disconnect(sc)

# Algoritmos de ML para el análisis de datos

Con Spark + R y la biblioteca sparklyr se puede orquestar la ejecución de varios algoritmos de ML en un cluster con Spark.

Estas funciones de ML, conectan directamente con la API de Spark, por lo que están vinculadas a la librería MLLib de Spark.

La biblioteca tiene mayor número de funciones para la minería de datos que la propia de SparkR.

** Contiene los siguientes métodos**

- Alternating Least Squares (ALS) matrix factorization
- Decision Trees
- Generalized Linear Regression
- Gradient-Boosted Tree
- K-Means Clustering
- Latent Dirichlet Allocation
- Linear Regression
- Logistic Regression
- Multilayer Perceptron
- Naive-Bayes
- One vs Rest
- PCA (Principal Components Analysis)
- Random Forests
- Survival Regression


Veamos cada uno de ellos

## Alternating Least Squares (ALS) matrix factorization

Realiza la factorización de matriz de mínimos cuadrados alternativos sobre un Spark DataFrame.

```
ml_als_factorization(x, rating.column = "rating", user.column = "user",
  item.column = "item", rank = 10L, regularization.parameter = 0.1,
  implicit.preferences = FALSE, alpha = 1, nonnegative = FALSE,
  iter.max = 10L, ml.options = ml_options(), ...)

```


## Decision Trees

Realiza una regresión o clasificación usado árboles de decisión:

```
ml_decision_tree(x, response, features, max.bins = 32L, max.depth = 5L,
  type = c("auto", "regression", "classification"),
  ml.options = ml_options(), ...)
```


## Generalized Linear Regression

Realiza regresión línearl generalizada sobre un SparkDataFrame

```
ml_generalized_linear_regression(x, response, features, intercept = TRUE,
  family = gaussian(link = "identity"), iter.max = 100L,
  ml.options = ml_options(), ...)

```



## Gradient-Boosted Tree

Aplica el algoritmo GBT sobre un SparkDataFrame

```
ml_gradient_boosted_trees(x, response, features, max.bins = 32L,
  max.depth = 5L, type = c("auto", "regression", "classification"),
  ml.options = ml_options(), ...)

```



## K-Means

Aplica el algortimo K-Means para clustering a un SparkDataFrame

```
ml_kmeans(x, centers, iter.max = 100, features = dplyr::tbl_vars(x),
  compute.cost = TRUE, tolerance = 1e-04, ml.options = ml_options(), ...)
```


## Latent Dirichlet Allocation

Ajusta un modelo LDA a un SparkDataFrame

```
ml_lda(x, features = dplyr::tbl_vars(x), k = length(features),
  alpha = (50/k) + 1, beta = 0.1 + 1, ml.options = ml_options(), ...)
```



## Linear Regression

Aplica una regresión lineal a los datos de un SparkDataFrame

```
ml_linear_regression(x, response, features, intercept = TRUE, alpha = 0,
  lambda = 0, iter.max = 100L, ml.options = ml_options(), ...)
```



## Logistic regression

Aplica una regresión logística a los datos de un SparkDataFrame

```
ml_logistic_regression(x, response, features, intercept = TRUE, alpha = 0,
  lambda = 0, iter.max = 100L, ml.options = ml_options(), ...)

```



## Multilayer Perceptron

Crea y entrena Percetron Multicapa para un SparkDataFrame:

```
ml_multilayer_perceptron(x, response, features, layers, iter.max = 100,
  seed = sample(.Machine$integer.max, 1), ml.options = ml_options(), ...)


```



## Naive-Bayes

Aplica regresión o clasificación utilizando Naive-Bayes:

```
ml_naive_bayes(x, response, features, lambda = 0, ml.options = ml_options(),
  ...)
```





## One  vs Rest

Aplica regresión o clasificación utilizando O vs R:

```
ml_one_vs_rest(x, classifier, response, features, ml.options = ml_options(),
  ...)

```

## PCA

Aplica PCA - Principal Components Analysis:

```
ml_pca(x, features = dplyr::tbl_vars(x), ml.options = ml_options(), ...)
```

## RandomForest

Aplica Regresión o clasificación utilizando el algoritmo de RandomForest:

```
ml_random_forest(x, response, features, max.bins = 32L, max.depth = 5L,
  num.trees = 20L, type = c("auto", "regression", "classification"),
  ml.options = ml_options(), ...)

```

# Utilidades y extensiones para Machine Learning

``sparklyr`` ofrece adicionalmente una serie de funciones para interactuar con los modelos ajustados de Spark ML así como operaciones con los modelos

- ``ml_binary_classification_eval``.  Binary Classification Evaluator

- ``ml_classification_eval``. Spark ML - Classification Evaluator

- ``ml_tree_feature_importance Spark ML`` - Feature Importance for Tree Models

- ``ml_saveload`` ,  ``ml_load ml_save`` - Save / Load a Spark ML Model Fit

- ``ml_create_dummy_variables``. Create Dummy Variables

- ``ml_model`` Create an ML Model Object

- ``ml_options`` Options for Spark ML Routines

- ``ml_prepare_dataframe``. Prepare a Spark DataFrame for Spark ML Routines

- ``ml_prepare_response_features_intercept`` ,  ``ml_prepare_inputs`` , ``ml_prepare_features``. Pre-process the Inputs to a Spark ML Routine




# Ejemplos y pruebas con ML de ``sparklyr```

**Preparamos el dataset**:

In [None]:
# Cargamos el dataset a SparkDataFrame:
heart <- spark_read_csv(sc, 
                       name="heart", 
                       path="/SparkR/datasets/BNGhearth.dat", 
                       delimiter = ",", 
                       header=TRUE,
                       overwrite = TRUE)


# Creamos un test y un train:
partitions_heart <- sdf_partition(heart,training = 0.8, test = 0.2, seed = 1099)

# Contamos las particiones:
count(partitions_heart$test)
count(partitions_heart$training)

# Imprimimos un resumen para recordar las variables

In [None]:
head(partitions_heart$test)

## Regresión lineal

In [None]:
# La función para la regresión lineal puede usarse con la sintaxis propia 
# de la función y tambien con la forma tradicional de R: formulae

# Opción 1
#model <- partitions$training %>%
#    ml_linear_regression(response = "f1", features = c("f2","f3"))

# Opción 2
#model <- partitions$training %>%
#    ml_linear_regression(f1~f2+f3)

# Opción 3
model <- ml_linear_regression(partitions_heart$training,bloodpressure~age)

Vemos la calidad del ajuste

In [None]:
# Vemos la calidad del ajuste ...
summary(model)

In [None]:
# Utilizamos Predict

predicted <- predict(model, newdata = partitions_heart$test)

## Regresión logística

In [None]:
# Aplica la función de regresión logística
ml_log <- partitions_heart$training %>%
             ml_logistic_regression(response = "class", features = c("age","sex","bloodpressure"))

# O también equivalente
# ml_log <- ml_logistic_regression(partitions_heart$training, response = "class", features = c("age","sex","bloodpressure"))

In [None]:
summary(ml_log)

# K-Medias (K-Means)

K-means es un método de agrupamiento, que tiene como objetivo la partición de un conjunto de n observaciones en k grupos en el que cada observación pertenece al grupo cuyo valor medio es más cercano.
Forma parte de las técnicas de clustering

In [None]:
# Equivalente:
# model <- ml_kmeans(select(iris_tbl,Petal_Width, Petal_Length),centers = 3)

model <- partitions_heart$test %>%
          select(age, bloodpressure) %>%
          ml_kmeans(centers = 3)

print (model)

# Cuidado con collect !!!
partitions_heart$test %>%
  select(age, bloodpressure) %>%
  collect %>%
  ggplot(aes(age, bloodpressure)) +
    geom_point(data = model$centers, aes(age, bloodpressure), size = 60, alpha = 0.1) +
    geom_point(aes(age, bloodpressure), size = 2, alpha = 0.5)


In [None]:
predicted <- sdf_predict(model,partitions_heart) %>% collect

table(predicted$class,predicted$prediction)


## RandomForest

Random forest también conocido en castellano como '"Selvas Aleatorias"' es una combinación de árboles predictores tal que cada árbol depende de los valores de un vector aleatorio probado independientemente y con la misma distribución para cada uno de estos. Es una modificación sustancial de bagging que construye una larga colección de árboles no correlacionados y luego los promedia. Se usa para regresión y para clasificación.

In [None]:
ml_rf <- ml_random_forest(partitions_heart$training,response="class",features=c("age","bloodpressure", "chest"),type="classification")

In [None]:
print(ml_rf)

res_predict <- sdf_predict(ml_rf, partitions_heart$test)

res_predict_2 <- collect(ft_string_indexer(sdf_predict(ml_rf, partitions_heart$test),"class","class_idx"))

In [None]:
table(res_predict_2$class_idx,res_predict_2$prediction)

In [None]:
head(select(res_predict,age,bloodpressure,chest,class))

In [None]:
feature_imp <- ml_tree_feature_importance(sc, ml_rf)

In [None]:
features <- as.character(feature_imp[1:3, 2])

In [None]:
features

## PCA Análisis de componentes principales


En estadística, el análisis de componentes principales es una técnica utilizada para reducir la dimensionalidad de un conjunto de datos.
Técnicamente, el PCA busca la proyección según la cual los datos queden mejor representados en términos de mínimos cuadrados. Esta convierte un conjunto de observaciones de variables posiblemente correlacionadas en un conjunto de valores de variables sin correlación lineal llamadas componentes principales.
El PCA se emplea sobre todo en análisis exploratorio de datos y para construir modelos predictivos.

In [None]:
# PCA
pca_model <- ml_pca(partitions_heart$training)

print(pca_model)


## Comparación de modelos

In [None]:
# Hacemos una lista para verificar que modelo nos da mejores resultados.
ml_models <- list(
  "Logistic" = ml_log,
#  "Decision Tree" = ml_dt,
  "Random Forest" = ml_rf
#  "Gradient Boosted Trees" = ml_gbt,
#  "Naive Bayes" = ml_nb,
#  "Neural Net" = ml_nn
)

# Create a function for scoring
score_test_data <- function(model, data=partitions$test){
  pred <- sdf_predict(model, data)
  select(pred, class, prediction)
}

# Score all the models
ml_score <- lapply(ml_models, score_test_data)

## Cierre de la conexión

In [None]:
# Obligatorio al terminar la session
spark_disconnect(sc)