# Taller de procesamiento de BigData en Spark + R
Manuel Parra (manuelparra@decsai.ugr.es). <a href="http://sci2s.ugr.es/es">Soft Computing and Intelligent Information Systems</a>
. <a href="http://sci2s.ugr.es/dicits/">Distributed Computational Intelligence and Time Series</a>. **University of Granada**.
![logos](https://sites.google.com/site/manuparra/home/header.png)

## DataSets del Taller de SparkR

Para todos los ejemplos y ejercicios del taller se ha habilitado una directorio en la Máquina Virtual con multiples conjuntos de datos de tipo variado (bioinformatica, logistica-transporte, salud).

Los que vamos a utilizar serán los siguientes:





## Conjunto de datos: BNGheart

Directorio en la Máquina Virtual:

``/SparkR/datasets/BNGhearth.dat``

Este conjunto de datos es una base de datos de enfermedades del corazón y contiene los siguientes atributos:

- age 
- sex 
- chest pain type (4 values) 
- resting blood pressure 
- serum cholestoral in mg/dl 
- fasting blood sugar > 120 mg/dl 
- resting electrocardiographic results (values 0,1,2) 
- maximum heart rate achieved 
- exercise induced angina 
- oldpeak = ST depression induced by exercise relative to rest 
- the slope of the peak exercise ST segment 
- number of major vessels (0-3) colored by flourosopy 
- thal: 3 = normal; 6 = fixed defect; 7 = reversable defect 

Y la variable de clase: Ausencia o presencia  of problemas cardíacos


## Conjunto de datos: ECBDL14

Directorio en la Máquina Virtual:

``/SparkR/datasets/databig/ECBDL14_10tst.data``

Este conjunto de datos proviene del campo de predicción de estructuras de proteínas y se generó originalmente para crear un predictor para la predicción de contacto residuo-residuo de  CASP9. El conjunto de datos original tiene:

- 32 millones de instancias, 
- 631 atributos, 
- 2 clases, 
- 98% de ejemplos negativos

y ocupa, aproximadamente 56 GB de espacio en disco. Los detalles de la generación de conjuntos de datos y una estrategia de aprendizaje utilizados para entrenar un método para este problema usando computación evolutiva están disponibles en http://bioinformatics.oxfordjournals.org/content/28/19/2441.

Training set (3723MB): <a href="http://cruncher.ncl.ac.uk/bdcomp/TrainingSet.arff.gz">TrainingSet.arff.gz</a>
Test set (347MB): <a href="http://cruncher.ncl.ac.uk/bdcomp/TestSet.arff.gz">TestSet.arff.gz</a> 

Más información: http://cruncher.ncl.ac.uk/bdcomp/




## Conjunto de datos: NYC YellowCab

Directorio en la Máquina Virtual:

``/SparkR/datasets/yellow_tripdata_2016-02_small1.csv``

El dataset que vamos a usar para el procesamiento de dato masivos, corresponde con un conjunto de datos de los registros de viaje en TAXI, donde se capturan las fechas y horas de recogida y devolución de pasajeros, lugares de recogida y entrega (coordenadas), distancias de viaje, tarifas detalladas, tipos de tarifas, tipos de pago y conteos de pasajeros que van en el taxi.
El dataset tiene MUCHAS posibilidades de procesamiento y también extracción de conocimiento.
Estos conjuntos de datos adjuntos fueron recopilados y proporcionados por la Comisión de Taxisde Nueva York (TLC) http://www.nyc.gov/html/tlc/html/about/trip_record_data.shtml.


** Características del conjunto de datos original:**

![logosnyc](https://sites.google.com/site/manuparra/home/NYC.png)

El conjunto de datos NYCTaxiTrips en total tiene sobre 267GB, que pueden ser manejados sin problema por SparkR (en un cluster real, no sobre una máquina virtual sencilla como la del taller).

En total contiene 1100 millones de registros y se añaden más cada mes.

Más información de como se gestionan 1100 millones de instancias en la siguiente web y se soluciona este problema problema real: http://toddwschneider.com/posts/analyzing-1-1-billion-nyc-taxi-and-uber-trips-with-a-vengeance/

Más datasets masivos de NYCTaxiTrips en: http://www.nyc.gov/html/tlc/html/about/trip_record_data.shtml

Adicionalmente también están disponibles en ``/SparkR/datasets/`` :

- ``yellow_tripdata_2016-01.csv``
- ``yellow_tripdata_2016-02_small1.csv``
- ``yellow_tripdata_2016-02_small2.csv``
- ``yellow_tripdata_2016-02_small3.csv``

## ¿Como cargar estos conjuntos de datos en SparkR?

La forma más sencilla de cargar los conjuntos de datos es usar las funciones de SparkR para leer conjuntos de datos en formato CSV.


### Desde SparkR

In [None]:
#Cargamos los paths
.libPaths(c(file.path(Sys.getenv("SPARK_HOME"),"R/lib/"),.libPaths()))

#Cargamos la libreria
library(SparkR)

#Abrimos la sesion con Spark
sparkR.session(appName="EntornoInicio",
               master = "local[*]", 
               sparkConfig = list(spark.driver.memory = "1g"))

# Cargamos por ejemplo el dataset de NYC
df_nyctrips <- read.df("/root/TallerSparkR/datasets/yellow_tripdata_2016-02_small1.csv", 
                           "csv", 
                           header = "true", 
                           inferSchema = "true")

### Desde sparklyr (no ejecutar aún)

In [None]:
# library(sparklyr)
## Usamos la biblioteca para el manejo de los datos.
#library(dplyr)

## Abrimos la conexión. Importante indicar la versión de Spark que tenemos instalada. En nuestro caso tenemos la 2.0.1
#sc <- spark_connect(master = "local", version = "2.0.1")


## Lectura de un fichero de datos CSV

#tttm <- spark_read_csv(sc, 
#                       name="tttm", 
#                       path="/SparkR/datasets/BNGhearthBIG.dat", 
#                       delimiter = ",", 
#                       header=TRUE,
#                       overwrite = TRUE)