<img src = "https://drive.google.com/uc?export=view&id=1wuCtg5UbqCfKDczKQmweW9bgUDSY2t9a" alt = "Encabezado MLDS" width = "100%">  </img>

# Taller 5: Apache Spark con Databricks

## Definición de la entrega

Siga la siguiente guía. Al finalizar, deberá realizar un informe de formato libre donde se evidencie la ejecución de los pasos definidos en esta guía (Captura de pantalla), para las partes de *SparkSQL*: Manipulación de datos con *DataFrame*, Manipulación de datos con *RDD* y la exportación de resultados.

## **1. Registro**

Ingrese a [Databricks](https://www.databricks.com/try-databricks) y regístrese, en caso de obtener error al registrarse con un correo institucional, vuelva a intentar con un correo personal:

<img src="https://drive.google.com/uc?export=view&id=1lqbpdX7BRZcDuXCvPdsygBLEI0aRuhVe" width="80%">

Seleccione *Get started with Community Edition*:

<img src="https://drive.google.com/uc?export=view&id=1BFCr1opQHZptWKx2ZRU-CeS_5DOfZKKl" width="60%">

Recibirá un email enviado por *Databricks* para confirmar su dirección de correo. De click al link correspondiente recibido en el email para la *confirmación* y asigne una contraseña a su cuenta. Después de estos dos pasos, será redireccionado automáticamente a una vista como la siguiente:

Si ya tines una cuenta, puedes ingresar mediante este [enlace](https://community.cloud.databricks.com/login.html)

<img src="https://drive.google.com/uc?export=view&id=1OOWJiRulYe8PrasMBfQphuwu5w0c-iP4" width="80%">

Cree un nuevo *Cluster* mediante **Create -> Cluster**:

<img src="https://drive.google.com/uc?export=view&id=1ea8WGYid7tkA7LzYCG7s1PPDNkvjFbcO" width="80%">

Asígne el nombre de **MLDS-test**:

<img src="https://drive.google.com/uc?export=view&id=1SfISmnspipge7AnRioXfHsbIk-AuIZGE" width="80%">

Su vista en *Databricks* será:

<img src="https://drive.google.com/uc?export=view&id=1s-LCRXVezGPqNaIkVv6uoN62uUuuFI4p" width="80%">

Ahora cree un Notebook mediante **Create -> Notebook**:

<img src="https://drive.google.com/uc?export=view&id=1jWl2KSWGjrqFM0g5tqVwDPFrY2NRe7Zt" width="80%">

Asígnele el nombre de **Taller 5: Spark**:

<img src="https://drive.google.com/uc?export=view&id=1FbEhoCaK3lPKId2geXCPHkbj10pkWT7u" width="80%">

Obtendrá una vista parecida a los notebooks de *Google Colaboratory*, por ejemplo, a continuación se puede notar una celda donde se ejecuta la función `print`:

> Nota: Puede tomar algo de tiempo que el notebook pueda ejecutarce

<img src="https://drive.google.com/uc?export=view&id=1ABVcFk8nPBn9c711-byQSiTOZr5JvNTz" width="80%">

## **2. Spark SQL: Manipulación de datos con DataFrame**

Este entorno cuenta con un archivo CSV de ejemplo, que podemos leer como un **DataFrame** de *Spark*:

> De tener problemas con el código, pruebe transcribiendo

In [None]:
# Ejecutar en Databricks
diamonds = sqlContext.read.format('com.databricks.spark.csv') \
            .options(header = 'true', inferSchema='true') \
            .load('/databricks-datasets/Rdatasets/data-001/csv/ggplot2/diamonds.csv')

Al ser escrito en el lenguaje de programación *Python*, puede realizar operaciones como la consulta del tipo de dato. Note que este objeto no es el mismo que un *DataFrame* de la librería *Pandas*:

In [None]:
# Ejecutar en Databricks
type(diamonds)

Agregue una nueva celda y visualice el contenido del archivo CSV:

In [None]:
# Ejecutar en Databricks
display(diamonds)

<img src="https://drive.google.com/uc?export=view&id=10f6-s8IA4JXPBlMPVgO7ij2XDdAaX220" width="100%">

Podemos mostrar el esquema del **DataFrame**. Esto equivale a realizar una descripción de la tabla, con los nombres de las variables y sus tipos de datos.

In [None]:
# Ejecutar en Databricks
diamonds.printSchema()

<img src="https://drive.google.com/uc?export=view&id=1jOZL2QYybRqaQLNoJZYFlqbncOBqsOfl" width="30%">

Puede contar el número de filas en el conjunto de datos con el método **`count`**:

In [None]:
# Ejecutar en Databricks
print(diamonds.count())

Puede obtener los valores únicos de una columna con el método **`distinct`**. En este caso para ver los distintos colores de diamantes en el conjunto de datos:

In [None]:
# Ejecutar en Databricks
display(diamonds.select('color').distinct().collect())

Puede crear un nuevo **DataFrame** con la columna **`price`** de tipo **Double**. En este caso se realiza un cambio de tipo para una de las columnas y se guarda dentro de otro **DataFrame**:

In [None]:
# Ejecutar en Databricks
from pyspark.sql.types import DoubleType
diamondsCast=diamonds.withColumn("price",diamonds["price"].cast(DoubleType()))

Podemos realizar operaciones de agrupación y agregación, como el cálculo del precio promedio por valor **`carat`**, cambiando el nombre de la columna del resultado y ordenando por precio:

In [None]:
# Ejecutar en Databricks
from pyspark.sql.functions import *
carat_avgPrice = (diamondsCast
                  .groupBy("carat")
                  .avg("price")
                  .withColumnRenamed("avg(price)", "avgPrice")
                  .orderBy(desc("avgPrice")))

Finalmente, podemos consultar el DataFrame obtenido y ver el top-10 de los precios promedio más altos para el valor **`carat`**.

In [None]:
# Ejecutar en Databricks
carat_avgPrice.show(10)

<img src="https://drive.google.com/uc?export=view&id=1ioR6G1pgfn8HIPQPmt8mu9Me3xZv0Qdv" width="20%">

Para realizar visualizaciones rápidas sobre los datos, puede utilizar las opciones proporcionadas por el notebook, para ello utilice el botón que está en la parte superior de la tabla que es igual al símbolo aritmético de suma **+** después de ejecutar la siguiente sentencia:

In [None]:
# Ejecutar en Databricks
display(diamonds)

A continuación el símbolo `+`:

<img src="https://drive.google.com/uc?export=view&id=1siVf0XWppcwQmtLfkbycI9zN4rxo2Qml" width="80%">

Luego de dar click a una de las visualizaciones, por ejemplo, en *Legacy Visualización*:

<img src="https://drive.google.com/uc?export=view&id=166B-L0pUM2CMkGwdvxuIfUgiybn9m8wt" width="50%">

Luego de aplicar las configuraciones deseadas se obtiene:

<img src="https://drive.google.com/uc?export=view&id=1Mua-5bxt8qDHgeNm3RUH-s-yFyrCFE_j" width="80%">

## **3. Manipulación de datos con RDD**

1. Se puede obtener un **RDD** directamente del **DataFrame**.

In [None]:
# Ejecutar en Databricks
diamonds_rdd = diamonds.rdd

2. Ahora, podemos realizar operaciones sobre este objeto, como las siguientes:

> 2.1 Obtener los primeros tres elementos del **RDD**:

In [None]:
# Ejecutar en Databricks
diamonds_rdd.take(3)

> 2.2 Contar diamantes por tipo de corte **`cut`** con las funciones **`map`** y **`reduceByKey`**:

In [None]:
# Ejecutar en Databricks
countByGroup = diamonds_rdd.map(lambda x: (x.cut, 1)).reduceByKey(lambda x,y:x+y)
display(countByGroup.collect())

> 2.3 Seleccionar los distintos tipos de **`clarity`** para los diamantes en el conjunto de datos:

In [None]:
# Ejecutar en Databricks
distinctClarity = diamonds_rdd.map(lambda x: x.clarity).distinct()
distinctClarity.collect()

> 2.4 Calcular el precio promedio de los diamantes por **`cut`**. Note que esta operación es equivalente a una agregación usando funciones `Map`, `Reduce` y `Finalize` (con la función **`mapValues`**).

In [None]:
# Ejecutar en Databricks
avgPrice = diamonds_rdd.map(lambda x: (x.cut,
                                       {'price': float(x.price), 'count': 1})). \
                            reduceByKey(lambda x, y: {'price': x['price'] + y['price'],
                                                    'count': x['count'] + y['count']}). \
                            mapValues(lambda x: x['price']/x['count'])
display(avgPrice.collect())

## **4. Exportar los resultados a CSV**

Tras realizar las operaciones y modificaciones correspondientes, podemos generar y descargar un archivo con el contenido. Para esto, seguiremos los siguientes pasos:

1. Eliminar el archivo si ya existe, ya que se produce un error si hay un archivo con el mismo nombre:

In [None]:
%fs rm -r /FileStore/carat_avgPrice

2. Guardar la consulta al archivo CSV en la ruta **FileStore**. Cada partición será guardada en un archivo individual. Usando **`repartition(1)`** se creará un único archivo de salida:

In [None]:
(carat_avgPrice.repartition(1)
.write
.format('com.databricks.spark.csv')
.options(header='true'
).save('/FileStore/carat_avgPrice'))

3. También podemos seleccionar unas columnas específicas y almacenar solo los resultados relevantes. En este caso, retornaremos los campos **`cut`** y **`price`** del dataset original:

In [None]:
%fs rm -r /FileStore/cutPrice

In [None]:
(diamonds.repartition(1)
.select('cut', 'price')
.write
.format('com.databricks.spark.csv')
.options(header='true'
).save('/FileStore/cutPrice'))

4. Finalmente, los archivos estarán disponibles en las siguientes rutas:
> * `/FileStore/carat_avgPrice`
> * `/FileStore/cutPrice`

5. Desde PySpark podemos también leer y mostrar el CSV guardado anteriormente. Los puede descargar dando clic en el ícono:

<img src="https://drive.google.com/uc?export=view&id=1StKD65y8mbzLaG3gZgTaIuyoT2A_dwta" width="20%">

In [None]:
# Ejecutar en Databricks
cutPrice = sqlContext.read.format('com.databricks.spark.csv').options(header='true',
inferSchema='true').load('/FileStore/cutPrice')
display(cutPrice)

<img src="https://drive.google.com/uc?export=view&id=1IKAt4uL3aqFnUeNxGJS5juHexJZeWQrk" width="100%">

6. Puede también usar sintaxis *SQL* para consultar las tablas creadas:

In [None]:
# Ejecutar en Databricks
diamondsCast.registerTempTable("diamonds")
color_agg = sqlContext.sql("""
SELECT color, avg(price) AS price
FROM diamonds
GROUP BY color
ORDER BY color
""")
display(color_agg)

Además, podemos realizar una consulta con una celda especial (creada con la etiqueta %sql), consultando directamente la tabla creada:

In [None]:
%sql
SELECT color, avg(price) AS price FROM diamonds GROUP BY color ORDER BY color

## **Créditos**
---

**Profesor**

- [Jorge E. Camargo, PhD](https://dis.unal.edu.co/~jecamargom/)

**Diseño, desarrollo del notebook y material audiovisual**

- [Juan S. Lara MSc](https://www.linkedin.com/in/juan-sebastian-lara-ramirez-43570a214/)

**Universidad Nacional de Colombia** - *Facultad de Ingeniería*