# **Spark SQL Avanzado**

## Introducción

### `Ventajas y desventajas de trabajar con Spark en Google Colab`

Ventajas:
- Fácil acceso
- Ejecutar Spark en prácticamente cualquier dispositivo, los recursos están en la nube.
- Como los recursos están la nube, no hay que preocuparse por los recursos de hardware
- Trabajo en equipo, más sencillo el trabajo colaborativo. Varias personas pueden trabajar sobre un mismo notebook.


Desventajas:
- No se guardan las configuraciones de Spark luego de un tiempo
> No obstante el notebook permanece intacto. Se puede volver a ejecutar las líneas de código para tener la configuración nuevamente.
- Escalabilidad, como el servicio es gratuito, los recursos son limitados.
> Para llevarlo a ambientes productivos, necesitamos una infraestructura capaz de brindarnos estas especificaciones.

## Instalaciones Necesarias para trabajar con Spark en Colab

### `Descarga e instalación de Apache Spark en Colab`
Se explica celda por celda las instalaciones necesarias. Para fines prácticos, utilizar la celda de abajo que instala todo junto.

In [None]:
# Instalar SDK Java 8
!apt-get install openjdk-8-jdk-headless -qq > /dev/null

In [None]:
# Descargar Spark 3.2.4
!wget -q https://archive.apache.org/dist/spark/spark-3.2.4/spark-3.2.4-bin-hadoop3.2.tgz

In [None]:
# Descomprimir el archivo descargado de Spark
!tar xf spark-3.2.4-bin-hadoop3.2.tgz

In [None]:
# Establecer las variables de entorno
import os

os.environ["JAVA_HOME"] = "/usr/lib/jvm/java-8-openjdk-amd64"
os.environ["SPARK_HOME"] = "/content/spark-3.2.4-bin-hadoop3.2"

In [None]:
# Instalar la librería findspark
!pip install -q findspark

In [None]:
# Instalar pyspark
!pip install -q pyspark

[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m316.9/316.9 MB[0m [31m2.3 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
  Building wheel for pyspark (setup.py) ... [?25l[?25hdone


In [None]:
### verificar la instalación ###
import findspark
findspark.init()

from pyspark.sql import SparkSession
spark = SparkSession.builder.master("local[*]").getOrCreate()

In [None]:
# Probando la sesión de Spark
df = spark.createDataFrame([{"Hola": "Mundo"} for x in range(10)])
# df.show(10, False)
df.show()

+-----+
| Hola|
+-----+
|Mundo|
|Mundo|
|Mundo|
|Mundo|
|Mundo|
|Mundo|
|Mundo|
|Mundo|
|Mundo|
|Mundo|
+-----+



### `Descarga e instalación de Apache Spark en una sola celda (Utilizar esta opción)`
Para fines prácticos, toda la instalación está en una celda, así luego de ejecutarse ya se puede trabajar con Spark.

In [None]:
# Instalar SDK Java 8
!apt-get install openjdk-8-jdk-headless -qq > /dev/null

# Descargar Spark 3.2.4
!wget -q https://archive.apache.org/dist/spark/spark-3.2.4/spark-3.2.4-bin-hadoop3.2.tgz

# Descomprimir el archivo descargado de Spark
!tar xf spark-3.2.4-bin-hadoop3.2.tgz

# Establecer las variables de entorno
import os

os.environ["JAVA_HOME"] = "/usr/lib/jvm/java-8-openjdk-amd64"
os.environ["SPARK_HOME"] = "/content/spark-3.2.4-bin-hadoop3.2"

# Instalar la librería findspark
!pip install -q findspark

# Instalar pyspark
!pip install -q pyspark

### verificar la instalación ###
import findspark
findspark.init()

from pyspark.sql import SparkSession
spark = SparkSession.builder.master("local[*]").getOrCreate()

# Probando la sesión de Spark
df = spark.createDataFrame([{"Hola": "Mundo"} for x in range(10)])
# df.show(10, False)
df.show()

[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m317.3/317.3 MB[0m [31m4.6 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
  Building wheel for pyspark (setup.py) ... [?25l[?25hdone
+-----+
| Hola|
+-----+
|Mundo|
|Mundo|
|Mundo|
|Mundo|
|Mundo|
|Mundo|
|Mundo|
|Mundo|
|Mundo|
|Mundo|
+-----+



## `Importante: Carga de archivos en Google Colab`

Dos formas de cargar los archivos para resolver los ejercicios:

1. **Montando el drive para acceder a los contenidos** de la unidad.

  Utilizar esta opción si los datos para los ejercicios se cargan en una carpeta del drive y se quiere acceder a ella.

2. **Utilizando el cuadro de archivos**, donde se carga el archivo que se quiere trabajar. Se guarda temporalmente.
> Esta es la forma que voy a estar utizando

In [None]:
# Levantar una sesión de Spark
import findspark
findspark.init()
from pyspark.sql import SparkSession

spark = SparkSession.builder.appName('Cap2').master('local(*)').getOrCreate()
spark

### 1. Utilizando el montado al drive y yendo hacia la carpeta donde se encuentra el archivo.

In [None]:
from google.colab import drive
drive.mount('/content/drive')

In [None]:
rdd_texto = sc.wholeTextFiles('/content/drive/MyDrive/Spark/data-ej-PySpark-RDD/el_valor_del_big_data.txt')
rdd_texto.collect()

### 2. Utilizando el cuadro de archivos, donde se carga el archivo que se quiere trabajar. Se guarda temporalmente.

Esta es la que voy a estar utizando a lo largo de todos los notebooks.


In [None]:
rdd_texto = sc.wholeTextFiles('./el_valor_del_big_data.txt')
rdd_texto.collect()

## Spark UI en Colab

In [None]:
# Instalar SDK java 8
!apt-get install openjdk-8-jdk-headless -qq > /dev/null

# Descargar Spark
!wget -q https://archive.apache.org/dist/spark/spark-3.3.4/spark-3.3.4-bin-hadoop3.tgz

# Descomprimir la version de Spark
!tar xf spark-3.3.4-bin-hadoop3.tgz

# Establecer las variables de entorno
import os

os.environ["JAVA_HOME"] = "/usr/lib/jvm/java-8-openjdk-amd64"
os.environ["SPARK_HOME"] = "/content/spark-3.3.4-bin-hadoop3"

# Descargar findspark
!pip install -q findspark

# Crear la sesión de Spark
import findspark
findspark.init()
from pyspark.sql import SparkSession

spark = (
    SparkSession.builder
    .config('spark.ui.port', '4050')
    .getOrCreate()
)

from google.colab import output
output.serve_kernel_port_as_window(4050, path='/jobs/index.html')
from pyspark.sql.functions import col

spark.range(10000).toDF("id").filter(col('id') / 2 == 0).write.mode('overwrite').parquet('/output')

<IPython.core.display.Javascript object>

## Spark SQL Avanzado

### Agregaciones

In [None]:
# Explorando los datos

import findspark
findspark.init()
from pyspark.sql import SparkSession

spark = SparkSession.builder.getOrCreate()

df = spark.read.parquet('./data/')

df.printSchema()

df.show(20, truncate=False)


### Funciones

In [None]:
# Funciones count, countDistinct y approx_count_distinct

import findspark
findspark.init()
from pyspark.sql import SparkSession

spark = SparkSession.builder.getOrCreate()

df = spark.read.parquet('./data/dataframe')

df.printSchema()

df.show()

# count

from pyspark.sql.functions import count

df.select(
    count('nombre').alias('conteo_nombre'),
    count('color').alias('conteo_color')
).show()

df.select(
    count('nombre').alias('conteo_nombre'),
    count('color').alias('conteo_color'),
    count('*').alias('conteo_general')
).show()

# countDistinct

from pyspark.sql.functions import countDistinct

df.select(
    countDistinct('color').alias('colores_dif')
).show()

# approx_count_distinct

from pyspark.sql.functions import approx_count_distinct

dataframe = spark.read.parquet('./data/vuelos')

dataframe.printSchema()

dataframe.select(
    countDistinct('AIRLINE'),
    approx_count_distinct('AIRLINE')
).show()


### Funciones min y max

In [None]:
# Funciones min y max

import findspark
findspark.init()
from pyspark.sql import SparkSession

spark = SparkSession.builder.getOrCreate()

vuelos = spark.read.parquet('./data')

vuelos.printSchema()

from pyspark.sql.functions import min, max, col

vuelos.select(
    min('AIR_TIME').alias('menor_timepo'),
    max('AIR_TIME').alias('mayor_tiempo')
).show()

vuelos.select(
    min('AIRLINE_DELAY'),
    max('AIRLINE_DELAY')
).show()


### Funciones sum y sumDistinct

In [None]:
# Funciones sum, sumDistinct y avg

import findspark
findspark.init()
from pyspark.sql import SparkSession

spark = SparkSession.builder.getOrCreate()

vuelos = spark.read.parquet('./data/')

from pyspark.sql.functions import sum, sumDistinct, avg, count

# sum

vuelos.printSchema()

vuelos.select(
    sum('DISTANCE').alias('sum_dis')
).show()

# sumDistinct

vuelos.select(
    sumDistinct('DISTANCE').alias('sum_dis_dif')
).show()

# avg

vuelos.select(
    avg('AIR_TIME').alias('promedio_aire'),
    (sum('AIR_TIME') / count('AIR_TIME')).alias('prom_manual')
).show()


### Agregación con agrupación

In [None]:
# Agregación con agrupación

import findspark
findspark.init()
from pyspark.sql import SparkSession

spark = SparkSession.builder.getOrCreate()

vuelos = spark.read.parquet('./data/')

vuelos.printSchema()

from pyspark.sql.functions import desc

(vuelos.groupBy('ORIGIN_AIRPORT')
    .count()
    .orderBy(desc('count'))
).show()

(vuelos.groupBy('ORIGIN_AIRPORT', 'DESTINATION_AIRPORT')
    .count()
    .orderBy(desc('count'))
).show()


### Varias agregaciones por grupo

In [None]:
# Varias agregaciones por grupo

import findspark
findspark.init()
from pyspark.sql import SparkSession

spark = SparkSession.builder.getOrCreate()

vuelos = spark.read.parquet('./data/')

from pyspark.sql.functions import count, min, max, desc, avg

vuelos.groupBy('ORIGIN_AIRPORT').agg(
    count('AIR_TIME').alias('tiempo_aire'),
    min('AIR_TIME').alias('min'),
    max('AIR_TIME').alias('max')
).orderBy(desc('tiempo_aire')).show()

vuelos.groupBy('MONTH').agg(
    count('ARRIVAL_DELAY').alias('conteo_de_retrasos'),
    avg('DISTANCE').alias('prom_dist')
).orderBy(desc('conteo_de_retrasos')).show()


### Agregación con pivote

In [None]:
# Agregación con pivote

import findspark
findspark.init()
from pyspark.sql import SparkSession

spark = SparkSession.builder.getOrCreate()

estudiantes = spark.read.parquet('./data/')

estudiantes.show()

from pyspark.sql.functions import min, max, avg, col

estudiantes.groupBy('graduacion').pivot('sexo').agg(avg('peso')).show()

estudiantes.groupBy('graduacion').pivot('sexo').agg(avg('peso'), min('peso'), max('peso')).show()

estudiantes.groupBy('graduacion').pivot('sexo', ['M']).agg(avg('peso'), min('peso'), max('peso')).show()

estudiantes.groupBy('graduacion').pivot('sexo', ['F']).agg(avg('peso'), min('peso'), max('peso')).show()


### Inner Join

In [None]:
# Inner Join

import findspark
findspark.init()
from pyspark.sql import SparkSession

spark = SparkSession.builder.getOrCreate()

empleados = spark.read.parquet('./data/empleados')

departamentos = spark.read.parquet('./data/departamentos')

empleados.show()

departamentos.show()

# Inner join

from pyspark.sql.functions import col

join_df = empleados.join(departamentos, col('num_dpto') == col('id'))

join_df.show()

join_df = empleados.join(departamentos, col('num_dpto') == col('id'), 'inner')

join_df.show()

join_df = empleados.join(departamentos).where(col('num_dpto') == col('id'))

join_df.show()


### Left Outer Join

In [None]:
# Left Outer Join

import findspark
findspark.init()
from pyspark.sql import SparkSession

spark = SparkSession.builder.getOrCreate()

empleados = spark.read.parquet('./data/empleados/')

departamentos = spark.read.parquet('./data/departamentos/')

from pyspark.sql.functions import col

empleados.join(departamentos, col('num_dpto') == col('id'), 'leftouter').show()

empleados.join(departamentos, col('num_dpto') == col('id'), 'left_outer').show()

empleados.join(departamentos, col('num_dpto') == col('id'), 'left').show()


### Right Outer Join

In [None]:
# Right Outer Join

import findspark
findspark.init()
from pyspark.sql import SparkSession

spark = SparkSession.builder.getOrCreate()

empleados = spark.read.parquet('./data/empleados/')

departamentos = spark.read.parquet('./data/departamentos/')

from pyspark.sql.functions import col

empleados.join(departamentos, col('num_dpto') == col('id'), 'rightouter').show()

empleados.join(departamentos, col('num_dpto') == col('id'), 'right_outer').show()

empleados.join(departamentos, col('num_dpto') == col('id'), 'right').show()


### Full Outer Join

In [None]:
# Full Outer Join

import findspark
findspark.init()
from pyspark.sql import SparkSession

spark = SparkSession.builder.getOrCreate()

empleados = spark.read.parquet('./data/empleados/')

departamentos = spark.read.parquet('./data/departamentos/')

from pyspark.sql.functions import col

empleados.join(departamentos, col('num_dpto') == col('id'), 'outer').show()


### Left Anti Join

In [None]:
# Left Anti Join

import findspark
findspark.init()
from pyspark.sql import SparkSession

spark = SparkSession.builder.getOrCreate()

empleados = spark.read.parquet('./data/empleados/')

departamentos = spark.read.parquet('./data/departamentos/')

from pyspark.sql.functions import col

empleados.join(departamentos, col('num_dpto') == col('id'), 'left_anti').show()

departamentos.join(empleados, col('num_dpto') == col('id'), 'left_anti').show()


### Left Semi Join

In [None]:
# Left Semi Join

import findspark
findspark.init()
from pyspark.sql import SparkSession

spark = SparkSession.builder.getOrCreate()

empleados = spark.read.parquet('./data/empleados/')

departamentos = spark.read.parquet('./data/departamentos/')

from pyspark.sql.functions import col

empleados.join(departamentos, col('num_dpto') == col('id'), 'left_semi').show()


### Cross Join

In [None]:
# Cross Join

import findspark
findspark.init()
from pyspark.sql import SparkSession

spark = SparkSession.builder.getOrCreate()

empleados = spark.read.parquet('./data/empleados/')

departamentos = spark.read.parquet('./data/departamentos/')

from pyspark.sql.functions import col

df = empleados.crossJoin(departamentos)

df.show()

df.count()

### Manejo de nombres de columnas duplicados

In [None]:
# Manejo de nombres de columnas duplicados

import findspark
findspark.init()
from pyspark.sql import SparkSession

spark = SparkSession.builder.getOrCreate()

empleados = spark.read.parquet('./data/empleados/')

departamentos = spark.read.parquet('./data/departamentos/')

from pyspark.sql.functions import col

depa = departamentos.withColumn('num_dpto', col('id'))

depa.printSchema()

empleados.printSchema()

# Devuelve un error

empleados.join(depa, col('num_dpto') == col('num_dpto'))

# Forma correcta

df_con_duplicados = empleados.join(depa, empleados['num_dpto'] == depa['num_dpto'])

df_con_duplicados.printSchema()

df_con_duplicados.select(empleados['num_dpto']).show()

df2 = empleados.join(depa, 'num_dpto')

df2.printSchema()

empleados.join(depa, ['num_dpto']).printSchema()


### Shuffle, hash join y broadcast hash join

In [None]:
# Shuffle Hash Join y Broadcast Hash Join

import findspark
findspark.init()
from pyspark.sql import SparkSession

spark = SparkSession.builder.getOrCreate()

empleados = spark.read.parquet('./data/empleados/')

departamentos = spark.read.parquet('./data/departamentos/')

from pyspark.sql.functions import col, broadcast

empleados.join(broadcast(departamentos), col('num_dpto') == col('id')).show()

empleados.join(broadcast(departamentos), col('num_dpto') == col('id')).explain()

### Ejercicios

-----------
## Fin Notebook
-----------