# **Spark SQL Funciones**

## Introducción

### `Ventajas y desventajas de trabajar con Spark en Google Colab`

Ventajas:
- Fácil acceso
- Ejecutar Spark en prácticamente cualquier dispositivo, los recursos están en la nube.
- Como los recursos están la nube, no hay que preocuparse por los recursos de hardware
- Trabajo en equipo, más sencillo el trabajo colaborativo. Varias personas pueden trabajar sobre un mismo notebook.


Desventajas:
- No se guardan las configuraciones de Spark luego de un tiempo
> No obstante el notebook permanece intacto. Se puede volver a ejecutar las líneas de código para tener la configuración nuevamente.
- Escalabilidad, como el servicio es gratuito, los recursos son limitados.
> Para llevarlo a ambientes productivos, necesitamos una infraestructura capaz de brindarnos estas especificaciones.

## Instalaciones Necesarias para trabajar con Spark en Colab

### `Descarga e instalación de Apache Spark en Colab`
Se explica celda por celda las instalaciones necesarias. Para fines prácticos, utilizar la celda de abajo que instala todo junto.

In [None]:
# Instalar SDK Java 8
!apt-get install openjdk-8-jdk-headless -qq > /dev/null

In [None]:
# Descargar Spark 3.2.4
!wget -q https://archive.apache.org/dist/spark/spark-3.2.4/spark-3.2.4-bin-hadoop3.2.tgz

In [None]:
# Descomprimir el archivo descargado de Spark
!tar xf spark-3.2.4-bin-hadoop3.2.tgz

In [None]:
# Establecer las variables de entorno
import os

os.environ["JAVA_HOME"] = "/usr/lib/jvm/java-8-openjdk-amd64"
os.environ["SPARK_HOME"] = "/content/spark-3.2.4-bin-hadoop3.2"

In [None]:
# Instalar la librería findspark
!pip install -q findspark

In [None]:
# Instalar pyspark
!pip install -q pyspark

[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m316.9/316.9 MB[0m [31m2.3 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
  Building wheel for pyspark (setup.py) ... [?25l[?25hdone


In [None]:
### verificar la instalación ###
import findspark
findspark.init()

from pyspark.sql import SparkSession
spark = SparkSession.builder.master("local[*]").getOrCreate()

In [None]:
# Probando la sesión de Spark
df = spark.createDataFrame([{"Hola": "Mundo"} for x in range(10)])
# df.show(10, False)
df.show()

+-----+
| Hola|
+-----+
|Mundo|
|Mundo|
|Mundo|
|Mundo|
|Mundo|
|Mundo|
|Mundo|
|Mundo|
|Mundo|
|Mundo|
+-----+



### `Descarga e instalación de Apache Spark en una sola celda (Utilizar esta opción)`
Para fines prácticos, toda la instalación está en una celda, así luego de ejecutarse ya se puede trabajar con Spark.

In [1]:
# Instalar SDK Java 8
!apt-get install openjdk-8-jdk-headless -qq > /dev/null

# Descargar Spark 3.2.4
!wget -q https://archive.apache.org/dist/spark/spark-3.2.4/spark-3.2.4-bin-hadoop3.2.tgz

# Descomprimir el archivo descargado de Spark
!tar xf spark-3.2.4-bin-hadoop3.2.tgz

# Establecer las variables de entorno
import os

os.environ["JAVA_HOME"] = "/usr/lib/jvm/java-8-openjdk-amd64"
os.environ["SPARK_HOME"] = "/content/spark-3.2.4-bin-hadoop3.2"

# Instalar la librería findspark
!pip install -q findspark

# Instalar pyspark
!pip install -q pyspark

### verificar la instalación ###
import findspark
findspark.init()

from pyspark.sql import SparkSession
spark = SparkSession.builder.master("local[*]").getOrCreate()

# Probando la sesión de Spark
df = spark.createDataFrame([{"Hola": "Mundo"} for x in range(10)])
# df.show(10, False)
df.show()

+-----+
| Hola|
+-----+
|Mundo|
|Mundo|
|Mundo|
|Mundo|
|Mundo|
|Mundo|
|Mundo|
|Mundo|
|Mundo|
|Mundo|
+-----+



## `Importante: Carga de archivos en Google Colab`

Dos formas de cargar los archivos para resolver los ejercicios:

1. **Montando el drive para acceder a los contenidos** de la unidad.

  Utilizar esta opción si los datos para los ejercicios se cargan en una carpeta del drive y se quiere acceder a ella.

2. **Utilizando el cuadro de archivos**, donde se carga el archivo que se quiere trabajar. Se guarda temporalmente.
> Esta es la forma que voy a estar utizando

In [None]:
# Levantar una sesión de Spark
import findspark
findspark.init()
from pyspark.sql import SparkSession

spark = SparkSession.builder.appName('Cap2').master('local(*)').getOrCreate()
spark

### 1. Utilizando el montado al drive y yendo hacia la carpeta donde se encuentra el archivo.

In [None]:
from google.colab import drive
drive.mount('/content/drive')

In [None]:
rdd_texto = sc.wholeTextFiles('/content/drive/MyDrive/Spark/data-ej-PySpark-RDD/el_valor_del_big_data.txt')
rdd_texto.collect()

### 2. Utilizando el cuadro de archivos, donde se carga el archivo que se quiere trabajar. Se guarda temporalmente.

Esta es la que voy a estar utizando a lo largo de todos los notebooks.


In [None]:
rdd_texto = sc.wholeTextFiles('./el_valor_del_big_data.txt')
rdd_texto.collect()

## Spark UI en Colab

In [9]:
# Instalar SDK java 8
!apt-get install openjdk-8-jdk-headless -qq > /dev/null

# Descargar Spark
!wget -q https://archive.apache.org/dist/spark/spark-3.3.4/spark-3.3.4-bin-hadoop3.tgz

# Descomprimir la version de Spark
!tar xf spark-3.3.4-bin-hadoop3.tgz

# Establecer las variables de entorno
import os

os.environ["JAVA_HOME"] = "/usr/lib/jvm/java-8-openjdk-amd64"
os.environ["SPARK_HOME"] = "/content/spark-3.3.4-bin-hadoop3"

# Descargar findspark
!pip install -q findspark

# Crear la sesión de Spark
import findspark
findspark.init()
from pyspark.sql import SparkSession

spark = (
    SparkSession.builder
    .config('spark.ui.port', '4050')
    .getOrCreate()
)

from google.colab import output
output.serve_kernel_port_as_window(4050, path='/jobs/index.html')
from pyspark.sql.functions import col

spark.range(10000).toDF("id").filter(col('id') / 2 == 0).write.mode('overwrite').parquet('/output')

<IPython.core.display.Javascript object>

## Funciones en Spark SQL

### Funciones de fecha y hora

In [26]:
# Funciones de fecha y hora
import findspark
findspark.init()
from pyspark.sql import SparkSession

spark = SparkSession.builder.getOrCreate()

data = spark.read.parquet('./convertir')

data.printSchema()

data.show(truncate=False)

root
 |-- date: string (nullable = true)
 |-- timestamp: string (nullable = true)
 |-- date_str: string (nullable = true)
 |-- ts_str: string (nullable = true)

+----------+-----------------------+----------+----------------+
|date      |timestamp              |date_str  |ts_str          |
+----------+-----------------------+----------+----------------+
|2021-01-01|2021-01-01 20:10:50.723|01-01-2021|18-08-2021 46:58|
+----------+-----------------------+----------+----------------+



In [12]:
from pyspark.sql.functions import col, to_date, to_timestamp

data1 = data.select(
    to_date(col('date')).alias('date1'),
    to_timestamp(col('timestamp')).alias('ts1'),
    to_date(col('date_str'), 'dd-MM-yyyy').alias('date2'),
    to_timestamp(col('ts_str'), 'dd-MM-yyyy mm:ss').alias('ts2')
)

data1.show(truncate=False)
data1.printSchema()

+----------+-----------------------+----------+-------------------+
|date1     |ts1                    |date2     |ts2                |
+----------+-----------------------+----------+-------------------+
|2021-01-01|2021-01-01 20:10:50.723|2021-01-01|2021-08-18 00:46:58|
+----------+-----------------------+----------+-------------------+

root
 |-- date1: date (nullable = true)
 |-- ts1: timestamp (nullable = true)
 |-- date2: date (nullable = true)
 |-- ts2: timestamp (nullable = true)



In [15]:
from pyspark.sql.functions import date_format

data1.select(
    date_format(col('date1'), 'dd-MM-yyyy')
).show()

+------------------------------+
|date_format(date1, dd-MM-yyyy)|
+------------------------------+
|                    01-01-2021|
+------------------------------+



In [16]:
# Leyendo el archivo calculo.parquet para armar el df
df = spark.read.parquet('calculo.parquet')
df.show()

+------+-------------+------------+-------------------+
|nombre|fecha_ingreso|fecha_salida|       baja_sistema|
+------+-------------+------------+-------------------+
|  Jose|   2021-01-01|  2021-11-14|2021-10-14 15:35:59|
|Mayara|   2021-02-06|  2021-11-25|2021-11-25 10:35:55|
+------+-------------+------------+-------------------+



In [17]:
from pyspark.sql.functions import datediff, months_between, last_day

df.select(
    col('nombre'),
    datediff(col('fecha_salida'), col('fecha_ingreso')).alias('dias'),
    months_between(col('fecha_salida'), col('fecha_ingreso')).alias('meses'),
    last_day(col('fecha_salida')).alias('ultimo_dia_mes')
).show()

+------+----+-----------+--------------+
|nombre|dias|      meses|ultimo_dia_mes|
+------+----+-----------+--------------+
|  Jose| 317|10.41935484|    2021-11-30|
|Mayara| 292| 9.61290323|    2021-11-30|
+------+----+-----------+--------------+



In [18]:
from pyspark.sql.functions import date_add, date_sub

df.select(
    col('nombre'),
    col('fecha_ingreso'),
    date_add(col('fecha_ingreso'), 14).alias('mas_14_dias'),
    date_sub(col('fecha_ingreso'), 1).alias('menos_1_dia')
).show()

+------+-------------+-----------+-----------+
|nombre|fecha_ingreso|mas_14_dias|menos_1_dia|
+------+-------------+-----------+-----------+
|  Jose|   2021-01-01| 2021-01-15| 2020-12-31|
|Mayara|   2021-02-06| 2021-02-20| 2021-02-05|
+------+-------------+-----------+-----------+



In [19]:
from pyspark.sql.functions import year, month, dayofmonth, dayofyear, hour, minute, second

df.select(
    col('baja_sistema'),
    year(col('baja_sistema')),
    month(col('baja_sistema')),
    dayofmonth(col('baja_sistema')),
    dayofyear(col('baja_sistema')),
    hour(col('baja_sistema')),
    minute(col('baja_sistema')),
    second(col('baja_sistema'))
).show()

+-------------------+------------------+-------------------+------------------------+-----------------------+------------------+--------------------+--------------------+
|       baja_sistema|year(baja_sistema)|month(baja_sistema)|dayofmonth(baja_sistema)|dayofyear(baja_sistema)|hour(baja_sistema)|minute(baja_sistema)|second(baja_sistema)|
+-------------------+------------------+-------------------+------------------------+-----------------------+------------------+--------------------+--------------------+
|2021-10-14 15:35:59|              2021|                 10|                      14|                    287|                15|                  35|                  59|
|2021-11-25 10:35:55|              2021|                 11|                      25|                    329|                10|                  35|                  55|
+-------------------+------------------+-------------------+------------------------+-----------------------+------------------+-----------------

### Funciones de trabajo con Strings

In [21]:
# Funciones para trabajo con strings
import findspark
findspark.init()
from pyspark.sql import SparkSession

spark = SparkSession.builder.getOrCreate()

data = spark.read.parquet('data.parquet')
data.show()

+-------+
| nombre|
+-------+
| Spark |
+-------+



In [22]:
from pyspark.sql.functions import ltrim, rtrim, trim

data.select(
    ltrim('nombre').alias('ltrim'),
    rtrim('nombre').alias('rtrim'),
    trim('nombre').alias('trim')
).show()

+------+------+-----+
| ltrim| rtrim| trim|
+------+------+-----+
|Spark | Spark|Spark|
+------+------+-----+



In [23]:
from pyspark.sql.functions import col, lpad, rpad

data.select(
    trim(col('nombre')).alias('trim')
).select(
    lpad(col('trim'), 8, '-').alias('lpad'),
    rpad(col('trim'), 8, '=').alias('rpad')
).show()

df1 = spark.createDataFrame([('Spark', 'es', 'maravilloso')], ['sujeto', 'verbo', 'adjetivo'])
df1.show()

+--------+--------+
|    lpad|    rpad|
+--------+--------+
|---Spark|Spark===|
+--------+--------+

+------+-----+-----------+
|sujeto|verbo|   adjetivo|
+------+-----+-----------+
| Spark|   es|maravilloso|
+------+-----+-----------+



In [24]:
from pyspark.sql.functions import concat_ws, lower, upper, initcap, reverse

df1.select(
    concat_ws(' ', col('sujeto'), col('verbo'), col('adjetivo')).alias('frase')
).select(
    col('frase'),
    lower(col('frase')).alias('minuscula'),
    upper(col('frase')).alias('mayuscula'),
    initcap(col('frase')).alias('initcap'),
    reverse(col('frase')).alias('reversa')
).show()

+--------------------+--------------------+--------------------+--------------------+--------------------+
|               frase|           minuscula|           mayuscula|             initcap|             reversa|
+--------------------+--------------------+--------------------+--------------------+--------------------+
|Spark es maravilloso|spark es maravilloso|SPARK ES MARAVILLOSO|Spark Es Maravilloso|osollivaram se krapS|
+--------------------+--------------------+--------------------+--------------------+--------------------+



In [25]:
from pyspark.sql.functions import regexp_replace

df2 = spark.createDataFrame([(' voy a casa por mis llaves',)], ['frase'])

df2.show(truncate=False)

df2.select(
    regexp_replace(col('frase'), 'voy|por', 'ir').alias('nueva_frase')
).show(truncate=False)

+--------------------------+
|frase                     |
+--------------------------+
| voy a casa por mis llaves|
+--------------------------+

+------------------------+
|nueva_frase             |
+------------------------+
| ir a casa ir mis llaves|
+------------------------+



### Funciones de trabajo con colecciones

In [27]:
# Funciones para trabajo con colecciones
import findspark
findspark.init()
from pyspark.sql import SparkSession

spark = SparkSession.builder.getOrCreate()

data = spark.read.parquet('./parquet')
data.show(truncate=False)

data.printSchema()

+-----+--------------------------------------------+
|dia  |tareas                                      |
+-----+--------------------------------------------+
|lunes|[hacer la tarea, buscar agua, lavar el auto]|
+-----+--------------------------------------------+

root
 |-- dia: string (nullable = true)
 |-- tareas: array (nullable = true)
 |    |-- element: string (containsNull = true)



In [28]:
from pyspark.sql.functions import col, size, sort_array, array_contains

data.select(
    size(col('tareas')).alias('tamaño'),
    sort_array(col('tareas')).alias('arreglo_ordenado'),
    array_contains(col('tareas'), 'buscar agua').alias('buscar_agua')
).show(truncate=False)

+------+--------------------------------------------+-----------+
|tamaño|arreglo_ordenado                            |buscar_agua|
+------+--------------------------------------------+-----------+
|3     |[buscar agua, hacer la tarea, lavar el auto]|true       |
+------+--------------------------------------------+-----------+



In [29]:
from pyspark.sql.functions import explode

data.select(
    col('dia'),
    explode(col('tareas')).alias('tareas')
).show()

+-----+--------------+
|  dia|        tareas|
+-----+--------------+
|lunes|hacer la tarea|
|lunes|   buscar agua|
|lunes| lavar el auto|
+-----+--------------+



#### Formato JSON

In [30]:
# Formato JSON
json_df_str = spark.read.parquet('./JSON')

json_df_str.show(truncate=False)

json_df_str.printSchema()

from pyspark.sql.types import StructType, StructField, StringType, ArrayType

schema_json = StructType(
    [
     StructField('dia', StringType(), True),
     StructField('tareas', ArrayType(StringType()), True)
    ]
)

+---------------------------------------------------------------------------+
|tareas_str                                                                 |
+---------------------------------------------------------------------------+
|{"dia": "lunes","tareas": ["hacer la tarea","buscar agua","lavar el auto"]}|
+---------------------------------------------------------------------------+

root
 |-- tareas_str: string (nullable = true)



In [31]:
from pyspark.sql.functions import from_json, to_json

json_df = json_df_str.select(
    from_json(col('tareas_str'), schema_json).alias('por_hacer')
)

json_df.printSchema()

root
 |-- por_hacer: struct (nullable = true)
 |    |-- dia: string (nullable = true)
 |    |-- tareas: array (nullable = true)
 |    |    |-- element: string (containsNull = true)



In [35]:
json_df.select(
    col('por_hacer').getItem('dia').alias('dia'),
    col('por_hacer').getItem('tareas').alias('tareas'),
    col('por_hacer').getItem('tareas').getItem(0).alias('primer_tarea')
).show(truncate=False)

+-----+--------------------------------------------+--------------+
|dia  |tareas                                      |primer_tarea  |
+-----+--------------------------------------------+--------------+
|lunes|[hacer la tarea, buscar agua, lavar el auto]|hacer la tarea|
+-----+--------------------------------------------+--------------+



In [36]:
json_df.select(
    to_json(col('por_hacer'))
).show(truncate=False)

+-------------------------------------------------------------------------+
|to_json(por_hacer)                                                       |
+-------------------------------------------------------------------------+
|{"dia":"lunes","tareas":["hacer la tarea","buscar agua","lavar el auto"]}|
+-------------------------------------------------------------------------+



### Funciones when, coalesce y lit

In [37]:
# Funciones when, coalesce y lit

import findspark
findspark.init()
from pyspark.sql import SparkSession

spark = SparkSession.builder.getOrCreate()

data = spark.read.parquet('./data')
data.show()

+------+----+
|nombre|pago|
+------+----+
|  Jose|   1|
| Julia|   2|
| Katia|   1|
|  null|   3|
|  Raul|   3|
+------+----+



In [38]:
from pyspark.sql.functions import col, when, lit, coalesce

data.select(
    col('nombre'),
    when(col('pago') == 1, 'pagado').when(col('pago') == 2, 'sin pagar').otherwise('sin iniciar').alias('pago')
).show()

+------+-----------+
|nombre|       pago|
+------+-----------+
|  Jose|     pagado|
| Julia|  sin pagar|
| Katia|     pagado|
|  null|sin iniciar|
|  Raul|sin iniciar|
+------+-----------+



In [39]:
data.select(
    coalesce(col('nombre'), lit('sin nombre')).alias('nombre')
).show()

+----------+
|    nombre|
+----------+
|      Jose|
|     Julia|
|     Katia|
|sin nombre|
|      Raul|
+----------+



### Funciones definidas por el usuario UDF

In [41]:
# Funciones definidas por el usuario UDF

import findspark
findspark.init()
from pyspark.sql import SparkSession

spark = SparkSession.builder.getOrCreate()

def f_cubo(n):
    return n * n * n

from pyspark.sql.types import LongType

spark.udf.register('cubo', f_cubo, LongType())

spark.range(1,10).createOrReplaceTempView('df_temp')

spark.sql("SELECT id, cubo(id) AS cubo FROM df_temp").show()

+---+----+
| id|cubo|
+---+----+
|  1|   1|
|  2|   8|
|  3|  27|
|  4|  64|
|  5| 125|
|  6| 216|
|  7| 343|
|  8| 512|
|  9| 729|
+---+----+



In [43]:
def bienvenida(nombre):
    return (f'Hola {nombre}')

from pyspark.sql.functions import udf
from pyspark.sql.types import StringType

bienvenida_udf = udf(lambda x: bienvenida(x), StringType())

df_nombre = spark.createDataFrame([('Jose',), ('Julia',)], ['nombre'])
df_nombre.show()

+------+
|nombre|
+------+
|  Jose|
| Julia|
+------+



In [45]:
from pyspark.sql.functions import col

df_nombre.select(
    col('nombre'),
    bienvenida_udf(col('nombre')).alias('bie_nombre')
).show()

+------+----------+
|nombre|bie_nombre|
+------+----------+
|  Jose| Hola Jose|
| Julia|Hola Julia|
+------+----------+



In [46]:
@udf(returnType=StringType())
def mayuscula(s):
    return s.upper()

df_nombre.select(
    col('nombre'),
    mayuscula(col('nombre')).alias('may_nombre')
).show()

+------+----------+
|nombre|may_nombre|
+------+----------+
|  Jose|      JOSE|
| Julia|     JULIA|
+------+----------+



#### Pandas UDF

In [47]:
import pandas as pd
from pyspark.sql.functions import pandas_udf

def cubo_pandas(a: pd.Series) -> pd.Series:
    return a * a * a

cubo_udf = pandas_udf(cubo_pandas, returnType=LongType())

x = pd.Series([1, 2, 3])

print(cubo_pandas(x))

df = spark.range(5)

df.select(
    col('id'),
    cubo_udf(col('id')).alias('cubo_pandas')
).show()

0     1
1     8
2    27
dtype: int64
+---+-----------+
| id|cubo_pandas|
+---+-----------+
|  0|          0|
|  1|          1|
|  2|          8|
|  3|         27|
|  4|         64|
+---+-----------+



### Funciones de ventana

In [51]:
# Funciones de ventana

import findspark
findspark.init()
from pyspark.sql import SparkSession

spark = SparkSession.builder.getOrCreate()

df = spark.read.parquet('funciones_ventana.parquet')
df.show()

+-------+----+------------+----------+
| nombre|edad|departamento|evaluacion|
+-------+----+------------+----------+
| Lazaro|  45|      letras|        98|
|   Raul|  24|  matemática|        76|
|  Maria|  34|  matemática|        27|
|   Jose|  30|     química|        78|
| Susana|  51|     química|        98|
|   Juan|  44|      letras|        89|
|  Julia|  55|      letras|        92|
|  Kadir|  38|arquitectura|        39|
| Lilian|  23|arquitectura|        94|
|   Rosa|  26|      letras|        91|
|   Aian|  50|  matemática|        73|
|Yaneisy|  29|      letras|        89|
|Enrique|  40|     química|        92|
|    Jon|  25|arquitectura|        78|
|  Luisa|  39|arquitectura|        94|
+-------+----+------------+----------+



In [53]:
from pyspark.sql.window import Window
from pyspark.sql.functions import desc, row_number, rank, dense_rank, col

windowSpec = Window.partitionBy('departamento').orderBy(desc('evaluacion'))
windowSpec

<pyspark.sql.window.WindowSpec at 0x7b1eecb2cee0>

In [54]:
# row_number
df.withColumn('row_number', row_number().over(windowSpec)).filter(col('row_number').isin(1,2)).show()

+-------+----+------------+----------+----------+
| nombre|edad|departamento|evaluacion|row_number|
+-------+----+------------+----------+----------+
| Lilian|  23|arquitectura|        94|         1|
|  Luisa|  39|arquitectura|        94|         2|
| Lazaro|  45|      letras|        98|         1|
|  Julia|  55|      letras|        92|         2|
|   Raul|  24|  matemática|        76|         1|
|   Aian|  50|  matemática|        73|         2|
| Susana|  51|     química|        98|         1|
|Enrique|  40|     química|        92|         2|
+-------+----+------------+----------+----------+



In [55]:
# rank
df.withColumn('rank', rank().over(windowSpec)).show()

+-------+----+------------+----------+----+
| nombre|edad|departamento|evaluacion|rank|
+-------+----+------------+----------+----+
| Lilian|  23|arquitectura|        94|   1|
|  Luisa|  39|arquitectura|        94|   1|
|    Jon|  25|arquitectura|        78|   3|
|  Kadir|  38|arquitectura|        39|   4|
| Lazaro|  45|      letras|        98|   1|
|  Julia|  55|      letras|        92|   2|
|   Rosa|  26|      letras|        91|   3|
|   Juan|  44|      letras|        89|   4|
|Yaneisy|  29|      letras|        89|   4|
|   Raul|  24|  matemática|        76|   1|
|   Aian|  50|  matemática|        73|   2|
|  Maria|  34|  matemática|        27|   3|
| Susana|  51|     química|        98|   1|
|Enrique|  40|     química|        92|   2|
|   Jose|  30|     química|        78|   3|
+-------+----+------------+----------+----+



In [56]:
# dense_rank
df.withColumn('dense_rank', dense_rank().over(windowSpec)).show()

+-------+----+------------+----------+----------+
| nombre|edad|departamento|evaluacion|dense_rank|
+-------+----+------------+----------+----------+
| Lilian|  23|arquitectura|        94|         1|
|  Luisa|  39|arquitectura|        94|         1|
|    Jon|  25|arquitectura|        78|         2|
|  Kadir|  38|arquitectura|        39|         3|
| Lazaro|  45|      letras|        98|         1|
|  Julia|  55|      letras|        92|         2|
|   Rosa|  26|      letras|        91|         3|
|   Juan|  44|      letras|        89|         4|
|Yaneisy|  29|      letras|        89|         4|
|   Raul|  24|  matemática|        76|         1|
|   Aian|  50|  matemática|        73|         2|
|  Maria|  34|  matemática|        27|         3|
| Susana|  51|     química|        98|         1|
|Enrique|  40|     química|        92|         2|
|   Jose|  30|     química|        78|         3|
+-------+----+------------+----------+----------+



In [57]:
# Agregaciones con especificaciones de ventana
windowSpecAgg = Window.partitionBy('departamento')

from pyspark.sql.functions import min, max, avg

(df.withColumn('min', min(col('evaluacion')).over(windowSpecAgg))
.withColumn('max', max(col('evaluacion')).over(windowSpecAgg))
.withColumn('avg', avg(col('evaluacion')).over(windowSpecAgg))
.withColumn('row_number', row_number().over(windowSpec))
 ).show()

+-------+----+------------+----------+---+---+------------------+----------+
| nombre|edad|departamento|evaluacion|min|max|               avg|row_number|
+-------+----+------------+----------+---+---+------------------+----------+
| Lilian|  23|arquitectura|        94| 39| 94|             76.25|         1|
|  Luisa|  39|arquitectura|        94| 39| 94|             76.25|         2|
|    Jon|  25|arquitectura|        78| 39| 94|             76.25|         3|
|  Kadir|  38|arquitectura|        39| 39| 94|             76.25|         4|
| Lazaro|  45|      letras|        98| 89| 98|              91.8|         1|
|  Julia|  55|      letras|        92| 89| 98|              91.8|         2|
|   Rosa|  26|      letras|        91| 89| 98|              91.8|         3|
|   Juan|  44|      letras|        89| 89| 98|              91.8|         4|
|Yaneisy|  29|      letras|        89| 89| 98|              91.8|         5|
|   Raul|  24|  matemática|        76| 27| 76|58.666666666666664|         1|

### Catalyst Optimizer

Optimizador de consultas SQL
Diseñado para minimizar el tiempo de respuesta de las consultas SQL.

In [58]:
# Catalyst Optimizer
import findspark
findspark.init()
from pyspark.sql import SparkSession

spark = SparkSession.builder.getOrCreate()

data = spark.read.parquet('vuelos.parquet')
data.printSchema()
data.show()

root
 |-- YEAR: integer (nullable = true)
 |-- MONTH: integer (nullable = true)
 |-- DAY: integer (nullable = true)
 |-- DAY_OF_WEEK: integer (nullable = true)
 |-- AIRLINE: string (nullable = true)
 |-- FLIGHT_NUMBER: integer (nullable = true)
 |-- TAIL_NUMBER: string (nullable = true)
 |-- ORIGIN_AIRPORT: string (nullable = true)
 |-- DESTINATION_AIRPORT: string (nullable = true)
 |-- SCHEDULED_DEPARTURE: integer (nullable = true)
 |-- DEPARTURE_TIME: integer (nullable = true)
 |-- DEPARTURE_DELAY: integer (nullable = true)
 |-- TAXI_OUT: integer (nullable = true)
 |-- WHEELS_OFF: integer (nullable = true)
 |-- SCHEDULED_TIME: integer (nullable = true)
 |-- ELAPSED_TIME: integer (nullable = true)
 |-- AIR_TIME: integer (nullable = true)
 |-- DISTANCE: integer (nullable = true)
 |-- WHEELS_ON: integer (nullable = true)
 |-- TAXI_IN: integer (nullable = true)
 |-- SCHEDULED_ARRIVAL: integer (nullable = true)
 |-- ARRIVAL_TIME: integer (nullable = true)
 |-- ARRIVAL_DELAY: integer (null

In [59]:
from pyspark.sql.functions import col

nuevo_df = (data.filter(col('MONTH').isin(6,7,8))
            .withColumn('dis_tiempo_aire', col('DISTANCE') / col('AIR_TIME'))
).select(
    col('AIRLINE'),
    col('dis_tiempo_aire')
).where(col('AIRLINE').isin('AA', 'DL', 'AS'))

nuevo_df.explain(True)

== Parsed Logical Plan ==
'Filter 'AIRLINE IN (AA,DL,AS)
+- Project [AIRLINE#994, dis_tiempo_aire#1177]
   +- Project [YEAR#990, MONTH#991, DAY#992, DAY_OF_WEEK#993, AIRLINE#994, FLIGHT_NUMBER#995, TAIL_NUMBER#996, ORIGIN_AIRPORT#997, DESTINATION_AIRPORT#998, SCHEDULED_DEPARTURE#999, DEPARTURE_TIME#1000, DEPARTURE_DELAY#1001, TAXI_OUT#1002, WHEELS_OFF#1003, SCHEDULED_TIME#1004, ELAPSED_TIME#1005, AIR_TIME#1006, DISTANCE#1007, WHEELS_ON#1008, TAXI_IN#1009, SCHEDULED_ARRIVAL#1010, ARRIVAL_TIME#1011, ARRIVAL_DELAY#1012, DIVERTED#1013, ... 8 more fields]
      +- Filter MONTH#991 IN (6,7,8)
         +- Relation [YEAR#990,MONTH#991,DAY#992,DAY_OF_WEEK#993,AIRLINE#994,FLIGHT_NUMBER#995,TAIL_NUMBER#996,ORIGIN_AIRPORT#997,DESTINATION_AIRPORT#998,SCHEDULED_DEPARTURE#999,DEPARTURE_TIME#1000,DEPARTURE_DELAY#1001,TAXI_OUT#1002,WHEELS_OFF#1003,SCHEDULED_TIME#1004,ELAPSED_TIME#1005,AIR_TIME#1006,DISTANCE#1007,WHEELS_ON#1008,TAXI_IN#1009,SCHEDULED_ARRIVAL#1010,ARRIVAL_TIME#1011,ARRIVAL_DELAY#1012,DIV

### Ejercicios

Para estos ejercicios se utilizan los archivos movies.csv y movie_ratings.csv. En ambos archivos las columnas están delimitadas por un pip(“|”).\
Cada línea del archivo movies.csv representa a un actor que actuó en una película. Si una película tiene diez actores, habrá diez filas para esa película en particular.

1. Calcular la cantidad de películas en las que participó cada actor. La salida debe tener dos columnas: actor y conteo. La salida debe ordenarse por el conteo en orden descendente.

2. Calcular la cantidad de películas producidas cada año. La salida debe tener tres columnas: año, siglo al que pertenece el año y conteo. La salida debe ordenarse por el conteo en orden descendente.

3. Obtener la película con la calificación más alta por año. La salida debe tener solo una película por año y debe contener tres columnas: año, título de la película y valoración.

In [2]:
import findspark
findspark.init()
from pyspark.sql import SparkSession

spark = SparkSession.builder.getOrCreate()

movies = spark.read.option('sep', '|').option('inferSchema', 'true').option('header', 'true').csv('movies.csv')
ratings = spark.read.option('sep', '|').option('inferSchema', 'true').option('header', 'true').csv('movie_ratings.csv')

print('Movies:')
movies.printSchema()
movies.show(truncate=False)
print('Ratings:')
ratings.printSchema()
ratings.show(truncate=False)

Movies:
root
 |-- actor: string (nullable = true)
 |-- pelicula: string (nullable = true)
 |-- año: integer (nullable = true)

+-----------------+---------------------------+----+
|actor            |pelicula                   |año |
+-----------------+---------------------------+----+
|McClure, Marc (I)|Freaky Friday              |2003|
|McClure, Marc (I)|Coach Carter               |2005|
|McClure, Marc (I)|Superman II                |1980|
|McClure, Marc (I)|Apollo 13                  |1995|
|McClure, Marc (I)|Superman                   |1978|
|McClure, Marc (I)|Back to the Future         |1985|
|McClure, Marc (I)|Back to the Future Part III|1990|
|Cooper, Chris (I)|Me, Myself & Irene         |2000|
|Cooper, Chris (I)|October Sky                |1999|
|Cooper, Chris (I)|Capote                     |2005|
|Cooper, Chris (I)|The Bourne Supremacy       |2004|
|Cooper, Chris (I)|The Patriot                |2000|
|Cooper, Chris (I)|The Town                   |2010|
|Cooper, Chris (I)|Seabis

In [3]:
# 1. Calcular la cantidad de películas en las que participó cada actor.
# La salida debe tener dos columnas: actor y conteo.
# La salida debe ordenarse por el conteo en orden descendente.
from pyspark.sql.functions import col, desc

movies.groupBy('actor').count().orderBy(desc('count')).show()

+-------------------+-----+
|              actor|count|
+-------------------+-----+
|   Tatasciore, Fred|   38|
|      Welker, Frank|   38|
| Jackson, Samuel L.|   32|
|      Harnell, Jess|   31|
|        Damon, Matt|   27|
|      Willis, Bruce|   27|
|  Cummings, Jim (I)|   26|
|         Hanks, Tom|   25|
|   Lynn, Sherry (I)|   25|
|    Bergen, Bob (I)|   25|
|    McGowan, Mickie|   25|
|      Proctor, Phil|   24|
|        Cruise, Tom|   23|
|         Pitt, Brad|   23|
|   Wilson, Owen (I)|   23|
|       Depp, Johnny|   22|
|Freeman, Morgan (I)|   22|
|     Morrison, Rana|   22|
|Williams, Robin (I)|   22|
|      Diaz, Cameron|   21|
+-------------------+-----+
only showing top 20 rows



In [4]:
# 2. Calcular la cantidad de películas producidas cada año.
# La salida debe tener tres columnas: año, siglo al que pertenece el año y conteo.
# La salida debe ordenarse por el conteo en orden descendente.
from pyspark.sql.functions import countDistinct, when, lit

movies.groupBy('año').agg(
    countDistinct('pelicula').alias('conteo')
).withColumn('siglo', when( (col('año') >= 1900) & (col('año') < 2000), lit('XX') ).otherwise(lit('XXI'))).orderBy(desc('conteo')).select(
    col('año'),
    col('siglo'),
    col('conteo'),
).show()

+----+-----+------+
| año|siglo|conteo|
+----+-----+------+
|2011|  XXI|    86|
|2004|  XXI|    86|
|2006|  XXI|    86|
|2005|  XXI|    85|
|2008|  XXI|    82|
|2002|  XXI|    81|
|2010|  XXI|    78|
|2000|  XXI|    77|
|2003|  XXI|    76|
|2007|  XXI|    75|
|2001|  XXI|    71|
|2009|  XXI|    68|
|1999|   XX|    67|
|1997|   XX|    66|
|1998|   XX|    59|
|1996|   XX|    42|
|2012|  XXI|    32|
|1995|   XX|    25|
|1994|   XX|    16|
|1986|   XX|    16|
+----+-----+------+
only showing top 20 rows



In [5]:
# 3. Obtener la película con la calificación más alta por año.
# La salida debe tener solo una película por año y debe contener tres columnas:
# año, título de la película y valoración.
from pyspark.sql.window import Window
from pyspark.sql.functions import row_number, max

windowSpec = Window.partitionBy('año').orderBy(desc('valoracion'))
windowSpecAgg = Window.partitionBy('año')

In [6]:
ratings.select(
    row_number().over(windowSpec).alias('row_number'),
    max('valoracion').over(windowSpecAgg).alias('max_val')
).show()

+----------+-------+
|row_number|max_val|
+----------+-------+
|         1| 2.2207|
|         1| 7.9215|
|         2| 7.9215|
|         1| 7.8557|
|         2| 7.8557|
|         1| 1.5053|
|         1|  7.602|
|         1| 9.4226|
|         1| 5.4756|
|         1|10.7625|
|         1| 5.1258|
|         1|14.0607|
|         2|14.0607|
|         1| 6.3919|
|         2| 6.3919|
|         1|10.6375|
|         2|10.6375|
|         1| 0.6726|
|         1|12.8866|
|         2|12.8866|
+----------+-------+
only showing top 20 rows



In [7]:
ratings.withColumn('row_number', row_number().over(windowSpec)).withColumn('max_val', max('valoracion').over(windowSpecAgg)).show()

+----------+--------------------+----+----------+-------+
|valoracion|            pelicula| año|row_number|max_val|
+----------+--------------------+----+----------+-------+
|    2.2207|Snow White and th...|1937|         1| 2.2207|
|    7.9215|    The Wizard of Oz|1939|         1| 7.9215|
|    0.2206|  Gone with the Wind|1939|         2| 7.9215|
|    7.8557|           Pinocchio|1940|         1| 7.8557|
|    5.4263|            Fantasia|1940|         2| 7.8557|
|    1.5053|               Bambi|1942|         1| 1.5053|
|     7.602|   Song of the South|1946|         1|  7.602|
|    9.4226|          Cinderella|1950|         1| 9.4226|
|    5.4756|           Peter Pan|1953|         1| 5.4756|
|   10.7625|         Rear Window|1954|         1|10.7625|
|    5.1258|  Lady and the Tramp|1955|         1| 5.1258|
|   14.0607|Around the World ...|1956|         1|14.0607|
|    7.3377|The Ten Commandments|1956|         2|14.0607|
|    6.3919|     Sleeping Beauty|1959|         1| 6.3919|
|    4.6972|  

In [8]:
ratings.withColumn('row_number', row_number().over(windowSpec)).withColumn('max_val', max('valoracion').over(windowSpecAgg)).filter(
    col('row_number') == 1
).select(
    col('año'),
    col('pelicula'),
    col('max_val')
).show()

+----+--------------------+-------+
| año|            pelicula|max_val|
+----+--------------------+-------+
|1937|Snow White and th...| 2.2207|
|1939|    The Wizard of Oz| 7.9215|
|1940|           Pinocchio| 7.8557|
|1942|               Bambi| 1.5053|
|1946|   Song of the South|  7.602|
|1950|          Cinderella| 9.4226|
|1953|           Peter Pan| 5.4756|
|1954|         Rear Window|10.7625|
|1955|  Lady and the Tramp| 5.1258|
|1956|Around the World ...|14.0607|
|1959|     Sleeping Beauty| 6.3919|
|1960|              Psycho|10.6375|
|1961|One Hundred and O...| 0.6726|
|1962|     The Longest Day|12.8866|
|1963|It's a Mad Mad Ma...|  6.626|
|1964|        My Fair Lady|  7.587|
|1965|      Doctor Zhivago| 4.9304|
|1966|Who's Afraid of V...|11.1111|
|1967|     The Dirty Dozen| 13.388|
|1968|        The Love Bug|13.4383|
+----+--------------------+-------+
only showing top 20 rows



### Funciones de utilidad

#### Función para hacer un procesamiento básico de un dataframe

In [None]:
def procesar_df(df: DataFrame) -> DataFrame:
    """Realiza un procesamiento básico del dataframe ingresado:
        - Remueve espacios en blanco al inicio y final de cada campo.
        - Pasa el contenido textual a minuscula.
        - Valores nulos numericos a 0
        - Valores nulos string a unkown
    Args:
        df (pd.DataFrame): pandas dataframe a procesar.
    Returns:
        pd.DataFrame: Devuelve el dataframe ya procesado.
    """
    # Obtener las columnas de tipo string
    string_columns = [f.name for f in df.schema.fields if f.dataType.simpleString() == 'string']
    double_columns = [f.name for f in df.schema.fields if f.dataType.simpleString() == 'double']
    bigint_columns = [f.name for f in df.schema.fields if f.dataType.simpleString() == 'bigint']
    integer_columns = [f.name for f in df.schema.fields if ((f.dataType.simpleString() == 'int') | (f.dataType.simpleString() == 'integer'))]

    # Aplicar la función lower a cada columna de tipo string
    for col_name in string_columns:
        df = df.withColumn(col_name, F.trim(F.lower(F.col(col_name))))
    # Tratar los valores nulos o vacíos en el DataFrame
    df = df.fillna('unkown', subset=string_columns) \
        .fillna(0, subset=double_columns) \
        .fillna(0, subset=bigint_columns) \
        .fillna(0, subset=integer_columns)

    return df

-----------
## Fin Notebook
-----------