# Introducción
En este Notebook aprenderemos las operaciones básicas más utilizadas en PySpark, incluyendo un ejercicio práctico en el que realizaremos una pequeña ETL para extraer unos datos desde una API y los volcaremos en el catálogo de datos de Spark.

# Importación de módulos requeridos
En primer lugar necesitamos importar las funciones y objetos requeridos para la implementación.

- `SparkSession`: objeto necesario para la interacción con la herramienta de Spark a través de Python.
- `pyspark.sql.functions`: funciones de SQL que ofrece pyspark, necesarias para las transformaciones de los datos en la ETL.
- `fetch_api, save_json`: estas funciones están definidas dentro de nuestra propia librería llamada `blackops`. Contienen el código necesario para extraer y almacenar los datos de la API.
- `date, timedelta`: funciones para crear objetos de tipo fecha y timestamp dentro de Python.
- `random`: módulo utilizado para la generación de datos aleatorios.
- `DeltaTable`: objeto para interaccionar con tablas de tipo Delta. Se trata de un formato ampliamente utilizado en Spark, que ofrece muchas funcionalidades añadidas a nuestro catálogo de datos, como por ejemplo la posibilidad de revertir cambios.

In [1]:
from pyspark.sql import SparkSession
import pyspark.sql.functions as f
from blackops.crawlers.wallapop.functions import fetch_api
from blackops.utils.io import save_json
from blackops.utils.catalog import get_detailed_tables_info
from datetime import date, timedelta
import random
from delta import DeltaTable

Establecemos una semilla para la generación de números aleatorios. De esta manera, los resultados serán reproducibles

In [2]:
random.seed(45)

# Inicialización de la sesión de Spark

Establecemos ahora la comunicación con el motor de Spark desde Python, a través del objeto `SparkSession` de la librería `pyspark`.

En este caso de prueba no estamos utilizando un clúster, sino que haremos uso de una arquitectura local. El propio Jupyter Notebook ejercerá como Driver, como Master y como Ejecutor de las tareas.

Adicionalmente, estamos instalando dependencias externas como la librería Delta, que incorpora utilidades muy importantes para el manejo de las tablas en nuestro catálogo de datos (histórico de versiones de tablas, omisión de ficheros innecesarios en la lectura, etc.)

In [3]:
spark = (
    SparkSession.Builder()
    .master("local[*]")
    .config(
        map={
            "spark.driver.memory": "8g",
            "spark.jars.packages": "io.delta:delta-spark_2.12:3.2.0",
            "spark.sql.extensions": "io.delta.sql.DeltaSparkSessionExtension",
            "spark.sql.catalog.spark_catalog": "org.apache.spark.sql.delta.catalog.DeltaCatalog",
            "spark.databricks.delta.retentionDurationCheck.enabled": "false",
            "spark.sql.catalogImplementation": "hive",
            "spark.sql.repl.eagerEval.enabled": "true",
            "spark.sql.repl.eagerEval.truncate": "100",
        }
    )
    .getOrCreate()
)

24/09/29 17:59:22 WARN Utils: Your hostname, pop-os resolves to a loopback address: 127.0.1.1; using 192.168.1.40 instead (on interface enp3s0)
24/09/29 17:59:22 WARN Utils: Set SPARK_LOCAL_IP if you need to bind to another address
Ivy Default Cache set to: /home/dadiego/.ivy2/cache
The jars for the packages stored in: /home/dadiego/.ivy2/jars
io.delta#delta-spark_2.12 added as a dependency
:: resolving dependencies :: org.apache.spark#spark-submit-parent-d3d3f7a1-71b1-4842-be34-4d9fe2d3c810;1.0
	confs: [default]


:: loading settings :: url = jar:file:/home/dadiego/projects/ESIC/esic-bigdata-iv-blackops/.venv/lib/python3.10/site-packages/pyspark/jars/ivy-2.5.1.jar!/org/apache/ivy/core/settings/ivysettings.xml


	found io.delta#delta-spark_2.12;3.2.0 in central
	found io.delta#delta-storage;3.2.0 in central
	found org.antlr#antlr4-runtime;4.9.3 in central
:: resolution report :: resolve 101ms :: artifacts dl 4ms
	:: modules in use:
	io.delta#delta-spark_2.12;3.2.0 from central in [default]
	io.delta#delta-storage;3.2.0 from central in [default]
	org.antlr#antlr4-runtime;4.9.3 from central in [default]
	---------------------------------------------------------------------
	|                  |            modules            ||   artifacts   |
	|       conf       | number| search|dwnlded|evicted|| number|dwnlded|
	---------------------------------------------------------------------
	|      default     |   3   |   0   |   0   |   0   ||   3   |   0   |
	---------------------------------------------------------------------
:: retrieving :: org.apache.spark#spark-submit-parent-d3d3f7a1-71b1-4842-be34-4d9fe2d3c810
	confs: [default]
	0 artifacts copied, 3 already retrieved (0kB/3ms)
24/09/29 17:59:23

Una vez se ha inicializado la sesión, podemos acceder a la web `localhost:4040` para consultar la interfaz de administración que ofrece Spark. Allí, se podrá monitorizar las tareas que se mandan desde el Driver.

**Nota**: Si al inicializar la sesión de Spark obtenemos algún error en el que se nos indica que la variable `JAVA_HOME` no existe, lo más probable es que no tengamos instalado Java en nuestro sistema, y necesitamos instalarlo ya que Spark depende de Java para su funcionamiento. Para ello, en Linux podemos utilizar el gestor de paquetes: `sudo apt update && sudo apt install openjdk-17-jdk -y`.

# Creación de un DataFrame de Spark

En Spark podemos crear directamente un Dataframe a partir de una lista de datos, o bien de un Dataframe de pandas. Para ello se puede utilizar el método `spark.createDataFrame`.
Debemos especificar tanto los datos como el esquema que tiene el Dataframe (sus columnas y sus tipos).

En este caso hacemos uso del paquete `random` para generar datos aleatorios (pero reproducibles, al haber establecido una semilla).

In [4]:
# Podemos especificar el esquema del DataFrame usando una cadena de texto
schema = "id INT, nombre STRING, edad INT, salario FLOAT, es_empleado BOOLEAN, fecha_contratacion DATE, departamento STRING"

# Crear una lista de datos ficticios
nombres = [
    "Juan",
    "María",
    "Pedro",
    "Ana",
    "Luis",
    "Carla",
    "Miguel",
    "Sara",
    "David",
    "Laura",
]
departamentos = ["Ventas", "Marketing", "Finanzas", "IT", "RRHH"]

data = [
    (
        i,  # id
        random.choice(nombres),  # nombre
        random.randint(22, 60),  # edad
        round(random.uniform(20000, 80000), 2),  # salario
        random.choice([True, False]),  # es_empleado
        date(2024, 10, 1)
        - timedelta(days=random.randint(0, 3650)),  # fecha_contratacion
        random.choice(departamentos),  # departamento
    )
    for i in range(1, 31)  # Genera 30 registros aleatorios
]

# Crear el DataFrame usando el esquema en string
df = spark.createDataFrame(data, schema)

# Creamos una vista temporal del DataFrame en el catálogo, para poder hacer consultas en SQL.
df.createOrReplaceTempView("empleados")

# Mostramos el DataFrame resultante por pantalla
display(df)

                                                                                

id,nombre,edad,salario,es_empleado,fecha_contratacion,departamento
1,Luis,48,49281.69,True,2021-05-09,Finanzas
2,Juan,26,49055.36,True,2021-07-27,Ventas
3,Luis,24,73947.68,True,2023-03-28,Finanzas
4,Pedro,35,79554.92,False,2023-11-29,RRHH
5,Miguel,31,62027.07,True,2022-10-27,Finanzas
6,Luis,44,66505.58,False,2023-09-13,IT
7,María,23,65070.76,False,2015-12-18,IT
8,David,56,72059.12,False,2018-02-06,Ventas
9,Sara,45,74705.86,False,2023-01-02,Ventas
10,Ana,53,62691.89,False,2021-06-16,Marketing


# Operaciones de transformación

La sintaxis de Spark es muy similar a la del lenguaje SQL, de hecho, admite la introducción de comandos SQL para realizar las transformaciones de los datos. Vamos a ver algunas de las operaciones más habituales.

### Select

La operación más sencilla consiste en seleccionar simplemente un subconjunto de los datos, sin ninguna otra operación de transformación o filtro añadido. Por ejemplo, seleccionemos únicamente los campos `id` y `nombre`.

In [5]:
df.select("id", "nombre")

id,nombre
1,Luis
2,Juan
3,Luis
4,Pedro
5,Miguel
6,Luis
7,María
8,David
9,Sara
10,Ana


Al igual que en SQL estándar, podemos no solo seleccionar unas columnas sino aplicarles alguna función de transformación dentro del propio comando SELECT, y renombrarlas utilizando un alias.

Las funciones SQL en Spark están contenidas en el módulo `pyspark.sql.functions`, que hemos importado al principio y lo hemos almacenado en un objeto con alias `f` (por sencillez de uso).

Vamos a seleccionar en este caso los mismos campos que en el ejemplo anterior, sin embargo, al campo `nombre` le vamos a aplicar una transformación para visualizar el nombre en mayúsculas, y al resultado lo renombraremos `nombre_en_mayusculas`.

In [6]:
df.select("id", f.upper("nombre").alias("nombre_en_mayusculas"))

id,nombre_en_mayusculas
1,LUIS
2,JUAN
3,LUIS
4,PEDRO
5,MIGUEL
6,LUIS
7,MARÍA
8,DAVID
9,SARA
10,ANA


### WithColumn

Podemos añadir campos nuevos derivados a partir de otros campos utilizando el método `withColumn`. Este comando conservará todas las columnas de la tabla, y añadirá una adicional, con las transformaciones que le indiquemos.

Este método opera fila a fila, es decir, aplicará las transformaciones correspondientes registro a registro.

Por ejemplo, en nuestra tabla disponemos del campo `edad`, pero supongamos que nos interesa, para nuestra analítica, disponer de un campo con el año de nacimiento. En tal caso, podríamos concatenar dos funciones SQL: con la primera, `current_date`, extraemos la fecha actual, y sobre dicha fecha aplicamos la función `year` para extraer el año. Finalmente, a este año actual le restamos la edad que tiene el usuario para así calcular su año de nacimiento. Cada usuario dispondrá así de un año de nacimiento (transformación fila a fila).

In [7]:
df.withColumn("año_nacimiento", f.year(f.current_date()) - f.col("edad"))

id,nombre,edad,salario,es_empleado,fecha_contratacion,departamento,año_nacimiento
1,Luis,48,49281.69,True,2021-05-09,Finanzas,1976
2,Juan,26,49055.36,True,2021-07-27,Ventas,1998
3,Luis,24,73947.68,True,2023-03-28,Finanzas,2000
4,Pedro,35,79554.92,False,2023-11-29,RRHH,1989
5,Miguel,31,62027.07,True,2022-10-27,Finanzas,1993
6,Luis,44,66505.58,False,2023-09-13,IT,1980
7,María,23,65070.76,False,2015-12-18,IT,2001
8,David,56,72059.12,False,2018-02-06,Ventas,1968
9,Sara,45,74705.86,False,2023-01-02,Ventas,1979
10,Ana,53,62691.89,False,2021-06-16,Marketing,1971


### Filter

Podemos filtrar los datos de acuerdo a alguna condición especificada. Esta sentencia se corresponde con el comando `WHERE` en SQL. Por ejemplo, queremos obtener únicamente los datos de los empleados. 

Recordemos que en Python el operador de igualdad es `==`.

Para poder realizar operaciones con columnas, necesitamos especificar que se trata de una columna del DataFrame haciendo uso de la función `col`, puesto que si no lo que estaríamos es comparando un string con un booleano (`"es_empleado" == True`), que será siempre igual a `False`.

In [8]:
df.filter(f.col("es_empleado") == True)

# Si hacemos df.filter("es_empleado" == True) obtendremos un error porque los tipos no son los esperados.

id,nombre,edad,salario,es_empleado,fecha_contratacion,departamento
1,Luis,48,49281.69,True,2021-05-09,Finanzas
2,Juan,26,49055.36,True,2021-07-27,Ventas
3,Luis,24,73947.68,True,2023-03-28,Finanzas
5,Miguel,31,62027.07,True,2022-10-27,Finanzas
11,Miguel,46,70126.54,True,2018-03-14,IT
12,David,27,53608.56,True,2014-11-09,RRHH
17,Ana,53,21659.3,True,2018-01-19,Finanzas
18,Sara,28,30491.18,True,2015-12-13,Ventas
23,Carla,50,73172.89,True,2015-08-21,IT
25,Sara,59,59973.55,True,2018-04-23,Marketing


### Agrupaciones

Utilizando el comando group by, podemos agrupar nuestro dataset según los valores de una o varias columnas y posteriormente realizar una operación de agregación sobre cada conjunto, para así obtener estadísticas descriptivas de nuestros datos.

Por ejemplo, podemos obtener el número de empleados en marketing, con lo cual debemos agrupar por departamento y realizar una operación de agregación de suma. Estas operaciones se denominan "de agregación" o "de reducción" porque actúan sobre un conjunto de filas (todas aquellas que comparten el mismo valor del grupo) y devuelven un único valor

In [9]:
df.groupBy("departamento").agg(f.sum("salario").alias("salario_total"))

departamento,salario_total
Finanzas,524206.53515625
Ventas,421618.7890625
RRHH,292734.91015625
IT,355377.107421875
Marketing,122665.44140625


### Combinaciones
Naturalmente, la riqueza de PySpark es que podemos combinar filtros con agrupaciones, adición de columnas, cambios de tipos, etc para que nuestro dato final quede pulido.

Al contrario que en Pandas, todas las operaciones de transformación en Spark son *lazy*, es decir, no se evalúan hasta que se pide una acción (resultado). Esto permite que el catalizador de Spark optimice toda la cadena de consultas de la manera más apropiada antes de ser ejecutadas.

Veamos un ejemplo de consulta algo más avanzada: supongamos que queremos conocer cuál es el departamento del que más gente se ha ido a partir de 2017 para unos ciertos intervalos de meses: enero a mayo, junio a septiembre y octubre a diciembre. En este caso podemos comenzar aplicando unos filtros para quedarnos únicamente con registros de los que actualmente ya no son empleados y su fecha de contratación es igual o posterior a 2017. Después de aplicar dicho filtro, podemos añadir dos columnas transitorias para extraer el mes de la fecha de contratación y establecer los intervalos pedidos, utilizando la función `when`, que es esquivalente al `CASE` de SQL. Finalmente, agrupamos por estas categorías de mes y agregamos cogiendo la moda (el valor más repetido de un conjunto de datos).

In [10]:
df.filter(
    (f.col("es_empleado") == False) & (f.year("fecha_contratacion") >= 2017)
).withColumn("mes_contratacion", f.month("fecha_contratacion")).withColumn(
    "categoria_mes",
    f.when(f.col("mes_contratacion").between(1, 5), f.lit("enero-mayo"))
    .when(f.col("mes_contratacion").between(6, 9), f.lit("junio-septiembre"))
    .otherwise(f.lit("octubre-diciembre")),
).groupBy(
    "categoria_mes"
).agg(
    f.mode("departamento").alias("departamento_mas_repetido")
)

categoria_mes,departamento_mas_repetido
octubre-diciembre,RRHH
junio-septiembre,Marketing
enero-mayo,Ventas


La consulta equivalente en Spark SQL en este caso sería la siguiente

In [11]:
spark.sql(
    """
    SELECT
        CASE
            WHEN MONTH(fecha_contratacion) BETWEEN 1 AND 5 THEN 'enero-mayo'
            WHEN MONTH(fecha_contratacion) BETWEEN 6 AND 9 THEN 'junio-septiembre'
            ELSE 'octubre-diciembre'
        END AS categoria_mes,
        MODE(departamento) AS departamento_mas_repetido

    FROM empleados
    WHERE
        es_empleado = false AND
        YEAR(fecha_contratacion) >= 2017
    GROUP BY categoria_mes
    """
)

categoria_mes,departamento_mas_repetido
octubre-diciembre,RRHH
junio-septiembre,Marketing
enero-mayo,Ventas


Como se puede comprobar, se obtienen exactamente los mismos resultados

# Joins
Al igual que las operaciones de transformación, otro comando importante es el de JOIN, que nos permite establecer links entre campos de diferentes columnas, lo cual resulta fundamental para el análisis desde diferentes fuentes de datos.

Un análisis detallado y extenso de los diferentes tipos de Joins en Pyspark puede verse [aquí](https://sparkbyexamples.com/pyspark/pyspark-join-explained-with-examples/).

Esquemáticamente tenemos los siguientes tipos de JOINs:

![tipos de joins](joins.png "Tipos de Joins")

Por poner un ejemplo, creemos un segundo dataframe con información añadida de los departamentos

In [12]:
departamentos = spark.createDataFrame(
    [
        (
            1,
            "Finanzas",
            "Departamento encargado de elaborar informes financieros trimestrales",
        ),
        (
            2,
            "Ventas",
            "Departamento encargado de contactar con proveedores y registrar el stock",
        ),
    ], schema="id int, departamento string, descripcion string"
)
display(departamentos)

id,departamento,descripcion
1,Finanzas,Departamento encargado de elaborar informes financieros trimestrales
2,Ventas,Departamento encargado de contactar con proveedores y registrar el stock


Y ahora vamos a unir nuestra tabla de origen con esta tabla de información extendida por departamento. El campo de unión lógicamente será la columna `"departamento"`.

Empecemos con un INNER JOIN. En este caso, únicamente se mostrarán los departamentos de Finanzas y Ventas, ya que son los únicos registros comunes a ambas tablas (el resto de departamentos no está presente en la tabla `departamentos`)

In [13]:
df.join(departamentos, how="inner", on="departamento")

departamento,id,nombre,edad,salario,es_empleado,fecha_contratacion,id.1,descripcion
Finanzas,1,Luis,48,49281.69,True,2021-05-09,1,Departamento encargado de elaborar informes financieros trimestrales
Finanzas,3,Luis,24,73947.68,True,2023-03-28,1,Departamento encargado de elaborar informes financieros trimestrales
Finanzas,5,Miguel,31,62027.07,True,2022-10-27,1,Departamento encargado de elaborar informes financieros trimestrales
Finanzas,13,Laura,23,57455.18,False,2021-03-08,1,Departamento encargado de elaborar informes financieros trimestrales
Finanzas,15,María,22,57444.64,False,2017-10-22,1,Departamento encargado de elaborar informes financieros trimestrales
Finanzas,17,Ana,53,21659.3,True,2018-01-19,1,Departamento encargado de elaborar informes financieros trimestrales
Finanzas,22,Juan,26,39267.68,False,2022-02-16,1,Departamento encargado de elaborar informes financieros trimestrales
Finanzas,26,Ana,25,22953.8,False,2018-05-11,1,Departamento encargado de elaborar informes financieros trimestrales
Finanzas,29,Miguel,37,69922.06,True,2023-10-26,1,Departamento encargado de elaborar informes financieros trimestrales
Finanzas,30,Luis,27,70247.43,True,2020-05-23,1,Departamento encargado de elaborar informes financieros trimestrales


Ahora haremos un LEFT JOIN. En este caso se mostrarán todos los registros de la tabla de origen, con todos los departamentos por tanto. Y si existe un departamento equivalente en la tabla derecha, se mostrará también su información adicional. En caso de no existir un match (cuando el departamento no sea el de ventas o finanzas), dicha información adicional será nula

In [14]:
df.join(departamentos, how="left", on="departamento")

departamento,id,nombre,edad,salario,es_empleado,fecha_contratacion,id.1,descripcion
Finanzas,1,Luis,48,49281.69,True,2021-05-09,1.0,Departamento encargado de elaborar informes financieros trimestrales
Finanzas,3,Luis,24,73947.68,True,2023-03-28,1.0,Departamento encargado de elaborar informes financieros trimestrales
Ventas,2,Juan,26,49055.36,True,2021-07-27,2.0,Departamento encargado de contactar con proveedores y registrar el stock
Finanzas,5,Miguel,31,62027.07,True,2022-10-27,1.0,Departamento encargado de elaborar informes financieros trimestrales
RRHH,4,Pedro,35,79554.92,False,2023-11-29,,
IT,6,Luis,44,66505.58,False,2023-09-13,,
IT,7,María,23,65070.76,False,2015-12-18,,
Ventas,8,David,56,72059.12,False,2018-02-06,2.0,Departamento encargado de contactar con proveedores y registrar el stock
Ventas,9,Sara,45,74705.86,False,2023-01-02,2.0,Departamento encargado de contactar con proveedores y registrar el stock
Marketing,10,Ana,53,62691.89,False,2021-06-16,,


Por último, veamos el caso del LEFT ANTI JOIN. En este caso, se mostrarán únicamente los registros de la tabla origen que no tienen un match con los de la tabla de departamentos; es decir, aquellos registros del dataframe cuyo departamento no es ventas ni finanzas

In [15]:
df.join(departamentos, how="leftanti", on="departamento")

departamento,id,nombre,edad,salario,es_empleado,fecha_contratacion
RRHH,4,Pedro,35,79554.92,False,2023-11-29
IT,6,Luis,44,66505.58,False,2023-09-13
IT,7,María,23,65070.76,False,2015-12-18
Marketing,10,Ana,53,62691.89,False,2021-06-16
IT,11,Miguel,46,70126.54,True,2018-03-14
RRHH,12,David,27,53608.56,True,2014-11-09
IT,14,Pedro,33,20602.28,False,2024-03-12
RRHH,16,Sara,50,32029.18,False,2022-01-13
IT,20,Pedro,27,59899.06,False,2015-02-25
RRHH,19,María,26,61548.89,False,2015-11-03


# Caso práctico: Extracción de datos de Wallapop
Vamos a construir un pequeño ejemplo de una ETL (Extraction Transform Load). Extraeremos datos en crudo desde la API REST de Wallapop, los guardamos en una carpeta de almacenamiento, los leemos con spark, realizamos algunas transformaciones y almacenamos la tabla resultante en nuestro catálogo de datos

In [16]:
try:
    json_data = fetch_api(product="portátil")
    save_json(obj=json_data, path="data/wallapop.json", indent=4)
except Exception as e:
    print(f"Warning: No ha sido posible descargar los datos de la API: {e}")

Podemos previsualizar cuál es la estructura de nuestro fichero JSON utilizando el comando externo `cat` de nuestra terminal (válido únicamente en sistemas Unix, con `jq` instalado).

Si no está instalado `jq`, puede instalarse mediante `sudo apt update && sudo apt install jq -y`

In [17]:
%%sh
cat data/wallapop.json | jq -C | head -20

[1;39m{
  [0m[34;1m"data"[0m[1;39m: [0m[1;39m{
    [0m[34;1m"section"[0m[1;39m: [0m[1;39m{
      [0m[34;1m"payload"[0m[1;39m: [0m[1;39m{
        [0m[34;1m"order"[0m[1;39m: [0m[0;32m"most_relevance"[0m[1;39m,
        [0m[34;1m"title"[0m[1;39m: [0m[0;32m"Find what you want"[0m[1;39m,
        [0m[34;1m"items"[0m[1;39m: [0m[1;39m[
          [1;39m{
            [0m[34;1m"id"[0m[1;39m: [0m[0;32m"wzy4vyvp3vz5"[0m[1;39m,
            [0m[34;1m"user_id"[0m[1;39m: [0m[0;32m"p8j35wm4v7z9"[0m[1;39m,
            [0m[34;1m"title"[0m[1;39m: [0m[0;32m"Funda Portatil"[0m[1;39m,
            [0m[34;1m"description"[0m[1;39m: [0m[0;32m"¿HAS VUELTO AL INSTITUTO O AL TRABAJO?\nPues por aqui te dejo una funda perfecta para lo que necesitas! inluso para llevar documnetos tambien!\nNo dejes que el portatil este tirado por ahi, cuidalo y protegelo con esta funda!\n\n*PRECIO NEGOCIABLE*"[0m[1;39m,
            [0m[34;1m"category_id"[0m[1;

Una vez determinada la estructura que tiene nuestro fichero JSON de información, notamos que los datos que queremos obtener se encuentran dentro de la ruta `data -> section -> payload -> items`. Dicha ruta se corresponde con un array (lista) de items, que son los productos de Wallapop; cada uno de ellos tiene unos campos, algunos simples como `id`, `user_id`, y otros compuestos como `price -> amount` o `price -> currency`.

En primer lugar, observemos que si leemos el fichero JSON directamente no obtenemos una estructura muy amigable

In [18]:
wallapop = spark.read.json("data/wallapop.json", multiLine=True)
wallapop.show(truncate=50)

+--------------------------------------------------+--------------------------------------------------+
|                                              data|                                              meta|
+--------------------------------------------------+--------------------------------------------------+
|{{{[{{none}, 24200, 1727614635913, ¿HAS VUELTO ...|{eyJhbGciOiJIUzI1NiJ9.eyJwYXJhbXMiOnsic2VhcmNoU...|
+--------------------------------------------------+--------------------------------------------------+



Esto es porque nos ha cogido las dos primeras claves más externas de nuestro fichero JSON, que son los campos `"data"` y `"meta"`.

Observemos qué estructura hemos cargado haciendo un `printSchema` de nuestro DataFrame. De esta manera obtendremos información de los campos y sus tipos

In [19]:
wallapop.printSchema()

root
 |-- data: struct (nullable = true)
 |    |-- section: struct (nullable = true)
 |    |    |-- payload: struct (nullable = true)
 |    |    |    |-- items: array (nullable = true)
 |    |    |    |    |-- element: struct (containsNull = true)
 |    |    |    |    |    |-- bump: struct (nullable = true)
 |    |    |    |    |    |    |-- type: string (nullable = true)
 |    |    |    |    |    |-- category_id: long (nullable = true)
 |    |    |    |    |    |-- created_at: long (nullable = true)
 |    |    |    |    |    |-- description: string (nullable = true)
 |    |    |    |    |    |-- favorited: struct (nullable = true)
 |    |    |    |    |    |    |-- flag: boolean (nullable = true)
 |    |    |    |    |    |-- id: string (nullable = true)
 |    |    |    |    |    |-- images: array (nullable = true)
 |    |    |    |    |    |    |-- element: struct (containsNull = true)
 |    |    |    |    |    |    |    |-- average_color: string (nullable = true)
 |    |    |    |  

Ahora, para navegar a través de nuestro fichero JSON, podemos utilizar la sintáxis por puntos; es decir, para obtener el campo deseado `"items"`, que contiene la información de todos los productos, debemos acceder mediante `data.section.payload.items`.

In [20]:
wallapop.select("data.section.payload.items").show(truncate=100)

+----------------------------------------------------------------------------------------------------+
|                                                                                               items|
+----------------------------------------------------------------------------------------------------+
|[{{none}, 24200, 1727614635913, ¿HAS VUELTO AL INSTITUTO O AL TRABAJO?\nPues por aqui te dejo una...|
+----------------------------------------------------------------------------------------------------+



Sin embargo, seguimos sin apreciar una estructura legible. Esto es porque se nos está mostrando un único registro (fila) que contiene toda la información de los productos. Lo que nos interesa es que cada elemento de esta lista se muestre en un registro a parte. Para ello se utiliza la función SQL `explode`, que coge un array de elementos y devuelve un registro por cada uno de esos elementos. Veámoslo

In [21]:
wallapop.select(f.explode("data.section.payload.items")).show(truncate=100)

+----------------------------------------------------------------------------------------------------+
|                                                                                                 col|
+----------------------------------------------------------------------------------------------------+
|{{none}, 24200, 1727614635913, ¿HAS VUELTO AL INSTITUTO O AL TRABAJO?\nPues por aqui te dejo una ...|
|{{none}, 24200, 1727621784191, Portatil Android AIRIS KIRA N10040 en excelente estado excepto la ...|
|{{none}, 24200, 1727620753245, Portatil Compaq con windows 10 HOME.\n\nEspecificaciones: (ultima ...|
|{{none}, 24200, 1727608914555, portatil huawei d15\nse a muerto placa base \nse puede cambiar pla...|
|{{none}, 24200, 1727620311668, Portatil Samsung con Windows 10 PRO.\n\nEspecificaciones: (Ultima ...|
|{{none}, 24200, 1727616187851, Portátil HP                                                      -...|
|{{none}, 24200, 1727615988732, el portátil va perfectamente conectado a 

Bien, ya hemos avanzado, disponemos ahora de un registro por cada producto de la lista `items`, como queríamos. Sin embargo, se sigue mostrando toda la información en una misma columna. Eso lo solucionamos seleccionando los campos anidados deseados. Por ejemplo, supongamos que queremos coger el `id` del producto, el `user_id` del usuario y la fecha de creación del anuncio `created_at`. Una buena manera de operar sería crear una nueva columna llamada, por ejemplo, `"data"`, que contenga los registros explotados del campo de `"items"`, y luego utilizar este nuevo campo para obtener la info de los otros campos descendientes

In [22]:
wallapop.withColumn("data", f.explode("data.section.payload.items")).select(
    "data.id", "data.user_id", "data.created_at"
)

id,user_id,created_at
wzy4vyvp3vz5,p8j35wm4v7z9,1727614635913
nz04xroorrjo,xpzp19l94mz3,1727621784191
p614153vn265,kp618yw82dz5,1727620753245
3zl8x0n02p6x,7v6g14w1gn6e,1727608914555
mzn2mwqnd7zn,kp618yw82dz5,1727620311668
pj9mqn0e4o6e,wzvy25d3w4zl,1727616187851
0j24kno1pezy,pj9ynq345k6e,1727615988732
vjrqv4mywlzk,wzynrx809ej5,1727615300703
mzn2mwm912zn,8ejk8lrevpjx,1727615200913
nzx4vrg58ej2,nz0my851yejo,1727615455765


Fenomenal. Ahora, siguiendo esta misma operación, obtendremos un dataset completo tabular de los campos del JSON más relevantes. Observemos que para todos los campos seleccionados, se hace una conversión de tipos (método `cast`) y se asigna un alias (método `alias`). Esto es para que la tabla resultante sea consistente, y tenga siempre el mismo esquema de salida.

Notemos también que a campos que representan fechas pero se muestran como números enteros (milisegundos desde 1970, esto se conoce como UNIX time), como `created_at` o `modified_at`, les aplicamos una conversión mediante la función `from_unixtime` para representarlos como una fecha legible

In [23]:
wallapop = (
    spark.read.json("data/wallapop.json", multiLine=True, primitivesAsString=True)
    .withColumn("data", f.explode("data.section.payload.items"))
    .select(
        f.col("data.id").cast("string").alias("id"),
        f.col("data.title").cast("string").alias("title"),
        f.col("data.user_id").cast("string").alias("user_id"),
        f.col("data.category_id").cast("int").alias("category_id"),
        f.from_unixtime((f.col("data.created_at") / 1000))
        .cast("timestamp")
        .alias("created_at"),
        f.from_unixtime(f.col("data.modified_at") / 1000)
        .cast("timestamp")
        .alias("modified_at"),
        f.col("data.description").cast("string").alias("description"),
        f.col("data.favorited.flag").cast("boolean").alias("favorited"),
        f.col("data.is_favoriteable.flag").cast("boolean").alias("is_favoriteable"),
        f.col("data.is_refurbished.flag").cast("boolean").alias("is_refurbished"),
        f.col("data.location.latitude").cast("double").alias("latitude"),
        f.col("data.location.longitude").cast("double").alias("longitude"),
        f.col("data.location.postal_code").cast("string").alias("postal_code"),
        f.col("data.location.city").cast("string").alias("city"),
        f.col("data.location.region").cast("string").alias("region"),
        f.col("data.location.region2").cast("string").alias("region2"),
        f.col("data.location.country_code").cast("string").alias("country_code"),
        f.col("data.price.amount").cast("double").alias("amount"),
        f.col("data.price.currency").cast("string").alias("currency"),
        f.col("data.reserved.flag").alias("reserved"),
        f.col("data.shipping.item_is_shippable")
        .cast("boolean")
        .alias("item_is_shippable"),
        f.col("data.shipping.user_allows_shipping")
        .cast("boolean")
        .alias("user_allows_shipping"),
        f.current_timestamp().alias("__timestamp"),
    )
)
wallapop.printSchema()
display(wallapop)

root
 |-- id: string (nullable = true)
 |-- title: string (nullable = true)
 |-- user_id: string (nullable = true)
 |-- category_id: integer (nullable = true)
 |-- created_at: timestamp (nullable = true)
 |-- modified_at: timestamp (nullable = true)
 |-- description: string (nullable = true)
 |-- favorited: boolean (nullable = true)
 |-- is_favoriteable: boolean (nullable = true)
 |-- is_refurbished: boolean (nullable = true)
 |-- latitude: double (nullable = true)
 |-- longitude: double (nullable = true)
 |-- postal_code: string (nullable = true)
 |-- city: string (nullable = true)
 |-- region: string (nullable = true)
 |-- region2: string (nullable = true)
 |-- country_code: string (nullable = true)
 |-- amount: double (nullable = true)
 |-- currency: string (nullable = true)
 |-- reserved: string (nullable = true)
 |-- item_is_shippable: boolean (nullable = true)
 |-- user_allows_shipping: boolean (nullable = true)
 |-- __timestamp: timestamp (nullable = false)



id,title,user_id,category_id,created_at,modified_at,description,favorited,is_favoriteable,is_refurbished,latitude,longitude,postal_code,city,region,region2,country_code,amount,currency,reserved,item_is_shippable,user_allows_shipping,__timestamp
wzy4vyvp3vz5,Funda Portatil,p8j35wm4v7z9,24200,2024-09-29 14:57:15,2024-09-29 14:57:26,¿HAS VUELTO AL INSTITUTO O AL TRABAJO?\nPues por aqui te dejo una funda perfecta para lo que nece...,False,True,False,40.42023478019115,-3.708753774008156,28001,Madrid,Comunidad de Madrid,Madrid,ES,10.0,EUR,False,True,True,2024-09-29 17:59:40.825664
nz04xroorrjo,Portatil Android,xpzp19l94mz3,24200,2024-09-29 16:56:24,2024-09-29 16:56:34,Portatil Android AIRIS KIRA N10040 en excelente estado excepto la bateria que dura muy poco.\nEl ...,False,True,False,40.319447010985634,-3.78496968418676,28913,Leganés,Comunidad de Madrid,Madrid,ES,15.0,EUR,False,True,True,2024-09-29 17:59:40.825664
p614153vn265,Portatil Compaq,kp618yw82dz5,24200,2024-09-29 16:39:13,2024-09-29 16:40:18,Portatil Compaq con windows 10 HOME.\n\nEspecificaciones: (ultima foto)\n\nVendo porque he actual...,False,True,False,40.48015422451968,-3.363764940208042,28807,Alcalá de Henares,Comunidad de Madrid,Madrid,ES,90.0,EUR,False,True,True,2024-09-29 17:59:40.825664
3zl8x0n02p6x,Portatil,7v6g14w1gn6e,24200,2024-09-29 13:21:54,2024-09-29 13:22:04,portatil huawei d15\nse a muerto placa base \nse puede cambiar placa base y esta nuevo o para piezas,False,True,False,40.382014,-3.6199315,28031,Madrid,Comunidad de Madrid,Madrid,ES,150.0,EUR,False,True,False,2024-09-29 17:59:40.825664
mzn2mwqnd7zn,Portatil Samsung,kp618yw82dz5,24200,2024-09-29 16:31:51,2024-09-29 16:34:09,Portatil Samsung con Windows 10 PRO.\n\nEspecificaciones: (Ultima foto)\n\nVendo porque he compra...,False,True,False,40.48015422451968,-3.363764940208042,28807,Alcalá de Henares,Comunidad de Madrid,Madrid,ES,100.0,EUR,False,True,True,2024-09-29 17:59:40.825664
pj9mqn0e4o6e,Portátil HP,wzvy25d3w4zl,24200,2024-09-29 15:23:07,2024-09-29 15:23:18,Portátil HP -Intel core i3 ...,False,True,False,40.410466731190766,-3.712916009451285,28070,Madrid,Comunidad de Madrid,Madrid,ES,150.0,EUR,False,True,False,2024-09-29 17:59:40.825664
0j24kno1pezy,portátil apple,pj9ynq345k6e,24200,2024-09-29 15:19:48,2024-09-29 15:40:57,el portátil va perfectamente conectado a cargador. el cargador no le tengo se me perdió para piez...,False,True,False,40.42090620527826,-3.7114915849860446,28070,Madrid,Comunidad de Madrid,Madrid,ES,50.0,EUR,False,True,False,2024-09-29 17:59:40.825664
vjrqv4mywlzk,Lote de portatiles,wzynrx809ej5,24200,2024-09-29 15:08:20,2024-09-29 15:08:30,lote de portatiles 30€,False,True,False,40.37823562958887,-3.622643952144273,28018,Madrid,Comunidad de Madrid,Madrid,ES,30.0,EUR,False,True,False,2024-09-29 17:59:40.825664
mzn2mwm912zn,Portátil Hp,8ejk8lrevpjx,24200,2024-09-29 15:06:40,2024-09-29 17:39:24,"HP 15 ( Rt26ns) Windows 10 pro original, Disco solido Samsung 870 Evo 500GB recién cambiado, 12 G...",False,True,False,40.44739646310844,-3.608178209507684,28022,Madrid,Comunidad de Madrid,Madrid,ES,120.0,EUR,False,True,False,2024-09-29 17:59:40.825664
nzx4vrg58ej2,Ordenado portatil,nz0my851yejo,24200,2024-09-29 15:10:55,2024-09-29 15:11:06,"Se vende Ordenador portatil Acer Aspire 6930.Con Windows 10 pro, 4G de ram, 2 disco duro de 250G ...",False,True,False,40.46471829358647,-3.4473387203610137,28851,Mercado Parque Corredor del Henares,Comunidad de Madrid,Madrid,ES,150.0,EUR,False,True,True,2024-09-29 17:59:40.825664


Genial, ya hemos leído y transformado nuestro set de datos inicialmente desestructurado en una tabla bien estructurada, con unos campos y tipos fijados.

Ahora, para completar la ETL, almacenaremos esta tabla en el catálogo de datos de Spark. En este caso, al estar trabajando de manera local, dicho catálogo de datos estará localizado en esta misma ruta (`metastore_db/`, `spark-warehouse/`, `derby.log`), sin embargo, cuando trabajemos en un entorno corporativo, habitualmente el catálogo de datos se alojará en una arquitectura cloud, como AWS, Azure, GCP, Databricks, etc.

Aunque no es necesario, es una buena práctica crear en primera instancia la tabla Delta sobre la que escribiremos nuestro dataset, con un schema concreto, metadatos, etc.

In [24]:
dt = (
    DeltaTable.createIfNotExists(spark)
    .addColumns(wallapop.schema)
    .tableName("wallapop")
    .comment("Tabla de productos de Wallapop")
    .execute()
)

24/09/29 17:59:41 WARN HiveConf: HiveConf of name hive.stats.jdbc.timeout does not exist
24/09/29 17:59:41 WARN HiveConf: HiveConf of name hive.stats.retries.wait does not exist
24/09/29 17:59:43 WARN ObjectStore: Version information not found in metastore. hive.metastore.schema.verification is not enabled so recording the schema version 2.3.0
24/09/29 17:59:43 WARN ObjectStore: setMetaStoreSchemaVersion called but recording version is disabled: version = 2.3.0, comment = Set by MetaStore dadiego@127.0.1.1
24/09/29 17:59:43 WARN ObjectStore: Failed to get database default, returning NoSuchObjectException
24/09/29 17:59:44 WARN HiveExternalCatalog: Couldn't find corresponding Hive SerDe for data source provider delta. Persisting data source table `spark_catalog`.`default`.`wallapop` into Hive metastore in Spark SQL specific format, which is NOT compatible with Hive.
24/09/29 17:59:44 WARN SessionState: METASTORE_FILTER_HOOK will be ignored, since hive.security.authorization.manager is s

Con el método `createIfNotExists` estamos indicando que cree únicamente la tabla en el catálogo de datos si esta no existía previamente.

Una vez creada la tabla, insertaremos los datos de nuestro DataFrame mediante una operación `merge`. Para ello, identificamos en primer lugar cuáles son los campos que consituyen una clave primaria en la tabla, es decir, un identificador único de cada registro. En este caso, podríamos utilizar por ejemplo la combinación `"id"`, `"user_id"`; cuando estos campos coincidan entre la tabla fuente y la tabla destino, actualizaremos los registros en el destino, y cuando no coincidan, insertaremos los registros de la fuente en el destino. Esto lo podemos hacer utilizando los métodos del objeto `DeltaTable` dentro de la librería externa `delta-spark` que tenemos instalada en nuestro entorno virtual de Python.

In [25]:
(
    dt.alias("target")
    .merge(
        wallapop.alias("source"),
        "source.id = target.id AND source.user_id = target.user_id",
    )
    .whenMatchedUpdateAll()
    .whenNotMatchedInsertAll()
    .execute()
)

24/09/29 17:59:46 WARN SparkStringUtils: Truncated the string representation of a plan since it was too large. This behavior can be adjusted by setting 'spark.sql.debug.maxToStringFields'.
                                                                                

Ya hemos creado la tabla delta y hemos insertado los registros tabulados de la API de Wallapop en la misma. Ahora podemos consultar el catálogo mediante SQL.

Primero, utilizaremos una función auxiliar de nuestro propio paquete de Python creado (`blackops`), llamada `get_detailed_tables_info`, para obtener información detallada de todas las tablas de nuestro catálogo de datos

In [26]:
get_detailed_tables_info(spark)

24/09/29 17:59:49 WARN ObjectStore: Failed to get database global_temp, returning NoSuchObjectException


namespace,tableName,Unnamed: 2,Catalog,Comment,Created By,Created Time,Database,InputFormat,Last Access,Location,OutputFormat,Owner,Partition Provider,Provider,Serde Library,Table,Type
,empleados,,,,Spark,Sun Sep 29 17:59:25 CEST 2024,,,UNKNOWN,,,,,,,empleados,VIEW
default,wallapop,,spark_catalog,Tabla de productos de Wallapop,Spark 3.5.3,Sun Sep 29 17:59:45 CEST 2024,default,org.apache.hadoop.mapred.SequenceFileInputFormat,UNKNOWN,file:/home/dadiego/projects/ESIC/esic-bigdata-iv-blackops/notebooks/tema-2-etl/spark-warehouse/wa...,org.apache.hadoop.hive.ql.io.HiveSequenceFileOutputFormat,dadiego,Catalog,delta,org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe,wallapop,MANAGED


Podemos obtener información concreta de nuestra tabla recién creada, `wallapop`

In [27]:
dt.detail()

format,id,name,description,location,createdAt,lastModified,partitionColumns,clusteringColumns,numFiles,sizeInBytes,properties,minReaderVersion,minWriterVersion,tableFeatures
delta,1215d8e6-5910-434c-979b-b9fd6d883f99,spark_catalog.default.wallapop,Tabla de productos de Wallapop,file:/home/dadiego/projects/ESIC/esic-bigdata-iv-blackops/notebooks/tema-2-etl/spark-warehouse/wa...,2024-09-29 17:59:43.896,2024-09-29 17:59:49.228,[],[],1,15467,{},1,2,"[appendOnly, invariants]"


También podemos obtener una traza histórica de las veces que esta tabla se ha modificado, lo cual es enormemente útil de cara a disponer de un gobierno del dato escalable y robusto

In [28]:
dt.history()

version,timestamp,userId,userName,operation,operationParameters,job,notebook,clusterId,readVersion,isolationLevel,isBlindAppend,operationMetrics,userMetadata,engineInfo
1,2024-09-29 17:59:49.228,,,MERGE,"{predicate -> [""((id#906 = id#1212) AND (user_id#908 = user_id#1214))""], matchedPredicates -> [{""...",,,,0.0,Serializable,False,"{numTargetRowsCopied -> 0, numTargetRowsDeleted -> 0, numTargetFilesAdded -> 1, numTargetBytesAdd...",,Apache-Spark/3.5.3 Delta-Lake/3.2.0
0,2024-09-29 17:59:44.065,,,CREATE TABLE,"{partitionBy -> [], clusterBy -> [], description -> Tabla de productos de Wallapop, isManaged -> ...",,,,,Serializable,True,{},,Apache-Spark/3.5.3 Delta-Lake/3.2.0


Vemos como en el histórico aparecen las dos operaciones que hemos ejecutado sobre esta tabla Delta: la operación de creación de la tabla, y la operación de merge para insertar los nuevos datos.

Podemos también ejecutar cualquier operación SQL con esta tabla del catálogo. Por ejemplo, veamos una tabla resumen de cuántos productos existen por comunidad y código postal, ordenada de mayor a menor cantidad de productos

In [29]:
spark.sql(
    "select region, postal_code, count(*) as n_products from wallapop group by region, postal_code order by n_products desc limit 15"
)

region,postal_code,n_products
Comunidad de Madrid,28070,5
Comunidad de Madrid,28980,2
Comunidad de Madrid,28001,2
Comunidad de Madrid,28807,2
Comunidad de Madrid,28822,1
Comunidad de Madrid,28041,1
Comunidad de Madrid,28043,1
Comunidad de Madrid,28700,1
Comunidad de Madrid,28342,1
Comunidad de Madrid,28924,1
