# Reto 1: Extract Transform Load
Página web de la API Rest: [website](http://static.53.217.107.91.clients.your-server.de)

En dicho enlace se ofrece la información de los diferentes endpoints de la API.

### Instalación de paquetes necesarios
Instalamos la librería de Python del curso, que contiene los módulos y funciones necesarios para el desarrollo del ejercicio

In [None]:
!pip install git+https://github.com/donielix/esic-bigdata-iv-blackops.git > /dev/null

### Importación de paquetes necesarios
Estas funciones auxiliares definidas dentro del paquete `blackops` nos ayudarán a realizar las peticiones web abstrayéndonos de la complejidad añadida de extraer y añadir los Bearer Tokens a las cabeceras de cada petición web. Para saber como funcionan (qué parámetros de entrada esperan y qué salida devuelven), pueden consultar su documentación

In [2]:
from blackops.utils.catalog import start_spark_session
from blackops.utils.io import save_json, get_token, get_api_data
import pyspark.sql.functions as f

### Inicialización de la sesión de Spark
Inicializamos la sesión de Spark haciendo uso de la función auxiliar `start_spark_session`

In [None]:
spark = start_spark_session()

### Inicialización de variables globales
Aquí se ofrece una variable global que contiene la url base de la API, para que puedas reutilizarla en las distintas funciones. Recuerda que esta es solo la URL base, y debes concatenarla con los diferentes endpoints para obtener los datos requeridos, haciendo uso o bien del operador `+` o de las f-strings (`f"key -> {value}"`), como se ha visto en clase.

In [4]:
API_URL = "http://static.53.217.107.91.clients.your-server.de"

# Respuestas

### Apartado 1 - Extracción y almacenamiento de los datos en crudo
En este apartado, debes extraer la información de la API REST y guardar el resultado de cada endpoint en un fichero `.json` dentro de la carpeta `data/`. Es decir, al final de este apartado, en la ruta del disco duro deben encontrarse los siguientes ficheros (uno por cada endpoint de la API):

```bash
.
├── data/
│   ├── incidentes.json
│   ├── usuarios.json
│   ├── equipos_afectados.json
```

Para ello, puedes hacer uso de las funciones auxiliares `get_api_data`, `get_token` y `save_json`.

- La función `get_api_data` devuelve la información de un determinado endpoint, en forma de diccionario. En su primer argumento, debes pasarle el endpoint exacto del que quieres obtener la información (asegurate de que su ruta es la adecuada). También acepta un segundo argumento para pasarle la información del token de autenticación, necesario para aquellos endpoints que requieran de autenticación.

- La función `get_token` devuelve el token necesario para la autenticación. Como argumentos de entrada deben pasársele la URL correspondiente al endpoint de autenticación (login), con el usuario y contraseña adecuados (consultar en la web de la prueba, [website](http://static.53.217.107.91.clients.your-server.de)).

- La función `save_json` acepta como entrada un diccionario de Python con la información recogida de la API y una ruta. Lo que hará será guardar la información en dicha ruta del disco. Esta función no devuelve nada, asi que no es necesario almacenar su output en ninguna variable

**Nota**: Para mostrar la ayuda adicional (documentación) de una función en Python, puedes incorporar un signo de interrogación (?) al final del objeto; por ejemplo: `save_json?`.



In [5]:
# INSERTAR CÓDIGO


Comprobemos que los ficheros requeridos están en la carpeta pedida con el siguiente comando (no hace falta editar esta celda)

In [None]:
!ls -alh data/

### Apartado 2 - Lectura y transformación de los ficheros JSON
Una vez has almacenado todos los JSON con la información de la API REST en la carpeta correspondiente, debes leer cada uno de los ficheros con `pyspark`, y emplear las transformaciones correspondientes para obtener unas tablas bien estructuradas con todos los campos relevantes. El comando para leer ficheros JSON con pyspark es `spark.read.json`. Puedes consultar el ejemplo tratado en clase, en [este enlace](https://github.com/donielix/esic-bigdata-iv-blackops/blob/main/notebooks/tema-2-etl/introduccion-spark.ipynb).

Comienza simplemente leyendo los ficheros y almacenándolos cada uno en su variable correspondiente

In [7]:
# INSERTAR CÓDIGO


### Apartado 3 - Union de todas las tablas
Por último, une los campos relevantes de todas las tablas de este modelo de datos, y muestra una tabla el número de incidentes detectados por cada departamento y sistema operativo. Es decir, una tabla como:

| departamento | sistema_operativo | n_incidentes |
|--------------|-------------------|--------------|
|              |                   |              |

Finalmente, guarda esta tabla en el catálogo como una tabla de tipo Delta, haciendo uso de la instrucción:

```tabla.write.format("delta").mode("overwrite").saveAsTable("incidentes_por_departamento")```

In [8]:
# INSERTAR CÓDIGO
