# Descripción

Contamos con unos datasets que corresponden a un **listado de inspecciones de sanidad en locales** (Restaurantes, supermercados, etc), junto con su respectivo riesgo para la salud. Contamos con otro dataset que nos muestra una **descripción de dicho riesgo**.

**El objetivo es cargar esos datasets bajo unas especificaciones concretas y manipularlos acorde a las instrucciones de cada ejercicio.**

Todas las operaciones necesarias están descritas en los ejercicios, aunque se valorará tareas extras por propia iniciativa del alumno. También se valorará el uso del API de DataFrame.

**La entrega será un fichero zip con tu nombre y apellidos** que contendrá:
- Este fichero `ipynb`, con las correspondientes soluciones.
- Imagen del plan de ejecución del ejercicio 4.
- Descripción del plan de ejecución que podrá estar embebido en el fichero `ipynb`.

El ejercicio 10 tienes dos opciones, puedes optar por el `10a` que es continuación de este proyecto o por el `10b`

# Descargar Datasets

In [0]:
%sh 
curl -O 'https://raw.githubusercontent.com/masfworld/datahack_docker/master/zeppelin/data/food_inspections_lite.csv' --output-dir /databricks/driver
curl -O 'https://raw.githubusercontent.com/masfworld/datahack_docker/master/zeppelin/data/risk_description.csv'  --output-dir /databricks/driver

In [0]:
dbutils.fs.cp('file:/databricks/driver/food_inspections_lite.csv','dbfs:/dataset/food_inspections_lite.csv')
dbutils.fs.cp('file:/databricks/driver/risk_description.csv','dbfs:/dataset/risk_description.csv')

In [0]:
dbutils.fs.ls('/dataset/')

In [0]:
KAFKA_BOOSTRAP_SERVER="35.227.18.205:9094"

In [0]:
checkpoint_path = "/tmp/project_spark/_checkpoint"

In [0]:
spark.conf.set("spark.sql.streaming.checkpointLocation", checkpoint_path)
spark.conf.get("spark.sql.streaming.checkpointLocation")

# Ejercicio 1
---

1. **Crea dos dataframes, uno a partir del fichero `food_inspections_lite.csv` y otro a partir de `risk_description.csv`**
2. **Convierte esos dos dataframes a tablas delta**


# Ejercicio 2
**Obtén el número de inspecciones distintas con Riesgo alto `Risk 1 (High)`**

---




# Ejercicio 3
**A partir de los dataframes cargados anteriormente, obtén una tabla con las siguientes columnas:<br>**
1. `DBA Name`
2. `Facility Type`
3. `Risk`
4. `Risk description`

---

# Ejercicio 4
**Accede a la Spark UI para ver el plan de ejecución. Describe cada una de las piezas/cajas que componen el plan de ejecución (Una descripción breve de una línea por caja será suficiente).**<br><br>**Recordad hacer un pantallazo del plan de ejecución analizado**

---



# Ejercicio 5
**1. Obtén el número de inspecciones para cada local (columna `DBA Name`) y su resultado (columna `Results`).**<br><br>
**2. Obtén las dos locales (`DBA Name`) que más inspecciones han tenido por cada uno de los resultados**<br><br>
**3. Guarda los resultados en una nueva tabla Delta llamada `inspections_results`**

---

# Ejercicio 6
1. **Actualiza la tabla delta creada en el ejercicio anterios, con el valor `DBA_Name = "error"`**
2. **Restaura la tabla a su estado original**

---



# Ejercicio 7

**Crea una aplicación son Structured Streaming que lea los datos del topic de Kafka `inspections`. La url del servidor Kafka está definida al comienzo de este notebook**

**Los datos procedentes de este topic son exactamente los mismos que estamos analizando durante todo este notebook, `Food Inspections`, así que el esquema es el mismo**

# Ejercicio 8
**En base a la fuente de datos del ejercicio anterior, obtén cada 5 segundos el número de inspecciones por `Facility Type`**

# Ejercicio 9
**En base a la fuente de datos del ejercicio 7, obtén cada 5 segundos el número de inspecciones por `Results` de los últimos 30 segundos**

# Ejercicio 10a
1. **Actualiza la columna `Results` de la tabla delta de food inspections creada en el ejercicio 1 con el valor `No result`**
2. **Ahora que tenemos la tabla delta corrompida con el valor `No result`, vamos a resolver el problema con los datos que nos llegan de Kafka, los cuales vamos a suponer como verdad absoluta, y por tanto tendremos que actualizar en tiempor real conforme vayan llegando elementos en Kafka**.<br>

---

Se aconseja para todos los streams anteriores ya que el de este ejercicio suele hacer un uso intensivo de los recursos

# Ejercicio 10b
Diseñar una solución de análisis en tiempo real utilizando Apache Spark en Databricks para consumir datos de vuelos transmitidos por Kafka, almacenarlos en una tabla Delta y visualizar la posición actual de los vuelos sobre un mapa.
- Los datos de los vuelos están en un topic llamado `flights`
- Guardar en una tabla delta todos los vuelos, pero sólo una entrada por código de vuelo, de manera que si recibimos actualizaciones de posiciones del vuelo, se actualizará el registro correspondiente. Esto debe suceder en tiempo real.

---

Para más información sobre los datos de entrada consultar [OpenSky Network](https://openskynetwork.github.io/opensky-api/rest.html#all-state-vectors). A continuación se muestra un pantallazo de la visualización que se pretende conseguir. Te en cuenta que esta visualización de mapa está disponible en Databricks, con lo que no necesitará importar ninguna librería externa

![Flight Map](https://raw.githubusercontent.com/masfworld/datahack_docker/ab487794745499248388b67cf574085c5d86746e/zeppelin/data/image.png)