# Descripción

Contamos con unos datasets que corresponden a un **listado de inspecciones de sanidad en locales** (Restaurantes, supermercados, etc), junto con su respectivo riesgo para la salud. Contamos con otro dataset que nos muestra una **descripción de dicho riesgo**.

**El objetivo es cargar esos datasets bajo unas especificaciones concretas y manipularlos acorde a las instrucciones de cada ejercicio.**

Todas las operaciones necesarias están descritas en los ejercicios, aunque se valorará tareas extras por propia iniciativa del alumno. También se valorará el uso del API de DataFrame

**La entrega será este fichero "ipynb" (el nombre del fichero será vuestro nombre), junto con la imagen del plan de ejecución del ejercicio 4**, comprimido en un fichero zip con el nombre y apellidos del alumno

# Descargar Datasets

In [None]:
%sh 
curl -O 'https://raw.githubusercontent.com/masfworld/datahack_docker/master/zeppelin/data/food_inspections_lite.csv'
curl -O 'https://raw.githubusercontent.com/masfworld/datahack_docker/master/zeppelin/data/risk_description.csv'

In [None]:
dbutils.fs.cp('file:/databricks/driver/food_inspections_lite.csv','dbfs:/dataset/food_inspections_lite.csv')
dbutils.fs.cp('file:/databricks/driver/risk_description.csv','dbfs:/dataset/risk_description.csv')

In [None]:
dbutils.fs.ls('/dataset/')

# Ejercicio 1
---

1. **Crea dos dataframes, uno a partir del fichero `food_inspections_lite.csv` y otro a partir de `risk_description.csv`**
2. **Convierte esos dos dataframes a tablas delta**


# Ejercicio 2
**Obtén el número de inspecciones distintas con Riesgo alto `Risk 1 (High)`**

---




# Ejercicio 3
**A partir de los dataframes cargados anteriormente, obtén una tabla con las siguientes columnas:<br>**
1. `DBA Name`
2. `Facility Type`
3. `Risk`
4. `Risk description`

---

# Ejercicio 4
**Accede a la Spark UI para ver el plan de ejecución del ejercicio anterior (ejercicio 3). Describe cada una de las piezas/cajas que componen el plan de ejecución (Una descripción breve de una línea por caja será suficiente).**<br><br>**Recordad hacer un pantallazo del plan de ejecución analizado y enviadlo junto con este notebook**

---



# Ejercicio 5
**1. Para cada local (columna `DBA Name`) y su resultado (columna `Results`), obtén el número de inspecciones que ha tenido**<br><br>
**2. Obtén los dos locales (`DBA Name`) que más inspecciones han tenido por cada uno de los resultados**<br><br>
**3. Guarda los resultados del punto 2 en una nueva tabla Delta llamada `inspections_results`**

---

# Ejercicio 6
1. **Actualiza la tabla delta del ejercicio anterior `inspections_results`, especificando `DBA_Name = error`**<br>
2. **Restaura la tabla a su estado original**

---



# Ejercicio 7

**Crea una aplicación son Structured Streaming que lea los datos del topic de Kafka `inspections`. La url del servidor Kafka es `35.237.99.179:9094`:**

**Los datos procedentes de este topic son exactamente los mismos que estamos analizando durante todo este notebook, `Food Inspections`, así que el esquema es el mismo**

# Ejercicio 8
**En base a la fuente de datos del ejercicio anterior, obtén cada 5 segundos el número de inspecciones por `Facility Type`**

# Ejercicio 9
**En base a la fuente de datos del ejercicio 7, obtén cada 5 segundos el número de inspecciones por `Results` de los últimos 30 segundos**

# Ejercicio 10
1. **Actualiza la columna `Results` de la tabla delta de food inspections creada en el ejercicio 1 al valor `No result`**
2. **Actualiza los datos de la tabla modificada en el punto 1 conforme vayan llegando elementos en Kafka**

---

Se aconseja parar todos los streams anteriores ya que el de este ejercicio suele hacer un uso intensivo de los recursos

# Ejercicio 11: Diseño de Arquitectura de Datos

**Objetivo:** Diseñar una arquitectura de datos para manejar el sistema de inspecciones de sanidad descrito en los datasets utilizados en este proyecto.

**Descripción:**
Queremos que diseñen una arquitectura de datos eficiente y escalable para el sistema de inspecciones de sanidad. Los elementos a tener en cuenta:
* Para obtener los datos (CSVs incluidos en este proyecto) será necesario contectarse a un API REST
* Necesitamos limpiar los datos ya que en muchas veces vienen incompletos o con campos que no corresponden con la realidad
* Tenemos que cotejar las empresas con las empresas dadas de alta en el sistema, las cuales están almacenadas en un directorio en dbfs, en formato delta lake.
* En paralelo debemos diseñar un sistema de registro para los inspectores, donde podrán administrar y ver las inspecciones realizadas
* Que calcular algunas métricas a nivel de inspección tales como: Empresa con más inspecciones fallidas, o porcentaje de empresas con un mínimo de inspecciones. Estas métricas deberán actualizarse con un máximo de latencia de 30 minutos
* También definiremos métricas a nivel de inspectores, como inspectores con más inspecciones, ... Estás métricas sólo serán visibles a ciertos usuarios de la administración.
* Algunas de las métricas de inspecciones serán expuestas en un dashboard accesible por ciertos cargos del gobierno.
* Además debemos exponer los datos de inspecciones (con ciertas restricciones de visibilidad) a todos los ciudadanos a través de un API.

Este diseño debe abordar los siguientes puntos:

1. **Dominio de Datos:** Identifica y define dominios de datos relevantes para el sistema de inspecciones de sanidad.
2. **Propietarios del Dominio:** Asigna roles y responsabilidades para cada dominio de datos. ¿Quiénes serán los propietarios de estos datos?
4. **Infraestructura Autónoma:** Proporciona una visión general de cómo cada dominio manejará su infraestructura para la ingestión, almacenamiento, procesamiento y exposición de datos.
5. **Interoperabilidad:** Define cómo los distintos dominios se comunicarán y compartirán datos entre sí. ¿Qué estándares y protocolos se utilizarán?
6. **Gobernanza:** Establece principios de gobernanza de datos que aseguren la calidad, seguridad y cumplimiento de los datos en todos los dominios.
7. **Tecnologías Utilizadas:** Identifica las tecnologías y herramientas que emplearás para implementar tu diseño de arquitectura de datos (por ejemplo, Apache Spark, Kafka, Delta Lake, etc.).
8. **Evolución y Escalabilidad:** Proporciona una estrategia para evolucionar y escalar la arquitectura de datos conforme crezca la organización y la cantidad de datos.

**Entregable:**
Un documento en formato PDF que incluya un diagrama arquitectónico (usa la aplicación que consideres, por ejemplo, https://excalidraw.com/ ) y la descripción detallada de los puntos mencionados anteriormente. Además, justifica por qué elegiste este diseño y cómo crees que cumplirá con los requisitos del sistema de inspecciones de sanidad.
