# Delta Lake

En este notebook, mostraré los apuntes recopilados durante mi ruta de aprendizaje de Delta Lakes en Databricks.

#### Bibliografía:

- https://www.youtube.com/watch?v=LJtShrQqYZY
- https://www.youtube.com/watch?v=Ct5LFVIB8xM&t=795s
- https://www.youtube.com/watch?v=_pCUra3_BGA

## Definiciones

### Delta Lake
Delta Lake es una capa de almacenamiento de código abierto que brinda confiabilidad a los data lakes. Delta Lake proporciona transacciones ACID, manejo de metadatos escalable y unifica el procesamiento de datos en batch y en streaming. Delta Lake se ejecuta sobre su data lake existente y es totalmente compatible con las API de Apache Spark.

### Data Lake
Como bien indica su nombre, Data Lake es una fuente de almacenamiento o repositorio de datos, donde no existe ninguna estructura de datos, por lo que es posible almacenar cualquier tipo de dato y de cualquier fuente. Más adelante hablaremos en más profundidad acerca de los data lakes.

### LakeHouse
Es una combinación de las dos architecturas para almacenar datos de DataWareHouse y Data Lake. Pon un lado se aprovecha las ventajas de un DWH para el análisis de datos y consultas, y por otro lado, la capacidad de almacenar datos de todo tipo sin derrochar ningún dato que puede ser valioso en el futuro.


## Fundamentos de Data Lake

Toda organización, empresa o servicios contienen teras de datos, sobre diferentes fuentes como registros de usuarios, capturas de sensores en los productos, y otros datos sin una estructura específico. Lo característico de los Data Lakes es que puedes almacenar todos estos datos tan diferentes en el mismo sitio, a diferencia de un DataWareHouse u otro BBDD, que deben crear un schema antes y todos los datos deben de tener el mismo schema.

Data Lake quiere almacenar todo tipo de datos porque con una BD o DWH desechas datos que no pertenece a la estructura definida por el usuario, y hay casos donde descartas futuros datos valiosos.

Almacenar todos los datos posibles tiene sus inconvenientes:

- No hay atomicidad: Cuando falla una ejecución, si existen datos que se han modificado durante el proceso, se quedarán en un estado corrupto.
- Posibilidad de crear datos inconsistentes e inútiles.
- No hay consistencia: Es muy complicado unificar todos los datos para leer, escribir tanto en batch como en streaming todos los datos almacenados en un Data Lake.
- No se indexan los datos, por lo que en caso de necesitar realizar consultas a los datos en crudo, es necesario meter dichos datos en alguna base de datos relacional y estructurarlos.
- Una flexibilidad demasiado grande que da como resultado unos análisis pésimos y trabajos de ML nada precisos.
 

### Solución: Delta Lake

Para solucionar todos los problemas que tiene los data lakes, se puede utilizar la arquitectura de Delta Lake sin preocuparnos de la tolerancia a fallos y la inconsistencia de los datos.

Una cosa fundamental de Delta Lake, es que almacena los datos en ficheros Parquet, por lo que hay una compatibilidad abrumadora con otras herramientas. 

![delta%20lake%20structure.PNG](attachment:delta%20lake%20structure.PNG)

Durante la architectura de Delta Lake, es necesario realizar 3 etapas:

- Bronze: Realiza una ingesta de datos, descartando los datos erróneos como nulos o espacios vacíos. Este punto es crítico ya que evita que el sistema se caiga y los datos estén corruptos. 
- Silver: Limpieza de datos y almacenaje en tablas. En este apartado los datos aún no están disponible para un uso comercial. El Ingeniero de Datos realiza una limpieza de datos para que otros gestores puedan aprovechar esos datos y moldearlo a su gusto.
-Gold: En esta etapa se aplica diferentes herramientas como Spark para transformar los datos limpios y utilizarlos para propósitos más profundos, como ML, IA, o análisis de datos.

## Ventajas de Delta Lake:

A modo de resumen, en esta sección se hablará de todas las ventajas que proporciona Delta Lake y porqué es muy útil utilizarlo:

- Transaccionalidad (ACID): Te garantiza que el flujo ETL no se vaya a romper, sin que te quede los datos en un estado inconsistente.
- Schema automático: (Como en Spark) Cuando se inserta datos en una tabla Delta, se crea el esquema automáticamente. En caso de insertar datos que no sean compatibles al schema, se pueden realizar varioas acciones, alertas, descarte e incluso capturar dichos datos en otra tabla para que puedas visualizar los datos que no pueden pertenecer a la tabla Delta.
- Soporta escenarios en Batch y en Streaming.
- Capacidad de realizar un RollBack de los datos (TimeTravel de los datos): Realiza un versionado de los datos (almacenados en forma de metadatos) y es capaz de recuperar estados de datos anteriores.
- Muy buen rendimiento: Ejecuciones que tardan horas a minutos.

## Cómo empezar con Delta Lake

<br>

![Delta%20Lake%20Get%20Started.PNG](attachment:Delta%20Lake%20Get%20Started.PNG)

Empezar a usar Delta Lake en Spark es algo muy trivial. Como toda dependencia como GraphX, ScalaPlot, o gestor de BD PostGreSQL o MySQL, es necesario o descargar el .jar de Delta y almacenarlo en la carpeta JARS del directorio de Spark. O en caso de utilizar un IDE, mencionar la dependencia con Maven.

En caso de utilizar PySpark, es necesario especificar el paquete Delta.

Para empezar a utilizar Delta Lake, únicamente es necesario especificar el formato Delta cuando utilizas el Reader o el Writter de la API de Dataframe en Spark. De esta forma, los dataframes generados obtendrán varias ventajas, como que será más escalable y transaccional.


## Cómo almacena datos en Delta Lake


 ![Delta%20Lake%20Format.PNG](attachment:Delta%20Lake%20Format.PNG)
 
 En Delta Lake os resultará familiar la estructura del almacenamiento, ya que se parece mucho a HDFS. Pero a diferencia del sistema de ficheros, se almacenan metadatos en logs para mantener el orden de las transacciones de los datos.
 


## Funciones Delta

Dentro de SQl y PySpark es posible realizar nuevas funcionalidades

- History: Con este comando es capaz de ver el historial de las consultas y transformaciones realizadas a los datos.
![Captura-2.PNG](attachment:Captura-2.PNG)


-Merge de dos tablas Deltas: Es posible insertar nuevos datos y actualizarlos

![Captura2.PNG](attachment:Captura2.PNG)

- *CONTINUAR*