En este databrick vamos a ver en detalle los nuevos funcionalidades disponibles que tiene Delta Lake y sus ventajas:

In [0]:
# Create data DataFrame
data = spark.range(0, 5)
# Write the data DataFrame to /delta location
data.write.format("delta").mode('overwrite').save("/dbfs/delta")
#De esta forma guardamos en el metastore la tabla delta con los delta logs para el versionado de la tabla.

In [0]:
#También es posible crear una tabla Hive con saveAsTable() en Spark
data.write.format("delta").mode('overwrite').saveAsTable("tabla2")


In [0]:
#En caso de querer añadir nuevas filas a una tabla delta, es necesario usar el modo append
data2 = spark.range(6, 10)
data2.write.format("delta").mode("append").save("/dbfs/delta")
#El modo append en Spark es extremadamente costoso a nivel de cómputo. Con Delta Table se realiza en segundos

In [0]:
# Leer un delta table
dfDelta = spark.read.format("delta").load("/dbfs/delta")
dfDelta.count()

Otra forma de crear una tabla delta pero en SQL

In [0]:
%sql 
CREATE TABLE student (id INT, name STRING, age INT)
    USING DELTA
    PARTITIONED BY (age)
    LOCATION '/event';

### Explorar Delta Logs

Se puede observar 3 tipos de ficheros:

- Optimization: Para optimizar todo el proceso de carga de datos en la tabla Delta
- CRC: Aplica una técnica para verificar la integridad de los datos y deteción de errores con muy poc cómputo
- JSON: Aparece en Objetos Json todo el historial de las versiones aplicadas de la tabla Delta. Tiene un tiempo de retención fijada, por lo que se borra información que tenga un tiempo de vida mayor al definido

In [0]:
%fs
ls /user/hive/warehouse/tabla2/_delta_log

path,name,size
dbfs:/user/hive/warehouse/tabla2/_delta_log/.s3-optimization-0,.s3-optimization-0,0
dbfs:/user/hive/warehouse/tabla2/_delta_log/.s3-optimization-1,.s3-optimization-1,0
dbfs:/user/hive/warehouse/tabla2/_delta_log/.s3-optimization-2,.s3-optimization-2,0
dbfs:/user/hive/warehouse/tabla2/_delta_log/00000000000000000000.crc,00000000000000000000.crc,89
dbfs:/user/hive/warehouse/tabla2/_delta_log/00000000000000000000.json,00000000000000000000.json,2431


In [0]:
#Visualizar el contenido del historial de una tabla en formato json
j0 = spark.read.json("dbfs:/user/hive/warehouse/tabla2/_delta_log/00000000000000000000.json")

## Historial de una tabla Delta

En este apartado podemos ver en práctica comandos para describir una tabla Delta:

Datos curiosos: 
- Por defecto Databricks únicamente almacena el historial de 30 días por defecto los datos de la tabla delta, para que no crezca indefinídamente el tamaño de los datos.
- Con config spark.databricks.delta.deletedFileRetentionDuration puedes controlar el tiempo que pase para eliminar de forma permanente los ficheros snappy eliminados de la tabla delta. Por defecto son 7 días. WARNING: Databricks no recomienda definir un valor menor a 7 días por temas de snapshots y datos concurrentes de otros usuarios que puedan ocasionar una corrupción de los datos.

In [0]:
%sql
-- Review history by Delta table file path
DESCRIBE HISTORY 'dbfs:/user/hive/warehouse/tabla2';


version,timestamp,userId,userName,operation,operationParameters,job,notebook,clusterId,readVersion,isolationLevel,isBlindAppend,operationMetrics,userMetadata
0,2021-07-28T11:12:53.000+0000,7524590642868617,jin.wang@bosonit.com,CREATE TABLE AS SELECT,"Map(isManaged -> true, description -> null, partitionBy -> [], properties -> {})",,List(4339904306915146),0728-110121-pinky983,,WriteSerializable,True,"Map(numFiles -> 6, numOutputBytes -> 2911, numOutputRows -> 5)",


In [0]:
%sql
describe detail tabla2

format,id,name,description,location,createdAt,lastModified,partitionColumns,numFiles,sizeInBytes,properties,minReaderVersion,minWriterVersion
delta,139a61c5-c30c-496b-a998-b121e840659d,default.tabla2,,dbfs:/user/hive/warehouse/tabla2,2021-07-28T11:12:48.399+0000,2021-07-28T11:12:53.000+0000,List(),6,2911,Map(),1,2


In [0]:
%python
from delta.tables import *
deltaTable = DeltaTable.forPath(spark, 'dbfs:/user/hive/warehouse/tabla2')
fullHistoryDF = deltaTable.history()
fullHistoryDF.show()

## Vacuum 
Datos curiosos:
- Para usar VACUUM de forma paralela, es necesario configurar el spark session con spark.databricks.delta.vacuum.parallelDelete.enabled" a "true"

In [0]:
%sql
VACUUM 'dbfs:/user/hive/warehouse/tabla2'

path
dbfs:/user/hive/warehouse/tabla2


In [0]:
%python
from delta.tables import *
# vacuum files in path-based tables
deltaTable = DeltaTable.forPath(spark, 'dbfs:/user/hive/warehouse/tabla2')
# vacuum files in metastore-based tables
deltaTable = DeltaTable.forName(spark, 'tabla2')
# vacuum files in path-based table by default retention threshold
deltaTable.vacuum()

## Generar un fichero de manifiesto

Es posible habilitar la ejecución de consultas a una tabla delta sin tener un sistema compatible con Spark. Para ello, ejecutarán un manifest file:

In [0]:
%python
# Generate manifest
deltaTable = DeltaTable.forPath(spark, '/user/hive/warehouse/tabla2')
deltaTable.generate("symlink_format_manifest")


## Convert a Parquet table to a Delta table
Convertir una tabla parquet a delta es bastante trivial, ya que de por sí, la tabla delta ya está en formato parquet. Únicamente es necesario crear un registro de los versiones de la tabla para tener un seguimiento de estos ficheros parquet.

In [0]:
# Create data DataFrame
data2 = spark.range(0, 5)
# Write the data DataFrame to /delta location
data2.write.parquet("tablaParquet2.parquet")
#De esta forma guardamos en el metastore la tabla delta con los delta logs para el versionado de la tabla.

In [0]:
%sql
CREATE TABLE parquetToDelta USING PARQUET OPTIONS ( path 'dbfs:/tablaParquet2.parquet');

CONVERT TO DELTA parquetToDelta;

In [0]:
%python
from delta.tables import *
# Convert non partitioned parquet table at path '<path-to-table>'
deltaTable = DeltaTable.convertToDelta(spark, "parquet.`dbfs:/tablaParquet2.parquet`")

## Restaurar una versión anterior en una tabla Delta

Aparte de poder observar el historial de la tabla, también podemos volver a versiones anteriores

In [0]:
%sql
-- Restore table as of version 0
RESTORE tabla2 VERSION AS OF 0


table_size_after_restore,num_of_files_after_restore,num_removed_files,num_restored_files,removed_files_size,restored_files_size
2911,6,6,6,2911,2911


## Tablas clonadas: Shadow Clone y Deep Clone

In [0]:
%sql
-- Shallow clone table
CREATE OR REPLACE TABLE default.shadowClone SHALLOW CLONE default.tabla2 LOCATION '/temporalClones/shadowClone'

source_table_size,source_num_of_files,num_removed_files,num_copied_files,removed_files_size,copied_files_size
2911,6,0,0,0,0


In [0]:
%sql
select *, input_file_name() from shadowClone

id,input_file_name()
0,dbfs:/user/hive/warehouse/tabla2/part-00001-a2ac427c-e60d-4c0e-a6c7-946e849e128a-c000.snappy.parquet
1,dbfs:/user/hive/warehouse/tabla2/part-00003-fe449a1b-c922-44ee-8e41-40a0a37ee077-c000.snappy.parquet
2,dbfs:/user/hive/warehouse/tabla2/part-00004-7509cb85-a23f-46d4-93c8-a23d314dafcf-c000.snappy.parquet
3,dbfs:/user/hive/warehouse/tabla2/part-00006-4c8f42bf-8f5c-4a00-84d6-d11caeb6845f-c000.snappy.parquet
4,dbfs:/user/hive/warehouse/tabla2/part-00007-a40b1fa4-9ebc-4225-90ba-5cb3bc196d61-c000.snappy.parquet


In [0]:
dfShadow = spark.read.format("delta").load("dbfs:/user/hive/warehouse/shadowclone")
dfShadow.write.format("delta").mode('overwrite').saveAsTable("shadowClone")

In [0]:
%sql
-- Deep clone table
CREATE OR REPLACE TABLE default.deepClone DEEP CLONE default.tabla2 LOCATION '/temporalClones/deepClone'

source_table_size,source_num_of_files,num_removed_files,num_copied_files,removed_files_size,copied_files_size
2911,6,0,6,0,2911


In [0]:
%sql
select *, input_file_name() from deepClone

id,input_file_name()
0,dbfs:/temporalClones/deepClone/part-00001-a2ac427c-e60d-4c0e-a6c7-946e849e128a-c000.snappy.parquet
1,dbfs:/temporalClones/deepClone/part-00003-fe449a1b-c922-44ee-8e41-40a0a37ee077-c000.snappy.parquet
2,dbfs:/temporalClones/deepClone/part-00004-7509cb85-a23f-46d4-93c8-a23d314dafcf-c000.snappy.parquet
3,dbfs:/temporalClones/deepClone/part-00006-4c8f42bf-8f5c-4a00-84d6-d11caeb6845f-c000.snappy.parquet
4,dbfs:/temporalClones/deepClone/part-00007-a40b1fa4-9ebc-4225-90ba-5cb3bc196d61-c000.snappy.parquet
