In [0]:
spark.conf.set("fs.azure.account.auth.type.deltadbstgpina.dfs.core.windows.net", "OAuth")
spark.conf.set("fs.azure.account.oauth.provider.type.deltadbstgpina.dfs.core.windows.net", "org.apache.hadoop.fs.azurebfs.oauth2.ClientCredsTokenProvider")
spark.conf.set("fs.azure.account.oauth2.client.id.deltadbstgpina.dfs.core.windows.net", "39113859-cd89-41ee-af19-bedb601eac67")
spark.conf.set("fs.azure.account.oauth2.client.secret.deltadbstgpina.dfs.core.windows.net", "U6D8Q~EI-8UPcYENtNQ9GFpKRqS~81_U8oBzXcNX")
spark.conf.set("fs.azure.account.oauth2.client.endpoint.deltadbstgpina.dfs.core.windows.net", "https://login.microsoftonline.com/63c8a3d9-530b-4409-afe8-69c29700ddff/oauth2/token")

In [0]:
source = 'abfss://test@deltadbstgpina.dfs.core.windows.net/'


### Reading data from CSV file

In [0]:
from pyspark.sql.types import StructType,StructField, StringType, IntegerType,DateType,FloatType,DoubleType

schema1 = StructType([
    StructField('Education_Level',StringType()),
    StructField('Line_Number',IntegerType()),
    StructField('Employed',IntegerType()),
    StructField('Unemployed',IntegerType()),
    StructField('Industry',StringType()),
    StructField('Gender',StringType()),
    StructField('Date_Inserted',StringType()),
    StructField('dense_rank',IntegerType())
])

In [0]:
df = (spark.read.format('csv')
            .option('header','true')
            .schema(schema1)
            .load(f'{source}/files/*.csv'))


## Writing data to a Delta Table

In [0]:
df.write.format('delta').saveAsTable('delta.VersionTable')

In [0]:
%sql
SELECT * FROM delta.VersionTable


### Inserting records in the table

In [0]:
%sql

INSERT INTO `delta`.VersionTable
VALUES
    ('Bachelor', 1, 4500, 500, 'Networking', 'Male', '2023-07-12',  1),
    ('Master', 2, 6500, 500, 'Networking', 'Female', '2023-07-12', 2),
    ('High School', 3, 3500, 500, 'Networking', 'Male', '2023-07-12', 3),
    ('PhD', 4, 5500, 500, 'Networking', 'Female', '2023-07-12', 4);

## Auditoria de Dados no Delta Lake: Um Mergulho Profundo

A capacidade de auditar alterações de dados é essencial para garantir a conformidade, rastrear a linhagem de dados e solucionar problemas de dados. O Delta Lake, com seu log de transações robusto, oferece excelentes recursos de auditoria, permitindo que você monitore e examine efetivamente como seus dados evoluem ao longo do tempo. 

Vamos **explorar os mecanismos de auditoria de dados** no Delta Lake:

**1. O Log de Transações: A Espinha Dorsal da Auditoria**

No centro dos recursos de auditoria do Delta Lake está seu log de transações, também conhecido como Delta Log. Este log fornece um registro imutável de cada operação realizada em uma tabela Delta, capturando efetivamente todas as alterações de dados e metadados. 

Cada operação, seja uma inserção, atualização, exclusão ou até mesmo uma operação de metadados como uma mudança de esquema, é registrada como um _commit_ no Delta Log. Cada _commit_ contém informações detalhadas sobre a operação, incluindo:

* **Timestamp:** O momento exato em que a operação ocorreu.
* **Identidade do Usuário:** Quem executou a operação. 
* **Operação:** O tipo de operação, como "WRITE", "UPDATE" ou "DELETE".
* **Dados Alterados:** Um instantâneo dos dados que foram adicionados, modificados ou removidos.
* **Metadados Relacionados:** Quaisquer alterações nos metadados da tabela, como a adição ou remoção de uma coluna.

**2. Descrevendo o Histórico da Tabela**

O Delta Lake fornece um comando conveniente, `DESCRIBE HISTORY`, para recuperar o histórico de uma tabela Delta. Este comando retorna uma lista de todos os _commits_ feitos na tabela, juntamente com metadados relevantes para cada _commit_.

Essa funcionalidade permite que você visualize a linha do tempo completa das alterações de dados, incluindo:

* **Número da Versão:** Cada _commit_ recebe um número de versão exclusivo, permitindo que você rastreie a ordem cronológica das operações.
* **Operação:** O tipo de operação realizada, como "CREATE TABLE AS SELECT" ou "WRITE".
* **Parâmetros da Operação:** Detalhes específicos sobre a operação, como o número de linhas adicionadas ou a condição usada em uma operação de atualização.
* **Estatísticas de Arquivo:** Informações sobre os arquivos de dados afetados pela operação, como o número de arquivos adicionados, removidos ou modificados.

**3. Consultando Versões Anteriores de Dados (Viagem no Tempo)**

Um dos recursos mais poderosos habilitados pelo Delta Log é a capacidade de consultar versões anteriores de dados, muitas vezes referida como "viagem no tempo". Isso permite que você acesse e consulte o estado dos seus dados como era em um determinado momento no passado.

O Delta Lake oferece várias maneiras de consultar versões anteriores de dados:

* **Versão por Número:** Usando a sintaxe `VERSION AS OF`, você pode especificar o número da versão da tabela que deseja consultar. Por exemplo, `SELECT * FROM tabela VERSION AS OF 1` retornaria os dados como eram após o primeiro _commit_ na tabela.

* **Versão por Timestamp:** A sintaxe `TIMESTAMP AS OF` permite consultar dados com base em um timestamp específico. Por exemplo, `SELECT * FROM tabela TIMESTAMP AS OF '2023-12-10T10:00:00'` retornaria os dados como eram em 10 de dezembro de 2023, às 10h00.

Essa funcionalidade é inestimável para:

* **Auditoria:** Rastrear como os dados mudaram ao longo do tempo para fins de conformidade ou investigação. 
* **Depuração:** Diagnosticar problemas revertendo para um estado anterior dos dados.
* **Relatórios Puntuais:** Recriar relatórios históricos ou obter insights sobre tendências históricas. 

**4. Benefícios da Auditoria do Delta Lake**

Os robustos recursos de auditoria do Delta Lake oferecem vários benefícios:

* **Conformidade Regulatória:** Facilita a conformidade com regulamentações de proteção de dados, como GDPR ou HIPAA, fornecendo um histórico completo de alterações de dados.
* **Análise de Linhagem de Dados:** Permite que você rastreie a origem dos seus dados, as transformações que eles sofreram e como eles foram usados ​​ao longo do tempo. 
* **Solução de Problemas Aprimorada:** Simplifica a identificação da causa raiz de problemas relacionados a dados, permitindo que você reverta para um estado anterior dos dados ou analise alterações históricas. 
* **Confiabilidade e Confiança Aprimoradas:** Fornece um nível adicional de confiabilidade e confiança em seus dados, garantindo que você possa auditar e verificar a integridade de seus dados.

**Em Conclusão:**

A funcionalidade de auditoria do Delta Lake, alimentada por seu log de transações imutável, fornece um mecanismo robusto e abrangente para rastrear e examinar todas as alterações de dados. Essa capacidade não é apenas crucial para fins de conformidade, mas também capacita as organizações a obter insights mais profundos sobre a jornada de seus dados, garantindo responsabilidade, rastreabilidade e confiança em suas plataformas de dados. 


In [0]:
%sql

DESCRIBE HISTORY `delta`.VersionTable

In [0]:
dbutils.fs.ls('dbfs:/user/hive/warehouse/delta.db/versiontable')

In [0]:
dbutils.fs.ls('dbfs:/user/hive/warehouse/delta.db/versiontable/_delta_log')


## Reading 000.json 

In [0]:
display(spark.read.format('text').load('dbfs:/user/hive/warehouse/delta.db/versiontable/_delta_log/00000000000000000000.json'))


## Reading 0001.json

In [0]:
display(spark.read.format('text').load('dbfs:/user/hive/warehouse/delta.db/versiontable/_delta_log/00000000000000000001.json'))


## Updating records

In [0]:
%sql

UPDATE `delta`.versiontable
SET Education_Level = 'PhD'
WHERE Industry = 'Networking'

In [0]:
%sql

SELECT Education_Level , Industry
FROM `delta`.versiontable
WHERE Industry = 'Networking'

In [0]:
%sql

DESCRIBE HISTORY `delta`.VersionTable

Mais um delta log foi criado.

In [0]:
dbutils.fs.ls('dbfs:/user/hive/warehouse/delta.db/versiontable/_delta_log')


## Using versionAsOf using PySpark Code

## A Viagem no Tempo com Delta Lake: Retrocedendo no Tempo dos Dados

A "viagem no tempo", no contexto do Delta Lake, refere-se à capacidade de acessar e consultar dados como eles existiam em um momento específico no passado. Essa funcionalidade poderosa é possibilitada pelo **log de transações** do Delta Lake, um registro imutável de todas as operações realizadas em uma tabela Delta. 

Vamos explorar como a viagem no tempo funciona e seus benefícios:

**1. O Mecanismo de Viagem no Tempo**

Cada vez que você realiza uma operação que altera dados em uma tabela Delta (inserir, atualizar, excluir ou mesmo operações de metadados como mudanças de esquema), um novo estado da tabela é criado e registrado no log de transações. Cada estado da tabela recebe um número de versão exclusivo, começando em 0 para a tabela recém-criada e incrementando a cada operação subsequente.

A funcionalidade de viagem no tempo permite que você **consulte qualquer um desses estados de tabela anteriores**, efetivamente "voltando no tempo" para ver como seus dados eram em um momento específico.

**2. Sintaxes para Viagem no Tempo**

O Delta Lake fornece duas principais sintaxes SQL para realizar viagens no tempo:

* **`VERSION AS OF`**: Permite consultar uma versão específica da tabela usando seu número de versão. Por exemplo, `SELECT * FROM tabela VERSION AS OF 5` retornaria os dados como eram após a quinta operação na tabela.

* **`TIMESTAMP AS OF`**: Permite consultar os dados como eles existiam em um timestamp específico. Por exemplo, `SELECT * FROM tabela TIMESTAMP AS OF '2023-12-12T15:30:00'` retornaria os dados como eram em 12 de dezembro de 2023, às 15h30min.

**3. Benefícios da Viagem no Tempo**

A viagem no tempo oferece vários benefícios significativos:

* **Auditoria e Conformidade:** Permite rastrear como os dados evoluíram ao longo do tempo, o que é crucial para auditoria, conformidade com regulamentações de proteção de dados e investigações forenses.

* **Depuração e Solução de Problemas:** Facilita a identificação da causa raiz de problemas relacionados a dados, permitindo que você reverta para um estado de dados conhecido e analise as alterações ao longo do tempo.

* **Relatórios Históricos e Análise de Tendências:** Permite recriar relatórios históricos ou executar análises de séries temporais, fornecendo insights sobre como seus dados mudaram ao longo do tempo.

* **Recuperação de Dados e Correção de Erros:** Permite recuperar dados perdidos ou corrompidos, revertendo para um estado anterior à operação problemática.

**4. Considerações Importantes**

Embora incrivelmente poderosa, a viagem no tempo tem algumas considerações importantes:

* **Recursos de Armazenamento:** Manter várias versões de dados requer armazenamento adicional. O Delta Lake otimiza o armazenamento de histórico, mas é importante estar ciente do potencial aumento do uso de armazenamento.

* **Desempenho da Consulta:** Consultar versões mais antigas de dados pode levar mais tempo do que consultar a versão mais recente, especialmente para tabelas muito grandes com históricos longos.

* **Janela de Retenção de Histórico:** O Delta Lake permite configurar a duração do tempo para manter o histórico de dados. Depois que o período de retenção expirar, as versões mais antigas serão removidas.

**Em Conclusão:**

A capacidade de viagem no tempo do Delta Lake fornece um mecanismo poderoso e versátil para acessar e analisar dados históricos. Essa funcionalidade é inestimável para uma ampla gama de casos de uso, desde auditoria e conformidade até depuração e análise histórica. Ao aproveitar a viagem no tempo, as organizações podem obter insights mais profundos sobre seus dados, tomar decisões mais informadas e construir sistemas de dados mais resilientes e confiáveis. 


In [0]:
df_1 = (spark.read.format('delta')
            .option('versionAsOf',"1")
            .load('dbfs:/user/hive/warehouse/delta.db/versiontable'))

In [0]:
df_1.filter("Industry == 'Networking'").select(["Education_Level","Industry"]).show()


## Using versionAsOf using SQL Syntax

In [0]:
%sql

SELECT Education_Level , Industry
FROM `delta`.versiontable VERSION AS OF 1
WHERE Industry = 'Networking'


## Using @v (VersionNumber) after Table Name

In [0]:
df_v_1 = (spark.read.format('delta')
            .load('dbfs:/user/hive/warehouse/delta.db/versiontable@v1'))

In [0]:
df_v_1.filter("Industry == 'Networking'").select(["Education_Level","Industry"]).show()


## Using @v with SQL Syntax

In [0]:
%sql

SELECT Education_Level , Industry
FROM DELTA.`dbfs:/user/hive/warehouse/delta.db/versiontable@v1`
WHERE Industry = 'Networking'


## Using timestampAsOf

In [0]:
%sql

DESCRIBE HISTORY `delta`.VersionTable

In [0]:
df_t_1 = (spark.read.format('delta')
            .option('timestampAsOf',"2023-12-08T05:06:43Z")
            .load('dbfs:/user/hive/warehouse/delta.db/versiontable'))

In [0]:
df_t_1.filter("Industry == 'Networking'").select(["Education_Level","Industry"]).show()


## Using timestamp AS OF in SQL 


In [0]:
%sql

SELECT Education_Level , Industry
FROM `delta`.versiontable TIMESTAMP AS OF "2023-12-08T05:06:44Z"
WHERE Industry = 'Networking'

Podemos capturar os dados até a virada de um determinado dia. No nosso caso existe a falha, pois não temos nenhum dado nessa data.

In [0]:
%sql

SELECT Education_Level , Industry
FROM `delta`.versiontable TIMESTAMP AS OF "2023-12-07"
WHERE Industry = 'Networking'

Perceba que os dados quando não explicitado os parâmetros `TIMESTAMP AS OF` ou `VERSION AS OF` ele retorna os valores atuais.

In [0]:
%sql

SELECT Education_Level , Industry
FROM `delta`.versiontable
WHERE Industry = 'Networking'


## Using RESTORE command to get previous version to Table

## Mergulhando no Histórico de Versões do Delta Lake

O conceito de "Histórico de Versões" é fundamental para entender o poder e a flexibilidade do Delta Lake. Ele se refere ao registro completo e imutável de todas as modificações feitas em uma tabela Delta ao longo do tempo, formando a base para recursos poderosos como "viagem no tempo" e auditoria robusta.

**1. O Log de Transações: A Fundação do Histórico de Versões**

O histórico de versões é armazenado no **Log de Transações**, também conhecido como Delta Log. Este log funciona como um livro-razão à prova de adulteração, registrando cada operação que altera o estado de uma tabela Delta. Cada operação, como inserções, atualizações, exclusões ou mesmo modificações de esquema, é registrada como um **commit** no Delta Log, semelhante a commits em um sistema de controle de versão como o Git.

**2.  Desvendando o Conteúdo de um Commit**

Cada commit no histórico de versões contém um tesouro de informações sobre a operação correspondente, permitindo que você reconstrua a linha do tempo completa das mudanças de dados. Um commit normalmente inclui:

* **Timestamp:** Fornecendo o momento exato da operação, permitindo análises cronológicas e conformidade com requisitos de tempo.
* **Identidade do Usuário:** Revelando quem realizou a operação, o que é essencial para auditoria, rastreamento de linhagem e governança de dados.
* **Operação:** Especificando o tipo de operação, como "WRITE" para adição de dados, "UPDATE" para modificação de dados existentes ou "DELETE" para remoção de dados.
* **Dados Alterados:** Capturando os dados reais que foram afetados pela operação, seja a adição de novas linhas, modificação de valores de coluna existentes ou remoção de linhas inteiras. 
* **Metadados Relacionados:** Documentando quaisquer alterações nos metadados da tabela, como adição ou remoção de colunas, atualizações de estatísticas da tabela ou aplicação de propriedades da tabela.

**3. Explorando o Histórico de Versões com `DESCRIBE HISTORY`**

O Delta Lake oferece um comando SQL conveniente, `DESCRIBE HISTORY`, para inspecionar o histórico de versões de uma tabela. Executar este comando em uma tabela Delta retorna uma tabela de metadados que lista cada commit feito na tabela, juntamente com detalhes relevantes sobre cada operação.

A tabela de histórico de versão geralmente inclui:

* **Número da Versão:** Cada commit recebe um número de versão exclusivo, sequencial e incremental, estabelecendo uma ordem cronológica clara para todas as operações.
* **Operação:** Especifica o tipo de operação realizada, fornecendo uma visão geral de alto nível das alterações de dados.
* **Parâmetros da Operação:** Fornece detalhes granulares sobre a operação, como o número de linhas adicionadas em uma operação "WRITE", a condição usada para filtrar linhas em uma operação "UPDATE" ou o número de arquivos adicionados ou removidos.
* **Estatísticas de Arquivo:** Inclui informações sobre como a operação afetou os arquivos de dados subjacentes.

**4. Casos de Uso Ativados pelo Histórico de Versões**

O histórico de versões serve como base para vários recursos e capacidades valiosos no Delta Lake. 

Alguns casos de uso notáveis ​​incluem:

* **Viagem no Tempo:** Permite consultar versões anteriores de dados usando `VERSION AS OF` ou `TIMESTAMP AS OF`, habilitando auditoria, depuração, recuperação de dados e geração de relatórios históricos.
* **Auditoria Detalhada:** Oferece um registro completo de todas as alterações de dados, ajudando na conformidade regulatória, análise de linhagem de dados e investigações forenses.
* **Reprodução e Auditoria de Experimentos de Machine Learning:** Permite que Cientistas de Dados revisem e auditem experimentos, revertendo para estados anteriores de dados para comparar resultados e rastrear a linhagem do modelo.
* **Rollback de Operações com Falha ou Indesejadas:** Oferece a capacidade de reverter para um estado anterior da tabela, revertendo efetivamente as alterações feitas por operações com falha ou indesejadas, garantindo a integridade dos dados.

**5. Referências nos Textos Fornecidos**

Vários textos fornecidos ilustram o conceito de histórico de versões no Delta Lake com exemplos práticos. Os textos demonstram como usar o comando `DESCRIBE HISTORY` para visualizar o histórico de operações em uma tabela Delta, como os arquivos Json do delta log representam as diferentes versões da tabela, e como usar a funcionalidade de "viagem no tempo" para consultar dados como eram em um determinado ponto no tempo.

**6. Conclusão**

O histórico de versões, possibilitado pelo Log de Transações do Delta Lake, é um recurso fundamental que eleva o Delta Lake além de um sistema de arquivos tradicional. Ele permite rastrear, auditar e reverter alterações de dados, fornecendo uma base sólida para construir sistemas de dados confiáveis, auditáveis ​​e compatíveis. A capacidade de acessar e consultar dados históricos abre um novo mundo de possibilidades para análise de dados, solução de problemas e conformidade. 


In [0]:
%sql
RESTORE TABLE `delta`.versiontable TO VERSION AS OF 1

In [0]:
%sql

SELECT Education_Level , Industry
FROM `delta`.versiontable
WHERE Industry = 'Networking'

In [0]:
%sql
DESCRIBE HISTORY `delta`.versiontable