In [0]:
spark.conf.set("fs.azure.account.auth.type.deltadbstgpina.dfs.core.windows.net", "OAuth")
spark.conf.set("fs.azure.account.oauth.provider.type.deltadbstgpina.dfs.core.windows.net", "org.apache.hadoop.fs.azurebfs.oauth2.ClientCredsTokenProvider")
spark.conf.set("fs.azure.account.oauth2.client.id.deltadbstgpina.dfs.core.windows.net", "39113859-cd89-41ee-af19-bedb601eac67")
spark.conf.set("fs.azure.account.oauth2.client.secret.deltadbstgpina.dfs.core.windows.net", "U6D8Q~EI-8UPcYENtNQ9GFpKRqS~81_U8oBzXcNX")
spark.conf.set("fs.azure.account.oauth2.client.endpoint.deltadbstgpina.dfs.core.windows.net", "https://login.microsoftonline.com/63c8a3d9-530b-4409-afe8-69c29700ddff/oauth2/token")

In [0]:
source = 'abfss://test@deltadbstgpina.dfs.core.windows.net/'


### Reading data from CSV file

In [0]:
from pyspark.sql.types import StructType,StructField, StringType, IntegerType,DateType,FloatType,DoubleType

schema1 = StructType([
    StructField('Education_Level',StringType()),
    StructField('Line_Number',IntegerType()),
    StructField('Employed',IntegerType()),
    StructField('Unemployed',IntegerType()),
    StructField('Industry',StringType()),
    StructField('Gender',StringType()),
    StructField('Date_Inserted',StringType()),
    StructField('dense_rank',IntegerType())
])

In [0]:
df = (spark.read.format('csv')
            .option('header','true')
            .schema(schema1)
            .load(f'{source}/files/*.csv'))

### Criação de um View Temporário

In [0]:
df.createOrReplaceTempView("df_view")

### Criação de um delta table apartir do view

In [0]:
%sql

-- Creating a delta table

CREATE TABLE delta.VacTable
USING DELTA
AS 
SELECT *
FROM df_view

In [0]:
%sql
SELECT *
FROM delta.VacTable

In [0]:
dbutils.fs.ls('dbfs:/user/hive/warehouse/delta.db/vactable')

Agora vamos gerar vários inserts, updates e delete para gerar vários parquet files.


# Performing multiple inserts


In [0]:
%sql

INSERT INTO delta.VacTable
VALUES
    ('Bachelor', 1, 4500, 500, 'Networking', 'Male', '2023-07-12', 1);


In [0]:
%sql

INSERT INTO delta.VacTable
VALUES
    ('Master', 2, 6500, 500, 'Networking', 'Female', '2023-07-12', 2);


In [0]:
%sql

INSERT INTO delta.VacTable
VALUES
    ('High School', 3, 3500, 500, 'Networking', 'Male', '2023-07-12', 3);


In [0]:
%sql

INSERT INTO delta.VacTable
VALUES
    ('PhD', 4, 5500, 500, 'Networking', 'Female', '2023-07-12', 4);


# Performing updates


In [0]:
%sql
-- Perform updates 

UPDATE delta.VacTable
SET Education_Level = 'Phd'
WHERE Industry = 'Networking';


### Perfroming deletes

In [0]:
%sql
-- Perform delete

DELETE FROM delta.VacTable
WHERE Education_Level = 'Phd';

In [0]:
%sql

DESCRIBE HISTORY delta.vactable

Foram gerados 09 parquet files.

In [0]:
dbutils.fs.ls('dbfs:/user/hive/warehouse/delta.db/vactable')

## Comando Vacuum no Delta Lake: Uma Abordagem Cautelosa para a Limpeza de Dados

O comando `VACUUM` no Delta Lake é uma funcionalidade poderosa, mas potencialmente perigosa, projetada para remover arquivos de dados antigos e logicamente excluídos de uma tabela Delta. Embora possa ajudar a gerenciar o uso do armazenamento, especialmente em cenários com históricos extensos de versões e operações frequentes de exclusão e atualização, ele exige cautela e compreensão de suas implicações.

**1. Por que o `VACUUM` é Necessário?**

O Delta Lake mantém um histórico de versões completo, permitindo "viagens no tempo" e rollbacks. No entanto, esse recurso tem um custo: arquivos de dados logicamente excluídos (dados removidos de uma versão da tabela, mas ainda presentes no histórico) não são excluídos fisicamente do armazenamento imediatamente. Esses arquivos são mantidos para dar suporte a consultas de histórico e rollbacks.

Com o tempo, esses arquivos logicamente excluídos podem se acumular, ocupando um espaço de armazenamento significativo e potencialmente impactando o desempenho de consulta, especialmente se você fizer muitas exclusões ou atualizações. O comando `VACUUM` aborda esse problema removendo permanentemente arquivos de dados antigos que não são mais necessários para o histórico de versões definido.

**2. Funcionamento do `VACUUM`**

O comando `VACUUM` identifica e remove arquivos de dados da tabela Delta que são mais antigos que um período de retenção especificado. O período de retenção padrão é de 7 dias, o que significa que o `VACUUM` removerá arquivos de dados que não foram referenciados por nenhuma versão da tabela nos últimos 7 dias.

**Sintaxe Básica:**

```sql
VACUUM <nome_da_tabela> [RETAIN <horas> HOURS];
```

**Exemplos:**

* `VACUUM meus_dados;` removeria arquivos de dados da tabela `meus_dados` mais antigos que 7 dias.
* `VACUUM meus_dados RETAIN 24 HOURS;` removeria arquivos de dados da tabela `meus_dados` mais antigos que 24 horas.

**3. `DRY RUN`: Testando Antes de Executar**

O Delta Lake oferece a opção `DRY RUN` para o comando `VACUUM`. Essa opção permite simular a operação `VACUUM` sem remover fisicamente nenhum arquivo de dados. Isso é altamente recomendável para entender o impacto potencial do `VACUUM` antes de executá-lo.

**Sintaxe:**

```sql
VACUUM <nome_da_tabela> [RETAIN <horas> HOURS] DRY RUN;
```

**Exemplo:**

* `VACUUM meus_dados DRY RUN;` listaria os arquivos de dados da tabela `meus_dados` que seriam removidos por uma operação `VACUUM` real, sem realmente excluí-los.

**4.  Considerações e Precauções**

O comando `VACUUM` é uma ferramenta poderosa que deve ser usada com cautela. Aqui estão algumas considerações importantes:

* **Perda de Histórico:** O `VACUUM` remove permanentemente arquivos de dados antigos. Depois que um arquivo é removido pelo `VACUUM`, ele não pode ser recuperado. Certifique-se de que você não precisa mais dos dados em arquivos mais antigos que o período de retenção antes de executar o `VACUUM`.

* **Impacto nas Operações Concorrentes:** Se houver operações simultâneas de leitura, gravação ou streaming em andamento na tabela Delta, executar o `VACUUM` pode causar erros ou inconsistências de dados. É crucial garantir que não haja operações concorrentes antes de executar o `VACUUM`.

* **Configuração de Retenção:** O período de retenção padrão de 7 dias pode não ser adequado para todos os casos de uso. Ajuste o período de retenção usando a opção `RETAIN` com base em seus requisitos específicos de histórico de versões e políticas de retenção de dados.

**5.  Recomendações**

* **Compreenda o Impacto:** Antes de executar o `VACUUM`, use a opção `DRY RUN` para simular a operação e entender quais arquivos serão removidos.

* **Horários de Baixo Tráfego:** Execute o `VACUUM` durante os horários de baixo tráfego, quando é menos provável que haja operações concorrentes na tabela Delta.

* **Monitoramento:** Monitore o uso do armazenamento e o desempenho da consulta após executar o `VACUUM` para garantir que ele esteja tendo o efeito desejado.

**6.  Informações Adicionais nas Fontes**

As fontes fornecidas ilustram o comando `VACUUM` no contexto de gerenciamento de arquivos de dados no Delta Lake. O texto "Texto colado" fornece uma explicação detalhada do comando, incluindo sua sintaxe, opções e exemplos de uso. O texto também destaca os riscos potenciais associados ao uso do `VACUUM`, enfatizando a importância de usá-lo com cautela. 

**Em Resumo:**

O comando `VACUUM` é uma ferramenta valiosa para gerenciar o uso do armazenamento no Delta Lake, removendo arquivos de dados antigos e logicamente excluídos. No entanto, requer uma compreensão completa de suas implicações e deve ser usado com cautela para evitar perda de dados ou problemas de integridade de dados. Ao seguir as práticas recomendadas e considerar cuidadosamente as implicações potenciais, você pode usar o `VACUUM` com eficácia para otimizar o armazenamento de dados e o desempenho da consulta no Delta Lake.


No exemplo abaixo não foi removido nenhum dado pois não temos dados com mais de 07 dias (default)

In [0]:
%sql
VACUUM `delta`.Vactable DRY RUN


In [0]:
%sql
VACUUM `delta`.Vactable RETAIN 5 HOURS

In [0]:
spark.conf.set('spark.databricks.delta.retentionDurationCheck.enabled','False')

In [0]:
%sql
VACUUM `delta`.Vactable RETAIN 5 HOURS

A opção `RETAIN 0 HOURS` mantém a versão mais antiga de parquet file. 

In [0]:
%sql
VACUUM `delta`.Vactable RETAIN 0 HOURS

In [0]:
%sql

DESCRIBE HISTORY `delta`.Vactable

In [0]:
dbutils.fs.ls('dbfs:/user/hive/warehouse/delta.db/vactable')

In [0]:
%sql

DESCRIBE HISTORY `delta`.Vactable

In [0]:
dbutils.fs.ls('dbfs:/user/hive/warehouse/delta.db/vactable')