In [0]:
spark.conf.set("fs.azure.account.auth.type.deltadbstgpina.dfs.core.windows.net", "OAuth")
spark.conf.set("fs.azure.account.oauth.provider.type.deltadbstgpina.dfs.core.windows.net", "org.apache.hadoop.fs.azurebfs.oauth2.ClientCredsTokenProvider")
spark.conf.set("fs.azure.account.oauth2.client.id.deltadbstgpina.dfs.core.windows.net", "39113859-cd89-41ee-af19-bedb601eac67")
spark.conf.set("fs.azure.account.oauth2.client.secret.deltadbstgpina.dfs.core.windows.net", "U6D8Q~EI-8UPcYENtNQ9GFpKRqS~81_U8oBzXcNX")
spark.conf.set("fs.azure.account.oauth2.client.endpoint.deltadbstgpina.dfs.core.windows.net", "https://login.microsoftonline.com/63c8a3d9-530b-4409-afe8-69c29700ddff/oauth2/token")

In [0]:
source = 'abfss://test@deltadbstgpina.dfs.core.windows.net/'


### Reading data from CSV file

In [0]:
from pyspark.sql.types import StructType,StructField, StringType, IntegerType,DateType,FloatType,DoubleType

schema1 = StructType([
    StructField('Education_Level',StringType()),
    StructField('Line_Number',IntegerType()),
    StructField('Employed',IntegerType()),
    StructField('Unemployed',IntegerType()),
    StructField('Industry',StringType()),
    StructField('Gender',StringType()),
    StructField('Date_Inserted',StringType()),
    StructField('dense_rank',IntegerType())
])

In [0]:
df = (spark.read.format('csv')
            .option('header','true')
            .schema(schema1)
            .load(f'{source}/files/*.csv'))

O comando abaixo transforma o dataframe em arquivo parquet dentro do folder "OnlyParquet"

In [0]:
df.write.format('parquet').save(f'{source}/OnlyParquet')

Agora fazemos uma transformação do nome de uma coluna. 

In [0]:
dfnew = df.withColumnRenamed(existing='Line_Number',new='LNo')


### Overwriting Parquet

In [0]:
dfnew.write.format('parquet').mode('overwrite').save(f'{source}/OnlyParquet')


### Reading overwritten parquet

In [0]:
df_ov = (spark.read.format('parquet')
            .load(f'{source}/OnlyParquet'))

In [0]:
display(df_ov)

### Convert to Delta

## Compreendendo a Conversão Delta

O conceito de "Conversão Delta" não é explicitamente mencionado nas fontes fornecidas. No entanto, as fontes discutem extensivamente o Delta Lake, um framework de armazenamento de código aberto que oferece confiabilidade e recursos transacionais a data lakes. Um aspecto crucial abordado é a capacidade de converter pastas Parquet existentes em Delta Lake, o que pode ser interpretado como "Conversão Delta" no contexto fornecido. 

**Aqui está um resumo dos principais pontos sobre a conversão de Parquet para Delta Lake, com base nas fontes:**

* **Cenário:** Imagine trabalhar em um projeto que usa arquivos Parquet, um formato popular para projetos em tempo real devido à sua compressão e suporte a esquema. Um novo requisito surge para converter esses arquivos Parquet para Delta Lake para aproveitar os recursos do Delta Lake.
* **Processo de Conversão:** O processo é direto. Em vez de gravar em um novo local, o comando SQL `CONVERT TO DELTA` é usado para converter o local existente para Delta Lake. Você precisa especificar o formato do arquivo (neste caso, Parquet) e o caminho da pasta.
* **Impacto da Conversão:** Após a conversão, um diretório `_delta_log` aparece na pasta, sinalizando a presença do Delta Lake. Esse log de transações é fundamental para os recursos do Delta Lake.
* **Benefícios:** A conversão permite aproveitar os recursos do Delta Lake, incluindo histórico de versão e reversão para estados anteriores de dados. O log de transações registra cada operação, permitindo auditoria e análise de alterações de dados.
* **Limitações:** O log de transações rastreia operações apenas após a conversão para Delta Lake. As transformações aplicadas aos arquivos Parquet antes da conversão não são registradas no histórico de versões do Delta Lake.

As fontes fornecem um guia passo a passo sobre como executar essa conversão e destacam seus benefícios e limitações. É essencial entender que, embora o termo "Conversão Delta" não seja usado diretamente, o processo descrito de conversão de Parquet para Delta Lake se alinha com o conceito e fornece uma solução prática para integrar arquivos Parquet existentes em um ambiente Delta Lake. 


In [0]:
%sql

CONVERT TO DELTA parquet.`abfss://test@deltadbstg.dfs.core.windows.net/OnlyParquet`

Somente temos o log de transações apartir do momento da conversão para Delta.

In [0]:
%sql
DESCRIBE HISTORY delta.`abfss://test@deltadbstg.dfs.core.windows.net/OnlyParquet`