<!-- Projeto Desenvolvido na Data Science Academy - www.datascienceacademy.com.br -->
# <font color='blue'>Data Science Academy</font>
## <font color='blue'>Armazenamento e Gestão de Dados com Data Lake e Data Lakehouse</font>
## <font color='blue'>Lab 7</font>
### <font color='blue'>Delta Live Tables SQL Pipeline e Integração de Dados Batch e Streaming</font>

Carregamos o arquivo CSV com os tipos de clientes.

In [0]:
df_dsa_tipos = spark.read.option("header", "true").option("inferSchema", "true").csv("dbfs:/Volumes/workspace/dsasource/lab7/tipos_clientes.csv")

In [0]:
display(df_dsa_tipos)

codigo_tipo,desc_tipo
D001,Cliente Novo
D002,Cliente Regular
D003,Cliente VIP
D004,Cliente Retornando
D005,Cliente Fiel
D006,Cliente Que Requer Muito Suporte
D007,Cliente de Ticket Alto
D008,Cliente de Ticket Mediano
D009,Cliente de Ticket Baixo
D010,Comprador Ocasional


Salvamos o arquivo como uma tabela em um novo esquema para melhorar a organização.

In [0]:
%sql
CREATE SCHEMA IF NOT EXISTS dsadlt;

In [0]:
df_dsa_tipos.write.format("delta").mode("append").saveAsTable("dsadlt.dsa_mapeamento_clientes")

Agora carregamos os arquivos CSV com os dados de cadastro de clientes.

In [0]:
df_dsa_clientes = spark.read.option("header", "true").option("inferSchema", "true").csv("dbfs:/Volumes/workspace/dsasource/lab7/clientes_batch_*.csv")

Vamos ordenar a tabela e visualizar os dados.

In [0]:
df_ordenado = df_dsa_clientes.orderBy("id_cliente")
display(df_ordenado)

id_cliente,nome,idade,genero,endereco,numero_contato,data_cadastro,tipo_cliente
P001,John Doe,45,M,123 Elm St,555-1234,2024-01-01,D001
P002,Jane Smith,34,F,456 Oak St,555-5678,2024-01-02,D002
P003,Alice Johnson,29,F,789 Pine St,555-8765,2024-01-03,D003
P004,Bob Brown,54,M,101 Maple St,555-4321,2024-01-04,D004
P005,Eve Davis,61,F,202 Cedar St,555-6789,2024-01-05,D005
P006,Charlie Wilson,40,M,303 Birch St,555-2345,2024-01-06,D006
P007,Diana Martinez,48,F,404 Cedar St,555-3456,2024-01-07,D007
P008,Edward Clark,52,M,505 Elm St,555-4567,2024-01-08,D008
P009,Grace Lewis,37,F,606 Oak St,555-5678,2024-01-09,D009
P010,Harry Walker,33,M,707 Pine St,555-6789,2024-01-10,D010


Ajustando o tipo da coluna de data.

In [0]:
from pyspark.sql.functions import expr

In [0]:
df_dsa_clientes = df_dsa_clientes.withColumn("data_cadastro", expr("try_cast(data_cadastro as date)"))

In [0]:
display(df_dsa_clientes)

id_cliente,nome,idade,genero,endereco,numero_contato,data_cadastro,tipo_cliente
P201,Quinn Johnson,29,F,19999 Oak St,555-7890,2024-07-19,D001
P202,Rachel Lee,50,M,20000 Pine St,555-8901,2024-07-20,D002
P203,Samuel Adams,34,F,20101 Maple St,555-9012,2024-07-21,D003
P204,Tiffany Scott,46,M,20202 Birch St,555-0123,2024-07-22,D004
P205,Uriel Brown,39,F,20303 Cedar St,555-1234,2024-07-23,D005
P206,Vanessa Harris,50,M,20404 Elm St,555-2345,2024-07-24,D006
P207,William Johnson,29,F,20505 Oak St,555-3456,2024-07-25,D007
P208,Xena Lee,44,M,20606 Pine St,555-4567,2024-07-26,D008
P209,Yvonne Brown,33,F,20707 Maple St,555-5678,2024-07-27,D009
P210,Zachary Adams,52,M,20808 Birch St,555-6789,2024-07-28,D010


Salva os dados na tabela.

In [0]:
df_dsa_clientes.write.format("delta").option("mergeSchema", "true").mode("append").saveAsTable("dsadlt.dsa_fonte_clientes_diarios")

Os comandos abaixo podem ser usados para truncar (limpar) e deletar as tabelas.

In [0]:
# %sql 
# TRUNCATE TABLE dsadlt.dsa_mapeamento_clientes;
# DROP TABLE dsadlt.dsa_mapeamento_clientes;

# TRUNCATE TABLE dsadlt.dsa_clientes_diarios;
# DROP TABLE dsadlt.dsa_clientes_diarios;

# Fim