In [0]:
load_path = '/Volumes/raw/full_load/full_load_csv/'
write_path = '/Volumes/raw/upsell/full_load/'

In [0]:
from pyspark.sql.functions import col, substring, to_timestamp

# Leitura do arquivo csv clientes
schema_csv_clientes = "IdCliente string, FlEmail int, FlTwitch int, FlYouTube int, FlBlueSky int, FlInstagram int, QtdePontos int, DtCriacao string, DtAtualizacao string"
full_load_csv_clientes = spark.read.csv(
                                f"{load_path}clientes.csv",
                                sep=";",
                                header=True,
                                schema=schema_csv_clientes
)

# Criar as colunas temporárias convertidas para timestamp
full_load_csv_clientes = full_load_csv_clientes \
    .withColumn("DtCriacaoTS", to_timestamp(substring(col("DtCriacao"), 1, 19), "yyyy-MM-dd HH:mm:ss")) \
    .withColumn("DtAtualizacaoTS", to_timestamp(substring(col("DtAtualizacao"), 1, 19), "yyyy-MM-dd HH:mm:ss"))

# Remover colunas originais e renomear as novas para os nomes originais
full_load_csv_clientes = full_load_csv_clientes \
    .drop("DtCriacao", "DtAtualizacao") \
    .withColumnRenamed("DtCriacaoTS", "DtCriacao") \
    .withColumnRenamed("DtAtualizacaoTS", "DtAtualizacao")

display(full_load_csv_clientes)

In [0]:
# Salva em formato parquet
full_load_csv_clientes.write.mode("overwrite").parquet(
    f"{write_path}customers/"
)

In [0]:
# Leitura do arquivo csv produto
schema_csv_produtos = "IdProduto int, DescProduto string, DescCateogriaProduto string"
full_load_csv_produtos = spark.read.csv(
    f"{load_path}produtos.csv",
    sep=";",
    header=True,
    schema=schema_csv_produtos,
)
display(full_load_csv_produtos)

In [0]:
# Salva em formato parquet
full_load_csv_produtos.write.mode("overwrite").parquet(
    f"{write_path}products/"
)

In [0]:
# Leitura do arquivo csv transacao_produto
schema_csv_transacao_produto = 'IdTransacaoProduto string, IdTransacao string, IdProduto int, QtdeProduto int, VlProduto int'
full_load_csv_transacao_produto = spark.read.csv(
    f"{load_path}transacao_produto.csv",
    sep=";",
    header=True,
    schema=schema_csv_transacao_produto,
)
display(full_load_csv_transacao_produto)

In [0]:
# Salva em formato parquet
full_load_csv_transacao_produto.write.mode("overwrite").parquet(
    f"{write_path}transactions_product/"
)

In [0]:
# Leitura do arquivo csv transacoes
schema_csv_transacoes = 'IdTransacao string, IdCliente string, DtCriacao string, QtdePontos string, DescSistemaOrigem string'
full_load_csv_transacoes = spark.read.csv(
    f"{load_path}transacoes.csv",
    sep=";",
    header=True,
    schema=schema_csv_transacoes
)

# Criar coluna temporária convertida para timestamp
full_load_csv_transacoes = full_load_csv_transacoes \
    .withColumn("DtCriacaoTS", to_timestamp(substring(col("DtCriacao"), 1, 19), "yyyy-MM-dd HH:mm:ss"))

# Remover coluna original e renomear a nova para nome original
full_load_csv_transacoes = full_load_csv_transacoes \
    .drop("DtCriacao") \
    .withColumnRenamed("DtCriacaoTS", "DtCriacao")

display(full_load_csv_transacoes)

In [0]:
# Salva em formato parquet
full_load_csv_transacoes.write.mode("overwrite").parquet(
    f"{write_path}transactions/"
)