In [0]:
from pyspark.sql import SparkSession
from pyspark.sql.functions import ( col, to_date, year, lit, when, trim, regexp_replace,date_format)
from pyspark.sql.types import ( IntegerType, DoubleType, StringType, DateType )



In [0]:

df_vendas = spark.sql("SELECT * FROM classes.bronze.exceis_vendas")

# 2. Carregar tabela de Produtos da camada Bronze
df_produto = spark.sql("SELECT * FROM classes.bronze.exceis_produto")

# Opcional: Exibir as primeiras linhas para confirmar que carregou corretamente
print("Visualizando Vendas:")
display(df_vendas)

print("Visualizando Produtos:")
display(df_produto)

In [0]:
df_estoque = spark.sql("select * from classes.bronze.exceis_estoque") 

In [0]:
%python
from pyspark.sql.functions import col, to_date

# Lê a tabela Bronze
df_estoque = spark.table("classes.bronze.exceis_estoque")

# CORREÇÃO: Removemos o 'date_format'. 
# O 'to_date' já converte para o tipo Data (padrão yyyy-MM-dd).
# O Databricks sabe lidar com isso perfeitamente.

df_estoque = df_estoque.withColumn(
    "data_validade",
    to_date(col("data_validade"), "dd/MM/yyyy")
).withColumn(
    "data_fabricacao",
    to_date(col("data_fabricacao"), "dd/MM/yyyy")
)

display(df_estoque)

In [0]:
%python
from pyspark.sql.functions import col, to_date

df_estoque = spark.table(
    "classes.bronze.exceis_estoque"
)

# CORREÇÃO: Removemos o date_format.
# Agora convertemos direto para TIPO DATA (DateType).
# Isso permite que você ordene e faça contas na camada Gold.
df_estoque = df_estoque.withColumn(
    "data_validade",
    to_date(col("data_validade"), "dd/MM/yyyy")
).withColumn(
    "data_fabricacao",
    to_date(col("data_fabricacao"), "dd/MM/yyyy")
)

display(df_estoque)

In [0]:
df_vendas = spark.sql("select * from classes.bronze.exceis_vendas") 

In [0]:
display(df_vendas)

In [0]:
from pyspark.sql.functions import col, to_date, trim

df_vendas = spark.table("classes.bronze.exceis_vendas")

df_vendas = df_vendas.withColumn(
    "data_validade",
    to_date(col("data_validade"), "dd/MM/yyyy")
).withColumn(
    "data_fabricacao",
    to_date(col("data_fabricacao"), "dd/MM/yyyy")
).withColumn(
    "nome_produto", 
    trim(col("nome_produto"))
)

display(df_vendas)

In [0]:
%python
from pyspark.sql.functions import col, to_date

# 1. Carrega a tabela Bronze
df_estoque = spark.table("classes.bronze.exceis_estoque")

# 2. Converte as colunas de texto para DATA real
# Ajustei o formato para "dd/MM/yyyy" para casar com o seu CSV original
df_estoque = df_estoque.withColumn(
    "data_validade",
    to_date(col("data_validade"), "dd/MM/yyyy")
).withColumn(
    "data_fabricacao",
    to_date(col("data_fabricacao"), "dd/MM/yyyy")
)

# 3. Exibe o resultado para você conferir
display(df_estoque)

In [0]:
%python
display(df_estoque)

In [0]:
df_estoque.select("nome_produto").distinct().show(200, False)
df_estoque.select("nome_subproduto").distinct().show(200, False)
df_estoque.select("local_fabricacao").distinct().show(200, False)

In [0]:
from pyspark.sql.functions import trim, col

df_estoque = df_estoque.withColumn("nome_produto", trim(col("nome_produto")))
df_estoque = df_estoque.withColumn("nome_subproduto", trim(col("nome_subproduto")))
df_estoque = df_estoque.withColumn("local_fabricacao", trim(col("local_fabricacao")))

In [0]:
df_estoque.filter(
    (col("nome_produto") != trim(col("nome_produto"))) |
    (col("nome_subproduto") != trim(col("nome_subproduto"))) |
    (col("local_fabricacao") != trim(col("local_fabricacao")))
).show(50, False)

In [0]:
from pyspark.sql.functions import instr, col

df_estoque.filter(instr(col("nome_produto"), "  ") > 0).show(50, False)
df_estoque.filter(instr(col("nome_subproduto"), "  ") > 0).show(50, False)
df_estoque.filter(instr(col("local_fabricacao"), "  ") > 0).show(50, False)

In [0]:
from pyspark.sql.functions import regexp_replace

df_estoque = df_estoque.withColumn(
    "nome_produto",
    regexp_replace(col("nome_produto"), " +", " ")
).withColumn(
    "nome_subproduto",
    regexp_replace(col("nome_subproduto"), " +", " ")
).withColumn(
    "local_fabricacao",
    regexp_replace(col("local_fabricacao"), " +", " ")
)

In [0]:
from pyspark.sql.functions import col

df_estoque.filter(
    col("data_fabricacao") > col("data_validade")
).show(50, False)

In [0]:
df_estoque.filter(
    col("nome_produto").isNull() |
    col("nome_subproduto").isNull() |
    col("local_fabricacao").isNull() |
    col("data_fabricacao").isNull() |
    col("data_validade").isNull()
).show(50, False)

In [0]:
display(df_estoque)

In [0]:
display(df_vendas)

In [0]:
df_vendas.select("nome_produto").distinct().show(200, False)
df_vendas.select("nome_subproduto").distinct().show(200, False)
df_vendas.select("local_fabricacao").distinct().show(200, False)

In [0]:
from pyspark.sql.functions import trim, col

df_vendas = df_vendas.withColumn("nome_produto", trim(col("nome_produto")))
df_vendas = df_vendas.withColumn("nome_subproduto", trim(col("nome_subproduto")))
df_vendas = df_vendas.withColumn("local_fabricacao", trim(col("local_fabricacao")))

In [0]:
from pyspark.sql.functions import instr

df_vendas.filter(instr(col("nome_produto"), "  ") > 0).show(50, False)

In [0]:
df_vendas.printSchema()

In [0]:
from pyspark.sql.functions import col, to_date

df_vendas = spark.table("classes.bronze.exceis_vendas")

df_vendas = df_vendas.withColumn(
    "data_validade",
    to_date(col("data_validade"), "dd/MM/yyyy")
).withColumn(
    "data_fabricacao",
    to_date(col("data_fabricacao"), "dd/MM/yyyy")
)

display(df_vendas)

In [0]:
from pyspark.sql.functions import col, trim, lower

print("Processando Produtos...")
# 1. Leitura
df_produto = spark.table("classes.bronze.exceis_produto")

# 2. Tratamento (Padronizar status para minúsculo e remover espaços)
df_produto = df_produto.withColumn("status_produto", lower(trim(col("status_produto")))) \
                       .withColumn("nome_marca", trim(col("nome_marca"))) \
                       .withColumn("nome_produto", trim(col("nome_produto")))

display(df_produto)

In [0]:
display (df_produto)

In [0]:
df_produto.printSchema()

In [0]:
df_produto.printSchema()

In [0]:
df_produto = spark.sql("select * from classes.bronze.exceis_produto") 

In [0]:
df_produto.printSchema()


In [0]:
# --- SALVAMENTO NA CAMADA SILVER ---
print("Iniciando gravação das tabelas...")

# A opção 'overwriteSchema' é essencial quando mudamos tipos de coluna (ex: Texto -> Data)
df_vendas.write.format("delta").mode("overwrite").option("overwriteSchema", "true").saveAsTable("classes.silver.vendas")
df_estoque.write.format("delta").mode("overwrite").option("overwriteSchema", "true").saveAsTable("classes.silver.estoque")
df_produto.write.format("delta").mode("overwrite").option("overwriteSchema", "true").saveAsTable("classes.silver.produtos")

print("✅ Sucesso! Camada Silver salva e pronta para a Gold.")

In [0]:
display(df_vendas)