In [0]:
from pyspark.sql import SparkSession

# Inicializa a sessão do Spark
spark = SparkSession.builder.appName("SaveToCurated").getOrCreate()

def save_to_curated():
    """
    Função para salvar os DataFrames processados na área 'curated' em formato Parquet.

    Esta função lê os arquivos Parquet da área de processamento, correspondente às informações de
    funcionários, categorias e vendas, e os salva na área 'curated' no formato Parquet.
    """
    try:
        # Lê os DataFrames da área de processamento
        employees_df = spark.read.parquet("/mnt/processing/employees_data.parquet/")
        categories_df = spark.read.parquet("/mnt/processing/categories_data.parquet/")
        sales_df = spark.read.parquet("/mnt/processing/sales_data.parquet/")

        # Salva os DataFrames na área 'curated' em formato Parquet
        employees_df.write.mode('overwrite').parquet("/mnt/curated/employees/")
        categories_df.write.mode('overwrite').parquet("/mnt/curated/categories/")
        sales_df.write.mode('overwrite').parquet("/mnt/curated/sales/")

        print("Dados foram salvos com sucesso na curated.")
    except Exception as e:
        print(f"Ocorreu um erro: {e}")
    finally:
        print("Operações completadas.")
        # spark.stop()

# Chamar a função para salvar os dados na área curated
save_to_curated()

In [0]:
# Dicionário com mapeamento dos containers
containers = {
    "landing": "/mnt/landing/",
    "processing": "/mnt/processing/",
    "curated": "/mnt/curated/"
}

# Iterar sobre o dicionário e listar os arquivos em cada camada
for container, caminho in containers.items():
    print(f"\nArquivos no container '{container}':")
    files = dbutils.fs.ls(caminho)
    for file in files:
        print(file.path)

In [0]:
# Calcular o tamanho total da pasta Landing e Curated
landing_size = sum(file.size for file in dbutils.fs.ls("/mnt/landing/"))
curated_size = sum(file.size for file in dbutils.fs.ls("/mnt/curated/"))

# Converter para KB
landing_size_mb = (landing_size / 1024)
curated_size_mb = (curated_size / 1024)

print(f"Tamanho Armazenamento Landing: {landing_size_mb:.2f} KB")
print(f"Tamanho Armazenamento Curated: {curated_size_mb:.2f} KB")
