In [None]:
from pyspark.sql import SparkSession
from pyspark.sql.functions import col, from_unixtime, avg, count

# -----------------------
# 1. Inicializar a Spark Session
# -----------------------
spark = SparkSession.builder \
    .appName("ETL Pipeline - Bronze to Silver to Gold") \
    .config("spark.hadoop.fs.s3a.impl", "org.apache.hadoop.fs.s3a.S3AFileSystem") \
    .getOrCreate()

# Configuração das credenciais AWS
spark._jsc.hadoopConfiguration().set("fs.s3a.access.key", "YOUR_ACCESS_KEY")
spark._jsc.hadoopConfiguration().set("fs.s3a.secret.key", "YOUR_SECRET_KEY")
spark._jsc.hadoopConfiguration().set("fs.s3a.endpoint", "s3.amazonaws.com")

# -----------------------
# 2. Ler os Dados Brutos - Camada Bronze
# -----------------------
bronze_path = "s3a://my-bucket-jp-01/raw-data/ipca/kafka/"

# Ler os dados brutos do S3 (formato JSON)
df_bronze = spark.read.json(bronze_path)

# Visualizar os dados brutos
print("Dados Brutos (Bronze):")
df_bronze.show(truncate=False)

# -----------------------
# 3. Tratamento dos Dados - Camada Silver
# -----------------------
# Remover duplicações e converter timestamps para datas legíveis
df_silver = df_bronze.dropDuplicates()

# Tratar timestamps e converter para formato legível
df_silver = df_silver.withColumn("Data_Vencimento", from_unixtime(col("Data_Vencimento") / 1000, "yyyy-MM-dd")) \
    .withColumn("Data_Base", from_unixtime(col("Data_Base") / 1000, "yyyy-MM-dd")) \
    .withColumn("dt_update", from_unixtime(col("dt_update") / 1000, "yyyy-MM-dd HH:mm:ss"))

# Tratar valores nulos
df_silver = df_silver.fillna({
    "PUCompraManha": 0,
    "PUVendaManha": 0,
    "PUBaseManha": 0
})

# Visualizar os dados transformados
print("Dados Transformados (Silver):")
df_silver.show(truncate=False)

# Salvar os dados limpos no S3 em formato Parquet
silver_path = "s3a://my-bucket-jp-01/processed-data/ipca/silver/"
df_silver.write.mode("overwrite").parquet(silver_path)

# -----------------------
# 4. Agregação e Métricas - Camada Gold
# -----------------------
# Calcular métricas agregadas
df_gold = df_silver.groupBy("Tipo").agg(
    avg("PUCompraManha").alias("Media_PUCompraManha"),
    avg("PUVendaManha").alias("Media_PUVendaManha"),
    count("*").alias("Total_Registros")
)

# Visualizar as métricas agregadas
print("Dados Agregados (Gold):")
df_gold.show(truncate=False)

# Salvar os dados agregados no S3 em formato Parquet
gold_path = "s3a://my-bucket-jp-01/analytics/ipca/gold/"
df_gold.write.mode("overwrite").parquet(gold_path)

# -----------------------
# 5. Encerrar a Spark Session
# -----------------------
spark.stop()