In [2]:
from pyspark.sql import SparkSession
from pyspark.sql.functions import current_timestamp, input_file_name

# Função para criar SparkSession
def create_spark_session() -> SparkSession:
    spark = (
        SparkSession.builder
        .appName("ETL Medallion Bronze")
        .enableHiveSupport()
        .config("spark.sql.extensions", "io.delta.sql.DeltaSparkSessionExtension")
        .config("spark.sql.catalog.spark_catalog", "org.apache.spark.sql.delta.catalog.DeltaCatalog")
        .config("spark.hadoop.fs.s3a.impl", "org.apache.hadoop.fs.s3a.S3AFileSystem")
        .config("spark.hadoop.fs.s3minio.impl", "org.apache.hadoop.fs.s3a.S3AFileSystem")
        .config("spark.driver.memory", "4g")
        .config("spark.executor.memory", "4g")
        .config("spark.sql.shuffle.partitions", "8")
        .getOrCreate()
    )
    return spark

# Inicializa Spark
spark = create_spark_session()

# Configuração S3 (dados brutos)
s3_options = {
    "fs.s3a.access.key": "AKIAQ4NTTA27V46ECJOV",
    "fs.s3a.secret.key": "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",
    "fs.s3a.endpoint": "s3.us-east-2.amazonaws.com",
    "fs.s3a.region": "us-east-2",
    "fs.s3a.path.style.access": "false"
}

# Configuração MinIO (camada bronze)
minio_delta_options = {
    "fs.s3a.access.key": "admin",
    "fs.s3a.secret.key": "senhasegura",
    "fs.s3a.endpoint": "http://minio:9000",
    "fs.s3a.path.style.access": "true",
    "fs.s3a.connection.ssl.enabled": "false"
}

# Tabelas que serão processadas
tables = ["league", "player", "team", "Match", "player_attributes"]

for table in tables:
    print(f"Iniciando ingestão da tabela: {table}")

    # Leitura dos dados brutos do S3
    df = (
        spark.read
        .format("parquet")
        .options(**s3_options)
        .load(f"s3a://dev-lab-02-us-east-2-landing/soccer/{table}/")
    )

    # Inclusão de colunas de metadados
    df = (
        df.withColumn("_ingest_timestamp", current_timestamp())
          .withColumn("_source_file", input_file_name())
    )

    # Escrita no MinIO em formato Delta
    delta_path = f"s3a://bucket-bronze-zone/soccer/{table}"

    (
        df.write
        .format("delta")
        .mode("overwrite")
        .option("overwriteSchema", "true")
        .options(**minio_delta_options)
        .save(delta_path)
    )

    print(f"Tabela {table} gravada com sucesso na camada Bronze em Delta no MinIO!")

# Finaliza Spark
spark.stop()


Iniciando ingestão da tabela: league
Tabela league gravada com sucesso na camada Bronze em Delta no MinIO!
Iniciando ingestão da tabela: player
Tabela player gravada com sucesso na camada Bronze em Delta no MinIO!
Iniciando ingestão da tabela: team
Tabela team gravada com sucesso na camada Bronze em Delta no MinIO!
Iniciando ingestão da tabela: Match
Tabela Match gravada com sucesso na camada Bronze em Delta no MinIO!
Iniciando ingestão da tabela: player_attributes
Tabela player_attributes gravada com sucesso na camada Bronze em Delta no MinIO!
