In [None]:
from pyspark.sql import SparkSession, DataFrame
from pyspark.sql import functions as F
from pyspark.sql.window import Window
from pyspark.sql.utils import AnalysisException
from pyspark.sql.types import StructType, StructField, StringType, BinaryType, IntegerType, DoubleType, TimestampType, DateType, LongType
from delta.tables import DeltaTable
from pyspark.sql.utils import AnalysisException
from pyspark.storagelevel import StorageLevel
from typing import Union, Optional
from pyspark.sql.functions import input_file_name
from pyspark.sql.window import Window

# --- Credenciais AWS ---
accessKeyId = ""
secretAccessKey = ""

# --- Sess√£o Spark ---
def create_spark_session() -> SparkSession:
    spark = (
        SparkSession
        .builder
        .appName("Bronze Zone Streaming")
        .config("spark.sql.extensions", "io.delta.sql.DeltaSparkSessionExtension")
        .config("spark.sql.catalog.spark_catalog", "org.apache.spark.sql.delta.catalog.DeltaCatalog")
        .enableHiveSupport()
        .getOrCreate()
    )
    
    spark.sparkContext.setLogLevel("WARN")

    conf = spark.sparkContext._jsc.hadoopConfiguration()
    conf.set("spark.hadoop.fs.s3a.aws.credentials.provider", "org.apache.hadoop.fs.s3a.TemporaryAWSCredentialsProvider")
    conf.set("fs.s3a.impl", "org.apache.hadoop.fs.s3a.S3AFileSystem")
    conf.set("fs.s3a.fast.upload", "true")
    conf.set("fs.s3a.bucket.all.committer.magic.enabled", "true")
    conf.set("fs.s3a.directory.marker.retention", "keep")
    conf.set("spark.driver.extraClassPath", "/usr/local/spark/jars/*")
    conf.set("spark.driver.memory", "8g")
    conf.set("spark.executor.memory", "16g")
    conf.set("fs.s3a.access.key", accessKeyId)
    conf.set("fs.s3a.secret.key", secretAccessKey)

    return spark

spark = create_spark_session()

In [4]:
schema_usuarios = StructType([
    StructField("id", LongType(), True),
    StructField("nome", StringType(), True),
    StructField("email", StringType(), True),
    StructField("timestamp", StringType(), True)
])

schema_musicas = StructType([
    StructField("id", LongType(), True),
    StructField("Artist", StringType(), True),
    StructField("Title", StringType(), True),
    StructField("timestamp", StringType(), True)
])

schema_streamings = StructType([
    StructField("id", LongType(), True),
    StructField("nome", StringType(), True),
    StructField("musica", StringType(), True),
    StructField("timestamp", StringType(), True)
])

In [5]:
landing_path = f"s3a://dev-lab-02-us-east-2-landing/spotify/"
bronze_path = f"s3a://dev-lab-02-us-east-2-bronze/spotify/"
checkpoint_path = f"s3a://dev-lab-02-us-east-2-bronze/checkpoints/spotify/"

# Explica√ß√£o

## `readStream` ‚Äî Leitura de Dados em "Tempo Real" no Spark

### üìå O que √©?

`readStream` √© o m√©todo do PySpark para **ler dados em tempo real (streaming)**. Ele permite que sua aplica√ß√£o Spark reaja automaticamente a **novos arquivos ou mensagens** que chegam a um diret√≥rio, Kafka, socket, entre outros.

---

### ‚úÖ Quando usar?

* Quando sua aplica√ß√£o precisa **processar dados continuamente** conforme eles chegam.
* Ideal para ingest√£o de dados para **pipelines de streaming**: landing ‚Üí bronze ‚Üí silver.
* Casos comuns:

  * Novos arquivos JSON chegando em uma pasta no S3.
  * Mensagens de um t√≥pico Kafka.
  * Leitura cont√≠nua de logs, sensores ou eventos.

---

### üîß Exemplo b√°sico com arquivos JSON

```python
from pyspark.sql.functions import input_file_name

df_stream = spark.readStream \
    .format("json") \
    .schema(schema) \
    .option("multiline", "true") \
    .load("s3a://meu-bucket/landing/usuarios/") \
    .withColumn("origem_arquivo", input_file_name())
```

---

### üîé Par√¢metros √∫teis para `readStream`

| Par√¢metro                     | Descri√ß√£o                                                                    |
| ----------------------------- | ---------------------------------------------------------------------------- |
| `.format("...")`              | Fonte de dados: `json`, `csv`, `parquet`, `kafka`, `socket`, etc.            |
| `.schema(schema)`             | Define o schema dos dados esperados (obrigat√≥rio para arquivos estruturados) |
| `.option("multiline", "...")` | Se for `json` ou `csv`, define se os objetos est√£o em m√∫ltiplas linhas       |
| `.load(path)`                 | Caminho onde os dados est√£o chegando continuamente                           |
| `.withColumn(...)`            | Pode ser usado para adicionar colunas como `origem_arquivo`, `data`, etc.    |

---

### ‚ö†Ô∏è Aten√ß√£o ao uso com arquivos

* O Spark **n√£o reprocessa arquivos antigos** por padr√£o. Ele considera apenas **novos arquivos**.
* O diret√≥rio precisa ser **imut√°vel**: evite sobrescrever arquivos no mesmo caminho.
* O schema precisa ser definido, pois o Spark n√£o infere schema dinamicamente em streaming.

---

## üß† Diferen√ßa entre `read` vs `readStream`

| Caracter√≠stica        | `read` (batch)          | `readStream` (streaming)                       |
| --------------------- | ----------------------- | ---------------------------------------------- |
| Tipo de leitura       | Dados fixos (est√°ticos) | Dados em tempo real (din√¢micos)                |
| Quando √© executado?   | Apenas uma vez          | Continuamente, enquanto o stream estiver ativo |
| Suporte a formatos    | Todos                   | Limitado: JSON, CSV, Parquet, Delta, Kafka     |
| Necessita checkpoint? | ‚ùå N√£o                   | ‚úÖ Sim, para toler√¢ncia a falhas                |
| Schema din√¢mico       | ‚úÖ Sim                   | ‚ùå N√£o ‚Äî precisa ser definido                   |

---

### üìö Curiosidade: Spark Structured Streaming √© *micro-batch*

Apesar de parecer tempo real, o Spark Structured Streaming opera internamente em **micro-batches**, ou seja, ele agrupa os dados em pequenos lotes com base no tempo (por padr√£o, a cada 500ms). Esse modelo equilibra performance e toler√¢ncia a falhas.

## `writeStream` com `.format("json" | "delta")`

### üìå O que √©?

O m√©todo `.writeStream` em PySpark √© usado para gravar os dados de um **DataFrame em tempo real** em um destino como arquivos JSON, Delta, Kafka, etc.

### ‚úÖ Quando usar?

* Quando voc√™ deseja **gravar continuamente** dados sem transforma√ß√£o complexa por micro-lote.
* Ideal para modos de sa√≠da simples como `append`, `complete` ou `update`.

---

### üîß Exemplo b√°sico

```python
query = df_stream.writeStream \
    .format("json") \
    .option("path", "s3a://meu-bucket/saida/") \
    .option("checkpointLocation", "s3a://meu-bucket/checkpoint/") \
    .outputMode("append") \
    .start()
```

---

### üîé Par√¢metros √∫teis para `.writeStream`

| Par√¢metro                            | Descri√ß√£o                                                                    |
| ------------------------------------ | ---------------------------------------------------------------------------- |
| `.format("...")`                     | Define o formato de sa√≠da: `json`, `parquet`, `delta`, `console`, etc.       |
| `.option("path", ...)`               | Caminho onde os dados ser√£o salvos                                           |
| `.option("checkpointLocation", ...)` | Local para armazenar estado e falhas                                         |
| `.outputMode("...")`                 | Define o modo de sa√≠da: `append`, `complete`, `update`                       |
| `.trigger(...)`                      | Define o intervalo de execu√ß√£o (ex: `.trigger(processingTime="10 seconds")`) |
| `.start()`                           | Inicia o stream                                                              |
| `.awaitTermination()`                | Mant√©m o processo em execu√ß√£o                                                |

---

### ‚ö†Ô∏è Limita√ß√µes

* N√£o permite **l√≥gica personalizada por batch** (ex: upserts).
* O modo `append` s√≥ adiciona dados novos ‚Äî n√£o faz merge nem update.

## üìù README 2: `writeStream` com `.foreachBatch(...)`

### üìå O que √©?

O m√©todo `.foreachBatch` permite **executar c√≥digo customizado por micro-lote**. Isso √© ideal para aplicar **transforma√ß√µes, joins, merges (upsert), valida√ß√µes**, etc.

### ‚úÖ Quando usar?

* Quando voc√™ precisa de **l√≥gica avan√ßada** como:

  * Escrita em Delta com `MERGE` (upsert).
  * Enriquecimento de dados.
  * Grava√ß√£o condicional ou m√∫ltiplos destinos.

---

### üîß Exemplo b√°sico com UPSERT em Delta

```python
from delta.tables import DeltaTable

def upsert_to_delta(micro_batch_df, batch_id):
    delta_table = DeltaTable.forPath(spark, "s3a://bucket/saida/")
    delta_table.alias("t").merge(
        micro_batch_df.alias("s"),
        "t.id = s.id"
    ).whenMatchedUpdateAll() \
     .whenNotMatchedInsertAll() \
     .execute()

query = df_stream.writeStream \
    .foreachBatch(upsert_to_delta) \
    .option("checkpointLocation", "s3a://bucket/checkpoint/") \
    .start()
```

---

### üîé Par√¢metros √∫teis para `.foreachBatch`

| Par√¢metro                            | Descri√ß√£o                                         |
| ------------------------------------ | ------------------------------------------------- |
| `.foreachBatch(func)`                | Fun√ß√£o que recebe `(df, batch_id)` por micro-lote |
| `.option("checkpointLocation", ...)` | Local onde o Spark salva o estado do stream       |
| `.trigger(...)`                      | Define o intervalo de micro-batches               |
| `.start()`                           | Inicia o stream                                   |
| `.awaitTermination()`                | Mant√©m a aplica√ß√£o ativa                          |

---

### ‚úÖ Vantagens

* Permite **grava√ß√£o com l√≥gica condicional** (ex: MERGE).
* Pode escrever em qualquer destino: Delta, JDBC, MongoDB, etc.
* Ideal para pipelines de ingest√£o **bronze ‚Üí silver**.

### ‚ö†Ô∏è Cuidado

* Mais complexo que o `writeStream` padr√£o.
* A fun√ß√£o `foreachBatch` roda em modo **batch dentro do streaming**, ent√£o **tem que ser eficiente**.

---

## üìö Resumo Comparativo

| Crit√©rio               | `.writeStream` padr√£o   | `.foreachBatch`                            |
| ---------------------- | ----------------------- | ------------------------------------------ |
| L√≥gica por micro-batch | ‚ùå N√£o                   | ‚úÖ Sim                                      |
| Suporte a UPSERT/MERGE | ‚ùå N√£o                   | ‚úÖ Sim (com Delta Lake)                     |
| Destino suportado      | Limitado aos suportados | Qualquer destino (desde que c√≥digo exista) |
| Complexidade           | üîπ Baixa                | üî∏ M√©dia/Alta                              |
| Toler√¢ncia a falhas    | ‚úÖ Via checkpoint        | ‚úÖ Via checkpoint                           |


# C√≥digo

In [11]:
def process_stream_json(landing_path, bronze_path, checkpoint_path, categoria, schema):
    df_stream = spark.readStream \
        .format("json") \
        .schema(schema) \
        .option("multiline","True") \
        .load(f"{landing_path}{categoria}") \
        .withColumn("origem_arquivo", input_file_name())

    query = df_stream.writeStream \
        .format("json") \
        .option("path", f"{bronze_path}{categoria}") \
        .option("checkpointLocation", f"{checkpoint_path}{categoria}") \
        .outputMode("append") \
        .start()

    return query

In [6]:
def upsert_to_delta(micro_batch_df, batch_id, output_path):
    if micro_batch_df.rdd.isEmpty():
        return

    
    window_spec = Window.partitionBy("id").orderBy(F.col("timestamp").desc())
    deduplicated_df = micro_batch_df.withColumn("rn", F.row_number().over(window_spec)) \
                                    .filter(F.col("rn") == 1) \
                                    .drop("rn")

    if DeltaTable.isDeltaTable(spark, output_path):
        delta_table = DeltaTable.forPath(spark, output_path)
        delta_table.alias("t").merge(
            deduplicated_df.alias("s"),
            "t.id = s.id"
        ).whenMatchedUpdateAll() \
         .whenNotMatchedInsertAll() \
         .execute()
    else:
        deduplicated_df.write.format("delta").mode("overwrite").save(output_path)

    if DeltaTable.isDeltaTable(spark, output_path):
        delta_table = DeltaTable.forPath(spark, output_path)
        delta_table.alias("t").merge(
            micro_batch_df.alias("s"),
            "t.id = s.id"
        ).whenMatchedUpdateAll() \
         .whenNotMatchedInsertAll() \
         .execute()
    else:
        micro_batch_df.write.format("delta").mode("overwrite").save(output_path)

def process_stream(landing_path, bronze_path, checkpoint_path, categoria, schema):
    input_path = f"{landing_path}{categoria}"
    output_path = f"{bronze_path}{categoria}"
    chk_path = f"{checkpoint_path}{categoria}"

    df_stream = spark.readStream \
        .format("json") \
        .schema(schema) \
        .option("multiline", "True") \
        .load(input_path) \
        .withColumn("origem_arquivo", input_file_name())

    query = df_stream.writeStream \
        .foreachBatch(lambda df, batch_id: upsert_to_delta(df, batch_id, output_path)) \
        .option("checkpointLocation", chk_path) \
        .start()

    return query


In [None]:
queries = [
    process_stream(landing_path, bronze_path, checkpoint_path,"usuarios", schema_usuarios),
    process_stream(landing_path, bronze_path, checkpoint_path,"musicas", schema_musicas),
    process_stream(landing_path, bronze_path, checkpoint_path,"streamings", schema_streamings)
]

for query in queries:
    query.awaitTermination()

In [17]:
df = spark.read.option("multiline","True").json(f"{landing_path}usuarios")
df.printSchema()

root
 |-- email: string (nullable = true)
 |-- id: long (nullable = true)
 |-- nome: string (nullable = true)
 |-- timestamp: string (nullable = true)



In [18]:
df = spark.read.option("multiline","True").json(f"{landing_path}musicas")
df.printSchema()

root
 |-- Artist: string (nullable = true)
 |-- Title: string (nullable = true)
 |-- id: long (nullable = true)
 |-- timestamp: string (nullable = true)



In [19]:
df = spark.read.option("multiline","True").json(f"{landing_path}streamings")
df.printSchema()

root
 |-- id: long (nullable = true)
 |-- musica: string (nullable = true)
 |-- nome: string (nullable = true)
 |-- timestamp: string (nullable = true)

