In [26]:
from pyspark.sql import SparkSession
from pyspark.sql.types import StructType, StructField, StringType, FloatType, IntegerType

from delta import *

In [27]:
spark = ( 
    SparkSession
    .builder
    .master("local[*]")
    .config("spark.jars.packages", "io.delta:delta-core_2.12:2.4.0")
    .config("spark.sql.extensions", "io.delta.sql.DeltaSparkSessionExtension")
    .config("spark.sql.catalog.spark_catalog", "org.apache.spark.sql.delta.catalog.DeltaCatalog")
    .getOrCreate() 
)

In [28]:
spark

In [29]:
data = [
    ("1", "PRODUTO_X","MARCA_X", "CATEGORIA_X" ,800.00, 50),
    ("2", "PRODUTO_Y", "MARCA_Y", "CATEGORIA_Y", 500.00, 100),
    ("3", "PRODUTO_Z","MARCA_Z", "CATEGORIA_Z", 150.00, 150)
]

schema = (
    StructType([
        StructField("ID_PRODUTO", StringType(),True),
        StructField("NOME_PRODUTO", StringType(),True),
        StructField("MARCA_PRODUTO", StringType(),True),
        StructField("CATEGORIA_PRODUTO", StringType(),True),
        StructField("PRECO_PRODUTO", FloatType(), True),
        StructField("QUANTIDADE_PRODUTO", IntegerType(), True)
    ])
)

df = spark.createDataFrame(data=data,schema=schema)

df.show(truncate=False)

+----------+------------+-------------+-----------------+-------------+------------------+
|ID_PRODUTO|NOME_PRODUTO|MARCA_PRODUTO|CATEGORIA_PRODUTO|PRECO_PRODUTO|QUANTIDADE_PRODUTO|
+----------+------------+-------------+-----------------+-------------+------------------+
|1         |PRODUTO_X   |MARCA_X      |CATEGORIA_X      |800.0        |50                |
|2         |PRODUTO_Y   |MARCA_Y      |CATEGORIA_Y      |500.0        |100               |
|3         |PRODUTO_Z   |MARCA_Z      |CATEGORIA_Z      |150.0        |150               |
+----------+------------+-------------+-----------------+-------------+------------------+



In [30]:
( 
    df
    .write
    .format("delta")
    .mode('overwrite')
    .save("./data/PRODUTOS")
)

                                                                                

In [31]:
new_data = [
    ("4","PRODUTO_A", "MARCA_A", "CATEGORIA_A", 50.00, 60),
    ("5","PRODUTO_B", "MARCA_B", "CATEGORIA_B", 150.00, 90),
    ("6","PRODUTO_C", "MARCA_C", "CATEGORIA_C", 300.00, 20)
]

df_new = spark.createDataFrame(data=new_data, schema=schema)

df_new.show()

+----------+------------+-------------+-----------------+-------------+------------------+
|ID_PRODUTO|NOME_PRODUTO|MARCA_PRODUTO|CATEGORIA_PRODUTO|PRECO_PRODUTO|QUANTIDADE_PRODUTO|
+----------+------------+-------------+-----------------+-------------+------------------+
|         4|   PRODUTO_A|      MARCA_A|      CATEGORIA_A|         50.0|                60|
|         5|   PRODUTO_B|      MARCA_B|      CATEGORIA_B|        150.0|                90|
|         6|   PRODUTO_C|      MARCA_C|      CATEGORIA_C|        300.0|                20|
+----------+------------+-------------+-----------------+-------------+------------------+



In [32]:
deltaTable = DeltaTable.forPath(spark, "./data/PRODUTOS")

(
    deltaTable.alias("dados_atuais")
    .merge(
        df_new.alias("novos_dados"),
        "dados_atuais.ID_PRODUTO = novos_dados.ID_PRODUTO"
    )
    .whenMatchedUpdateAll()
    .whenNotMatchedInsertAll()
    .execute()
)


                                                                                

In [33]:
deltaTable.delete("ID_PRODUTO = 4")

                                                                                

In [34]:
(
    deltaTable
    .history()
    .select("version", "timestamp", "operation", "operationMetrics")
    .show()
)

+-------+--------------------+---------+--------------------+
|version|           timestamp|operation|    operationMetrics|
+-------+--------------------+---------+--------------------+
|      2|2025-04-16 10:34:...|   DELETE|{numRemovedFiles ...|
|      1|2025-04-16 10:33:...|    MERGE|{numTargetRowsCop...|
|      0|2025-04-16 10:33:...|    WRITE|{numFiles -> 3, n...|
+-------+--------------------+---------+--------------------+



In [35]:
(
    spark
    .read
    .format('delta')
    .option("versionAsOf", 2)
    .load("./data/PRODUTOS")
    .show()
)

+----------+------------+-------------+-----------------+-------------+------------------+
|ID_PRODUTO|NOME_PRODUTO|MARCA_PRODUTO|CATEGORIA_PRODUTO|PRECO_PRODUTO|QUANTIDADE_PRODUTO|
+----------+------------+-------------+-----------------+-------------+------------------+
|         1|   PRODUTO_X|      MARCA_X|      CATEGORIA_X|        800.0|                50|
|         3|   PRODUTO_Z|      MARCA_Z|      CATEGORIA_Z|        150.0|               150|
|         2|   PRODUTO_Y|      MARCA_Y|      CATEGORIA_Y|        500.0|               100|
|         5|   PRODUTO_B|      MARCA_B|      CATEGORIA_B|        150.0|                90|
|         6|   PRODUTO_C|      MARCA_C|      CATEGORIA_C|        300.0|                20|
+----------+------------+-------------+-----------------+-------------+------------------+



In [36]:
deltaTable.update("ID_PRODUTO = 2", set = { "PRECO_PRODUTO": "400.00" })

                                                                                

In [37]:
(
    spark
    .read
    .format('delta')
    .load("./data/PRODUTOS")
    .show()
)

+----------+------------+-------------+-----------------+-------------+------------------+
|ID_PRODUTO|NOME_PRODUTO|MARCA_PRODUTO|CATEGORIA_PRODUTO|PRECO_PRODUTO|QUANTIDADE_PRODUTO|
+----------+------------+-------------+-----------------+-------------+------------------+
|         1|   PRODUTO_X|      MARCA_X|      CATEGORIA_X|        800.0|                50|
|         3|   PRODUTO_Z|      MARCA_Z|      CATEGORIA_Z|        150.0|               150|
|         2|   PRODUTO_Y|      MARCA_Y|      CATEGORIA_Y|        400.0|               100|
|         5|   PRODUTO_B|      MARCA_B|      CATEGORIA_B|        150.0|                90|
|         6|   PRODUTO_C|      MARCA_C|      CATEGORIA_C|        300.0|                20|
+----------+------------+-------------+-----------------+-------------+------------------+

