# Delta Lake Operations - Demo

**Cel szkoleniowy:** Zrozumienie fundamentów Delta Lake i praktyczne zastosowanie operacji CRUD, Time Travel, optymalizacji i Change Data Feed

**Zakres tematyczny:**
- Delta Lake core features: ACID, Delta Log, Schema enforcement
- Schema evolution (additive, automatic)
- Time Travel i Copy-on-write
- CRUD operations: CREATE TABLE, INSERT, UPDATE, DELETE, MERGE INTO
- Optymalizacja: OPTIMIZE, ZORDER BY, VACUUM
- Change Data Feed

## Kontekst i wymagania

- **Dzień szkolenia**: Dzień 2 - Lakehouse & Delta Lake
- **Typ notebooka**: Demo
- **Wymagania techniczne**:
  - Databricks Runtime 13.0+ (zalecane: 14.3 LTS)
  - Unity Catalog włączony
  - Uprawnienia: CREATE TABLE, CREATE SCHEMA, SELECT, MODIFY
  - Klaster: Standard z 2-4 workers

## Wstęp teoretyczny

**Cel sekcji:** Wprowadzenie do Delta Lake jako transakcyjnej warstwy storage nad Data Lake

**Podstawowe pojęcia:**
- **Delta Lake**: Open-source storage layer zapewniający ACID transactions dla Apache Spark
- **Delta Log**: Transakcyjny log przechowujący metadane o wszystkich zmianach w tabeli
- **Schema Enforcement**: Automatyczna walidacja zgodności schematów przy zapisie
- **Time Travel**: Możliwość dostępu do poprzednich wersji danych

**Dlaczego to ważne?**
Delta Lake rozwiązuje fundamentalne problemy Data Lake: brak transakcji, schema drift, trudności z aktualizacjami i quality assurance. Zapewnia niezawodność Data Warehouse z elastycznością Data Lake.

## Izolacja per użytkownik

Uruchom skrypt inicjalizacyjny dla per-user izolacji katalogów i schematów:

In [None]:
%run ../00_setup

## Konfiguracja

Import bibliotek i ustawienie zmiennych środowiskowych:

In [None]:
from pyspark.sql import functions as F
from pyspark.sql.types import *
from datetime import datetime, timedelta

# Wyświetl kontekst użytkownika
display(
    spark.createDataFrame([
        (CATALOG, BRONZE_SCHEMA, SILVER_SCHEMA, GOLD_SCHEMA)
    ], ['catalog', 'bronze_schema', 'silver_schema', 'gold_schema'])
)

# Ustaw katalog i schemat jako domyślne
spark.sql(f"USE CATALOG {CATALOG}")
spark.sql(f"USE SCHEMA {BRONZE_SCHEMA}")

## Sekcja 1: Delta Lake Core Features

**Wprowadzenie teoretyczne:**

Delta Lake to warstwa transakcyjna nad Parquet, która zapewnia ACID properties (Atomicity, Consistency, Isolation, Durability). Każda operacja na tabeli Delta jest rejestrowana w Delta Log - JSON pliku zawierającym metadane o zmianach.

**Kluczowe pojęcia:**
- **ACID Transactions**: Wszystkie operacje są atomowe i spójne
- **Delta Log**: `_delta_log/` folder z JSON plikami opisującymi każdą transakcję
- **Schema Enforcement**: Automatyczna walidacja zgodności schematów
- **Unified Batch and Streaming**: Jedna tabela obsługuje zarówno batch jak i streaming

**Zastosowanie praktyczne:**
- Transakcyjne aktualizacje w Data Lake
- Zapewnienie jakości danych poprzez schema validation
- Jednolity dostęp do danych dla batch i streaming workloads

### Przykład 1.1: Utworzenie pierwszej tabeli Delta

**Cel:** Demonstracja tworzenia tabeli Delta i podstawowych właściwości

**Podejście:**
1. Wczytanie danych z Unity Catalog Volume
2. Utworzenie managed table w formacie Delta
3. Eksploracja Delta Log i metadanych

In [None]:
# Wczytaj dane klientów z Unity Catalog Volume
customers_df = (spark.read
    .option("header", "true")
    .option("inferSchema", "true")
    .csv(f"{DATASET_BASE_PATH}/customers/customers.csv")
)

**Utwórz managed Delta table:**

In [None]:
# Utwórz managed Delta table
customers_df.write \
    .format("delta") \
    .mode("overwrite") \
    .saveAsTable(f"{CATALOG}.{BRONZE_SCHEMA}.customers_delta")

**Wyświetl wynik:**

In [None]:
display(spark.table(f"{CATALOG}.{BRONZE_SCHEMA}.customers_delta").limit(5))

**Wyjaśnienie:**

Utworzono managed Delta table w Unity Catalog. Format Delta automatycznie:
- Stworzył `_delta_log/` folder z metadanymi transakcji
- Zarejestrował schemat tabeli w Unity Catalog
- Zastosował kompresję Parquet z dodatkowymi Delta features

### Przykład 1.2: Schema Enforcement w akcji

**Cel:** Demonstracja automatycznej walidacji schematów przy wstawianiu danych

In [None]:
# Sprawdź aktualny schemat tabeli
spark.table(f"{CATALOG}.{BRONZE_SCHEMA}.customers_delta").printSchema()

In [None]:
# Próba wstawienia danych z niepoprawnym schematem
invalid_data = spark.createDataFrame([
    (999, "Test Customer", 25.5, "invalid_email", "2023-01-01")  # age jako float zamiast int
], ["customer_id", "name", "age", "email", "registration_date"])

try:
    invalid_data.write \
        .format("delta") \
        .mode("append") \
        .saveAsTable(f"{CATALOG}.{BRONZE_SCHEMA}.customers_delta")
except Exception as e:
    display(
        spark.createDataFrame([
            ("Schema enforcement w działaniu", str(e)[:100] + "...")
        ], ["message", "error"])
    )

**Wyjaśnienie:**

Schema enforcement automatycznie odrzucił dane z niepoprawnym typem. Delta Lake porównuje schemat nowych danych ze schematem tabeli i blokuje niezgodne wstawienia, zapewniając consistency.

In [None]:
# Utwórz tabelę z Identity Column i Generated Column
spark.sql(f"""
CREATE TABLE IF NOT EXISTS {CATALOG}.{BRONZE_SCHEMA}.orders_modern (
    order_sk BIGINT GENERATED ALWAYS AS IDENTITY,  -- Surrogate Key
    order_id STRING,
    total_amount DOUBLE,
    order_timestamp TIMESTAMP,
    order_date DATE GENERATED ALWAYS AS (CAST(order_timestamp AS DATE)) -- Auto-calculated
) USING DELTA
""")


In [None]:
display(spark.table(f"{CATALOG}.{BRONZE_SCHEMA}.orders_modern"))


Sprawdźmy wynik. Zwróć uwagę na automatycznie wypełnione kolumny.


In [None]:
# Wstaw dane bez podawania kolumn generowanych
spark.sql(f"""
INSERT INTO {CATALOG}.{BRONZE_SCHEMA}.orders_modern (order_id, total_amount, order_timestamp)
VALUES 
    ('ORD-001', 150.50, current_timestamp()),
    ('ORD-002', 200.00, current_timestamp())
""")


Teraz wstawimy dane. Zauważ, że w zapytaniu `INSERT` pomijamy kolumny `order_sk` oraz `order_date`.
- `order_sk`: zostanie wygenerowane automatycznie (unikalny numer).
- `order_date`: zostanie wyliczone na podstawie `order_timestamp`.


### Przykład 1.3: Modern Modeling - Identity & Generated Columns

**Cel:** Wykorzystanie nowoczesnych funkcji Delta Lake do automatyzacji modelu danych.

**Funkcje:**
- **Identity Columns**: Automatyczne generowanie unikalnych kluczy (Surrogate Keys).
- **Generated Columns**: Automatyczne wyliczanie wartości kolumn na podstawie innych (np. data z timestamp).


## Sekcja 2: Schema Evolution

**Wprowadzenie teoretyczne:**

Schema Evolution pozwala na kontrolowane dodawanie nowych kolumn do istniejących tabel Delta bez przerywania działania aplikacji. Delta Lake wspiera additive schema changes automatycznie.

### Przykład 2.1: Automatyczne dodawanie kolumn

**Cel:** Demonstracja automatycznej ewolucji schematu przy dodawaniu nowych kolumn

In [None]:
# Dane z dodatkową kolumną
extended_customers = spark.createDataFrame([
    (1001, "New Customer", 30, "new@example.com", "2023-12-01", "Premium"),
    (1002, "Another Customer", 25, "another@example.com", "2023-12-02", "Standard")
], ["customer_id", "name", "age", "email", "registration_date", "customer_tier"])

**Włącz automatic schema evolution:**

In [None]:
# Włącz automatic schema evolution
extended_customers.write \
    .format("delta") \
    .mode("append") \
    .option("mergeSchema", "true") \
    .saveAsTable(f"{CATALOG}.{BRONZE_SCHEMA}.customers_delta")

In [None]:
# Sprawdź nowy schemat
spark.table(f"{CATALOG}.{BRONZE_SCHEMA}.customers_delta").printSchema()

In [None]:
# Weryfikuj dane - nowa kolumna ma NULL dla starych rekordów
display(
    spark.table(f"{CATALOG}.{BRONZE_SCHEMA}.customers_delta")
    .select("customer_id", "name", "customer_tier")
    .orderBy("customer_id")
)

In [None]:
# Dodaj CHECK constraint: Wiek musi być dodatni
try:
    spark.sql(f"""
        ALTER TABLE {CATALOG}.{BRONZE_SCHEMA}.customers_delta
        ADD CONSTRAINT valid_age CHECK (age > 0)
    """)
    print("Constraint 'valid_age' dodany pomyślnie.")
except Exception as e:
    print(f"Informacja: {e}")


In [None]:
# Próba wstawienia błędnych danych (wiek = -5)
try:
    spark.sql(f"""
        INSERT INTO {CATALOG}.{BRONZE_SCHEMA}.customers_delta (customer_id, name, age)
        VALUES (9999, 'Invalid Age Customer', -5)
    """)
except Exception as e:
    print(f"Oczekiwany błąd Data Quality:\n{str(e)[:300]}...")


Constraint został dodany. Teraz spróbujmy wstawić dane, które go naruszają (wiek = -5). 
Oczekujemy, że Delta Lake zablokuje tę operację i zwróci błąd `InvariantViolationException` lub `CheckConstraintViolationException`.


## Sekcja 2.5: Data Quality & Constraints

**Wprowadzenie teoretyczne:**

Delta Lake pozwala na definiowanie **Constraints** (ograniczeń), które gwarantują jakość danych na poziomie tabeli. Działa to podobnie jak w tradycyjnych bazach danych SQL.

**Typy Constraints:**
- `NOT NULL`: Wymusza obecność wartości.
- `CHECK`: Wymusza spełnienie dowolnego warunku logicznego (np. `age > 0`).


## Sekcja 3: Time Travel i Disaster Recovery

**Wprowadzenie teoretyczne:**

Time Travel to kluczowa funkcjonalność Delta Lake umożliwiająca dostęp do poprzednich wersji danych. Bazuje na Copy-on-Write mechanizmie - każda zmiana tworzy nową wersję plików, a stare wersje pozostają dostępne.

**Disaster Recovery:**
Dzięki Time Travel możemy nie tylko czytać stare dane, ale także **przywracać** tabelę do poprzedniego stanu za pomocą polecenia `RESTORE`. To kluczowe w przypadku przypadkowego usunięcia danych lub błędnych aktualizacji.

### Przykład 3.1: Eksploracja historii tabeli

**Cel:** Użycie DESCRIBE HISTORY do analizy wszystkich operacji na tabeli

In [None]:
# Pokaż historię wszystkich operacji na tabeli
display(
    spark.sql(f"DESCRIBE HISTORY {CATALOG}.{BRONZE_SCHEMA}.customers_delta")
)

### Przykład 3.2: Time Travel queries

**Cel:** Dostęp do poprzednich wersji danych używając VERSION AS OF i TIMESTAMP AS OF

In [None]:
# Dostęp do danych z wersji 0 (przed schema evolution)
version_0_data = spark.sql(f"""
    SELECT customer_id, name, age, email 
    FROM {CATALOG}.{BRONZE_SCHEMA}.customers_delta VERSION AS OF 0
    ORDER BY customer_id
""")

display(version_0_data)

In [None]:
# Porównaj liczbę rekordów między wersjami
current_count = spark.table(f"{CATALOG}.{BRONZE_SCHEMA}.customers_delta").count()
version_0_count = spark.sql(f"SELECT * FROM {CATALOG}.{BRONZE_SCHEMA}.customers_delta VERSION AS OF 0").count()

display(
    spark.createDataFrame([
        ("Current version", current_count),
        ("Version 0", version_0_count)
    ], ["version", "record_count"])
)

In [None]:
# 1. Symulacja błędu: Przypadkowe usunięcie wszystkich danych
spark.sql(f"DELETE FROM {CATALOG}.{BRONZE_SCHEMA}.customers_delta")


In [None]:
print("Liczba rekordów po RESTORE:", spark.table(f"{CATALOG}.{BRONZE_SCHEMA}.customers_delta").count())


Tabela została przywrócona. Zweryfikujmy liczbę rekordów.


In [None]:
# 2. Naprawa: RESTORE do wersji sprzed usunięcia
# Pobieramy ostatnią dobrą wersję (przed DELETE)
last_good_version = spark.sql(f"DESCRIBE HISTORY {CATALOG}.{BRONZE_SCHEMA}.customers_delta").select("version").limit(2).collect()[1][0]

print(f"Przywracanie do wersji: {last_good_version}")

spark.sql(f"RESTORE TABLE {CATALOG}.{BRONZE_SCHEMA}.customers_delta TO VERSION AS OF {last_good_version}")


Teraz użyjemy **Time Travel**, aby znaleźć ostatnią poprawną wersję (sprzed usunięcia) i przywrócić tabelę poleceniem `RESTORE`.


In [None]:
print("Liczba rekordów po awarii:", spark.table(f"{CATALOG}.{BRONZE_SCHEMA}.customers_delta").count())


Ups! Usunęliśmy wszystkie dane. Sprawdźmy, czy tabela jest faktycznie pusta.


### Przykład 3.3: Disaster Recovery - RESTORE TABLE

**Cel:** Przywrócenie tabeli do stanu sprzed błędnej operacji (symulacja awarii).


## Sekcja 4: CRUD Operations

**Wprowadzenie teoretyczne:**

Delta Lake wspiera pełen zakres operacji CRUD (Create, Read, Update, Delete), co czyni go idealnym dla transakcyjnych workloadów w Data Lake. Wszystkie operacje są atomowe i ACID-compliant.

### Przykład 4.1: INSERT operation

**Cel:** Dodawanie nowych rekordów do istniejącej tabeli

In [None]:
# INSERT nowych klientów
spark.sql(f"""
    INSERT INTO {CATALOG}.{BRONZE_SCHEMA}.customers_delta
    VALUES 
        (2001, 'Insert Customer 1', 28, 'insert1@example.com', '2023-12-10', 'Gold'),
        (2002, 'Insert Customer 2', 35, 'insert2@example.com', '2023-12-11', 'Silver')
""")

**Weryfikuj wstawienie:**

In [None]:
# Weryfikuj wstawienie
display(
    spark.table(f"{CATALOG}.{BRONZE_SCHEMA}.customers_delta")
    .filter(F.col("customer_id") >= 2000)
    .orderBy("customer_id")
)

### Przykład 4.2: UPDATE operation

**Cel:** Aktualizacja istniejących rekordów w tabeli

In [None]:
# UPDATE customer tier dla specific customers
spark.sql(f"""
    UPDATE {CATALOG}.{BRONZE_SCHEMA}.customers_delta
    SET customer_tier = 'Platinum'
    WHERE customer_id IN (1001, 2001)
""")

**Weryfikuj aktualizację:**

In [None]:
# Weryfikuj aktualizację
display(
    spark.table(f"{CATALOG}.{BRONZE_SCHEMA}.customers_delta")
    .filter(F.col("customer_tier") == "Platinum")
    .select("customer_id", "name", "customer_tier")
)

### Przykład 4.3: DELETE operation

**Cel:** Usuwanie rekordów z tabeli Delta

In [None]:
# DELETE specific customer
spark.sql(f"""
    DELETE FROM {CATALOG}.{BRONZE_SCHEMA}.customers_delta
    WHERE customer_id = 2002
""")

**Weryfikuj usunięcie:**

In [None]:
# Weryfikuj usunięcie
deleted_check = spark.table(f"{CATALOG}.{BRONZE_SCHEMA}.customers_delta") \
    .filter(F.col("customer_id") == 2002) \
    .count()

display(
    spark.createDataFrame([
        ("Records with customer_id 2002", deleted_check)
    ], ["description", "count"])
)

## Sekcja 5: MERGE INTO Operations

**Wprowadzenie teoretyczne:**

MERGE INTO to potężna operacja umożliwiająca upsert (update + insert) w jednej transakcji. Szczególnie przydatna przy przetwarzaniu zmian z systemów transakcyjnych (CDC - Change Data Capture).

### Przykład 5.1: Podstawowy MERGE INTO

**Cel:** Demonstracja upsert operation - update istniejących i insert nowych rekordów

In [None]:
# Przygotuj dane do merge (mix updates i nowych rekordów)
merge_data = spark.createDataFrame([
    (1001, "Updated Customer Name", 31, "updated@example.com", "2023-12-01", "Diamond"),  # Update
    (3001, "Brand New Customer", 29, "brand.new@example.com", "2023-12-15", "Bronze"),   # Insert
    (3002, "Another New Customer", 33, "another.new@example.com", "2023-12-16", "Silver") # Insert
], ["customer_id", "name", "age", "email", "registration_date", "customer_tier"])

**Utwórz temporary view dla merge operation:**

In [None]:
# Utwórz temporary view dla merge operation
merge_data.createOrReplaceTempView("customer_updates")

**Wykonaj operację MERGE (Upsert):**

In [None]:
# MERGE INTO operation
spark.sql(f"""
    MERGE INTO {CATALOG}.{BRONZE_SCHEMA}.customers_delta AS target
    USING customer_updates AS source
    ON target.customer_id = source.customer_id
    
    WHEN MATCHED THEN
        UPDATE SET
            name = source.name,
            age = source.age,
            email = source.email,
            customer_tier = source.customer_tier
    
    WHEN NOT MATCHED THEN
        INSERT (customer_id, name, age, email, registration_date, customer_tier)
        VALUES (source.customer_id, source.name, source.age, source.email, source.registration_date, source.customer_tier)
""")

**Zweryfikuj wyniki MERGE:**

In [None]:
# Weryfikuj wyniki MERGE
display(
    spark.table(f"{CATALOG}.{BRONZE_SCHEMA}.customers_delta")
    .filter(F.col("customer_id").isin([1001, 3001, 3002]))
    .orderBy("customer_id")
)

## Sekcja 6: Metadane i Analytics

**Wprowadzenie teoretyczne:**

Delta Lake oferuje bogate metadane o tabelach i operacjach. DESCRIBE DETAIL dostarcza informacji o strukturze plików, partitioning, i właściwościach tabeli.

### Przykład 6.1: DESCRIBE DETAIL

**Cel:** Analiza metadanych tabeli Delta

In [None]:
# Szczegółowe informacje o tabeli
display(
    spark.sql(f"DESCRIBE DETAIL {CATALOG}.{BRONZE_SCHEMA}.customers_delta")
)

### Przykład 6.2: Analiza historii operacji

**Cel:** Głębsza analiza historii i metryk operacji

In [None]:
# Historia z dodatkowymi metrykami
history_df = spark.sql(f"DESCRIBE HISTORY {CATALOG}.{BRONZE_SCHEMA}.customers_delta")

display(
    history_df.select(
        "version", 
        "timestamp", 
        "operation", 
        "operationMetrics.numTargetRowsInserted",
        "operationMetrics.numTargetRowsUpdated",
        "operationMetrics.numTargetRowsDeleted"
    )
)

**Pobierz ścieżkę do tabeli i _delta_log:**

In [None]:
# Pobierz ścieżkę do tabeli
table_path = spark.sql(f"DESCRIBE DETAIL {CATALOG}.{BRONZE_SCHEMA}.customers_delta").select("location").collect()[0][0]
delta_log_path = f"{table_path}/_delta_log"

**Wyświetl pliki w _delta_log:**

In [None]:
# Wyświetl pliki w _delta_log
display(dbutils.fs.ls(delta_log_path))

**Analiza ostatniego pliku transakcji (JSON):**

In [None]:
# Wyświetl zawartość ostatniego pliku JSON (transakcji)
last_json = sorted([f.name for f in dbutils.fs.ls(delta_log_path) if f.name.endswith(".json")])[-1]
print(f"Analiza pliku transakcji: {last_json}")
print(dbutils.fs.head(f"{delta_log_path}/{last_json}", 1000))


Poniżej podgląd zawartości ostatniego pliku transakcyjnego JSON. 
Zawiera on metadane o operacjach, takich jak:
- `add`: dodanie nowego pliku Parquet z danymi.
- `remove`: logiczne usunięcie pliku (np. przy operacji DELETE lub OPTIMIZE).
- `commitInfo`: metadane o samej transakcji (kto, kiedy, jaka operacja).


### Przykład 6.3: Delta Log Internals (Deep Dive)

**Cel:** Zrozumienie jak Delta Lake zapewnia ACID, zaglądając "pod maskę" do plików JSON w `_delta_log`.


## Sekcja 7: Optymalizacja (Wstęp)

**Wprowadzenie teoretyczne:**

Delta Lake oferuje szereg mechanizmów optymalizacyjnych. W tym notebooku skupimy się na podstawowej operacji **OPTIMIZE** (kompaktowanie plików) oraz **VACUUM** (czyszczenie).

> **Deep Dive:** Zaawansowane techniki takie jak **ZORDER BY**, **Partycjonowanie** oraz **Liquid Clustering** są szczegółowo omówione w notebooku **05_optimization_best_practices.ipynb**.


### Przykład 7.1: OPTIMIZE (File Compaction)

**Cel:** Kompaktowanie małych plików (small files problem) w większe, co poprawia wydajność odczytu.
Możemy opcjonalnie dodać klauzulę `ZORDER BY` (omówioną w notebooku 05), aby dodatkowo posortować dane.


**Wykonaj kompaktowanie plików:**

In [None]:
# OPTIMIZE tabeli
optimize_result = spark.sql(f"""
    OPTIMIZE {CATALOG}.{BRONZE_SCHEMA}.customers_delta
""")

display(optimize_result)

### Przykład 7.3: Liquid Clustering (Wzmianka)

**Nowoczesna alternatywa:**
Databricks wprowadził **Liquid Clustering** - nową technikę, która zastępuje tradycyjne partycjonowanie i ZORDER. 
Liquid Clustering automatycznie zarządza układem danych, dostosowując się do wzorców zapytań.

> **Deep Dive:** Szczegółowe omówienie i przykłady Liquid Clustering znajdują się w notebooku **05_optimization_best_practices.ipynb**.


### Przykład 7.2: VACUUM operation

**Cel:** Usunięcie starych plików (starszych niż retention period), które nie są już potrzebne do Time Travel.


**Wyłącz sprawdzenie retencji (tylko dla demo):**

In [None]:
# VACUUM - usuń pliki starsze niż 0 godzin (tylko dla demo!)
# W produkcji: domyślnie 7 dni, minimum 0 godzin z flagą
spark.sql("SET spark.databricks.delta.retentionDurationCheck.enabled = false")

**Uruchom VACUUM (usuń stare pliki):**

In [None]:
vacuum_result = spark.sql(f"""
    VACUUM {CATALOG}.{BRONZE_SCHEMA}.customers_delta RETAIN 0 HOURS
""")

display(vacuum_result)

## Sekcja 8: Change Data Feed

**Wprowadzenie teoretyczne:**

Change Data Feed (CDF) to feature Delta Lake umożliwiający tracking wszystkich zmian w tabeli. Każda operacja INSERT, UPDATE, DELETE jest rejestrowana z dodatkowymi metadanymi.

### Przykład 8.1: Włączenie Change Data Feed

**Cel:** Aktywacja CDF dla istniejącej tabeli

**Włącz Change Data Feed:**

In [None]:
# Włącz Change Data Feed
spark.sql(f"""
    ALTER TABLE {CATALOG}.{BRONZE_SCHEMA}.customers_delta 
    SET TBLPROPERTIES (delta.enableChangeDataFeed = true)
""")

### Przykład 8.2: Generowanie zmian dla CDF

**Cel:** Wykonanie operacji które będą śledzzone przez CDF

**Wstaw nowy rekord (INSERT):**

In [None]:
# Wykonaj więcej zmian po włączeniu CDF
spark.sql(f"""
    INSERT INTO {CATALOG}.{BRONZE_SCHEMA}.customers_delta
    VALUES (4001, 'CDF Test Customer', 27, 'cdf@example.com', '2023-12-20', 'Bronze')
""")

**Zaktualizuj rekord (UPDATE):**

In [None]:
spark.sql(f"""
    UPDATE {CATALOG}.{BRONZE_SCHEMA}.customers_delta
    SET customer_tier = 'Gold'
    WHERE customer_id = 4001
""")

### Przykład 8.3: Odczyt Change Data Feed

**Cel:** Analiza wszystkich zmian zarejestrowanych przez CDF

**Odczytaj zmiany (CDF):**

In [None]:
# Batch read change data feed od określonej wersji
changes_batch = spark.read \
    .format("delta") \
    .option("readChangeFeed", "true") \
    .option("startingVersion", 5) \
    .table(f"{CATALOG}.{BRONZE_SCHEMA}.customers_delta")

display(
    changes_batch.select(
        "customer_id", "name", "customer_tier", 
        "_change_type", "_commit_version", "_commit_timestamp"
    )
)

**Utwórz SHALLOW CLONE:**

In [None]:
# Utwórz SHALLOW CLONE do testów
spark.sql(f"""
CREATE TABLE {CATALOG}.{BRONZE_SCHEMA}.customers_test_clone
SHALLOW CLONE {CATALOG}.{BRONZE_SCHEMA}.customers_delta
""")


**Wykonaj operację DELETE na klonie:**

In [None]:
# Wykonaj destrukcyjną operację na klonie (nie wpływa na oryginał!)
spark.sql(f"DELETE FROM {CATALOG}.{BRONZE_SCHEMA}.customers_test_clone WHERE age < 30")

**Porównaj liczniki (izolacja):**

In [None]:
# Porównaj liczniki
orig_count = spark.table(f"{CATALOG}.{BRONZE_SCHEMA}.customers_delta").count()
clone_count = spark.table(f"{CATALOG}.{BRONZE_SCHEMA}.customers_test_clone").count()

print(f"Oryginał: {orig_count}")
print(f"Klon (po delete): {clone_count}")


Porównanie liczby rekordów potwierdza izolację. Oryginał powinien mieć więcej rekordów niż klon po usunięciu.


## Sekcja 9: Zero-Copy Cloning

**Wprowadzenie teoretyczne:**

Delta Lake umożliwia tworzenie kopii tabel (Clones).
- **SHALLOW CLONE**: Kopiuje tylko metadane (Delta Log), a dane fizyczne pozostają te same. Idealne do testów, QA, eksperymentów. Koszt storage = prawie zero.
- **DEEP CLONE**: Kopiuje metadane i dane fizyczne. Idealne do archiwizacji lub migracji.


## Porównanie PySpark vs SQL

**DataFrame API (PySpark):**

**Przygotuj dane (PySpark):**

In [None]:
# PySpark approach - MERGE simulation
from delta.tables import DeltaTable

delta_table = DeltaTable.forName(spark, f"{CATALOG}.{BRONZE_SCHEMA}.customers_delta")

new_data = spark.createDataFrame([
    (5001, "PySpark Customer", 32, "pyspark@example.com", "2023-12-25", "Silver")
], ["customer_id", "name", "age", "email", "registration_date", "customer_tier"])

**Wykonaj MERGE (PySpark):**

In [None]:
delta_table.alias("target") \
    .merge(
        new_data.alias("source"),
        "target.customer_id = source.customer_id"
    ) \
    .whenMatchedUpdateAll() \
    .whenNotMatchedInsertAll() \
    .execute()

**SQL Equivalent:**

In [None]:
# SQL approach
spark.sql(f"""
    MERGE INTO {CATALOG}.{BRONZE_SCHEMA}.customers_delta AS target
    USING (SELECT 5002 as customer_id, 'SQL Customer' as name, 30 as age, 
                  'sql@example.com' as email, '2023-12-26' as registration_date, 
                  'Gold' as customer_tier) AS source
    ON target.customer_id = source.customer_id
    WHEN MATCHED THEN UPDATE SET *
    WHEN NOT MATCHED THEN INSERT *
""")

**Porównanie:**
- **Wydajność**: Identyczna - obydwa używają Catalyst optimizer
- **Kiedy używać PySpark**: Programatic ETL, complex business logic, integration z ML pipelines
- **Kiedy używać SQL**: Ad-hoc analysis, reporting, BI tools integration, łatwiejsze dla analityków

## Walidacja i weryfikacja

### Checklist - Co powinieneś uzyskać:
- [ ] Tabela Delta utworzona z automatycznym schema enforcement
- [ ] Schema evolution - dodana kolumna customer_tier
- [ ] Time Travel queries działają dla poprzednich wersji
- [ ] CRUD operations (INSERT, UPDATE, DELETE) wykonane poprawnie
- [ ] MERGE INTO zaimplementowane z upsert logic
- [ ] Optymalizacja OPTIMIZE i ZORDER zastosowana
- [ ] Change Data Feed włączony i rejestruje zmiany

### Komendy weryfikacyjne:

**Weryfikacja podstawowych metryk:**

In [None]:
# Weryfikacja wyników
final_count = spark.table(f"{CATALOG}.{BRONZE_SCHEMA}.customers_delta").count()
final_schema_cols = len(spark.table(f"{CATALOG}.{BRONZE_SCHEMA}.customers_delta").columns)
history_count = spark.sql(f"DESCRIBE HISTORY {CATALOG}.{BRONZE_SCHEMA}.customers_delta").count()

display(
    spark.createDataFrame([
        ("Total records", final_count),
        ("Schema columns", final_schema_cols),
        ("History versions", history_count)
    ], ["metric", "value"])
)

**Weryfikacja ustawień CDF:**

In [None]:
# Sprawdź CDF properties
table_properties = spark.sql(f"SHOW TBLPROPERTIES {CATALOG}.{BRONZE_SCHEMA}.customers_delta")
cdf_enabled = table_properties.filter(F.col("key") == "delta.enableChangeDataFeed").count() > 0

display(
    spark.createDataFrame([
        ("Change Data Feed enabled", cdf_enabled)
    ], ["property", "status"])
)

## Troubleshooting

### Problem 1: Schema enforcement błąd
**Objawy:**
- AnalysisException przy INSERT/MERGE z incompatible schema
- "Cannot write incompatible datatype" message

**Rozwiązanie:**
```python
# Użyj mergeSchema option dla schema evolution
df.write.format("delta").option("mergeSchema", "true").mode("append")
```

### Problem 2: Time Travel - version not found
**Objawy:** 
File not found dla określonej wersji po VACUUM

**Rozwiązanie:** 
Sprawdź retention period i dostępne wersje przez DESCRIBE HISTORY

### Problem 3: VACUUM usuwa zbyt dużo plików
**Objawy:** Time Travel queries failują po VACUUM

**Rozwiązanie:** 
Ustaw odpowiedni retention period (domyślnie 7 dni minimum)

### Debugging tips:
- Użyj `DESCRIBE HISTORY` aby zrozumieć operacje na tabeli
- Sprawdź `DESCRIBE DETAIL` dla metadanych o plikach
- Weryfikuj table properties przez `SHOW TBLPROPERTIES`
- Monitoruj `_delta_log/` folder dla troubleshooting

## Best Practices

### Wydajność:
- Używaj ZORDER BY dla kolumn często występujących w WHERE clauses
- Regularnie uruchamiaj OPTIMIZE dla kompaktowania small files
- Partitioning tylko dla bardzo dużych tabel (TB+) ze skewed data

### Jakość kodu:
- Zawsze używaj explicit schema zamiast inferSchema w production
- Implementuj schema evolution strategy dla backward compatibility
- Używaj MERGE INTO zamiast separate DELETE + INSERT operations

### Data Quality:
- Włącz Change Data Feed dla audit trails i compliance
- Regularne backup przez Time Travel snapshots
- Implement data validation rules w Delta constraints

### Governance:
- Ustaw odpowiednie retention periods dla compliance requirements
- Używaj Unity Catalog permissions dla row/column level security
- Dokumentuj schema changes i business logic w table comments

## Podsumowanie

### Co zostało osiągnięte:
- Demonstracja Delta Lake ACID properties i schema enforcement
- Hands-on Schema Evolution z automatic column addition
- Time Travel queries dla historical data access
- Kompletne CRUD operations (CREATE, READ, UPDATE, DELETE)
- Advanced MERGE INTO dla upsert scenarios
- Performance optimization z OPTIMIZE, ZORDER, VACUUM
- Change Data Feed dla comprehensive audit trails

### Kluczowe wnioski:
1. **Delta Lake = Data Lake + ACID**: Łączy elastyczność Data Lake z niezawodnością transakcyjną
2. **Schema Evolution bezpiecznie**: Additive changes są automatyczne, breaking changes wymagają planowania
3. **Time Travel + Copy-on-Write**: Każda wersja jest preserved, umożliwiając rollback i audit

### Quick Reference - Najważniejsze komendy:

| Operacja | PySpark | SQL |
|----------|---------|-----|
| Create Delta Table | `df.write.format("delta").saveAsTable()` | `CREATE TABLE USING DELTA` |
| Time Travel | `spark.read.format("delta").option("versionAsOf", 1)` | `SELECT * FROM table VERSION AS OF 1` |
| MERGE | `DeltaTable.forName().merge().execute()` | `MERGE INTO target USING source` |
| Optimize | N/A | `OPTIMIZE table ZORDER BY col` |
| History | N/A | `DESCRIBE HISTORY table` |

### Następne kroki:
- **Kolejny notebook**: 02_medallion_architecture.ipynb
- **Warsztat praktyczny**: 01_delta_medallion_workshop.ipynb
- **Materiały dodatkowe**: Delta Lake documentation, best practices guides

## Czyszczenie zasobów

Posprzątaj zasoby utworzone podczas notebooka:

In [None]:
# Opcjonalne czyszczenie zasobów testowych
# UWAGA: Uruchom tylko jeśli chcesz usunąć wszystkie utworzone dane

# spark.sql(f"DROP TABLE IF EXISTS {CATALOG}.{BRONZE_SCHEMA}.customers_delta")
# spark.sql("DROP VIEW IF EXISTS customer_updates")
# spark.catalog.clearCache()

# display(spark.createDataFrame([("Zasoby zostały wyczyszczone", "✓")], ["status", "result"]))