# Warsztat 2: Ingestion Pipeline - COPY INTO & Auto Loader

**Cel warsztatu:**
- Implementacja batch ingestion u≈ºywajƒÖc COPY INTO
- Konfiguracja Auto Loader dla streaming ingestion
- Obs≈Çuga r√≥≈ºnych format√≥w plik√≥w (CSV, JSON, Parquet)
- Monitorowanie i zarzƒÖdzanie pipeline'ami ingestion

**Czas:** 90 minut

---

## üìö Inicjalizacja ≈õrodowiska

In [None]:
%run ../../00_setup

## üéØ Czƒô≈õƒá 1: COPY INTO - Batch Ingestion

### Zadanie 1.1: Ingestion plik√≥w CSV

**Instrukcje:**
1. Przygotuj tabelƒô docelowƒÖ `bronze_customers_batch`
2. U≈ºyj `COPY INTO` do za≈Çadowania danych z `customers.csv`
3. Zweryfikuj liczbƒô za≈Çadowanych rekord√≥w

In [None]:
# TODO: Utw√≥rz tabelƒô docelowƒÖ
spark.sql(f"""
    CREATE TABLE IF NOT EXISTS {CATALOG}.{SCHEMA}.bronze_customers_batch (
        customer_id INT,
        name STRING,
        email STRING,
        city STRING,
        country STRING,
        _ingestion_timestamp TIMESTAMP
    )
    USING DELTA
    LOCATION '{____}/customers_batch'  -- Uzupe≈Çnij BRONZE_PATH
""")

In [None]:
# TODO: COPY INTO z pliku CSV
spark.sql(f"""
    ____ INTO {CATALOG}.{SCHEMA}.bronze_customers_batch
    FROM (
        SELECT 
            customer_id,
            name,
            email,
            city,
            country,
            current_timestamp() as _ingestion_timestamp
        FROM '{____}/____'  -- Uzupe≈Çnij SOURCE_DATA_PATH i nazwƒô pliku
    )
    FILEFORMAT = ____  -- Uzupe≈Çnij format (CSV)
    FORMAT_OPTIONS (
        'header' = '____',  -- Czy plik ma nag≈Ç√≥wek?
        'inferSchema' = '____'  -- Czy inferowaƒá schemat?
    )
    COPY_OPTIONS (
        'mergeSchema' = '____'  -- Czy mergowaƒá schemat?
    )
""")

In [None]:
# Weryfikacja
spark.sql(f"""
    SELECT COUNT(*) as total_records 
    FROM {CATALOG}.{SCHEMA}.bronze_customers_batch
""").show()

### Zadanie 1.2: Ingestion plik√≥w JSON

**Instrukcje:**
1. Przygotuj tabelƒô `bronze_orders_batch`
2. U≈ºyj `COPY INTO` do za≈Çadowania danych z `orders_batch.json`
3. Obs≈Çu≈º zagnie≈ºd≈ºonƒÖ strukturƒô JSON

In [None]:
# TODO: Utw√≥rz tabelƒô dla zam√≥wie≈Ñ
spark.sql(f"""
    CREATE TABLE IF NOT EXISTS {CATALOG}.{SCHEMA}.bronze_orders_batch (
        order_id INT,
        customer_id INT,
        order_date DATE,
        total_amount DOUBLE,
        status STRING,
        _ingestion_timestamp TIMESTAMP
    )
    USING ____  -- Uzupe≈Çnij format (DELTA)
    LOCATION '{____}/orders_batch'  -- Uzupe≈Çnij ≈õcie≈ºkƒô
""")

In [None]:
# TODO: COPY INTO z pliku JSON
spark.sql(f"""
    COPY INTO {CATALOG}.{SCHEMA}.bronze_orders_batch
    FROM (
        SELECT 
            order_id,
            customer_id,
            TO_DATE(order_date) as order_date,
            total_amount,
            status,
            current_timestamp() as _ingestion_timestamp
        FROM '{____}/____'  -- Uzupe≈Çnij ≈õcie≈ºkƒô do JSON
    )
    FILEFORMAT = ____  -- Uzupe≈Çnij format
""")

In [None]:
# Weryfikacja
spark.sql(f"""
    SELECT * FROM {CATALOG}.{SCHEMA}.bronze_orders_batch LIMIT 10
""").show()

### Zadanie 1.3: Ingestion plik√≥w Parquet

**Instrukcje:**
1. Przygotuj tabelƒô `bronze_products_batch`
2. U≈ºyj `COPY INTO` do za≈Çadowania danych z `products.parquet`
3. Dodaj kolumnƒô z metadanymi pliku ≈∫r√≥d≈Çowego

In [None]:
# TODO: Utw√≥rz tabelƒô dla produkt√≥w
spark.sql(f"""
    CREATE TABLE IF NOT EXISTS {CATALOG}.{SCHEMA}.bronze_products_batch (
        product_id INT,
        product_name STRING,
        category STRING,
        price DOUBLE,
        stock_quantity INT,
        _source_file STRING,
        _ingestion_timestamp TIMESTAMP
    )
    USING DELTA
    LOCATION '{____}/products_batch'
""")

In [None]:
# TODO: COPY INTO z pliku Parquet
spark.sql(f"""
    COPY INTO {CATALOG}.{SCHEMA}.bronze_products_batch
    FROM (
        SELECT 
            product_id,
            product_name,
            category,
            price,
            stock_quantity,
            ____ as _source_file,  -- U≈ºyj _metadata.file_path
            current_timestamp() as _ingestion_timestamp
        FROM '{____}/____'  -- Uzupe≈Çnij ≈õcie≈ºkƒô do Parquet
    )
    FILEFORMAT = ____
""")

In [None]:
# Weryfikacja
spark.sql(f"""
    SELECT product_id, product_name, category, _source_file 
    FROM {CATALOG}.{SCHEMA}.bronze_products_batch 
    LIMIT 10
""").show(truncate=False)

### Zadanie 1.4: Idempotentno≈õƒá - Ponowne uruchomienie COPY INTO

**Instrukcje:**
1. Uruchom ponownie `COPY INTO` dla tej samej tabeli
2. Zweryfikuj ≈ºe dane nie zosta≈Çy zduplikowane
3. Sprawd≈∫ historiƒô operacji `COPY INTO`

In [None]:
# Sprawd≈∫ liczbƒô rekord√≥w przed ponownym COPY INTO
before_count = spark.sql(f"""
    SELECT COUNT(*) as count 
    FROM {CATALOG}.{SCHEMA}.bronze_customers_batch
""").collect()[0]["count"]

print(f"Liczba rekord√≥w przed ponownym COPY INTO: {before_count}")

In [None]:
# TODO: Ponowne wykonanie COPY INTO
spark.sql(f"""
    COPY INTO {CATALOG}.{SCHEMA}.bronze_customers_batch
    FROM (
        SELECT 
            customer_id,
            name,
            email,
            city,
            country,
            current_timestamp() as _ingestion_timestamp
        FROM '{SOURCE_DATA_PATH}/customers.csv'
    )
    FILEFORMAT = CSV
    FORMAT_OPTIONS ('header' = 'true', 'inferSchema' = 'true')
""")

In [None]:
# Weryfikacja idempotentno≈õci
after_count = spark.sql(f"""
    SELECT COUNT(*) as count 
    FROM {CATALOG}.{SCHEMA}.bronze_customers_batch
""").collect()[0]["count"]

print(f"Liczba rekord√≥w po ponownym COPY INTO: {after_count}")
print(f"Czy dane zosta≈Çy zduplikowane? {before_count != after_count}")

---

## üîÑ Czƒô≈õƒá 2: Auto Loader - Streaming Ingestion

### Zadanie 2.1: Konfiguracja Auto Loader dla CSV

**Instrukcje:**
1. Przygotuj lokalizacjƒô checkpointu
2. U≈ºyj `.format("cloudFiles")` do utworzenia streaming read
3. Skonfiguruj schema inference i evolution
4. Zapisz stream do tabeli `bronze_customers_stream`

In [None]:
# TODO: Streaming read z Auto Loader
customers_stream = (
    spark.readStream
    .format("____")  # Uzupe≈Çnij format (cloudFiles)
    .option("cloudFiles.format", "____")  # Format plik√≥w ≈∫r√≥d≈Çowych (csv)
    .option("cloudFiles.schemaLocation", f"{CHECKPOINT_PATH}/____")  # Checkpoint dla schematu
    .option("header", "true")
    .load(f"{SOURCE_DATA_PATH}/customers.csv")
)

In [None]:
# TODO: Dodaj kolumny metadata
from pyspark.sql.functions import current_timestamp, input_file_name

customers_enriched = (
    customers_stream
    .withColumn("_ingestion_timestamp", ____)  # Dodaj timestamp
    .withColumn("_source_file", ____)  # Dodaj nazwƒô pliku ≈∫r√≥d≈Çowego
)

In [None]:
# TODO: Zapisz stream do tabeli Delta
query_customers = (
    customers_enriched.writeStream
    .format("____")  # Uzupe≈Çnij format
    .outputMode("____")  # Tryb zapisu (append)
    .option("checkpointLocation", f"{____}/customers_stream")  # Checkpoint
    .option("mergeSchema", "____")  # Schema evolution
    .table(f"{CATALOG}.{SCHEMA}.bronze_customers_stream")
)

In [None]:
# Weryfikacja streamu
import time
time.sleep(10)  # Poczekaj na przetworzenie

spark.sql(f"""
    SELECT COUNT(*) as total_records 
    FROM {CATALOG}.{SCHEMA}.bronze_customers_stream
""").show()

### Zadanie 2.2: Auto Loader dla JSON z Schema Hints

**Instrukcje:**
1. U≈ºyj Auto Loader do odczytu `orders_batch.json`
2. Dodaj schema hints dla kolumn z konkretnymi typami
3. Skonfiguruj rescue data column dla niepoprawnych rekord√≥w

In [None]:
# TODO: Auto Loader z schema hints
orders_stream = (
    spark.readStream
    .format("cloudFiles")
    .option("cloudFiles.format", "____")  # Format JSON
    .option("cloudFiles.schemaLocation", f"{CHECKPOINT_PATH}/orders_schema")
    .option("cloudFiles.schemaHints", "____")  # Podpowied≈∫: "order_date DATE, total_amount DOUBLE"
    .option("cloudFiles.rescuedDataColumn", "____")  # Kolumna dla rescue data
    .load(f"{____}/orders_batch.json")  # Uzupe≈Çnij ≈õcie≈ºkƒô
)

In [None]:
# TODO: Zapisz stream
query_orders = (
    orders_stream.writeStream
    .format("delta")
    .outputMode("____")  # Tryb append
    .option("checkpointLocation", f"{CHECKPOINT_PATH}/____")  # Checkpoint
    .table(f"{CATALOG}.{SCHEMA}.bronze_orders_stream")
)

In [None]:
# Weryfikacja
time.sleep(10)
spark.sql(f"""
    SELECT * FROM {CATALOG}.{SCHEMA}.bronze_orders_stream LIMIT 10
""").show()

### Zadanie 2.3: Monitoring streaming queries

**Instrukcje:**
1. Wy≈õwietl aktywne streaming queries
2. Sprawd≈∫ status i ostatni progress ka≈ºdego query
3. Pobierz metryki: liczba przetworzonych rekord√≥w, batch duration

In [None]:
# TODO: Wy≈õwietl aktywne streamy
active_streams = spark.streams.____  # Uzupe≈Çnij metodƒô (active)

print(f"Liczba aktywnych stream√≥w: {len(active_streams)}")
for stream in active_streams:
    print(f"\nStream ID: {stream.id}")
    print(f"Name: {stream.name}")
    print(f"Status: {stream.status}")

In [None]:
# TODO: Sprawd≈∫ ostatni progress
if len(active_streams) > 0:
    last_progress = active_streams[0].____  # Uzupe≈Çnij metodƒô (lastProgress)
    
    if last_progress:
        print(f"Batch ID: {last_progress['batchId']}")
        print(f"Przetworzone rekordy: {last_progress['numInputRows']}")
        print(f"Czas przetwarzania: {last_progress['batchDuration']} ms")

### Zadanie 2.4: Zatrzymanie streaming queries

**Instrukcje:**
1. Zatrzymaj wszystkie aktywne streaming queries
2. Zweryfikuj ≈ºe wszystkie streamy sƒÖ zatrzymane

In [None]:
# TODO: Zatrzymaj wszystkie streamy
for stream in spark.streams.active:
    print(f"Zatrzymujƒô stream: {stream.name}")
    stream.____()  # Uzupe≈Çnij metodƒô (stop)

print("\nWszystkie streamy zatrzymane!")

In [None]:
# Weryfikacja
print(f"Liczba aktywnych stream√≥w: {len(spark.streams.active)}")

---

## üìä Czƒô≈õƒá 3: Por√≥wnanie COPY INTO vs Auto Loader

### Zadanie 3.1: Analiza wydajno≈õci

**Instrukcje:**
1. Por√≥wnaj liczbƒô rekord√≥w za≈Çadowanych przez COPY INTO vs Auto Loader
2. Sprawd≈∫ historiƒô operacji dla obu metod
3. Zidentyfikuj przypadki u≈ºycia dla ka≈ºdej metody

In [None]:
# Por√≥wnanie liczby rekord√≥w
copy_into_count = spark.sql(f"""
    SELECT 'COPY INTO' as method, COUNT(*) as records 
    FROM {CATALOG}.{SCHEMA}.bronze_customers_batch
""")

auto_loader_count = spark.sql(f"""
    SELECT 'Auto Loader' as method, COUNT(*) as records 
    FROM {CATALOG}.{SCHEMA}.bronze_customers_stream
""")

copy_into_count.union(auto_loader_count).show()

In [None]:
# TODO: Historia operacji COPY INTO
spark.sql(f"""
    ____ HISTORY {CATALOG}.{SCHEMA}.bronze_customers_batch
""").select("version", "operation", "operationMetrics").show(truncate=False)

In [None]:
# TODO: Historia operacji Auto Loader
spark.sql(f"""
    DESCRIBE HISTORY {CATALOG}.{SCHEMA}.bronze_customers_stream
""").select("version", "operation", "operationMetrics").show(truncate=False)

---

## ‚úÖ Podsumowanie warsztatu

**Zrealizowane cele:**
- ‚úÖ Implementacja batch ingestion z COPY INTO
- ‚úÖ Konfiguracja Auto Loader dla streaming ingestion
- ‚úÖ Obs≈Çuga r√≥≈ºnych format√≥w (CSV, JSON, Parquet)
- ‚úÖ Monitoring i zarzƒÖdzanie pipeline'ami

**Kiedy u≈ºyƒá COPY INTO:**
- Batch processing z okre≈õlonym harmonogramem
- Znana i stabilna struktura danych
- Potrzeba kontroli nad procesem ≈Çadowania
- Idempotentno≈õƒá out-of-the-box

**Kiedy u≈ºyƒá Auto Loader:**
- Near real-time processing
- Schema evolution i automatyczna inferencja
- CiƒÖg≈Çe monitorowanie nowych plik√≥w
- Skalowalno≈õƒá i efektywno≈õƒá kosztowa

---

## üßπ Cleanup (opcjonalnie)

In [None]:
# Usu≈Ñ utworzone tabele (opcjonalnie)
# spark.sql(f"DROP TABLE IF EXISTS {CATALOG}.{SCHEMA}.bronze_customers_batch")
# spark.sql(f"DROP TABLE IF EXISTS {CATALOG}.{SCHEMA}.bronze_orders_batch")
# spark.sql(f"DROP TABLE IF EXISTS {CATALOG}.{SCHEMA}.bronze_products_batch")
# spark.sql(f"DROP TABLE IF EXISTS {CATALOG}.{SCHEMA}.bronze_customers_stream")
# spark.sql(f"DROP TABLE IF EXISTS {CATALOG}.{SCHEMA}.bronze_orders_stream")

In [None]:
```xml
<VSCode.Cell language="markdown">
# Ingestion Pipeline - Workshop

**Cel szkoleniowy:** Praktyczne zastosowanie r√≥≈ºnych metod ≈Çadowania danych: COPY INTO (batch), Auto Loader (incremental), i Structured Streaming.

**Zakres tematyczny:**
- COPY INTO - batch file ingestion
- Auto Loader (CloudFiles) - incremental file ingestion
- Schema inference i schema evolution
- Structured Streaming - real-time processing
- Checkpointing i exactly-once semantics
- MERGE na streamingu

**Czas trwania:** 90 minut
</VSCode.Cell>
<VSCode.Cell language="markdown">
## Kontekst i wymagania

- **Dzie≈Ñ szkolenia**: Dzie≈Ñ 2 - Lakehouse & Delta Lake
- **Typ notebooka**: Workshop
- **Wymagania techniczne**:
  - Databricks Runtime 13.0+ (zalecane: 14.3 LTS)
  - Unity Catalog w≈ÇƒÖczony
  - Uprawnienia: CREATE TABLE, CREATE SCHEMA, SELECT, MODIFY
  - Klaster: Standard z minimum 2 workers
</VSCode.Cell>
<VSCode.Cell language="markdown">
## Izolacja per u≈ºytkownik

Uruchom skrypt inicjalizacyjny dla per-user izolacji katalog√≥w i schemat√≥w:
</VSCode.Cell>
<VSCode.Cell language="python">
%run ../../00_setup
</VSCode.Cell>
<VSCode.Cell language="markdown">
## Konfiguracja

Import bibliotek i ustawienie zmiennych ≈õrodowiskowych:
</VSCode.Cell>
<VSCode.Cell language="python">
from pyspark.sql import functions as F
from pyspark.sql.types import *
from datetime import datetime, timedelta

# Wy≈õwietl kontekst u≈ºytkownika
print("=== Kontekst u≈ºytkownika ===")
print(f"Katalog: {CATALOG}")
print(f"Schema Bronze: {BRONZE_SCHEMA}")
print(f"U≈ºytkownik: {raw_user}")

# Ustaw katalog i schemat jako domy≈õlne
spark.sql(f"USE CATALOG {CATALOG}")
spark.sql(f"USE SCHEMA {BRONZE_SCHEMA}")

# ≈öcie≈ºki do danych
BASE_DATA_PATH = f"{DATASET_BASE_PATH}"
ORDERS_PATH = f"{BASE_DATA_PATH}/orders"
CUSTOMERS_PATH = f"{BASE_DATA_PATH}/customers"

# ≈öcie≈ºka do checkpoint√≥w (per user)
CHECKPOINT_BASE = f"/tmp/{raw_user}/checkpoints"

print(f"\n=== ≈öcie≈ºki ===")
print(f"Data path: {BASE_DATA_PATH}")
print(f"Checkpoint path: {CHECKPOINT_BASE}")
</VSCode.Cell>
<VSCode.Cell language="markdown">
---

## Zadanie 1: COPY INTO - Batch File Ingestion (20 minut)

**Cel:** U≈ºycie COPY INTO do efektywnego ≈Çadowania plik√≥w batch'owych z automatycznƒÖ deduplikacjƒÖ.

### Zadanie 1.1: COPY INTO dla plik√≥w JSON

**Instrukcje:**
1. Utw√≥rz tabelƒô docelowƒÖ `orders_copy_into` je≈õli nie istnieje
2. U≈ºyj `COPY INTO` do za≈Çadowania plik√≥w JSON z folderu `orders/`
3. Parametry:
   - FORMAT = JSON
   - PATTERN = '*.json'
   - Dodaj audit columns: `_metadata.file_path`, `_metadata.file_modification_time`

**Oczekiwany rezultat:**
- Dane za≈Çadowane z automatycznƒÖ deduplikacjƒÖ (COPY INTO ≈õledzi za≈Çadowane pliki)

**Wskaz√≥wki:**
- COPY INTO automatycznie pomija ju≈º za≈Çadowane pliki (idempotentno≈õƒá)
- U≈ºywaj `_metadata` dla audit trail
</VSCode.Cell>
<VSCode.Cell language="python">
# TODO: Zadanie 1.1 - COPY INTO dla JSON

# Nazwa tabeli docelowej
copy_into_table = f"{BRONZE_SCHEMA}.orders_copy_into"

# Utw√≥rz pustƒÖ tabelƒô je≈õli nie istnieje
spark.sql(f"""
    CREATE TABLE IF NOT EXISTS {copy_into_table} (
        order_id BIGINT,
        customer_id BIGINT,
        order_date STRING,
        order_amount DOUBLE,
        order_status STRING,
        source_file STRING,
        load_timestamp TIMESTAMP
    ) USING DELTA
""")

print(f"‚úì Tabela utworzona: {copy_into_table}")

# Sprawd≈∫ stan przed COPY INTO
count_before = spark.table(copy_into_table).count()
print(f"Liczba rekord√≥w przed COPY INTO: {count_before}")

# COPY INTO - za≈Çaduj pliki JSON
spark.sql(f"""
    COPY INTO {copy_into_table}
    FROM (
        SELECT 
            order_id,
            customer_id,
            order_date,
            order_amount,
            order_status,
            _metadata.____ AS source_file,
            current_timestamp() AS load_timestamp
        FROM '{____}'
    )
    FILEFORMAT = ____
    PATTERN = '____'
    FORMAT_OPTIONS ('multiLine' = 'true')
""")

# Sprawd≈∫ stan po COPY INTO
count_after = spark.table(copy_into_table).count()
print(f"\n=== Wynik COPY INTO ===")
print(f"Liczba rekord√≥w po: {count_after}")
print(f"Nowo za≈Çadowane: {count_after - count_before}")

# Wy≈õwietl dane
display(spark.table(copy_into_table).limit(5))

print("‚úì COPY INTO zako≈Ñczony!")
</VSCode.Cell>
<VSCode.Cell language="markdown">
### Zadanie 1.2: COPY INTO - Idempotentno≈õƒá (ponowne uruchomienie)

**Instrukcje:**
1. Uruchom ponownie COPY INTO z poprzedniego zadania
2. Sprawd≈∫, czy liczba rekord√≥w siƒô nie zmieni≈Ça (idempotentno≈õƒá)

**Oczekiwany rezultat:**
- Liczba rekord√≥w taka sama - COPY INTO pomija ju≈º za≈Çadowane pliki
</VSCode.Cell>
<VSCode.Cell language="python">
# TODO: Zadanie 1.2 - Test idempotentno≈õci COPY INTO

# Liczba przed ponownym COPY INTO
count_before_rerun = spark.table(copy_into_table).count()
print(f"Liczba rekord√≥w przed ponownym uruchomieniem: {count_before_rerun}")

# Uruchom COPY INTO ponownie (skopiuj kod z Zadania 1.1)
spark.sql(f"""
    ____ ____ {copy_into_table}
    FROM (
        SELECT 
            order_id,
            customer_id,
            order_date,
            order_amount,
            order_status,
            _metadata.file_path AS source_file,
            current_timestamp() AS load_timestamp
        FROM '{ORDERS_PATH}'
    )
    FILEFORMAT = JSON
    PATTERN = '*.json'
    FORMAT_OPTIONS ('multiLine' = 'true')
""")

# Liczba po ponownym COPY INTO
count_after_rerun = spark.table(copy_into_table).count()
print(f"\n=== Test idempotentno≈õci ===")
print(f"Liczba rekord√≥w po ponownym uruchomieniu: {count_after_rerun}")
print(f"R√≥≈ºnica: {count_after_rerun - count_before_rerun}")

if count_after_rerun == count_before_rerun:
    print("‚úì COPY INTO jest idempotentny - pliki nie zosta≈Çy za≈Çadowane ponownie!")
else:
    print("‚ö† Uwaga: wykryto duplikaty - sprawd≈∫ konfiguracjƒô")
</VSCode.Cell>
<VSCode.Cell language="markdown">
---

## Zadanie 2: Auto Loader (CloudFiles) - Incremental Ingestion (25 minut)

**Cel:** U≈ºycie Auto Loader do automatycznego ≈Çadowania nowych plik√≥w z schema inference i evolution.

### Zadanie 2.1: Auto Loader - podstawowa konfiguracja

**Instrukcje:**
1. U≈ºyj `spark.readStream.format("cloudFiles")` do wczytywania CSV z `customers/`
2. W≈ÇƒÖcz schema inference: `.option("cloudFiles.schemaLocation", checkpoint_path)`
3. Dodaj audit column: `_metadata.file_path`
4. Zapisz do tabeli `customers_autoloader` u≈ºywajƒÖc `writeStream`
5. Trigger: `availableNow=True` (process all available, then stop)

**Oczekiwany rezultat:**
- Auto Loader automatycznie wykrywa nowe pliki
- Schema inference dzia≈Ça automatycznie

**Wskaz√≥wki:**
- Auto Loader wymaga checkpoint location dla tracking files
- Schema location przechowuje inferred schema
</VSCode.Cell>
<VSCode.Cell language="python">
# TODO: Zadanie 2.1 - Auto Loader basics

# ≈öcie≈ºki
autoloader_table = f"{BRONZE_SCHEMA}.customers_autoloader"
checkpoint_path = f"{CHECKPOINT_BASE}/customers_autoloader"
schema_path = f"{CHECKPOINT_BASE}/customers_schema"

print(f"=== Konfiguracja Auto Loader ===")
print(f"Tabela: {autoloader_table}")
print(f"Checkpoint: {checkpoint_path}")
print(f"Schema location: {schema_path}")

# Auto Loader - read stream
customers_stream = (
    spark.readStream
    .format("____")  # cloudFiles
    .option("cloudFiles.format", "____")  # csv
    .option("header", "true")
    .option("cloudFiles.schemaLocation", ____)  # schema_path
    .load(____)  # CUSTOMERS_PATH
    .withColumn("source_file", F.col("_metadata.____"))
    .withColumn("ingest_timestamp", F.current_timestamp())
)

print("\n=== Inferred Schema ===")
customers_stream.printSchema()

# Write stream do tabeli Delta
query = (
    customers_stream
    .writeStream
    .format("____")  # delta
    .option("checkpointLocation", ____)  # checkpoint_path
    .trigger(____=True)  # availableNow
    .table(____)  # autoloader_table
)

# Czekaj na zako≈Ñczenie
query.awaitTermination()

# Sprawd≈∫ wyniki
count = spark.table(autoloader_table).count()
print(f"\n‚úì Auto Loader zako≈Ñczony!")
print(f"Za≈Çadowano rekord√≥w: {count}")

display(spark.table(autoloader_table).limit(5))
</VSCode.Cell>
<VSCode.Cell language="markdown">
### Zadanie 2.2: Auto Loader - Schema Evolution

**Instrukcje:**
1. Symuluj dodanie nowej kolumny do ≈∫r√≥d≈Çowych danych
2. W≈ÇƒÖcz schema evolution: `.option("cloudFiles.schemaEvolutionMode", "addNewColumns")`
3. Uruchom Auto Loader ponownie
4. Sprawd≈∫ czy nowa kolumna zosta≈Ça dodana automatycznie

**Oczekiwany rezultat:**
- Schema evolution automatycznie dodaje nowƒÖ kolumnƒô

**Wskaz√≥wki:**
- Schema evolution modes: `none`, `addNewColumns`, `rescue`
- Rescue mode zapisuje niepasujƒÖce dane do `_rescued_data` column
</VSCode.Cell>
<VSCode.Cell language="python">
# TODO: Zadanie 2.2 - Schema Evolution

# Symulacja: dodaj nowƒÖ kolumnƒô do danych (w praktyce nowy plik w cloud storage)
# Dla demonstracji u≈ºyjemy istniejƒÖcych danych + nowƒÖ kolumnƒô

print("=== Test Schema Evolution ===")
print("Symulacja: nowy plik CSV z dodatkowƒÖ kolumnƒÖ 'loyalty_tier'")

# Utw√≥rz testowy DataFrame z nowƒÖ kolumnƒÖ
test_data = spark.table(autoloader_table).limit(10).withColumn("loyalty_tier", F.lit("Gold"))

# Zapisz jako tymczasowy CSV (symulacja nowego pliku)
temp_csv_path = f"/tmp/{raw_user}/test_customers_new_column"
test_data.write.format("csv").mode("overwrite").option("header", "true").save(temp_csv_path)

print(f"‚úì Utworzono testowy plik z nowƒÖ kolumnƒÖ: {temp_csv_path}")

# Nowa ≈õcie≈ºka checkpoint dla evolution test
evolution_checkpoint = f"{CHECKPOINT_BASE}/customers_evolution"
evolution_schema = f"{CHECKPOINT_BASE}/customers_evolution_schema"

# Auto Loader z schema evolution
customers_evolved_stream = (
    spark.readStream
    .format("cloudFiles")
    .option("cloudFiles.format", "csv")
    .option("header", "true")
    .option("cloudFiles.schemaLocation", evolution_schema)
    .option("cloudFiles.schemaEvolutionMode", "____")  # addNewColumns
    .load(temp_csv_path)
    .withColumn("source_file", F.col("_metadata.file_path"))
    .withColumn("ingest_timestamp", F.current_timestamp())
)

print("\n=== Evolved Schema (z nowƒÖ kolumnƒÖ) ===")
customers_evolved_stream.printSchema()

# Write stream
evolution_table = f"{BRONZE_SCHEMA}.customers_evolution_test"

query_evolution = (
    customers_evolved_stream
    .writeStream
    .format("delta")
    .option("checkpointLocation", evolution_checkpoint)
    .option("mergeSchema", "____")  # true - w≈ÇƒÖcz schema merge
    .trigger(availableNow=True)
    .table(evolution_table)
)

query_evolution.awaitTermination()

print(f"\n‚úì Schema Evolution zako≈Ñczony!")
print("Sprawd≈∫ schema - powinna byƒá nowa kolumna 'loyalty_tier':")

spark.table(evolution_table).printSchema()
display(spark.table(evolution_table).select("customer_id", "email", "loyalty_tier").limit(5))
</VSCode.Cell>
<VSCode.Cell language="markdown">
---

## Zadanie 3: Structured Streaming - Real-time Processing (25 minut)

**Cel:** Implementacja streaming pipeline z continuous processing i MERGE INTO.

### Zadanie 3.1: Streaming read + aggregation

**Instrukcje:**
1. U≈ºyj `readStream` do wczytywania z Delta table `orders_copy_into`
2. Agreguj dane w czasie rzeczywistym:
   - Grupuj po `order_status`
   - Policz liczbƒô zam√≥wie≈Ñ per status
   - Zsumuj `order_amount` per status
3. Zapisz do tabeli `order_status_summary` jako streaming table
4. Trigger: `processingTime='10 seconds'`

**Oczekiwany rezultat:**
- Streaming aggregation aktualizuje summary w czasie rzeczywistym

**Wskaz√≥wki:**
- Streaming DataFrame u≈ºywa incremental processing
- OutputMode dla agregacji: `complete` (pe≈Çna tabela) lub `update` (tylko zmiany)
</VSCode.Cell>
<VSCode.Cell language="python">
# TODO: Zadanie 3.1 - Streaming aggregation

# Tabela ≈∫r√≥d≈Çowa (ju≈º za≈Çadowana w Zadaniu 1)
source_table = copy_into_table

# ≈öcie≈ºka checkpoint
streaming_checkpoint = f"{CHECKPOINT_BASE}/streaming_aggregation"

# Read stream z Delta table
orders_stream = (
    spark.readStream
    .format("____")  # delta
    .table(____)  # source_table
)

# Agregacja: liczba zam√≥wie≈Ñ i suma per status
order_summary_stream = (
    orders_stream
    .groupBy("____")  # order_status
    .agg(
        F.count("____").alias("____"),  # order_id, order_count
        F.sum("____").alias("____"),    # order_amount, total_amount
        F.avg("____").alias("____")     # order_amount, avg_amount
    )
    .withColumn("updated_at", F.current_timestamp())
)

print("=== Streaming Aggregation Schema ===")
order_summary_stream.printSchema()

# Write stream do tabeli summary
summary_table = f"{BRONZE_SCHEMA}.order_status_summary"

query_summary = (
    order_summary_stream
    .writeStream
    .format("delta")
    .outputMode("____")  # complete - pe≈Çna tabela przy ka≈ºdym update
    .option("checkpointLocation", streaming_checkpoint)
    .trigger(processingTime="____ seconds")  # 10
    .table(summary_table)
)

# Uruchom przez 30 sekund, potem stop
import time
time.sleep(30)
query_summary.stop()

print(f"\n‚úì Streaming zako≈Ñczony!")
print(f"Wyniki agregacji:")

display(spark.table(summary_table))
</VSCode.Cell>
<VSCode.Cell language="markdown">
### Zadanie 3.2: Streaming MERGE (Upsert)

**Cel:** U≈ºycie `foreachBatch` do wykonania MERGE w streaming pipeline.

**Instrukcje:**
1. U≈ºyj streaming source z `customers_autoloader`
2. Zaimplementuj funkcjƒô `upsert_to_delta` kt√≥ra wykonuje MERGE INTO
3. U≈ºyj `.foreachBatch(upsert_to_delta)` w writeStream
4. MERGE logic:
   - MATCHED: update email, age
   - NOT MATCHED: insert new customer

**Oczekiwany rezultat:**
- Streaming pipeline wykonuje upsert (MERGE) dla ka≈ºdego micro-batch

**Wskaz√≥wki:**
- `foreachBatch` pozwala na custom logic per batch
- U≈ºyj `microBatchOutputDF` w funkcji upsert
</VSCode.Cell>
<VSCode.Cell language="python">
# TODO: Zadanie 3.2 - Streaming MERGE

# Tabela docelowa
target_merge_table = f"{BRONZE_SCHEMA}.customers_merged"

# Utw√≥rz tabelƒô docelowƒÖ je≈õli nie istnieje
spark.sql(f"""
    CREATE TABLE IF NOT EXISTS {target_merge_table} (
        customer_id BIGINT,
        first_name STRING,
        last_name STRING,
        email STRING,
        age INT,
        country STRING,
        registration_date STRING,
        last_updated TIMESTAMP
    ) USING DELTA
""")

print(f"‚úì Tabela docelowa: {target_merge_table}")

# Funkcja upsert - wykonywana dla ka≈ºdego micro-batch
def upsert_to_delta(microBatchDF, batchId):
    """
    Upsert function dla streaming MERGE
    """
    print(f"\n=== Processing batch {batchId} ===")
    print(f"Batch size: {microBatchDF.count()} records")
    
    # Dodaj timestamp
    microBatchDF = microBatchDF.withColumn("last_updated", F.current_timestamp())
    
    # Zarejestruj jako temp view
    microBatchDF.createOrReplaceTempView("updates")
    
    # MERGE INTO
    spark.sql(f"""
        MERGE INTO {target_merge_table} AS target
        USING updates AS source
        ON target.____ = source.____
        WHEN ____ THEN
            UPDATE SET
                target.email = source.____,
                target.age = source.____,
                target.last_updated = source.____
        WHEN ____ ____ THEN
            INSERT *
    """)
    
    print(f"‚úì Batch {batchId} merged!")

# Read stream z Auto Loader table
customers_stream_merge = (
    spark.readStream
    .format("delta")
    .table(autoloader_table)
)

# Checkpoint
merge_checkpoint = f"{CHECKPOINT_BASE}/streaming_merge"

# Write stream z foreachBatch
query_merge = (
    customers_stream_merge
    .writeStream
    .foreachBatch(____)  # upsert_to_delta
    .option("checkpointLocation", ____)  # merge_checkpoint
    .trigger(____=True)  # availableNow
    .start()
)

query_merge.awaitTermination()

print(f"\n‚úì Streaming MERGE zako≈Ñczony!")
print(f"Liczba rekord√≥w w tabeli docelowej: {spark.table(target_merge_table).count()}")

display(spark.table(target_merge_table).limit(5))
</VSCode.Cell>
<VSCode.Cell language="markdown">
---

## Zadanie 4: Por√≥wnanie metod ingestion (10 minut)

**Cel:** Zrozumienie r√≥≈ºnic miƒôdzy COPY INTO, Auto Loader i Streaming.

### Zadanie 4.1: Analiza por√≥wnawcza

**Instrukcje:**
1. Wype≈Çnij tabelƒô por√≥wnawczƒÖ poni≈ºej
2. Dla ka≈ºdej metody okre≈õl:
   - Use case (kiedy u≈ºywaƒá)
   - Idempotency (czy automatyczna)
   - Schema evolution (czy wspierana)
   - Performance (batch vs streaming)

**Oczekiwany rezultat:**
- Kompletna tabela por√≥wnawcza
</VSCode.Cell>
<VSCode.Cell language="python">
# TODO: Zadanie 4.1 - Analiza por√≥wnawcza

# Wype≈Çnij tabelƒô por√≥wnawczƒÖ

comparison_data = [
    {
        "Method": "COPY INTO",
        "Use Case": "____",  # np. "Batch loads, daily/hourly ingestion"
        "Idempotency": "____",  # "Automatic" / "Manual"
        "Schema Evolution": "____",  # "Manual" / "Automatic"
        "Performance": "____",  # "Fast for batch" / "Slower"
        "Complexity": "____"  # "Low" / "Medium" / "High"
    },
    {
        "Method": "Auto Loader",
        "Use Case": "____",  # np. "Incremental file loads, landing zones"
        "Idempotency": "____",
        "Schema Evolution": "____",
        "Performance": "____",
        "Complexity": "____"
    },
    {
        "Method": "Structured Streaming",
        "Use Case": "____",  # np. "Real-time, continuous processing"
        "Idempotency": "____",
        "Schema Evolution": "____",
        "Performance": "____",
        "Complexity": "____"
    }
]

comparison_df = spark.createDataFrame(comparison_data)

print("=== Por√≥wnanie metod ingestion ===")
display(comparison_df)

# Twoja analiza:
print("""
=== Kiedy u≈ºywaƒá kt√≥rej metody? ===

COPY INTO:
- ____

Auto Loader:
- ____

Structured Streaming:
- ____
""")
</VSCode.Cell>
<VSCode.Cell language="markdown">
---

## Walidacja i weryfikacja

### Checklist - Co powiniene≈õ uzyskaƒá:
- [ ] COPY INTO: Tabela `orders_copy_into` za≈Çadowana z idempotento≈õciƒÖ
- [ ] Auto Loader: Tabela `customers_autoloader` z automatycznƒÖ schema inference
- [ ] Schema Evolution: Tabela `customers_evolution_test` z nowƒÖ kolumnƒÖ
- [ ] Streaming Aggregation: Tabela `order_status_summary` z real-time agregacjami
- [ ] Streaming MERGE: Tabela `customers_merged` z upsert logic
- [ ] Analiza por√≥wnawcza wype≈Çniona

### Komendy weryfikacyjne:
</VSCode.Cell>
<VSCode.Cell language="python">
# Weryfikacja wynik√≥w

print("=== WERYFIKACJA WYNIK√ìW ===\n")

# 1. COPY INTO
print("1. COPY INTO:")
copy_count = spark.table(copy_into_table).count()
print(f"   Liczba rekord√≥w: {copy_count}")
assert copy_count > 0, "B≈ÇƒÖd: Tabela pusta"

# 2. Auto Loader
print("\n2. Auto Loader:")
autoloader_count = spark.table(autoloader_table).count()
print(f"   Liczba rekord√≥w: {autoloader_count}")
assert autoloader_count > 0, "B≈ÇƒÖd: Tabela pusta"

# 3. Schema Evolution
print("\n3. Schema Evolution:")
evolution_columns = spark.table(evolution_table).columns
print(f"   Kolumny: {evolution_columns}")
assert "loyalty_tier" in evolution_columns, "B≈ÇƒÖd: Brak nowej kolumny loyalty_tier"
print("   ‚úì Nowa kolumna loyalty_tier wykryta!")

# 4. Streaming Aggregation
print("\n4. Streaming Aggregation:")
summary_count = spark.table(summary_table).count()
print(f"   Liczba status√≥w: {summary_count}")
display(spark.table(summary_table))

# 5. Streaming MERGE
print("\n5. Streaming MERGE:")
merge_count = spark.table(target_merge_table).count()
print(f"   Liczba rekord√≥w: {merge_count}")

# 6. Checkpoints
print("\n6. Checkpoints (powinny istnieƒá):")
checkpoints = [
    checkpoint_path,
    streaming_checkpoint,
    merge_checkpoint
]
for cp in checkpoints:
    exists = "‚úì Exists" if spark._jvm.org.apache.hadoop.fs.FileSystem.get(
        spark._jsc.hadoopConfiguration()
    ).exists(spark._jvm.org.apache.hadoop.fs.Path(cp)) else "‚úó Missing"
    print(f"   {cp}: {exists}")

print("\n‚úì Wszystkie testy przesz≈Çy pomy≈õlnie!")
</VSCode.Cell>
<VSCode.Cell language="markdown">
---

## Troubleshooting

**Problem 1: Auto Loader - Schema conflicts**
**Objawy:** B≈ÇƒÖd: "Schema mismatch" podczas Auto Loader

**RozwiƒÖzanie:**
```python
# Usu≈Ñ checkpoint i schema location, zacznij od nowa
dbutils.fs.rm(checkpoint_path, True)
dbutils.fs.rm(schema_path, True)

# Lub w≈ÇƒÖcz schema evolution:
.option("cloudFiles.schemaEvolutionMode", "addNewColumns")
```

**Problem 2: Streaming - Checkpoint conflicts**
**Objawy:** B≈ÇƒÖd: "Incompatible checkpoint"

**RozwiƒÖzanie:**
```python
# Usu≈Ñ checkpoint dla nowego streama
dbutils.fs.rm(checkpoint_path, True)

# Lub u≈ºyj nowej ≈õcie≈ºki checkpoint
checkpoint_path = f"{CHECKPOINT_BASE}/new_stream_{timestamp}"
```

**Problem 3: COPY INTO - No new files**
**Objawy:** COPY INTO nie ≈Çaduje danych ponownie

**RozwiƒÖzanie:**
```python
# COPY INTO ≈õledzi za≈Çadowane pliki (idempotentno≈õƒá)
# To jest FEATURE, nie bug!
# Je≈õli chcesz re-load: u≈ºyj FORCE = TRUE

COPY INTO table_name
FROM 'path'
FILEFORMAT = JSON
COPY_OPTIONS ('force' = 'true')  # Re-load all files
```

**Problem 4: Streaming - Memory issues**
**RozwiƒÖzanie:**
```python
# Ogranicz shuffle partitions dla ma≈Çych stream√≥w
spark.conf.set("spark.sql.shuffle.partitions", "8")

# U≈ºyj trigger availableNow zamiast continuous
.trigger(availableNow=True)
```
</VSCode.Cell>
<VSCode.Cell language="markdown">
---

## Podsumowanie

**W tym warsztacie nauczy≈Çe≈õ siƒô:**

‚úÖ **COPY INTO:**
- Batch file ingestion z automatycznƒÖ deduplikacjƒÖ
- Idempotentno≈õƒá - pliki ≈Çadowane tylko raz
- PATTERN matching dla selective loading
- Audit trail z _metadata

‚úÖ **Auto Loader (CloudFiles):**
- Incremental file ingestion z automatycznym file tracking
- Schema inference - automatyczne wykrywanie schema
- Schema evolution - automatyczne dodawanie nowych kolumn
- Production-ready dla landing zones

‚úÖ **Structured Streaming:**
- Real-time processing z micro-batches
- Streaming aggregations (complete output mode)
- foreachBatch dla custom logic (MERGE)
- Checkpointing dla exactly-once semantics

**Por√≥wnanie metod:**

| Metoda | Use Case | Idempotency | Schema Evolution | Performance |
|--------|----------|-------------|------------------|-------------|
| COPY INTO | Daily/hourly batch | Automatic | Manual | Fast batch |
| Auto Loader | Incremental files | Automatic | Automatic | Efficient incremental |
| Streaming | Real-time | Manual (checkpoint) | Manual/Rescue | Low latency |

**Kluczowe wnioski:**
1. COPY INTO - best dla scheduled batch loads (daily, hourly)
2. Auto Loader - best dla landing zones z unpredictable file arrival
3. Structured Streaming - best dla low-latency, real-time processing
4. Wszystkie metody wspierajƒÖ exactly-once semantics z checkpointing

**Nastƒôpne kroki:**
- **Kolejny warsztat**: 03_end_to_end_bronze_silver_gold_workshop.ipynb
- **Materia≈Çy dodatkowe**: Delta Lake Streaming Guide, Auto Loader Best Practices
</VSCode.Cell>
<VSCode.Cell language="markdown">
---

## Cleanup

Opcjonalnie: usu≈Ñ utworzone tabele i checkpointy:
</VSCode.Cell>
<VSCode.Cell language="python">
# Opcjonalne czyszczenie zasob√≥w
# UWAGA: Uruchom tylko je≈õli chcesz usunƒÖƒá wszystkie utworzone dane

# Usu≈Ñ tabele
# spark.sql(f"DROP TABLE IF EXISTS {copy_into_table}")
# spark.sql(f"DROP TABLE IF EXISTS {autoloader_table}")
# spark.sql(f"DROP TABLE IF EXISTS {evolution_table}")
# spark.sql(f"DROP TABLE IF EXISTS {summary_table}")
# spark.sql(f"DROP TABLE IF EXISTS {target_merge_table}")

# Usu≈Ñ checkpointy
# dbutils.fs.rm(CHECKPOINT_BASE, True)

# Wyczy≈õƒá cache
# spark.catalog.clearCache()

# print("Zasoby zosta≈Çy wyczyszczone")
</VSCode.Cell>
```