# Warsztat 2: Ingestion Pipeline - COPY INTO & Auto Loader

**Cel warsztatu:**
- Implementacja batch ingestion uÅ¼ywajÄ…c COPY INTO
- Konfiguracja Auto Loader dla streaming ingestion
- ObsÅ‚uga rÃ³Å¼nych formatÃ³w plikÃ³w (CSV, JSON, Parquet)
- Monitorowanie i zarzÄ…dzanie pipeline'ami ingestion

**Czas:** 90 minut

---

## ðŸ“š Inicjalizacja Å›rodowiska

In [None]:
%run ../../00_setup

## ðŸŽ¯ CzÄ™Å›Ä‡ 1: COPY INTO - Batch Ingestion

### Zadanie 1.1: Ingestion plikÃ³w CSV

**Instrukcje:**
1. Przygotuj tabelÄ™ docelowÄ… `bronze_customers_batch`
2. UÅ¼yj `COPY INTO` do zaÅ‚adowania danych z `customers.csv`
3. Zweryfikuj liczbÄ™ zaÅ‚adowanych rekordÃ³w

In [None]:
# TODO: UtwÃ³rz tabelÄ™ docelowÄ…
spark.sql(f"""
    CREATE TABLE IF NOT EXISTS {CATALOG}.{SCHEMA}.bronze_customers_batch (
        customer_id INT,
        name STRING,
        email STRING,
        city STRING,
        country STRING,
        _ingestion_timestamp TIMESTAMP
    )
    USING DELTA
    LOCATION '{____}/customers_batch'  -- UzupeÅ‚nij BRONZE_PATH
""")

In [None]:
# TODO: COPY INTO z pliku CSV
spark.sql(f"""
    ____ INTO {CATALOG}.{SCHEMA}.bronze_customers_batch
    FROM (
        SELECT 
            customer_id,
            name,
            email,
            city,
            country,
            current_timestamp() as _ingestion_timestamp
        FROM '{____}/____'  -- UzupeÅ‚nij SOURCE_DATA_PATH i nazwÄ™ pliku
    )
    FILEFORMAT = ____  -- UzupeÅ‚nij format (CSV)
    FORMAT_OPTIONS (
        'header' = '____',  -- Czy plik ma nagÅ‚Ã³wek?
        'inferSchema' = '____'  -- Czy inferowaÄ‡ schemat?
    )
    COPY_OPTIONS (
        'mergeSchema' = '____'  -- Czy mergowaÄ‡ schemat?
    )
""")

In [None]:
# Weryfikacja
spark.sql(f"""
    SELECT COUNT(*) as total_records 
    FROM {CATALOG}.{SCHEMA}.bronze_customers_batch
""").show()

### Zadanie 1.2: Ingestion plikÃ³w JSON

**Instrukcje:**
1. Przygotuj tabelÄ™ `bronze_orders_batch`
2. UÅ¼yj `COPY INTO` do zaÅ‚adowania danych z `orders_batch.json`
3. ObsÅ‚uÅ¼ zagnieÅ¼dÅ¼onÄ… strukturÄ™ JSON

In [None]:
# TODO: UtwÃ³rz tabelÄ™ dla zamÃ³wieÅ„
spark.sql(f"""
    CREATE TABLE IF NOT EXISTS {CATALOG}.{SCHEMA}.bronze_orders_batch (
        order_id INT,
        customer_id INT,
        order_date DATE,
        total_amount DOUBLE,
        status STRING,
        _ingestion_timestamp TIMESTAMP
    )
    USING ____  -- UzupeÅ‚nij format (DELTA)
    LOCATION '{____}/orders_batch'  -- UzupeÅ‚nij Å›cieÅ¼kÄ™
""")

In [None]:
# TODO: COPY INTO z pliku JSON
spark.sql(f"""
    COPY INTO {CATALOG}.{SCHEMA}.bronze_orders_batch
    FROM (
        SELECT 
            order_id,
            customer_id,
            TO_DATE(order_date) as order_date,
            total_amount,
            status,
            current_timestamp() as _ingestion_timestamp
        FROM '{____}/____'  -- UzupeÅ‚nij Å›cieÅ¼kÄ™ do JSON
    )
    FILEFORMAT = ____  -- UzupeÅ‚nij format
""")

In [None]:
# Weryfikacja
spark.sql(f"""
    SELECT * FROM {CATALOG}.{SCHEMA}.bronze_orders_batch LIMIT 10
""").show()

### Zadanie 1.3: Ingestion plikÃ³w Parquet

**Instrukcje:**
1. Przygotuj tabelÄ™ `bronze_products_batch`
2. UÅ¼yj `COPY INTO` do zaÅ‚adowania danych z `products.parquet`
3. Dodaj kolumnÄ™ z metadanymi pliku ÅºrÃ³dÅ‚owego

In [None]:
# TODO: UtwÃ³rz tabelÄ™ dla produktÃ³w
spark.sql(f"""
    CREATE TABLE IF NOT EXISTS {CATALOG}.{SCHEMA}.bronze_products_batch (
        product_id INT,
        product_name STRING,
        category STRING,
        price DOUBLE,
        stock_quantity INT,
        _source_file STRING,
        _ingestion_timestamp TIMESTAMP
    )
    USING DELTA
    LOCATION '{____}/products_batch'
""")

In [None]:
# TODO: COPY INTO z pliku Parquet
spark.sql(f"""
    COPY INTO {CATALOG}.{SCHEMA}.bronze_products_batch
    FROM (
        SELECT 
            product_id,
            product_name,
            category,
            price,
            stock_quantity,
            ____ as _source_file,  -- UÅ¼yj _metadata.file_path
            current_timestamp() as _ingestion_timestamp
        FROM '{____}/____'  -- UzupeÅ‚nij Å›cieÅ¼kÄ™ do Parquet
    )
    FILEFORMAT = ____
""")

In [None]:
# Weryfikacja
spark.sql(f"""
    SELECT product_id, product_name, category, _source_file 
    FROM {CATALOG}.{SCHEMA}.bronze_products_batch 
    LIMIT 10
""").show(truncate=False)

### Zadanie 1.4: IdempotentnoÅ›Ä‡ - Ponowne uruchomienie COPY INTO

**Instrukcje:**
1. Uruchom ponownie `COPY INTO` dla tej samej tabeli
2. Zweryfikuj Å¼e dane nie zostaÅ‚y zduplikowane
3. SprawdÅº historiÄ™ operacji `COPY INTO`

In [None]:
# SprawdÅº liczbÄ™ rekordÃ³w przed ponownym COPY INTO
before_count = spark.sql(f"""
    SELECT COUNT(*) as count 
    FROM {CATALOG}.{SCHEMA}.bronze_customers_batch
""").collect()[0]["count"]

print(f"Liczba rekordÃ³w przed ponownym COPY INTO: {before_count}")

In [None]:
# TODO: Ponowne wykonanie COPY INTO
spark.sql(f"""
    COPY INTO {CATALOG}.{SCHEMA}.bronze_customers_batch
    FROM (
        SELECT 
            customer_id,
            name,
            email,
            city,
            country,
            current_timestamp() as _ingestion_timestamp
        FROM '{SOURCE_DATA_PATH}/customers.csv'
    )
    FILEFORMAT = CSV
    FORMAT_OPTIONS ('header' = 'true', 'inferSchema' = 'true')
""")

In [None]:
# Weryfikacja idempotentnoÅ›ci
after_count = spark.sql(f"""
    SELECT COUNT(*) as count 
    FROM {CATALOG}.{SCHEMA}.bronze_customers_batch
""").collect()[0]["count"]

print(f"Liczba rekordÃ³w po ponownym COPY INTO: {after_count}")
print(f"Czy dane zostaÅ‚y zduplikowane? {before_count != after_count}")

---

## ðŸ”„ CzÄ™Å›Ä‡ 2: Auto Loader - Streaming Ingestion

### Zadanie 2.1: Konfiguracja Auto Loader dla CSV

**Instrukcje:**
1. Przygotuj lokalizacjÄ™ checkpointu
2. UÅ¼yj `.format("cloudFiles")` do utworzenia streaming read
3. Skonfiguruj schema inference i evolution
4. Zapisz stream do tabeli `bronze_customers_stream`

In [None]:
# TODO: Streaming read z Auto Loader
customers_stream = (
    spark.readStream
    .format("____")  # UzupeÅ‚nij format (cloudFiles)
    .option("cloudFiles.format", "____")  # Format plikÃ³w ÅºrÃ³dÅ‚owych (csv)
    .option("cloudFiles.schemaLocation", f"{CHECKPOINT_PATH}/____")  # Checkpoint dla schematu
    .option("header", "true")
    .load(f"{SOURCE_DATA_PATH}/customers.csv")
)

In [None]:
# TODO: Dodaj kolumny metadata
from pyspark.sql.functions import current_timestamp, input_file_name

customers_enriched = (
    customers_stream
    .withColumn("_ingestion_timestamp", ____)  # Dodaj timestamp
    .withColumn("_source_file", ____)  # Dodaj nazwÄ™ pliku ÅºrÃ³dÅ‚owego
)

In [None]:
# TODO: Zapisz stream do tabeli Delta
query_customers = (
    customers_enriched.writeStream
    .format("____")  # UzupeÅ‚nij format
    .outputMode("____")  # Tryb zapisu (append)
    .option("checkpointLocation", f"{____}/customers_stream")  # Checkpoint
    .option("mergeSchema", "____")  # Schema evolution
    .table(f"{CATALOG}.{SCHEMA}.bronze_customers_stream")
)

In [None]:
# Weryfikacja streamu
import time
time.sleep(10)  # Poczekaj na przetworzenie

spark.sql(f"""
    SELECT COUNT(*) as total_records 
    FROM {CATALOG}.{SCHEMA}.bronze_customers_stream
""").show()

### Zadanie 2.2: Auto Loader dla JSON z Schema Hints

**Instrukcje:**
1. UÅ¼yj Auto Loader do odczytu `orders_batch.json`
2. Dodaj schema hints dla kolumn z konkretnymi typami
3. Skonfiguruj rescue data column dla niepoprawnych rekordÃ³w

In [None]:
# TODO: Auto Loader z schema hints
orders_stream = (
    spark.readStream
    .format("cloudFiles")
    .option("cloudFiles.format", "____")  # Format JSON
    .option("cloudFiles.schemaLocation", f"{CHECKPOINT_PATH}/orders_schema")
    .option("cloudFiles.schemaHints", "____")  # PodpowiedÅº: "order_date DATE, total_amount DOUBLE"
    .option("cloudFiles.rescuedDataColumn", "____")  # Kolumna dla rescue data
    .load(f"{____}/orders_batch.json")  # UzupeÅ‚nij Å›cieÅ¼kÄ™
)

In [None]:
# TODO: Zapisz stream
query_orders = (
    orders_stream.writeStream
    .format("delta")
    .outputMode("____")  # Tryb append
    .option("checkpointLocation", f"{CHECKPOINT_PATH}/____")  # Checkpoint
    .table(f"{CATALOG}.{SCHEMA}.bronze_orders_stream")
)

In [None]:
# Weryfikacja
time.sleep(10)
spark.sql(f"""
    SELECT * FROM {CATALOG}.{SCHEMA}.bronze_orders_stream LIMIT 10
""").show()

### Zadanie 2.3: Monitoring streaming queries

**Instrukcje:**
1. WyÅ›wietl aktywne streaming queries
2. SprawdÅº status i ostatni progress kaÅ¼dego query
3. Pobierz metryki: liczba przetworzonych rekordÃ³w, batch duration

In [None]:
# TODO: WyÅ›wietl aktywne streamy
active_streams = spark.streams.____  # UzupeÅ‚nij metodÄ™ (active)

print(f"Liczba aktywnych streamÃ³w: {len(active_streams)}")
for stream in active_streams:
    print(f"\nStream ID: {stream.id}")
    print(f"Name: {stream.name}")
    print(f"Status: {stream.status}")

In [None]:
# TODO: SprawdÅº ostatni progress
if len(active_streams) > 0:
    last_progress = active_streams[0].____  # UzupeÅ‚nij metodÄ™ (lastProgress)
    
    if last_progress:
        print(f"Batch ID: {last_progress['batchId']}")
        print(f"Przetworzone rekordy: {last_progress['numInputRows']}")
        print(f"Czas przetwarzania: {last_progress['batchDuration']} ms")

### Zadanie 2.4: Zatrzymanie streaming queries

**Instrukcje:**
1. Zatrzymaj wszystkie aktywne streaming queries
2. Zweryfikuj Å¼e wszystkie streamy sÄ… zatrzymane

In [None]:
# TODO: Zatrzymaj wszystkie streamy
for stream in spark.streams.active:
    print(f"ZatrzymujÄ™ stream: {stream.name}")
    stream.____()  # UzupeÅ‚nij metodÄ™ (stop)

print("\nWszystkie streamy zatrzymane!")

In [None]:
# Weryfikacja
print(f"Liczba aktywnych streamÃ³w: {len(spark.streams.active)}")

---

## ðŸ“Š CzÄ™Å›Ä‡ 3: PorÃ³wnanie COPY INTO vs Auto Loader

### Zadanie 3.1: Analiza wydajnoÅ›ci

**Instrukcje:**
1. PorÃ³wnaj liczbÄ™ rekordÃ³w zaÅ‚adowanych przez COPY INTO vs Auto Loader
2. SprawdÅº historiÄ™ operacji dla obu metod
3. Zidentyfikuj przypadki uÅ¼ycia dla kaÅ¼dej metody

In [None]:
# PorÃ³wnanie liczby rekordÃ³w
copy_into_count = spark.sql(f"""
    SELECT 'COPY INTO' as method, COUNT(*) as records 
    FROM {CATALOG}.{SCHEMA}.bronze_customers_batch
""")

auto_loader_count = spark.sql(f"""
    SELECT 'Auto Loader' as method, COUNT(*) as records 
    FROM {CATALOG}.{SCHEMA}.bronze_customers_stream
""")

copy_into_count.union(auto_loader_count).show()

In [None]:
# TODO: Historia operacji COPY INTO
spark.sql(f"""
    ____ HISTORY {CATALOG}.{SCHEMA}.bronze_customers_batch
""").select("version", "operation", "operationMetrics").show(truncate=False)

In [None]:
# TODO: Historia operacji Auto Loader
spark.sql(f"""
    DESCRIBE HISTORY {CATALOG}.{SCHEMA}.bronze_customers_stream
""").select("version", "operation", "operationMetrics").show(truncate=False)

---

## âœ… Podsumowanie warsztatu

**Zrealizowane cele:**
- âœ… Implementacja batch ingestion z COPY INTO
- âœ… Konfiguracja Auto Loader dla streaming ingestion
- âœ… ObsÅ‚uga rÃ³Å¼nych formatÃ³w (CSV, JSON, Parquet)
- âœ… Monitoring i zarzÄ…dzanie pipeline'ami

**Kiedy uÅ¼yÄ‡ COPY INTO:**
- Batch processing z okreÅ›lonym harmonogramem
- Znana i stabilna struktura danych
- Potrzeba kontroli nad procesem Å‚adowania
- IdempotentnoÅ›Ä‡ out-of-the-box

**Kiedy uÅ¼yÄ‡ Auto Loader:**
- Near real-time processing
- Schema evolution i automatyczna inferencja
- CiÄ…gÅ‚e monitorowanie nowych plikÃ³w
- SkalowalnoÅ›Ä‡ i efektywnoÅ›Ä‡ kosztowa

---

## ðŸ§¹ Cleanup (opcjonalnie)