# Warsztat 2: Lakeflow Pipelines & Databricks Jobs Orchestration

**Cel warsztatu:**
- Poznanie Delta Live Tables (DLT) - deklaratywnych pipeline'Ã³w
- Implementacja Data Quality z Expectations
- Konfiguracja Multi-task Databricks Jobs
- Parametryzacja i dependency management

**Czas:** 90 minut

**Uwaga:** Ten warsztat wymaga UI Databricks dla Delta Live Tables i Jobs.

---

## ðŸ“š Inicjalizacja Å›rodowiska

In [None]:
%run ../../00_setup

## ðŸŽ¯ CzÄ™Å›Ä‡ 1: Delta Live Tables - Podstawy

### Co to jest Delta Live Tables?

**Delta Live Tables (DLT)** to deklaratywny framework do budowania reliable data pipelines.

**Kluczowe koncepcje:**
- **Deklaratywne** - opisujesz CO, nie JAK
- **Streaming & Batch** - jedna skÅ‚adnia dla obu
- **Data Quality** - wbudowane expectations
- **Auto-scaling** - automatyczne zarzÄ…dzanie zasobami
- **Lineage** - automatyczne Å›ledzenie zaleÅ¼noÅ›ci

### Zadanie 1.1: Przygotowanie DLT Pipeline Definition

**Instrukcje:**
1. UtwÃ³rz nowy notebook dla DLT pipeline
2. Zdefiniuj Bronze, Silver, Gold tables uÅ¼ywajÄ…c dekoratora `@dlt.table`
3. Dodaj expectations dla data quality

**PrzykÅ‚adowy kod DLT:**

In [None]:
# TODO: Zadanie 1.1 - DLT Pipeline Definition
# Ten kod musi byÄ‡ uruchomiony w DLT pipeline (nie w zwykÅ‚ym notebooku)

import dlt
from pyspark.sql.functions import *

# Bronze Table - raw data
@dlt.table(
    name="____",  # bronze_customers
    comment="Raw customer data from source",
    table_properties={
        "quality": "bronze"
    }
)
def bronze_customers():
    # UÅ¼yj Å›cieÅ¼ki Volume jako ÅºrÃ³dÅ‚a danych
    volume_path = "/Volumes/main/default/kion_data"
    
    return (
        spark.readStream
        .format("____")  # cloudFiles
        .option("cloudFiles.format", "csv")
        .option("header", "true")
        .load(f"____")  # {volume_path}/customers/
        .withColumn("_ingest_timestamp", current_timestamp())
    )

# Silver Table - cleaned data z expectations
@dlt.table(
    name="silver_customers",
    comment="Cleaned customer data with quality checks"
)
@dlt.expect_or_drop("____", "____ IS NOT NULL")  # valid_email, email
@dlt.expect_or_drop("valid_customer_id", "customer_id > 0")
def silver_customers():
    return (
        dlt.read_stream("____")  # bronze_customers
        .select(
            "customer_id",
            "name",
            "email",
            "city",
            upper(col("country")).alias("country")
        )
    )

# Gold Table - aggregated data
@dlt.table(
    name="____",  # gold_customers_by_country
    comment="Customer count per country"
)
def gold_customers_by_country():
    return (
        dlt.read("____")  # silver_customers
        .groupBy("____")  # country
        .agg(count("____").alias("total_customers"))  # customer_id
    )

### Zadanie 1.2: DLT Expectations - Data Quality

**Typy Expectations:**

1. **`@dlt.expect()`** - Loguj naruszenia, ale kontynuuj
2. **`@dlt.expect_or_drop()`** - OdrzuÄ‡ rekordy nie speÅ‚niajÄ…ce warunku
3. **`@dlt.expect_or_fail()`** - Zatrzymaj pipeline przy naruszeniu

**Instrukcje:**
1. Dodaj expectations do Silver table:
   - Email musi zawieraÄ‡ '@'
   - Customer_id > 0
   - Country nie moÅ¼e byÄ‡ NULL
2. UÅ¼yj rÃ³Å¼nych typÃ³w expectations (drop, fail, log)

**PrzykÅ‚ad:**

In [None]:
# TODO: Zadanie 1.2 - Expectations examples
# (Ten kod jest przykÅ‚adem - musi byÄ‡ w DLT pipeline)

@dlt.table(name="silver_orders")
@dlt.____("____", "____ IS NOT NULL")  # expect, valid_order_id, order_id
@dlt.expect_or_drop("____", "____ > 0")  # positive_amount, total_amount
@dlt.expect_or_fail("____", "status IN ('____', '____', '____')")  # valid_status, pending, completed, cancelled
def silver_orders():
    # Å¹rÃ³dÅ‚o danych z Volume
    volume_path = "/Volumes/main/default/kion_data"
    
    return (
        dlt.read_stream("____")  # bronze_orders - lub uÅ¼yj cloudFiles z volume_path/orders/
        .select(
            "order_id",
            "customer_id",
            to_date(col("order_date")).alias("order_date"),
            col("total_amount").cast("double"),
            "status"
        )
    )

### Zadanie 1.3: DLT Configuration & Deployment

**Instrukcje (UI Databricks):**

1. PrzejdÅº do **Workflows** â†’ **Delta Live Tables**
2. Kliknij **Create Pipeline**
3. Konfiguracja:
   - **Pipeline name**: `workshop_dlt_pipeline`
   - **Notebook libraries**: Dodaj notebook z definicjÄ… DLT
   - **Target**: `{CATALOG}.{SCHEMA}`
   - **Storage location**: `/mnt/dlt/{user}/`
   - **Pipeline mode**: `Triggered` lub `Continuous`
   - **Cluster mode**: `Fixed size` (1 worker dla testÃ³w)
4. Kliknij **Create**
5. Kliknij **Start** aby uruchomiÄ‡ pipeline

**Oczekiwany rezultat:**
- Pipeline utworzony i uruchomiony
- Tabele Bronze/Silver/Gold utworzone
- Data quality metrics widoczne w UI

**Zadanie do wykonania:**
- StwÃ³rz DLT pipeline w UI
- Zrzut ekranu z uruchomionego pipeline
- SprawdÅº Event Log dla metryki quality

---

## ðŸ”— CzÄ™Å›Ä‡ 2: Databricks Jobs - Multi-task Orchestration

### Co to sÄ… Databricks Jobs?

**Databricks Jobs** - orkiestracja multi-task workflows.

**Typy taskÃ³w:**
- **Notebook task** - wykonaj notebook
- **DLT task** - uruchom DLT pipeline
- **SQL task** - wykonaj SQL query
- **Python wheel task** - uruchom Python package
- **JAR task** - uruchom Java/Scala

### Zadanie 2.1: Widget Parameters - Parametryzacja notebookÃ³w

**Instrukcje:**
1. UÅ¼yj `dbutils.widgets` do zdefiniowania parametrÃ³w
2. Odbierz parametry z Job execution
3. UÅ¼yj parametrÃ³w w transformacjach

In [None]:
# TODO: Zadanie 2.1 - Widget parameters

# Definicja widgets
dbutils.widgets.text("____", "____", "Start Date (YYYY-MM-DD)")  # start_date, 2024-01-01
dbutils.widgets.text("____", "2024-12-31", "End Date (YYYY-MM-DD)")  # end_date
dbutils.widgets.dropdown("environment", "dev", ["dev", "____", "____"], "Environment")  # staging, prod

# Odczyt parametrÃ³w
start_date = dbutils.widgets.get("____")  # start_date
end_date = dbutils.widgets.get("end_date")
environment = dbutils.widgets.get("____")  # environment

print(f"=== Job Parameters ===")
print(f"Start Date: {start_date}")
print(f"End Date: {end_date}")
print(f"Environment: {environment}")

# UÅ¼yj parametrÃ³w w query - wczytaj dane z Volume
volume_path = "/Volumes/main/default/kion_data"
orders_from_volume = spark.read.json(f"{volume_path}/orders/orders_batch.json")

# Filtruj uÅ¼ywajÄ…c parametrÃ³w
filtered_orders = orders_from_volume.filter(
    (F.col("order_date") >= start_date) & 
    (F.col("order_date") <= end_date)
)

# Alternatywnie, jeÅ›li dane juÅ¼ sÄ… w tabelach:
# filtered_orders = spark.sql(f"""
#     SELECT * 
#     FROM {CATALOG}.{SCHEMA}.orders
#     WHERE order_date BETWEEN '{start_date}' AND '{____}'  -- end_date
# """)

print(f"Filtered orders: {filtered_orders.count()}")

### Zadanie 2.2: Multi-task Job Configuration

**Instrukcje (UI Databricks):**

1. PrzejdÅº do **Workflows** â†’ **Jobs**
2. Kliknij **Create Job**
3. Dodaj pierwszy task:
   - **Task name**: `ingest_bronze`
   - **Type**: `Notebook`
   - **Source**: Wybierz notebook dla Bronze ingestion
   - **Cluster**: `New job cluster` (1 worker)
   - **Parameters**: `{"start_date": "2024-01-01"}`
4. Dodaj drugi task (depends on: `ingest_bronze`):
   - **Task name**: `transform_silver`
   - **Type**: `Notebook`
   - **Source**: Notebook dla Silver transformations
   - **Depends on**: `ingest_bronze`
5. Dodaj trzeci task (depends on: `transform_silver`):
   - **Task name**: `aggregate_gold`
   - **Type**: `Notebook`
   - **Depends on**: `transform_silver`
6. Skonfiguruj **Schedule**: `Cron: 0 2 * * *` (2 AM daily)
7. Dodaj **Email notifications** na failure
8. Kliknij **Create**

**DAG Structure:**
```
ingest_bronze
      â†“
transform_silver
      â†“
aggregate_gold
```

**Zadanie do wykonania:**
- UtwÃ³rz Multi-task Job w UI
- Zdefiniuj dependencies miÄ™dzy taskami
- Uruchom Job rÄ™cznie (Run Now)
- SprawdÅº Runs history

### Zadanie 2.3: Job Dependencies & Conditional Execution

**Instrukcje:**
1. Dodaj task z warunkiem (If/Else logic):
   - JeÅ›li Bronze ma > 1000 rekordÃ³w â†’ uruchom Silver
   - JeÅ›li nie â†’ wyÅ›lij alert
2. UÅ¼yj task values do przekazania danych miÄ™dzy taskami

In [None]:
# TODO: Zadanie 2.3 - Task values (przekazywanie danych)

# Task 1: SprawdÅº liczbÄ™ rekordÃ³w
bronze_count = spark.table(f"{CATALOG}.{SCHEMA}.bronze_customers").count()

print(f"Bronze records: {bronze_count}")

# Ustaw task value (dostÄ™pne dla nastÄ™pnych taskÃ³w)
dbutils.jobs.taskValues.set(
    key="____",  # bronze_count
    value=bronze_count
)

# Task 2: Odbierz wartoÅ›Ä‡ z poprzedniego taska
# received_count = dbutils.jobs.taskValues.get(
#     taskKey="ingest_bronze",
#     key="bronze_count",
#     default=0
# )

# if received_count > 1000:
#     print("âœ“ Sufficient data - proceeding to Silver")
# else:
#     raise Exception(f"Insufficient data: {received_count} records")

### Zadanie 2.4: Job Monitoring & Alerting

**Instrukcje (UI Databricks):**

1. W Job configuration, przejdÅº do **Alerts**
2. Dodaj email notification:
   - **On failure**: `your-email@example.com`
   - **On success**: (opcjonalnie)
3. Skonfiguruj **Retries**:
   - **Max retries**: 3
   - **Timeout**: 3600 seconds (1 hour)
4. Dodaj **SLA**:
   - JeÅ›li Job trwa > 2 godziny â†’ alert

**Monitoring w kodzie:**

In [None]:
# TODO: Zadanie 2.4 - Job monitoring code

import time

# Start timer
start_time = time.time()

try:
    # TwÃ³j kod transformacji
    print("Processing data...")
    time.sleep(2)  # Symulacja przetwarzania
    
    # Zapisz metrics
    end_time = time.time()
    duration = end_time - start_time
    
    dbutils.jobs.taskValues.set("____", duration)  # execution_time
    
    print(f"âœ“ Success! Duration: {duration:.2f}s")
    
except Exception as e:
    # Log error
    print(f"âœ— Error: {str(e)}")
    
    # Ustaw failure reason
    dbutils.jobs.taskValues.set("failure_reason", str(e))
    
    # Re-raise dla Job failure
    raise

---

## âœ… Podsumowanie warsztatu

**Zrealizowane cele:**
- âœ… Delta Live Tables - deklaratywne pipeline definition
- âœ… Data Quality z Expectations (drop, fail, log)
- âœ… Multi-task Databricks Jobs z dependencies
- âœ… Parametryzacja i task values
- âœ… Monitoring i alerting

**Kluczowe wnioski:**

1. **DLT vs Traditional Spark:**
   - DLT: Deklaratywne, auto-scaling, built-in quality
   - Spark: Imperatywne, manual scaling, custom quality

2. **Kiedy uÅ¼ywaÄ‡ DLT:**
   - Production data pipelines
   - Data quality critical
   - Need auto-scaling
   - Want automatic lineage

3. **Databricks Jobs Best Practices:**
   - MaÅ‚e, reusable notebooki (single responsibility)
   - Parametryzacja przez widgets
   - Task dependencies dla DAG
   - Monitoring i alerting dla critical jobs

**Quick Reference:**

| Feature | DLT | Traditional Spark |
|---------|-----|------------------|
| SkÅ‚adnia | Deklaratywna | Imperatywna |
| Data Quality | Built-in expectations | Custom code |
| Lineage | Automatic | Manual |
| Orchestration | Automatic | Manual (Jobs) |
| Scaling | Auto | Manual |

**NastÄ™pne kroki:**
- **Kolejny warsztat**: 03_governance_integrations_workshop.ipynb
- **Dokumentacja**: [DLT Guide](https://docs.databricks.com/delta-live-tables/)
- **Best Practices**: [Databricks Jobs](https://docs.databricks.com/workflows/jobs/)

---

## ðŸ§¹ Cleanup (opcjonalnie)

In [None]:
# UsuÅ„ widgets
# dbutils.widgets.removeAll()

# WyczyÅ›Ä‡ cache
# spark.catalog.clearCache()