# Warsztat 3: Unity Catalog Governance & Integracje BI/ML

**Czas trwania:** 90 minut 
**Cel:** Praktyczne wykorzystanie Unity Catalog do zarzƒÖdzania bezpiecze≈Ñstwem i uprawnieniami, eksploracja data lineage, integracja z narzƒôdziami BI (Power BI Direct Lake) oraz ML (MLflow, Feature Store).

---

## Cele warsztatowe

- Tworzenie katalog√≥w i schemat√≥w w Unity Catalog
- ZarzƒÖdzanie uprawnieniami: GRANT / REVOKE
- Eksploracja data lineage i audit logs
- Przygotowanie Gold Layer dla integracji BI
- Konfiguracja po≈ÇƒÖczenia Power BI Direct Lake
- Podstawy MLflow: tracking eksperyment√≥w
- Wykorzystanie Feature Store dla ML

---

## üìö Konsolidowane zagadnienia

- Unity Catalog: Metastore, Catalogs, Schemas, Securable Objects
- Governance: Privileges, RBAC, Row-Level Security
- Lineage & Audit: end-to-end lineage tracking
- BI Integrations: Power BI Direct Lake
- ML Integrations: MLflow experiments, Feature Store

---

## Inicjalizacja ≈õrodowiska

In [None]:
%run ../../00_setup

---

## Czƒô≈õƒá 1: Unity Catalog Setup

### Zadanie 1.1: Tworzenie katalog√≥w i schemat√≥w

**Cel:** Utworzyƒá strukturƒô Unity Catalog dla projektu KION.

**Instrukcje:**
1. Utw√≥rz katalog `kion_catalog` (je≈õli nie istnieje)
2. Utw√≥rz schematy: `bronze`, `silver`, `gold`
3. Sprawd≈∫ strukturƒô w Catalog Explorer

**TODO:** Uzupe≈Çnij SQL do tworzenia katalog√≥w i schemat√≥w

In [None]:
# TODO: Utw√≥rz katalog kion_catalog
spark.sql("""
 CREATE CATALOG IF NOT EXISTS ___
""")

# TODO: U≈ºyj utworzonego katalogu
spark.sql("USE CATALOG ___")

# TODO: Utw√≥rz schematy bronze, silver, gold
for schema_name in [___, ___, ___]:
 spark.sql(f"CREATE SCHEMA IF NOT EXISTS {schema_name}")
 print(f"Schemat {schema_name} utworzony")

### Zadanie 1.2: Weryfikacja struktury katalog√≥w

**Cel:** Sprawdziƒá utworzonƒÖ strukturƒô Unity Catalog.

**TODO:** Wy≈õwietl wszystkie schematy w katalogu

In [None]:
# TODO: Poka≈º wszystkie schematy w katalogu kion_catalog
spark.sql("___ SCHEMAS IN kion_catalog").display()

---

## Czƒô≈õƒá 2: ZarzƒÖdzanie uprawnieniami (GRANT / REVOKE)

### Zadanie 2.1: Przyznawanie uprawnie≈Ñ

**Cel:** Zrozumieƒá mechanizmy RBAC w Unity Catalog.

**Instrukcje:**
1. Przyznaj uprawnienia SELECT na schemacie `gold` dla grupy `data_analysts`
2. Przyznaj uprawnienia MODIFY na schemacie `silver` dla grupy `data_engineers`
3. Sprawd≈∫ aktywne uprawnienia

**TODO:** Uzupe≈Çnij polecenia GRANT

In [None]:
# Przyk≈Çad: Przyznaj uprawnienia SELECT dla data_analysts na gold schema
# TODO: Uzupe≈Çnij brakujƒÖce czƒô≈õci

try:
 spark.sql("""
 GRANT ___ ON SCHEMA kion_catalog.gold TO `data_analysts`
 """)
 print("Uprawnienia SELECT przyznane dla data_analysts na gold")
except Exception as e:
 print(f"Uwaga: {e}")

# TODO: Przyznaj uprawnienia MODIFY dla data_engineers na silver schema
try:
 spark.sql("""
 GRANT ___ ON SCHEMA kion_catalog.silver TO `___`
 """)
 print("Uprawnienia MODIFY przyznane dla data_engineers na silver")
except Exception as e:
 print(f"Uwaga: {e}")

### Zadanie 2.2: Sprawdzanie uprawnie≈Ñ

**Cel:** Zweryfikowaƒá przyznane uprawnienia.

**TODO:** Wy≈õwietl uprawnienia dla schematu gold

In [None]:
# TODO: Wy≈õwietl uprawnienia dla schematu gold
spark.sql("SHOW ___ ON SCHEMA kion_catalog.gold").display()

---

## Czƒô≈õƒá 3: Data Lineage & Audit

### Zadanie 3.1: Przygotowanie danych do lineage

**Cel:** Utworzyƒá pipeline Bronze ‚Üí Silver ‚Üí Gold i zbadaƒá lineage.

**Instrukcje:**
1. Za≈Çaduj dane do Bronze
2. Przetw√≥rz do Silver z transformacjami
3. Utw√≥rz agregaty w Gold
4. Sprawd≈∫ lineage w Catalog Explorer

**TODO:** Uzupe≈Çnij pipeline

In [None]:
from pyspark.sql.functions import col, current_timestamp, sum as _sum, count, round as _round

# Bronze Layer: Wczytanie danych z Databricks Volume
volume_path = "/Volumes/main/default/kion_data"

bronze_customers = (
 spark.read
 .format("csv")
 .option("header", "true")
 .option("inferSchema", "true")
 .load(f"{volume_path}/customers/customers.csv")
 .withColumn("ingest_timestamp", current_timestamp())
)

# TODO: Zapisz do Bronze w Unity Catalog
bronze_customers.write.format("delta").mode("overwrite").saveAsTable("kion_catalog.___.customers_bronze")
print("Bronze layer: customers_bronze utworzona (z Volume)")

In [None]:
# Silver Layer: Czyszczenie i transformacje
silver_customers = (
 spark.table("kion_catalog.bronze.customers_bronze")
 .filter(col("customer_id").isNotNull())
 .dropDuplicates(["customer_id"])
 .withColumn("processed_timestamp", current_timestamp())
)

# TODO: Zapisz do Silver
silver_customers.write.format("___").mode("___").saveAsTable("kion_catalog.silver.customers_silver")
print("Silver layer: customers_silver utworzona")

In [None]:
# Wczytaj zam√≥wienia z Databricks Volume
volume_path = "/Volumes/main/default/kion_data"

# Wczytaj dane zam√≥wie≈Ñ z Volume (JSON)
orders_df = spark.read.json(f"{volume_path}/orders/orders_batch.json")

# Wczytaj dane produkt√≥w (do wzbogacenia)
products_df = spark.read.parquet(f"{volume_path}/products/products.parquet")

# Wzbogaƒá zam√≥wienia o produkty
enriched_orders = (
 orders_df
 .join(products_df, "product_id", "left")
 .select(
 "order_id",
 "customer_id",
 F.col("order_date").cast("timestamp").alias("order_date"),
 "status",
 F.col("total_amount").alias("amount")
 )
)

# TODO: Zapisz orders do Bronze
enriched_orders.withColumn("ingest_timestamp", F.current_timestamp()).write.format("delta").mode("overwrite").saveAsTable("kion_catalog.bronze.orders_bronze")
print("Bronze layer: orders_bronze utworzona (z Volume)")

In [None]:
# Silver Layer: Przetw√≥rz orders
silver_orders = (
 spark.table("kion_catalog.bronze.orders_bronze")
 .filter(col("status") == "completed")
 .withColumn("processed_timestamp", current_timestamp())
)

# TODO: Zapisz do Silver
silver_orders.write.format("delta").mode("overwrite").saveAsTable("kion_catalog.___.orders_silver")
print("Silver layer: orders_silver utworzona")

In [None]:
# Gold Layer: Agregaty biznesowe - Customer Summary
# TODO: Uzupe≈Çnij agregaty (suma zam√≥wie≈Ñ, liczba zam√≥wie≈Ñ, ≈õrednia warto≈õƒá)

gold_customer_summary = (
 spark.table("kion_catalog.silver.orders_silver")
 .groupBy("customer_id")
 .agg(
 ___(("amount")).alias("total_spent"),
 ___("order_id").alias("order_count"),
 ___((___(("amount")), 2)).alias("avg_order_value")
 )
)

# Po≈ÇƒÖcz z danymi klient√≥w
gold_customer_enriched = (
 gold_customer_summary
 .join(
 spark.table("kion_catalog.silver.customers_silver").select("customer_id", "customer_name", "country"),
 "customer_id",
 "left"
 )
)

# TODO: Zapisz do Gold
gold_customer_enriched.write.format("delta").mode("overwrite").saveAsTable("kion_catalog.___.customer_summary")
print("Gold layer: customer_summary utworzona")

gold_customer_enriched.display()

### Zadanie 3.2: Eksploracja Data Lineage

**Cel:** Sprawdziƒá end-to-end lineage w Catalog Explorer.

**Instrukcje:**
1. Przejd≈∫ do Catalog Explorer w Databricks UI
2. Znajd≈∫ tabelƒô `kion_catalog.gold.customer_summary`
3. Kliknij zak≈Çadkƒô **Lineage**
4. Zbadaj zale≈ºno≈õci: Bronze ‚Üí Silver ‚Üí Gold

**Pytania do rozwa≈ºenia:**
- Jakie tabele sƒÖ u≈ºywane jako ≈∫r√≥d≈Ço dla Gold?
- Czy lineage pokazuje wszystkie transformacje?
- Jak mo≈ºna wykorzystaƒá lineage w audytach i compliance?

---

## Czƒô≈õƒá 4: Integracja BI - Power BI Direct Lake

### Zadanie 4.1: Przygotowanie Gold Layer dla Power BI

**Cel:** Przygotowaƒá dane w formacie optymalnym dla Power BI Direct Lake.

**Instrukcje:**
1. Optymalizuj tabelƒô Gold (OPTIMIZE, ZORDER)
2. Upewnij siƒô, ≈ºe kolumny majƒÖ w≈Ça≈õciwe typy danych
3. Dodaj komentarze do kolumn (dla dokumentacji)

**TODO:** Optymalizuj tabelƒô Gold

In [None]:
# TODO: Optymalizuj tabelƒô Gold dla Power BI
spark.sql("""
 OPTIMIZE kion_catalog.gold.customer_summary
 ZORDER BY (___)
""")

print("Tabela customer_summary zoptymalizowana dla Power BI")

In [None]:
# TODO: Dodaj komentarze do kolumn (dla dokumentacji)
spark.sql("""
 ALTER TABLE kion_catalog.gold.customer_summary 
 ALTER COLUMN customer_id COMMENT 'Unikalny identyfikator klienta'
""")

spark.sql("""
 ALTER TABLE kion_catalog.gold.customer_summary 
 ALTER COLUMN total_spent COMMENT '___'
""")

print("Komentarze do kolumn dodane")

### Zadanie 4.2: Konfiguracja po≈ÇƒÖczenia Power BI

**Cel:** Zrozumieƒá konfiguracjƒô Power BI Direct Lake.

**Instrukcje (teoretyczne - wymaga Power BI Desktop):**
1. Otw√≥rz Power BI Desktop
2. Wybierz **Get Data ‚Üí Azure Databricks**
3. Wprowad≈∫:
 - **Server hostname**: [workspace-url]
 - **HTTP Path**: [cluster-http-path]
 - **Catalog**: kion_catalog
 - **Schema**: gold
4. Wybierz tryb **DirectQuery** lub **Direct Lake** (je≈õli dostƒôpne)
5. Za≈Çaduj tabelƒô `customer_summary`

**R√≥≈ºnice:**
- **Direct Lake**: Natywne odczytywanie plik√≥w Delta (najszybsze)
- **DirectQuery**: Zapytania SQL do Databricks (real-time)
- **Import**: Kopiowanie danych do Power BI (najwolniejsze, ale offline)

---

## Czƒô≈õƒá 5: Integracja ML - MLflow Tracking

### Zadanie 5.1: Utworzenie eksperymentu MLflow

**Cel:** Zarejestrowaƒá prosty eksperyment ML z wykorzystaniem MLflow.

**Instrukcje:**
1. Przygotuj dataset z Gold layer
2. Utw√≥rz prosty model regresji (predykcja total_spent)
3. Zaloguj metryki i parametry w MLflow

**TODO:** Uzupe≈Çnij kod MLflow tracking

In [None]:
import mlflow
import mlflow.sklearn
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score
import pandas as pd

# Przygotowanie danych
gold_df = spark.table("kion_catalog.gold.customer_summary").toPandas()

# Feature engineering - przyk≈Çadowe cechy
X = gold_df[["order_count", "avg_order_value"]].fillna(0)
y = gold_df["total_spent"].fillna(0)

# Split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

print(f"Training samples: {len(X_train)}, Test samples: {len(X_test)}")

In [None]:
# TODO: Uruchom eksperyment MLflow
mlflow.set_experiment("/Users/kion_training/customer_value_prediction")

with mlflow.start_run(run_name="linear_regression_baseline") as run:
 # TODO: Zaloguj parametry
 mlflow.log_param("model_type", "___")
 mlflow.log_param("test_size", ___)
 
 # Trenuj model
 model = LinearRegression()
 model.fit(X_train, y_train)
 
 # Predykcja
 y_pred = model.predict(X_test)
 
 # Oblicz metryki
 mse = mean_squared_error(y_test, y_pred)
 r2 = r2_score(y_test, y_pred)
 
 # TODO: Zaloguj metryki
 mlflow.log_metric("mse", ___)
 mlflow.log_metric("r2", ___)
 
 # TODO: Zaloguj model
 mlflow.sklearn.log_model(model, "model")
 
 print(f"Run ID: {run.info.run_id}")
 print(f"MSE: {mse:.2f}")
 print(f"R2 Score: {r2:.4f}")

### Zadanie 5.2: Eksploracja eksperyment√≥w w MLflow UI

**Cel:** PrzeglƒÖdaƒá zalogowane eksperymenty w UI.

**Instrukcje:**
1. Przejd≈∫ do zak≈Çadki **Experiments** w Databricks UI
2. Znajd≈∫ eksperyment `/Users/kion_training/customer_value_prediction`
3. Sprawd≈∫ zalogowane metryki (MSE, R2)
4. Por√≥wnaj r√≥≈ºne runy (je≈õli uruchomisz model wielokrotnie)

**Pytania do rozwa≈ºenia:**
- Jakie metryki sƒÖ najwa≈ºniejsze dla tego przypadku?
- Jak mo≈ºna zautomatyzowaƒá tracking w pipeline'ach produkcyjnych?
- Jak wykorzystaƒá MLflow Model Registry?

---

## Czƒô≈õƒá 6: Feature Store (podstawy)

### Zadanie 6.1: Utworzenie Feature Table

**Cel:** Zarejestrowaƒá cechy w Databricks Feature Store.

**Instrukcje:**
1. Przygotuj feature table z customer features
2. Zarejestruj w Feature Store
3. Wykorzystaj cechy w modelu ML

**TODO:** Uzupe≈Çnij kod Feature Store

In [None]:
from databricks import feature_store
from databricks.feature_store import feature_table

# Inicjalizacja Feature Store Client
fs = feature_store.FeatureStoreClient()

# TODO: Przygotuj feature table
customer_features = (
 spark.table("kion_catalog.gold.customer_summary")
 .select(
 "customer_id",
 "total_spent",
 "order_count",
 "avg_order_value"
 )
)

# TODO: Utw√≥rz feature table w Feature Store
try:
 fs.create_table(
 name="kion_catalog.gold.customer_features",
 primary_keys=["___"],
 df=customer_features,
 description="Customer features for ML models"
 )
 print("Feature table utworzona: kion_catalog.gold.customer_features")
except Exception as e:
 print(f"Feature table ju≈º istnieje lub b≈ÇƒÖd: {e}")
 # Je≈õli ju≈º istnieje, zaktualizuj
 fs.write_table(
 name="kion_catalog.gold.customer_features",
 df=customer_features,
 mode="overwrite"
 )
 print("Feature table zaktualizowana")

### Zadanie 6.2: Wykorzystanie Feature Store w modelu

**Cel:** Odczytaƒá cechy z Feature Store i u≈ºyƒá w modelu.

**TODO:** Za≈Çaduj cechy z Feature Store

In [None]:
# TODO: Odczytaj feature table z Feature Store
features_df = fs.read_table(name="kion_catalog.gold.___")

features_df.display()

print("Cechy za≈Çadowane z Feature Store")

**Korzy≈õci z Feature Store:**
- Centralne repozytorium cech
- Wersjonowanie cech
- ≈öledzenie lineage cech ‚Üí modele
- Udostƒôpnianie cech miƒôdzy zespo≈Çami
- Sp√≥jno≈õƒá cech: training vs inference

---

## Czƒô≈õƒá 7: Podsumowanie i Best Practices

### Zrealizowane cele

- Utworzenie katalog√≥w i schemat√≥w w Unity Catalog
- ZarzƒÖdzanie uprawnieniami: GRANT / REVOKE
- Budowa pipeline Bronze ‚Üí Silver ‚Üí Gold z lineage
- Eksploracja data lineage w Catalog Explorer
- Przygotowanie danych dla Power BI Direct Lake
- Tracking eksperyment√≥w w MLflow
- Wykorzystanie Feature Store

---

### Best Practices: Unity Catalog

1. **Hierarchia:** Metastore ‚Üí Catalog ‚Üí Schema ‚Üí Table/View
2. **Principle of Least Privilege:** Przyznawaj minimalne wymagane uprawnienia
3. **Separation of Concerns:** Bronze (raw), Silver (clean), Gold (business)
4. **Lineage tracking:** U≈ºywaj Unity Catalog dla automatycznego lineage
5. **Dokumentacja:** Dodawaj komentarze do tabel i kolumn

---

### Best Practices: BI Integrations

1. **Direct Lake:** Najszybszy tryb dla Power BI (je≈õli dostƒôpny)
2. **Optymalizacja:** OPTIMIZE + ZORDER przed udostƒôpnieniem do BI
3. **Denormalizacja:** Gold layer czƒôsto wymaga denormalizacji dla wydajno≈õci
4. **Typy danych:** Upewnij siƒô, ≈ºe typy sƒÖ kompatybilne z BI tools
5. **Incremental refresh:** Wykorzystaj partycjonowanie dla od≈õwie≈ºania przyrostowego

---

### Best Practices: ML Integrations

1. **MLflow tracking:** Zawsze loguj metryki, parametry, artifacts
2. **Model Registry:** Rejestruj modele produkcyjne w MLflow Model Registry
3. **Feature Store:** Centralizuj cechy dla sp√≥jno≈õci training/inference
4. **Reproducibility:** Wersjonuj dane, kod, modele
5. **Monitoring:** ≈öled≈∫ model drift i data drift w produkcji

---

## üéì Zadanie dodatkowe (opcjonalne)

### Rozszerzone Governance

1. **Row-Level Security:** Zaimplementuj row-level security w Unity Catalog
 - Utw√≥rz widok z filtrem na podstawie `current_user()`
 - Przetestuj dostƒôp dla r√≥≈ºnych u≈ºytkownik√≥w

2. **Column Masking:** Ukryj wra≈ºliwe dane (np. email, phone)
 - Wykorzystaj `CASE WHEN is_member('sensitive_group')` do maskowania

3. **Delta Sharing:** Udostƒôpnij dane zewnƒôtrznie
 - Utw√≥rz share w Unity Catalog
 - Udostƒôpnij tabelƒô Gold dla zewnƒôtrznego odbiorcy

4. **Audit Logging:** Zbadaj audit logs
 - Sprawd≈∫ `system.access.audit` w Unity Catalog
 - Zidentyfikuj aktywno≈õƒá u≈ºytkownik√≥w na tabelach

---

## üìö Materia≈Çy dodatkowe

- [Unity Catalog Documentation](https://docs.databricks.com/data-governance/unity-catalog/index.html)
- [Power BI Direct Lake](https://learn.microsoft.com/en-us/power-bi/enterprise/directlake-overview)
- [MLflow Documentation](https://mlflow.org/docs/latest/index.html)
- [Databricks Feature Store](https://docs.databricks.com/machine-learning/feature-store/index.html)
- [Delta Sharing Protocol](https://delta.io/sharing/)

---

**Koniec warsztatu!** 