# Unity Catalog Governance - Demo

**Cel szkoleniowy:** Opanowanie Unity Catalog jako platformy governance dla Databricks Lakehouse, zarzÄ…dzanie dostÄ™pami, data masking, lineage i audit logging

**Zakres tematyczny:**
- Unity Catalog Architecture: Metastore, Catalog, Schema, Tables/Views/Volumes
- ZarzÄ…dzanie dostÄ™pami: GRANT/REVOKE privileges
- Data Masking i Row-Level Security
- Data Lineage i Audit Logging
- Delta Sharing - secure data sharing
- Best Practices for Data Governance

---

## Kontekst i wymagania

- **DzieÅ„ szkolenia**: DzieÅ„ 3 - Transformation, Governance & Integrations
- **Typ notebooka**: Demo
- **Wymagania techniczne**:
 - Databricks Runtime 13.0+ (zalecane: 14.3 LTS)
 - Unity Catalog wÅ‚Ä…czony (wymagane!)
 - Uprawnienia: CREATE CATALOG, CREATE SCHEMA, GRANT/REVOKE
 - Klaster: Standard z minimum 2 workers
- **Czas trwania**: 45 minut
- **Prerekvizity**: 03_databricks_jobs_orchestration.ipynb

## WstÄ™p teoretyczny

**Cel sekcji:** Zrozumienie Unity Catalog jako zunifikowanej platformy governance dla data lakehouse

**Podstawowe pojÄ™cia:**
- **Unity Catalog**: Zunifikowane rozwiÄ…zanie governance dla wszystkich data assets
- **Metastore**: Region-level container dla katalogÃ³w (top-level)
- **Three-level namespace**: catalog.schema.table
- **Securable objects**: Tables, Views, Functions, Volumes, Models
- **Fine-grained access control**: Table, column, row-level security
- **Automatic lineage**: End-to-end data flow tracking bez instrumentacji

**Hierarchia obiektÃ³w Unity Catalog:**
```
Metastore (region-level)
 â†“
Catalog (domain/environment)
 â†“
Schema (namespace/layer)
 â†“
Securable Objects:
 - Tables / Views (data)
 - Functions (UDF, stored procedures)
 - Volumes (file storage)
 - Models (ML models)
```

**Kluczowe cechy:**
- **Unified governance**: Jedna platforma dla danych, ML, BI
- **ACID transactions**: Gwarancje transakcyjne na poziomie katalogu
- **Audit logging**: Who accessed what and when
- **Data discovery**: Metadata search i tagging
- **Delta Sharing**: Secure cross-organization sharing

**Dlaczego to waÅ¼ne?**
Unity Catalog rozwiÄ…zuje fundamentalne problemy governance w data lake:
- Brak centralnej kontroli dostÄ™pu
- TrudnoÅ›ci z Å›ledzeniem lineage
- Brak audytu dostÄ™pu do danych
- Problemy z compliance (GDPR, HIPAA)
- Silosy danych miÄ™dzy zespoÅ‚ami

Unity Catalog zapewnia enterprise-grade governance przy zachowaniu flexibility data lakehouse.

## Izolacja per uÅ¼ytkownik

Uruchom skrypt inicjalizacyjny dla per-user izolacji katalogÃ³w i schematÃ³w:

In [0]:
%run ../00_setup

## Konfiguracja

Import bibliotek i wyÅ›wietlenie kontekstu uÅ¼ytkownika:

In [0]:
# ÅšcieÅ¼ki do katalogÃ³w z danymi (podkatalogi w DATASET_BASE_PATH z 00_setup)
CUSTOMERS_PATH = f"{DATASET_BASE_PATH}/customers"
ORDERS_PATH = f"{DATASET_BASE_PATH}/orders"
PRODUCTS_PATH = f"{DATASET_BASE_PATH}/products"

# ÅšcieÅ¼ki do konkretnych plikÃ³w
CUSTOMERS_CSV = f"{CUSTOMERS_PATH}/customers.csv"
ORDERS_JSON = f"{ORDERS_PATH}/orders_batch.json"
PRODUCTS_PARQUET = f"{PRODUCTS_PATH}/products.parquet"

**Konfiguracja Å›cieÅ¼ek do plikÃ³w danych:**

- **Customers CSV**: `{DATASET_BASE_PATH}/customers/customers.csv`
- **Orders JSON**: `{DATASET_BASE_PATH}/orders/orders_batch.json` 
- **Products Parquet**: `{DATASET_BASE_PATH}/products/products.parquet`

Te Å›cieÅ¼ki bÄ™dÄ… uÅ¼ywane do wczytania danych do Unity Catalog.

## 2.1 Przygotowanie Danych z Dataset

Zanim przejdziemy do zarzÄ…dzania dostÄ™pami, wczytamy rzeczywiste dane z katalogu dataset/, ktÃ³re bÄ™dziemy uÅ¼ywaÄ‡ w przykÅ‚adach Unity Catalog.

In [0]:
customers_df = spark.read \
    .option("header", "true") \
    .option("inferSchema", "true") \
    .csv(CUSTOMERS_CSV)

In [0]:
customers_df.printSchema()

**Dane customers wczytane**

Wczytano dane klientÃ³w z pliku CSV. Schema zostaÅ‚ automatycznie wykryty przez `inferSchema=true`.

In [0]:
display(customers_df.limit(5))

In [0]:
orders_df = spark.read.json(ORDERS_JSON)

In [0]:
orders_df.printSchema()

**Dane orders wczytane**

Wczytano dane zamÃ³wieÅ„ z pliku JSON. Spark automatycznie wykryÅ‚ schema dla nested JSON structures.

In [0]:
display(orders_df.limit(5))

In [0]:
products_df = spark.read.parquet(PRODUCTS_PARQUET)

In [0]:
products_df.printSchema()

**Dane products wczytane**

Wczytano dane produktÃ³w z pliku Parquet. Parquet zawiera optimized binary format with schema embedded in the file.

In [0]:
display(products_df.limit(5))

## 1âƒ£ Unity Catalog Architecture

**Unity Catalog** to zunifikowane rozwiÄ…zanie governance dla Databricks Lakehouse.

### Hierarchia obiektÃ³w:

```
Metastore (region-level)
 â†“
Catalog (database/domain)
 â†“
Schema (namespace)
 â†“
Securable Objects:
 - Tables / Views
 - Functions (UDF, stored procedures)
 - Volumes (files storage)
 - Models (ML models)
```

### Three-level namespace:
```sql
catalog.schema.table
```

PrzykÅ‚ad:
```sql
main.sales.orders
dev.analytics.customer_metrics
prod.gold.daily_revenue
```

### Kluczowe cechy:
- **Unified governance**: jedna platforma dla danych, ML, BI
- **Fine-grained access control**: table, column, row level
- **Automatic lineage**: end-to-end data flow tracking
- **Audit logging**: who accessed what and when
- **Data discovery**: metadata search i tagging

---

## Setup i Basic Operations

### Creating Catalogs and Schemas, ON External:

In [0]:
%skip 
# Create Catalog
spark.sql(f"""
    CREATE CATALOG IF NOT EXISTS {CATALOG} LOCATION -- fillup later
    COMMENT 'Katalog KION dla danych szkoleniowych'
""")

**Weryfikacja listy katalogÃ³w:**

In [0]:
# List catalogs
spark.sql("SHOW CATALOGS").display()

**Katalog utworzony/zweryfikowany**

Katalog sÅ‚uÅ¼y jako top-level container dla wszystkich schematÃ³w i tabel w naszym Å›rodowisku szkoleniowym.

In [0]:
# Create Schemas within catalog
spark.sql(f"""
  CREATE SCHEMA IF NOT EXISTS {CATALOG}.{BRONZE_SCHEMA}
  COMMENT 'Bronze layer - surowe dane'
""")

spark.sql(f"""
  CREATE SCHEMA IF NOT EXISTS {CATALOG}.{SILVER_SCHEMA}
  COMMENT 'Silver layer - oczyszczone dane'
""")

spark.sql(f"""
  CREATE SCHEMA IF NOT EXISTS {CATALOG}.{GOLD_SCHEMA}
  COMMENT 'Gold layer - dane biznesowe'
""")

**Schematy Bronze, Silver, Gold utworzone**

Implementujemy architekturÄ™ Medallion:
- **Bronze**: Surowe dane (raw data ingestion)
- **Silver**: Oczyszczone dane (data validation, normalization) 
- **Gold**: Dane biznesowe (aggregated, business-ready)

In [0]:
# Ustawienie default catalog i schema
spark.sql(f"USE CATALOG {CATALOG}")
spark.sql(f"USE SCHEMA {SILVER_SCHEMA}")

**Weryfikacja aktywnego kontekstu:**

In [0]:
# Weryfikacja utworzonych schematÃ³w
schemas = spark.sql(f"SHOW SCHEMAS IN {CATALOG}").select("databaseName").collect()
schema_names = [row.databaseName for row in schemas]

display(spark.createDataFrame([
    ("Aktywny katalog", CATALOG),
    ("Aktywny schemat", SILVER_SCHEMA),
    ("Utworzone schematy", ", ".join(schema_names))
], ["Parametr", "WartoÅ›Ä‡"]))

**Aktywny katalog i schemat ustawione**

Ustawiamy domyÅ›lny kontekst pracy - wszystkie kolejne operacje bÄ™dÄ… wykonywane w tym katalogu i schemacie, chyba Å¼e zostanie podana peÅ‚na Å›cieÅ¼ka.

In [0]:
# Weryfikacja utworzonych schematÃ³w
spark.sql(f"SHOW SCHEMAS IN {CATALOG}").display()

### Creating Tables in Unity Catalog:

In [0]:
# Zapisanie tabeli customers w Bronze layer
customers_df.write \
    .format("delta") \
    .mode("overwrite") \
    .option("mergeSchema", "true") \
    .saveAsTable(f"{CATALOG}.{BRONZE_SCHEMA}.customers")

**Tabela customers zapisana w Bronze layer**

Zapisujemy dane w formacie Delta Lake z `mergeSchema=true` dla automatycznego dostosowania schematu w przyszÅ‚oÅ›ci.

In [0]:
# Weryfikacja liczby rekordÃ³w
spark.sql(f"SELECT COUNT(*) as count FROM {CATALOG}.{BRONZE_SCHEMA}.customers").display()

In [0]:
# Zapisanie tabeli orders w Bronze layer
orders_df.write \
    .format("delta") \
    .mode("overwrite") \
    .option("mergeSchema", "true") \
    .saveAsTable(f"{CATALOG}.{BRONZE_SCHEMA}.orders")

display(spark.createDataFrame([("Status", f" Tabela orders zapisana w {CATALOG}.{BRONZE_SCHEMA}")], ["Info", "Value"]))

**Weryfikacja tabeli orders:**

In [0]:
display(spark.table(f"{CATALOG}.{BRONZE_SCHEMA}.orders"))

- **'delta.enableChangeDataFeed' = 'true'**  
  WÅ‚Ä…cza Change Data Feed (CDF) â€“ pozwala Å›ledziÄ‡ zmiany (insert, update, delete) w tabeli Delta. UmoÅ¼liwia pobieranie tylko zmodyfikowanych danych.

- **'delta.autoOptimize.optimizeWrite' = 'true'**  
  WÅ‚Ä…cza zoptymalizowany zapis â€“ podczas zapisu dane sÄ… automatycznie grupowane w wiÄ™ksze pliki (~128 MB), co poprawia wydajnoÅ›Ä‡ odczytu i ogranicza liczbÄ™ maÅ‚ych plikÃ³w.

- **'delta.autoOptimize.autoCompact' = 'true'**  
  WÅ‚Ä…cza automatycznÄ… kompakcjÄ™ â€“ Delta Lake automatycznie Å‚Ä…czy maÅ‚e pliki w wiÄ™ksze w tle, co poprawia wydajnoÅ›Ä‡ i zarzÄ…dzanie plikami.

In [0]:
# Add table properties and comments
spark.sql(f"""
    ALTER TABLE {CATALOG}.{BRONZE_SCHEMA}.orders
    SET TBLPROPERTIES (
        'delta.enableChangeDataFeed' = 'true',
        'delta.autoOptimize.optimizeWrite' = 'true',
        'delta.autoOptimize.autoCompact' = 'true',
        'department' = 'analytics',
        'pii_data' = 'true'
    )
""")

In [0]:
# Add comments to table and columns
spark.sql(f"""
    COMMENT ON TABLE {CATALOG}.{BRONZE_SCHEMA}.orders IS
    'Cleaned orders table with data quality validations applied'
""")

spark.sql(f"""
    COMMENT ON COLUMN {CATALOG}.{BRONZE_SCHEMA}.orders.customer_id IS
    'Customer identifier - PII data, access restricted'
""")

**WÅ‚aÅ›ciwoÅ›ci tabeli i komentarze dodane**

UstawiliÅ›my:
- **Change Data Feed**: Åšledzenie zmian w tabeli
- **Auto Optimize**: Automatyczna optymalizacja zapisu i kompakcja
- **Metadata**: Owner, department, oznaczenie PII data
- **Dokumentacja**: Komentarze do tabeli i wraÅ¼liwych kolumn

In [0]:
# Weryfikacja liczby rekordÃ³w orders
spark.sql(f"SELECT COUNT(*) as count FROM {CATALOG}.{BRONZE_SCHEMA}.orders").display()

In [0]:
# Zapisanie tabeli products w Bronze layer
products_df.write \
    .format("delta") \
    .mode("overwrite") \
    .option("mergeSchema", "true") \
    .saveAsTable(f"{CATALOG}.{BRONZE_SCHEMA}.products")

display(spark.createDataFrame([("Status", f" Tabela products zapisana w {CATALOG}.{BRONZE_SCHEMA}")], ["Info", "Value"]))

In [0]:
# Weryfikacja liczby rekordÃ³w products
spark.sql(f"SELECT COUNT(*) as count FROM {CATALOG}.{BRONZE_SCHEMA}.products").display()

## 2.2 Data Classification (Tagging)

**Tagging** pozwala na klasyfikacjÄ™ danych (np. PII, Sensitive, GDPR) na poziomie tabeli lub kolumny.
UÅ‚atwia to data discovery oraz governance (np. raportowanie wszystkich tabel zawierajÄ…cych dane osobowe).


In [0]:
# Dodaj tagi do tabeli orders
spark.sql(f"""
    ALTER TABLE {CATALOG}.{BRONZE_SCHEMA}.orders 
    SET TAGS ('sensitivity' = 'high', 'domain' = 'sales')
""")

# Dodaj tagi do kolumny customer_id
spark.sql(f"""
    ALTER TABLE {CATALOG}.{BRONZE_SCHEMA}.orders 
    ALTER COLUMN customer_id SET TAGS ('pii' = 'true')
""")

display(spark.createDataFrame([("Status", " Tagi dodane do tabeli i kolumny")], ["Info", "Value"]))

**Wyszukiwanie po tagach (Information Schema):**

In [0]:
# ZnajdÅº wszystkie kolumny oznaczone jako PII
pii_columns = spark.sql(f"""
    SELECT 
        catalog_name, 
        schema_name, 
        table_name, 
        column_name, 
        tag_value 
    FROM system.information_schema.column_tags
    WHERE tag_name = 'pii' AND tag_value = 'true'
      AND catalog_name = '{CATALOG}'
""")

display(pii_columns)

**Tabela products zapisana w Bronze layer**

Wszystkie trzy tabele (customers, orders, products) zostaÅ‚y zapisane w Bronze schema w formacie Delta Lake. Gotowe do dalszej transformacji w architekturze Medallion.

## 2.3 External Locations & External Tables

**External Location** to obiekt w Unity Catalog, ktÃ³ry Å‚Ä…czy **Storage Credential** (poÅ›wiadczenia chmurowe) z konkretnÄ… Å›cieÅ¼kÄ… w cloud storage (S3/ADLS/GCS).

Pozwala to na:
1.  Bezpieczny dostÄ™p do danych w chmurze bez podawania kluczy w kodzie.
2.  Tworzenie **External Tables** (dane leÅ¼Ä… poza zarzÄ…dzanym storage Databricks).
3.  Tworzenie **External Volumes**.

**Wymagania:**
- Uprawnienie `CREATE EXTERNAL LOCATION` na Metastore.
- Skonfigurowany Storage Credential.

> **Uwaga**: W Å›rodowisku szkoleniowym moÅ¼esz nie mieÄ‡ uprawnieÅ„ do tworzenia Storage Credential. PoniÅ¼szy kod jest przykÅ‚adem referencyjnym.

In [None]:
# 1. Tworzenie Storage Credential (wymaga admina)
# spark.sql("""
#     CREATE STORAGE CREDENTIAL IF NOT EXISTS `azure_managed_identity`
#     USING MANAGED IDENTITY 'resource-id-of-managed-identity'
#     COMMENT 'DostÄ™p do Data Lake'
# """)

# 2. Tworzenie External Location
# spark.sql("""
#     CREATE EXTERNAL LOCATION IF NOT EXISTS `kion_raw_data`
#     URL 'abfss://raw@kiondatalake.dfs.core.windows.net/'
#     WITH STORAGE CREDENTIAL `azure_managed_identity`
#     COMMENT 'Lokalizacja surowych danych'
# """)

# 3. Nadanie uprawnieÅ„ uÅ¼ytkownikom
# spark.sql("GRANT READ FILES, WRITE FILES ON EXTERNAL LOCATION `kion_raw_data` TO `data-engineers`")

In [None]:
# 4. Tworzenie External Table (korzystajÄ…c z External Location)
# Tabela nie jest zarzÄ…dzana przez Databricks (DROP TABLE nie usuwa plikÃ³w)

# spark.sql(f"""
#     CREATE TABLE IF NOT EXISTS {CATALOG}.{BRONZE_SCHEMA}.legacy_logs (
#         log_id STRING,
#         timestamp TIMESTAMP,
#         message STRING
#     )
#     LOCATION 'abfss://raw@kiondatalake.dfs.core.windows.net/logs/legacy'
# """)

display(spark.createDataFrame([
    ("External Location", "Abstrakcja nad Cloud Storage"),
    ("Storage Credential", "Bezpieczne przechowywanie kluczy/toÅ¼samoÅ›ci"),
    ("External Table", "Metadane w UC, dane w Twoim storage")
], ["Komponent", "Opis"]))

## 4. Unity Catalog Volumes

**Volumes** to zarzÄ…dzane przestrzenie dla przechowywania plikÃ³w (non-tabular data) w Unity Catalog:
- **Managed Volumes**: Databricks zarzÄ…dza cyklem Å¼ycia plikÃ³w
- **External Volumes**: poÅ‚Ä…czenie z zewnÄ™trznymi lokalizacjami storage

**Zastosowania**:
- Przechowywanie plikÃ³w ML models, checkpoints
- Staging area dla danych przed ingestion
- Archiwum dokumentÃ³w, logÃ³w, raportÃ³w

In [0]:
# Tworzenie Managed Volume
volume_name = "files"

spark.sql(f"""
  CREATE VOLUME IF NOT EXISTS {CATALOG}.{BRONZE_SCHEMA}.{volume_name}
  COMMENT 'Managed volume dla plikÃ³w staging'
""")

**Volume 'files' utworzony**

Volume zostaÅ‚ utworzony w Bronze schema jako managed volume dla przechowywania plikÃ³w staging, dokumentÃ³w i innych zasobÃ³w niebÄ™dÄ…cych tabelami.

In [0]:
# Eksport customers do CSV w Volume
volume_path = f"/Volumes/{CATALOG}/{BRONZE_SCHEMA}/{volume_name}"

customers_df.coalesce(1).write \
    .mode("overwrite") \
    .option("header", "true") \
    .csv(f"{volume_path}/customers_export")

**Dane customers wyeksportowane do Volume**

Dane zostaÅ‚y zapisane w Å›cieÅ¼ce: `/Volumes/{CATALOG}/{BRONZE_SCHEMA}/files/customers_export/`

Volume umoÅ¼liwia przechowywanie plikÃ³w niestrukturalnych obok tabeli w Unity Catalog z kontrolÄ… dostÄ™pu.

In [0]:
# Weryfikacja plikÃ³w w Volume
dbutils.fs.ls(f"{volume_path}/customers_export")

## 5. Unity Catalog Functions (UDF)

**Functions** w Unity Catalog pozwalajÄ… na:
- Tworzenie reuÅ¼ywalnych funkcji SQL/Python
- Centralne zarzÄ…dzanie logikÄ… biznesowÄ…
- KontrolÄ™ dostÄ™pu przez GRANT/REVOKE
- Lineage tracking dla funkcji

**Rodzaje funkcji**:
- **Scalar Functions**: zwracajÄ… pojedynczÄ… wartoÅ›Ä‡
- **Table Functions**: zwracajÄ… tabelÄ™
- **SQL Functions**: napisane w SQL
- **Python Functions**: napisane w Python (UDF)

**Funkcja mask_customer_id utworzona**

Funkcja SQL maskuje customer_id, pokazujÄ…c tylko ostatnie 3 cyfry. MoÅ¼e byÄ‡ wykorzystana w Views do ukrywania wraÅ¼liwych identyfikatorÃ³w.

In [0]:
# SQL Function - maskowanie customer_id
spark.sql(f"""
  CREATE OR REPLACE FUNCTION {CATALOG}.{SILVER_SCHEMA}.mask_customer_id(customer_id STRING)
  RETURNS STRING
  LANGUAGE SQL
  COMMENT 'Maskuje customer_id, pokazujÄ…c tylko ostatnie 3 cyfry'
  RETURN CONCAT('****', SUBSTRING(CAST(customer_id AS STRING), -3))
""")

In [0]:
# Test funkcji mask_customer_id
result_df = spark.sql(f"""
  SELECT 
    customer_id,
    {CATALOG}.{SILVER_SCHEMA}.mask_customer_id(customer_id) as masked_id,
    first_name,
    last_name
  FROM {CATALOG}.{BRONZE_SCHEMA}.customers
  LIMIT 5
""")

display(result_df)

In [0]:
# Insert data from Bronze to Silver (customers_masked) with masking
spark.sql(f"""
  INSERT INTO {CATALOG}.{SILVER_SCHEMA}.customers_masked
  SELECT
    customer_id,
    customer_id,  -- will be masked by MASK function
    first_name,
    last_name,
    email,
    country
  FROM {CATALOG}.{BRONZE_SCHEMA}.customers
""")

**Funkcja categorize_price utworzona**

Funkcja Python UDF kategoryzuje ceny produktÃ³w:
- **Low**: < 50
- **Medium**: 50-200 
- **High**: > 200

Python UDF moÅ¼e zawieraÄ‡ dowolnÄ… logikÄ™ Python.

In [0]:
# Python UDF - kategoryzacja cen
spark.sql(f"""
  CREATE OR REPLACE FUNCTION {CATALOG}.{SILVER_SCHEMA}.categorize_price(price DOUBLE)
  RETURNS STRING
  LANGUAGE PYTHON
  COMMENT 'Kategoryzuje ceny: Low, Medium, High'
  AS $$
    if price < 50:
        return "Low"
    elif price < 200:
        return "Medium"
    else:
        return "High"
  $$
""")

In [0]:
# Test funkcji categorize_price
result_df = spark.sql(f"""
  SELECT 
    product_name,
    unit_cost,
    {CATALOG}.{SILVER_SCHEMA}.categorize_price(unit_cost) as price_category
  FROM {CATALOG}.{BRONZE_SCHEMA}.products
  ORDER BY unit_cost
  LIMIT 10
""")

display(result_df)

---

## 6âƒ£ ZarzÄ…dzanie dostÄ™pami: GRANT / REVOKE

### Hierarchia Privileges w Unity Catalog:

**Poziomy uprawnieÅ„**:
1. **Metastore-level**: CREATE CATALOG, USE CATALOG
2. **Catalog-level**: USE CATALOG, CREATE SCHEMA
3. **Schema-level**: USE SCHEMA, CREATE TABLE, CREATE FUNCTION, CREATE VOLUME
4. **Object-level**: SELECT, MODIFY (INSERT/UPDATE/DELETE/MERGE), EXECUTE

**Securable Objects - Inheritance**:
- Uprawnienia dziedziczÄ… siÄ™ w dÃ³Å‚ hierarchii
- GRANT na Catalog â†’ dziedziczy na wszystkie Schemas i Tables
- GRANT na Schema â†’ dziedziczy na wszystkie Tables w tym Schema
- MoÅ¼na nadaÄ‡ uprawnienia na konkretnym poziomie dla fine-grained control

### PrzykÅ‚ady GRANT/REVOKE:

**Uprawnienia dla data-analysts ustawione**

Grupa `data-analysts` otrzymaÅ‚a:
- **USE CATALOG**: DostÄ™p do katalogu
- **USE SCHEMA**: DostÄ™p do schematu Silver 
- **SELECT**: Odczyt danych ze schematu Silver

** Setup: Create groups for demonstration purposes
*** Note: This requires account admin privileges. If you don't have them, ensure these groups exist.

* TO DO IN GUI

In [0]:
# Grant catalog access to data analysts
spark.sql(f"""
    GRANT USE CATALOG ON CATALOG {CATALOG} TO `data-analysts`
""")

spark.sql(f"""
    GRANT USE SCHEMA ON SCHEMA {CATALOG}.{SILVER_SCHEMA} TO `data-analysts`
""")

spark.sql(f"""
    GRANT SELECT ON SCHEMA {CATALOG}.{SILVER_SCHEMA} TO `data-analysts`
""")

In [0]:
# Grant full access to data engineers
spark.sql(f"""
    GRANT USE CATALOG, CREATE SCHEMA ON CATALOG {CATALOG} TO `data-engineers`
""")

**Uprawnienia dla Data Analysts (Gold Layer):**

In [0]:
# GRANT dla data-analysts na Gold schema
spark.sql(f"""
  GRANT USE SCHEMA ON SCHEMA {CATALOG}.{GOLD_SCHEMA} TO `data-analysts`
""")

spark.sql(f"""
  GRANT SELECT ON SCHEMA {CATALOG}.{GOLD_SCHEMA} TO `data-analysts`
""")

**PeÅ‚ne uprawnienia dla Data Engineers:**

In [0]:
# GRANT ALL PRIVILEGES dla data-engineers
spark.sql(f"""
  GRANT ALL PRIVILEGES ON SCHEMA {CATALOG}.{BRONZE_SCHEMA} TO `data-engineers`
""")

spark.sql(f"""
  GRANT ALL PRIVILEGES ON SCHEMA {CATALOG}.{SILVER_SCHEMA} TO `data-engineers`
""")

spark.sql(f"""
  GRANT ALL PRIVILEGES ON SCHEMA {CATALOG}.{GOLD_SCHEMA} TO `data-engineers`
""")

**Uprawnienia dla grup ustawione**

- **data-analysts**: USE SCHEMA + SELECT na Gold (tylko agregowane dane)
- **data-engineers**: ALL PRIVILEGES na Bronze/Silver/Gold (peÅ‚na kontrola nad data pipeline)

**Weryfikacja nadania uprawnieÅ„:**

**Table-specific access control**

Fine-grained permissions:
- **finance-team**: DostÄ™p do customer_order_summary (revenue analysis)
- **marketing-team**: DostÄ™p do customers_masked (customer insights z maskowaniem PII)

In [0]:
# GRANT EXECUTE na Functions
spark.sql(f"""
  GRANT EXECUTE ON FUNCTION {CATALOG}.{SILVER_SCHEMA}.mask_customer_id TO `data-analysts`
""")

spark.sql(f"""
  GRANT EXECUTE ON FUNCTION {CATALOG}.{SILVER_SCHEMA}.categorize_price TO `data-analysts`
""")

**EXECUTE permissions na funkcjach**

Grupa `data-analysts` moÅ¼e wykonywaÄ‡:
- **mask_customer_id**: Maskowanie identyfikatorÃ³w klientÃ³w
- **categorize_price**: Kategoryzacja cen produktÃ³w

Functions w Unity Catalog majÄ… own access control layer.

In [0]:
# Weryfikacja uprawnieÅ„ na tabeli
spark.sql(f"""
    SHOW GRANTS ON TABLE {CATALOG}.{BRONZE_SCHEMA}.customers
""").display()

**Uprawnienia na tabeli customers**

`SHOW GRANTS` pokazuje wszystkie uprawnienia na konkretnej tabeli:
- **Principal**: User/grupa z uprawnieniami
- **Action**: Typ uprawnienia (SELECT, MODIFY, etc.)
- **Object**: Scoped object (table, schema, catalog)

### Ownership and transfer:

---

## 3âƒ£ Data Masking i Row-Level Security

### Column-level masking (Dynamic Views):

UÅ¼yj funkcji `current_user()` i `is_account_group_member()` do conditional masking:

In [0]:
# Create masked view for PII data
spark.sql(f"""
  CREATE OR REPLACE VIEW {CATALOG}.{GOLD_SCHEMA}.customers_masked AS
  SELECT 
    customer_id,
    CASE 
      WHEN is_account_group_member('pii-access-group') THEN first_name
      ELSE CONCAT(LEFT(first_name, 1), '***')
    END as first_name,
    CASE 
      WHEN is_account_group_member('pii-access-group') THEN last_name
      ELSE CONCAT(LEFT(last_name, 1), '***')
    END as last_name,
    city,
    country,
    registration_date
  FROM {CATALOG}.{BRONZE_SCHEMA}.customers
""")

**View customers_masked utworzony**

View z dynamicznym maskowaniem danych PII:
- **pii-access-group**: Widzi peÅ‚ne imiona i nazwiska 
- **Inne grupy**: Widzi tylko pierwszÄ… literÄ™ + `***`

Maskowanie oparte na `is_account_group_member()` jest dynamiczne - bez duplikowania danych.

In [0]:
# Test View z maskowaniem
result_df = spark.sql(f"""
  SELECT * FROM {CATALOG}.{GOLD_SCHEMA}.customers_masked LIMIT 10
""")

display(result_df)

In [0]:
%sql
CREATE FUNCTION customer_mask(custoemr_id STRING)
  RETURN CASE WHEN is_account_group_member('data-engineers') THEN custoemr_id ELSE 'CUST-**-****' END

In [0]:
# Define the customers_masked table schema without CTAS
spark.sql(f"""
  CREATE OR REPLACE TABLE {CATALOG}.{SILVER_SCHEMA}.customers_masked (
    customer_id STRING,
    customer_id_masket STRING MASK customer_mask,
    first_name STRING,
    last_name STRING,
    email STRING,
    country STRING
  )
""")

In [0]:
display(spark.sql(f"SELECT * FROM {CATALOG}.{SILVER_SCHEMA}.customers_masked"))

**Dane z maskowaniem wyÅ›wietlone**

Imiona i nazwiska sÄ… zamaskowane dla uÅ¼ytkownikÃ³w bez uprawnieÅ„ `pii-access-group`. Widoczne sÄ… tylko pierwsze litery + `***`.

In [0]:
spark.sql(
    f"""
    CREATE OR REPLACE VIEW {CATALOG}.{GOLD_SCHEMA}.orders_hashed AS
    SELECT 
        order_id,
        SHA2(CAST(customer_id AS STRING), 256) as customer_id_hash,
        product_id,
        quantity,
        total_amount,
        order_datetime
    FROM {CATALOG}.{BRONZE_SCHEMA}.orders
    """
)

display(
    spark.createDataFrame(
        [
            ("View", f"{CATALOG}.{GOLD_SCHEMA}.orders_hashed"),
            ("Maskowanie", "customer_id â†’ SHA2-256 hash"),
            ("Cel", "Analitycy mogÄ… agregowaÄ‡ bez ujawniania customer_id")
        ],
        ["Parametr", "WartoÅ›Ä‡"]
    )
)

**View orders_hashed utworzony**

Customer_id jest zahashowany przy uÅ¼yciu SHA2-256. UmoÅ¼liwia to:
- **Analitykom**: AgregacjÄ™ danych bez ujawniania customer_id
- **Privacy**: Zachowanie anonimowoÅ›ci przy zachowaniu moÅ¼liwoÅ›ci grupowania
- **Compliance**: SpeÅ‚nienie wymagaÅ„ GDPR/privacy regulations

In [0]:
display(spark.sql(f"SELECT * FROM {CATALOG}.{GOLD_SCHEMA}.orders_hashed"))

### Row-Level Security (RLS):

Restrict which rows users can see based on their identity or group membership:

**RLS View customers_rls utworzony**

Row-Level Security filtruje dane bazujÄ…c na group membership:
- **global-access**: Widzi wszystkich klientÃ³w
- **east-coast-team**: Tylko klientÃ³w z NY, NJ, NC, GA 
- **west-coast-team**: Tylko klientÃ³w z CA
- **midwest-team**: Tylko klientÃ³w z FL, IL, TX, MI
- **Inne grupy**: Brak dostÄ™pu (FALSE)

Automatyczne filtrowanie wierszy bez duplikowania danych.

In [0]:
# Tworzenie RLS view - dostÄ™p per region (state)
spark.sql(f"""
    CREATE OR REPLACE VIEW {CATALOG}.{GOLD_SCHEMA}.customers_rls AS
    SELECT *
    FROM {CATALOG}.{BRONZE_SCHEMA}.customers
    WHERE 
        CASE 
            WHEN is_account_group_member('global-access') THEN TRUE
            WHEN is_account_group_member('east-coast-team') THEN UPPER(state) IN ('NY', 'NJ', 'NC', 'GA')
            WHEN is_account_group_member('west-coast-team') THEN UPPER(state) = 'CA'
            WHEN is_account_group_member('midwest-team') THEN UPPER(state) IN ('FL', 'IL', 'TX', 'MI')
            ELSE FALSE
        END
""")


In [0]:
display(spark.createDataFrame([
    ("RLS View", f"{CATALOG}.{GOLD_SCHEMA}.customers_rls"),
    ("Mechanizm", "Filtrowanie per state based on group membership"),
    ("global-access", "Wszyscy klienci"),
    ("east-coast-team", "NY, NJ, NC, GA"),
    ("west-coast-team", "CA"),
    ("midwest-team", "FL, IL, TX, MI")
], ["Grupa", "WidocznoÅ›Ä‡"]))

**Nadanie uprawnieÅ„ do RLS Views:**

**RLS View dla orders utworzony**

Role-based filtering zamÃ³wieÅ„:
- **admin**: Widzi wszystkie zamÃ³wienia
- **finance-team**: Tylko completed i shipped (revenue-relevant)
- **warehouse-team**: pending, processing, shipped (operational orders)

RÃ³Å¼ne grupy widzÄ… rÃ³Å¼ne subsets danych z tej samej tabeli.

In [0]:
# GRANT dostÄ™p do customers_rls
spark.sql(
    f"""
    GRANT SELECT ON VIEW {CATALOG}.{GOLD_SCHEMA}.customers_rls TO `account users`
    """
)

**Nadanie uprawnieÅ„ do orders_rls**

In [0]:
# GRANT dostÄ™p do orders_rls
spark.sql(f"""
  GRANT SELECT ON VIEW {CATALOG}.{GOLD_SCHEMA}.orders_hashed TO `account users`
""")

**Odebranie dostÄ™pu do tabel bazowych (Enforcement):**

In [0]:
# Revoke direct access to base table
spark.sql(f"""
    REVOKE SELECT ON TABLE {CATALOG}.{BRONZE_SCHEMA}.orders FROM `account users`
""")

**RLS Views - Access control setup**

Security pattern:
1. **GRANT SELECT** na RLS Views dla `all-users`
2. **REVOKE SELECT** na base tables (force uÅ¼ycia Views)
3. **Automatic filtering** bazowane na group membership

Users mogÄ… SELECT z Views, ale nie z base tables - enforcement RLS.

---

## 4âƒ£ Data Lineage i Audit Logging

### Querying Data Lineage:

Unity Catalog automatically tracks lineage for:
- Table â†’ Table (ETL transformations)
- Notebook â†’ Table (data writes)
- Dashboard â†’ Table (BI queries)
- ML Model â†’ Table (training data)

**General Table Lineage**

In [0]:
# Query table lineage from system tables
lineage_df = spark.sql(f"""
  SELECT 
    source_table_full_name,
    source_type,
    target_table_full_name,
    target_type,
    event_date,
    created_by
  FROM system.access.table_lineage
  WHERE target_table_full_name LIKE '{CATALOG}.%'
  ORDER BY event_date DESC
  LIMIT 50
""")

display(lineage_df)

**Lineage dla tabel w katalogu wyÅ›wietlony**

System automatycznie Å›ledzi lineage dla:
- **Table â†’ Table**: ETL transformations
- **Notebook â†’ Table**: Data writes 
- **Dashboard â†’ Table**: BI queries
- **ML Model â†’ Table**: Training data

Lineage jest dostÄ™pny przez `system.access.table_lineage` bez dodatkowej instrumentacji.

**1. Upstream Lineage (Sources)**

In [0]:
# Find upstream dependencies (sources) for a table
upstream_df = spark.sql(f"""
    SELECT DISTINCT
        source_table_full_name,
        source_type
    FROM system.access.table_lineage
    WHERE target_table_full_name = '{CATALOG}.{SILVER_SCHEMA}.customer_order_summary'
""")

display(upstream_df)

**â¬† Upstream: Tabele ÅºrÃ³dÅ‚owe dla customer_order_summary**

Pokazuje wszystkie tabele, ktÃ³re sÄ… uÅ¼ywane jako ÅºrÃ³dÅ‚a danych w View `customer_order_summary`. Pomoce w analizie impact analysis przy zmianach w upstream tables.

**2. Downstream Lineage (Consumers)**

In [0]:
# Find downstream dependencies (consumers) of a table
downstream_df = spark.sql(f"""
    SELECT DISTINCT
        target_table_full_name,
        target_type
    FROM system.access.table_lineage
    WHERE source_table_full_name = '{CATALOG}.{BRONZE_SCHEMA}.customers'
""")

display(downstream_df)

** Downstream: Views/Tables korzystajÄ…ce z customers**

Pokazuje wszystkie Views i tabele, ktÃ³re konsumujÄ… dane z tabeli `customers`. Krytyczne dla understanding impact of changes i data governance.

**3. Column-Level Lineage**

In [0]:
# Column-level lineage (jeÅ›li dostÄ™pny)
column_lineage = spark.sql(f"""
    SELECT 
        source_table_full_name,
        source_column_name,
        target_table_full_name,
        target_column_name,
        event_date
    FROM system.access.column_lineage
    WHERE target_table_full_name = '{CATALOG}.{SILVER_SCHEMA}.customer_order_summary'
    ORDER BY target_column_name
""")

display(column_lineage)

** Column-level lineage dla customer_order_summary**

Unity Catalog Å›ledzi lineage na poziomie kolumn - ktÃ³re kolumny w source tables wpÅ‚ywajÄ… na ktÃ³re kolumny w target table. SzczegÃ³Å‚owa informacja dla data governance i impact analysis.

### Audit Logging:

Unity Catalog logs all access and operations:

**1. General Audit Logs**

In [0]:
# Query audit logs
audit_df = spark.sql("""
    SELECT 
        event_time,
        user_identity.email as user_email,
        service_name,
        action_name,
        request_params.full_name_arg as table_name,
        response.status_code,
        request_id
    FROM system.access.audit
    WHERE action_name IN ('getTable', 'createTable', 'deleteTable', 'updateTable')
        AND event_date >= current_date() - INTERVAL 7 DAYS
    ORDER BY event_time DESC
    LIMIT 100
""")
audit_df.display()

**2. Sensitive Data Access**

In [0]:
# Track who accessed sensitive tables
sensitive_access = spark.sql(f"""
    SELECT 
        event_time,
        user_identity.email as user,
        action_name,
        request_params.full_name_arg as table_accessed,
        source_ip_address
    FROM system.access.audit
    WHERE request_params.full_name_arg LIKE '{CATALOG}.%.customers%'
        AND action_name = 'getTable'
        AND event_date >= current_date() - INTERVAL 7 DAYS
    ORDER BY event_time DESC
    LIMIT 100
""")

display(sensitive_access)

**ðŸ”’ Audit logs: DostÄ™p do tabeli customers (ostatnie 7 dni)**

Monitoring dostÄ™pu do wraÅ¼liwych tabel z danymi PII:
- **Kto**: User email
- **Kiedy**: Event time 
- **Co**: Table name
- **SkÄ…d**: Source IP address

Kluczowe dla compliance (GDPR, HIPAA) i security monitoring.

**3. Privilege Changes**

In [0]:
# Grant/Revoke audit trail
grant_audit = spark.sql("""
    SELECT 
        event_time,
        user_identity.email as admin_user,
        action_name,
        request_params.privilege as privilege_granted,
        request_params.securable_full_name as object_name,
        request_params.principal as grantee
    FROM system.access.audit
    WHERE action_name IN ('grantPrivilege', 'revokePrivilege')
        AND event_date >= current_date() - INTERVAL 30 DAYS
    ORDER BY event_time DESC
""")

display(grant_audit)

** Audit trail of privilege changes**

Kompletny audit trail zmian uprawnieÅ„:
- **Admin user**: Kto wykonaÅ‚ GRANT/REVOKE
- **Action**: grantPrivilege lub revokePrivilege
- **Privilege**: KtÃ³re uprawnienie (SELECT, MODIFY, etc.)
- **Object**: Na ktÃ³rym obiekcie (table, schema, catalog)
- **Grantee**: Komu nadano/odebrano uprawnienia

NiezbÄ™dne dla governance i compliance audits.

---

## 5âƒ£ Delta Sharing

**Delta Sharing** = Secure data sharing protocol (cross-org, cross-cloud)

### Komponenty:
- **Share**: kolekcja tabel do udostÄ™pnienia
- **Recipient**: organizacja/uÅ¼ytkownik otrzymujÄ…cy dane
- **Provider**: wÅ‚aÅ›ciciel danych (Ty)

### Create Share:

In [0]:
# Tworzenie Share dla zewnÄ™trznych partnerÃ³w
share_name = f"{CATALOG}_partner_share"

spark.sql(f"""
  CREATE SHARE IF NOT EXISTS {share_name}
  COMMENT 'UdostÄ™pnienie danych dla partnerÃ³w biznesowych'
""")

**Share '{share_name}' utworzony**

Delta Sharing Share to kolekcja tabel do bezpiecznego udostÄ™pnienia zewnÄ™trznym partnerom:
- **Cross-org**: MiÄ™dzy rÃ³Å¼nymi organizacjami Databricks
- **Cross-cloud**: AWS â†” Azure â†” GCP 
- **Open protocol**: Standard open-source

In [0]:
# Dodanie tabeli do Share (tylko Gold layer - agregowane dane)
spark.sql(f"""
  ALTER SHARE {share_name}
  ADD TABLE {CATALOG}.{GOLD_SCHEMA}.fact_sales
""")

In [0]:
spark.sql(f"""
  ALTER SHARE {share_name}
  ADD SCHEMA {CATALOG}.{SILVER_SCHEMA}
""")

**Tabela customer_order_summary dodana do Share**

Best practice: UdostÄ™pniaj tylko Gold layer (agregowane dane):
- **BezpieczeÅ„stwo**: Brak dostÄ™pu do raw data
- **Privacy**: Agregacje ukrywajÄ… individual records
- **Stability**: Gold layer ma stabilny schema i strukture

**Tabele w Share zweryfikowane**

Share zawiera obecnie dodane tabele i moÅ¼e byÄ‡ udostÄ™pniony recipientom. Recipients otrzymajÄ… activation link do konsumowania shared data przez Delta Sharing protocol.

In [0]:
# Weryfikacja zawartoÅ›ci Share
spark.sql(f"SHOW ALL IN SHARE {share_name}").display()

### Create Recipient:

### Consuming shared data (as recipient):

### Best practices for Delta Sharing:

1. **Share only aggregated/gold data**: nie udostÄ™pniaj raw/bronze layers
2. **Use views for masking**: create view with masked PII before sharing
3. **Monitor access**: track who accesses shared data
4. **Version control**: use table versions for stable APIs
5. **Documentation**: clear documentation dla recipients

---

---

## Podsumowanie

### NauczyÅ‚eÅ› siÄ™:

 **Unity Catalog Architecture**: Metastore â†’ Catalog â†’ Schema â†’ Tables 
 **Access Control**: GRANT/REVOKE privileges at multiple levels 
 **Data Masking**: Column-level masking with dynamic views 
 **Row-Level Security**: Filter data based on user identity 
 **Data Lineage**: Track data flow through system tables 
 **Audit Logging**: Monitor who accessed what and when 
 **Delta Sharing**: Secure cross-organization data sharing 

### Key Takeaways:

1. **Unified Governance**: Single platform for all data assets
2. **Fine-grained Control**: Table, column, row-level security
3. **Automatic Lineage**: No extra instrumentation needed
4. **Compliance-ready**: Audit logs for regulatory requirements
5. **Secure Sharing**: Delta Sharing for external collaboration

### NastÄ™pne kroki:
- **Notebook 05**: BI & ML Integrations
- **Workshop 03**: Governance + Integrations hands-on

---

## ðŸ“š Dodatkowe zasoby

- [Unity Catalog Documentation](https://docs.databricks.com/data-governance/unity-catalog/index.html)
- [Delta Sharing Protocol](https://delta.io/sharing/)
- [Unity Catalog Best Practices](https://docs.databricks.com/data-governance/unity-catalog/best-practices.html)

---

## Troubleshooting

### Problem 1: "Table or view not found"
**Przyczyna**: Brak uprawnieÅ„ USE CATALOG lub USE SCHEMA 
**RozwiÄ…zanie**:
```sql
GRANT USE CATALOG ON CATALOG <catalog_name> TO <principal>;
GRANT USE SCHEMA ON SCHEMA <catalog>.<schema> TO <principal>;
```

### Problem 2: "Permission denied" przy SELECT
**Przyczyna**: Brak uprawnieÅ„ SELECT na tabeli 
**RozwiÄ…zanie**:
```sql
GRANT SELECT ON TABLE <catalog>.<schema>.<table> TO <principal>;
-- lub na caÅ‚ym schema:
GRANT SELECT ON SCHEMA <catalog>.<schema> TO <principal>;
```

### Problem 3: "Cannot execute function"
**Przyczyna**: Brak uprawnienia EXECUTE na funkcji 
**RozwiÄ…zanie**:
```sql
GRANT EXECUTE ON FUNCTION <catalog>.<schema>.<function_name> TO <principal>;
```

### Problem 4: "Volume not accessible"
**Przyczyna**: Brak uprawnieÅ„ READ VOLUME / WRITE VOLUME 
**RozwiÄ…zanie**:
```sql
GRANT READ VOLUME ON VOLUME <catalog>.<schema>.<volume> TO <principal>;
GRANT WRITE VOLUME ON VOLUME <catalog>.<schema>.<volume> TO <principal>;
```

### Problem 5: RLS View nie filtruje danych
**Przyczyna**: UÅ¼ytkownik nie naleÅ¼y do Å¼adnej grupy zdefiniowanej w CASE WHEN 
**RozwiÄ…zanie**: Dodaj uÅ¼ytkownika do odpowiedniej grupy lub dodaj domyÅ›lny fallback w View

### Problem 6: Lineage nie pokazuje zaleÅ¼noÅ›ci
**Przyczyna**: Lineage jest automatyczne, ale moÅ¼e opÃ³ÅºniaÄ‡ siÄ™ o kilka minut 
**RozwiÄ…zanie**: Poczekaj 5-10 minut i ponownie zapytaj system.access.table_lineage

### Problem 7: Share nie widoczny dla recipient
**Przyczyna**: Recipient nie aktywowaÅ‚ activation link 
**RozwiÄ…zanie**: WyÅ›lij activation link z DESCRIBE RECIPIENT

---

## Best Practices Summary

### 1. **Catalog Organization**
- UÅ¼ywaj environment-based catalogs: `dev`, `test`, `prod`
- Organizuj schematy wedÅ‚ug warstw: `bronze`, `silver`, `gold`
- Stosuj naming conventions: `<catalog>.<schema>.<object>`

### 2. **Access Control**
- **Principle of Least Privilege**: Nadawaj minimalne wymagane uprawnienia
- UÅ¼ywaj grup, nie indywidualnych uÅ¼ytkownikÃ³w
- Inheritance: GRANT na Catalog â†’ dziedziczy na Schema â†’ dziedziczy na Tables
- Regularnie audytuj uprawnienia (SHOW GRANTS)

### 3. **Data Masking & RLS**
- Maskuj PII w Views dla uÅ¼ytkownikÃ³w bez pii-access-group
- UÅ¼ywaj RLS dla multi-tenant scenarios
- Zawsze testuj masking z rÃ³Å¼nymi group membership

### 4. **Lineage & Audit**
- Wykorzystuj automatic lineage do Å›ledzenia data flow
- Regularnie sprawdzaj audit logs dla sensitive tables
- Monitoruj lineage po zmianach w pipeline

### 5. **Delta Sharing**
- UdostÄ™pniaj tylko Gold layer (aggregated data)
- UÅ¼ywaj masked Views w Share
- Dokumentuj Share contracts dla recipients

### 6. **Documentation & Governance**
- Dodawaj COMMENT do wszystkich tabel, views, functions
- UÅ¼ywaj Table Properties dla metadata (owner, PII, retention)
- Regularnie sprawdzaj governance health checks

### 7. **Volumes & Functions**
- UÅ¼ywaj Managed Volumes dla ML artifacts i staging
- Centralizuj logikÄ™ biznesowÄ… w UC Functions
- Kontroluj dostÄ™p przez GRANT EXECUTE

---