# Wprowadzenie do Databricks Lakehouse - Demo

**Cel szkoleniowy:** Zrozumienie koncepcji Lakehouse, poznanie podstawowych element√≥w platformy Databricks oraz konfiguracji ≈õrodowiska Unity Catalog.

**Zakres tematyczny:**
- Koncepcja Lakehouse (Data Lake + Data Warehouse)
- Elementy platformy: Workspace, Catalog Explorer, Repos, Volumes, DBFS
- Compute: clusters, autoscaling, spot instances, Photon Engine
- Notebooks: magic commands (%sql, %python, %fs, %md)
- Unity Catalog overview: katalogi, schematy, tabele
- R√≥≈ºnice miƒôdzy Hive Metastore a Unity Catalog

## Kontekst i wymagania

- **Dzie≈Ñ szkolenia**: Dzie≈Ñ 1 - Fundamentals & Exploration
- **Typ notebooka**: Demo
- **Wymagania techniczne**:
  - Databricks Runtime 13.0+ (zalecane: 14.3 LTS)
  - Unity Catalog w≈ÇƒÖczony
  - Uprawnienia: CREATE TABLE, CREATE SCHEMA, SELECT, MODIFY
  - Klaster: Standard z 2-4 workers
- **Czas trwania**: 45 minut

## Wstƒôp teoretyczny

**Cel sekcji:** Zrozumienie ewolucji architektur danych i miejsca Lakehouse w tym kontek≈õcie.

**Podstawowe pojƒôcia:**
- **Data Lake**: Scentralizowane repozytorium przechowujƒÖce surowe dane w r√≥≈ºnych formatach (strukturalne, semi-strukturalne, niestrukturalne)
- **Data Warehouse**: Zoptymalizowane repozytorium danych strukturalnych do analityki biznesowej i raportowania
- **Lakehouse**: Nowoczesna architektura ≈ÇƒÖczƒÖca elastyczno≈õƒá Data Lake z niezawodno≈õciƒÖ i wydajno≈õciƒÖ Data Warehouse

**Dlaczego to wa≈ºne?**
Lakehouse eliminuje potrzebƒô utrzymywania dw√≥ch oddzielnych system√≥w (Data Lake + Data Warehouse), redukujƒÖc koszty, z≈Ço≈ºono≈õƒá i op√≥≈∫nienia w dostƒôpie do danych. Dziƒôki Delta Lake uzyskujemy transakcyjno≈õƒá ACID, wersjonowanie danych i optymalizacjƒô zapyta≈Ñ bezpo≈õrednio na plikach w Data Lake.

## Izolacja per u≈ºytkownik

Uruchom skrypt inicjalizacyjny dla per-user izolacji katalog√≥w i schemat√≥w:

In [None]:
%run ./00_setup

## Konfiguracja

Import bibliotek i ustawienie zmiennych ≈õrodowiskowych:

In [None]:
from pyspark.sql import functions as F
from pyspark.sql.types import *
import re

# Wy≈õwietl kontekst u≈ºytkownika (zmienne z 00_setup)
print("=== Kontekst u≈ºytkownika ===")
print(f"Katalog: {CATALOG}")
print(f"Schema Bronze: {BRONZE_SCHEMA}")
print(f"Schema Silver: {SILVER_SCHEMA}")
print(f"Schema Gold: {GOLD_SCHEMA}")
print(f"U≈ºytkownik: {raw_user}")

# Ustaw katalog jako domy≈õlny
spark.sql(f"USE CATALOG {CATALOG}")

## Sekcja 1: Koncepcja Lakehouse Architecture

**Wprowadzenie teoretyczne:**

Lakehouse to nowoczesna architektura danych, kt√≥ra ≈ÇƒÖczy zalety Data Lake (niski koszt przechowywania, wsparcie dla r√≥≈ºnych format√≥w) z zaletami Data Warehouse (niezawodno≈õƒá, wydajno≈õƒá zapyta≈Ñ SQL, zarzƒÖdzanie transakcjami). Kluczowym elementem jest Delta Lake - warstwa metadanych zapewniajƒÖca transakcyjno≈õƒá ACID na plikach Parquet.

**Kluczowe pojƒôcia:**
- **ACID Transactions**: Atomowo≈õƒá, Sp√≥jno≈õƒá, Izolacja, Trwa≈Ço≈õƒá - gwarancje zapewniajƒÖce niezawodno≈õƒá operacji na danych
- **Delta Lake**: Open-source storage layer zapewniajƒÖcy transakcyjno≈õƒá na plikach w Data Lake
- **Unity Catalog**: Zunifikowany system zarzƒÖdzania danymi, metadanymi i kontrolƒÖ dostƒôpu

**Zastosowanie praktyczne:**
- Eliminacja duplikacji danych miƒôdzy systemami analitycznymi i operacyjnymi
- Jednoczesne wsparcie dla BI, Data Science i Machine Learning
- Redukcja koszt√≥w infrastruktury i utrzymania

### Przyk≈Çad 1.1: Por√≥wnanie tradycyjnej architektury vs Lakehouse

**Cel:** Wizualizacja r√≥≈ºnic miƒôdzy tradycyjnym podej≈õciem (Data Lake + Data Warehouse) a Lakehouse.

**Tradycyjna architektura:**
```
Raw Data ‚Üí Data Lake (S3/ADLS) ‚Üí ETL Process ‚Üí Data Warehouse (Snowflake/Redshift) ‚Üí BI Tools
                                ‚Üì
                         ML/Data Science (separate copy)
```

**Lakehouse architektura:**
```
Raw Data ‚Üí Delta Lake (single source of truth) ‚Üí BI Tools + ML + Real-time Analytics
```

**Korzy≈õci Lakehouse:**
- Jedna kopia danych (single source of truth)
- Ni≈ºsze koszty przechowywania
- Eliminacja op√≥≈∫nie≈Ñ synchronizacji
- Wsp√≥lne governance dla wszystkich use cases

## Sekcja 2: Elementy platformy Databricks

**Wprowadzenie teoretyczne:**

Platforma Databricks sk≈Çada siƒô z kilku kluczowych komponent√≥w, kt√≥re razem tworzƒÖ kompletne ≈õrodowisko do pracy z danymi w architekturze Lakehouse.

**Kluczowe komponenty:**
- **Workspace**: ≈örodowisko pracy zawierajƒÖce notebooks, eksperymenty, foldery i zasoby
- **Catalog Explorer**: Interfejs do zarzƒÖdzania katalogami, schematami, tabelami i widokami
- **Repos**: Integracja z Git do wersjonowania notebook√≥w i kodu
- **Volumes**: ZarzƒÖdzanie plikami niestrukturalnymi (obrazy, modele, artifacts)
- **DBFS (Databricks File System)**: Wirtualny system plik√≥w nad cloud storage

**Zastosowanie praktyczne:**
- Workspace organizuje projekty i wsp√≥≈Çpracƒô zespo≈ÇowƒÖ
- Catalog Explorer umo≈ºliwia eksploracjƒô i governance danych
- Repos integruje development workflow z Git

### Przyk≈Çad 2.1: Eksploracja Workspace

**Cel:** Zapoznanie siƒô z interfejsem Databricks Workspace

**Elementy Workspace:**
1. **Sidebar** (lewa strona):
   - Workspace: Foldery i notebooki
   - Repos: Integracja Git
   - Compute: ZarzƒÖdzanie klastrami
   - Workflows: Databricks Jobs
   - Catalog: Unity Catalog explorer

2. **G≈Ç√≥wny panel**: Edytor notebook√≥w lub widok szczeg√≥≈Ç√≥w

3. **G√≥rna belka**: Szybki dostƒôp do compute, account, help

**Instrukcje nawigacji:**
- U≈ºyj lewego menu do prze≈ÇƒÖczania miƒôdzy sekcjami
- W sekcji Catalog mo≈ºesz przeglƒÖdaƒá katalogi, schematy i tabele
- W sekcji Compute zarzƒÖdzasz klastrami Spark

### Przyk≈Çad 2.2: Catalog Explorer - struktura Unity Catalog

**Cel:** Zrozumienie hierarchii obiekt√≥w w Unity Catalog

In [None]:
# Wy≈õwietl aktualny katalog i schemat
current_catalog = spark.sql("SELECT current_catalog()").collect()[0][0]
current_schema = spark.sql("SELECT current_schema()").collect()[0][0]

print(f"Aktualny katalog: {current_catalog}")
print(f"Aktualny schemat: {current_schema}")

print("\n=== Hierarchia Unity Catalog ===")
print("Metastore")
print("  ‚îú‚îÄ‚îÄ Catalog (np. main, dev, prod)")
print("  ‚îÇ   ‚îú‚îÄ‚îÄ Schema/Database (np. bronze, silver, gold)")
print("  ‚îÇ   ‚îÇ   ‚îú‚îÄ‚îÄ Tables (Delta Tables)")
print("  ‚îÇ   ‚îÇ   ‚îú‚îÄ‚îÄ Views (SQL Views)")
print("  ‚îÇ   ‚îÇ   ‚îú‚îÄ‚îÄ Functions (UDFs)")
print("  ‚îÇ   ‚îÇ   ‚îî‚îÄ‚îÄ Volumes (dla plik√≥w)")

**Wyja≈õnienie:**

Unity Catalog organizuje dane w hierarchii: Metastore ‚Üí Catalog ‚Üí Schema ‚Üí Objects (Tables/Views/Functions). Ta struktura umo≈ºliwia:
- Logiczne oddzielenie ≈õrodowisk (dev/test/prod)
- GranularnƒÖ kontrolƒô dostƒôpu na ka≈ºdym poziomie
- ≈Åatwe zarzƒÖdzanie namespace'ami i izolacjƒÖ projekt√≥w

### Przyk≈Çad 2.3: PrzeglƒÖdanie katalog√≥w i schemat√≥w

**Cel:** Programowe listowanie obiekt√≥w w Unity Catalog

In [None]:
# Lista wszystkich katalog√≥w dostƒôpnych dla u≈ºytkownika
print("=== Dostƒôpne katalogi ===")
catalogs_df = spark.sql("SHOW CATALOGS")
display(catalogs_df)

# Lista schemat√≥w w aktualnym katalogu
print(f"\n=== Schematy w katalogu {CATALOG} ===")
schemas_df = spark.sql(f"SHOW SCHEMAS IN {CATALOG}")
display(schemas_df)

**Wyja≈õnienie:**

Polecenia `SHOW CATALOGS` i `SHOW SCHEMAS` pozwalajƒÖ na eksploracjƒô struktury Unity Catalog. Ka≈ºdy u≈ºytkownik widzi tylko te obiekty, do kt√≥rych ma uprawnienia. Per-user izolacja (jak w naszym `00_setup`) zapewnia, ≈ºe ka≈ºdy uczestnik szkolenia ma w≈ÇasnƒÖ przestrze≈Ñ roboczƒÖ.

## Sekcja 3: Compute - Klastry Spark

**Wprowadzenie teoretyczne:**

Klastry Spark w Databricks sƒÖ ≈õrodowiskiem wykonawczym dla przetwarzania danych. Databricks oferuje r√≥≈ºne typy klastr√≥w i optymalizacje, kt√≥re automatyzujƒÖ zarzƒÖdzanie infrastrukturƒÖ.

**Kluczowe pojƒôcia:**
- **All-Purpose Cluster**: Interaktywne klastry do analizy i rozwoju w notebookach
- **Job Cluster**: Efemeryczne klastry dla automatyzowanych zada≈Ñ (Databricks Jobs)
- **Autoscaling**: Automatyczne skalowanie liczby worker√≥w w zale≈ºno≈õci od obciƒÖ≈ºenia
- **Spot Instances**: Wykorzystanie ta≈Ñszych VM w chmurze (AWS Spot, Azure Spot, GCP Preemptible)
- **Photon Engine**: Natywny engine wykonawczy w C++ dla przyspieszenia zapyta≈Ñ SQL i DataFrame

**Zastosowanie praktyczne:**
- Autoscaling redukuje koszty przy zmiennym obciƒÖ≈ºeniu
- Spot instances zmniejszajƒÖ koszty compute o 60-80%
- Photon przyspiesza zapytania agregacyjne nawet 3x

### Przyk≈Çad 3.1: Informacje o klastrze

**Cel:** Sprawdzenie konfiguracji aktualnego klastra

In [None]:
# Informacje o Spark Context
print("=== Konfiguracja klastra ===")
print(f"Spark Version: {spark.version}")
print(f"Aplikacja: {spark.sparkContext.appName}")
print(f"Master: {spark.sparkContext.master}")

# Liczba executor√≥w
num_executors = len(spark.sparkContext._jsc.sc().statusTracker().getExecutorInfos()) - 1
print(f"Liczba executor√≥w (workers): {num_executors}")

# Runtime version
dbr_version = spark.conf.get("spark.databricks.clusterUsageTags.sparkVersion", "unknown")
print(f"Databricks Runtime: {dbr_version}")

# Photon w≈ÇƒÖczony?
photon_enabled = spark.conf.get("spark.databricks.photon.enabled", "false")
print(f"Photon Engine: {'W≈ÇƒÖczony' if photon_enabled == 'true' else 'Wy≈ÇƒÖczony'}")

**Wyja≈õnienie:**

Ten kod pokazuje podstawowe informacje o klastrze Spark. Liczba executor√≥w (workers) mo≈ºe siƒô zmieniaƒá dynamicznie przy w≈ÇƒÖczonym autoscalingu. Photon Engine, je≈õli w≈ÇƒÖczony, automatycznie przyspiesza zapytania SQL i operacje DataFrame bez zmian w kodzie.

### Przyk≈Çad 3.2: Best practices dla konfiguracji klastr√≥w

**Cel:** Poznanie rekomendacji dla r√≥≈ºnych use cases

**Dla Development (All-Purpose Cluster):**
- Runtime: 14.3 LTS (Long Term Support)
- Workers: 2-4 (autoscaling 2-8 dla wiƒôkszych projekt√≥w)
- Node type: Standard DS3_v2 (Azure) lub m5.xlarge (AWS)
- Photon: W≈ÇƒÖczony
- Spot instances: Nie (dla stabilno≈õci)

**Dla Production (Job Cluster):**
- Runtime: 14.3 LTS
- Workers: autoscaling 2-20 (zale≈ºnie od obciƒÖ≈ºenia)
- Node type: Memory-optimized (DS4_v2, m5.2xlarge)
- Photon: W≈ÇƒÖczony
- Spot instances: Tak (60-80% workers)
- Auto-termination: 10 minut nieaktywno≈õci

**Dla ML Workloads:**
- Runtime: 14.3 ML (zawiera biblioteki ML)
- Workers: GPU-enabled (NC6s_v3, p3.2xlarge)
- Single-node mode dla prototypowania

## Sekcja 4: Magic Commands w Notebookach

**Wprowadzenie teoretyczne:**

Databricks notebooks obs≈ÇugujƒÖ magic commands - specjalne polecenia zaczynajƒÖce siƒô od `%`, kt√≥re kontrolujƒÖ jƒôzyk kom√≥rki lub wykonujƒÖ operacje systemowe. Magic commands umo≈ºliwiajƒÖ mieszanie jƒôzyk√≥w w jednym notebooku oraz interakcjƒô z systemem plik√≥w.

**Dostƒôpne magic commands:**
- **%python**: Kom√≥rka Python (domy≈õlny)
- **%sql**: Kom√≥rka SQL
- **%scala**: Kom√≥rka Scala
- **%r**: Kom√≥rka R
- **%md**: Kom√≥rka Markdown (dokumentacja)
- **%fs**: Operacje na systemie plik√≥w (DBFS)
- **%sh**: Polecenia shell
- **%run**: Uruchomienie innego notebooka (jak import)

**Zastosowanie praktyczne:**
- ≈ÅƒÖczenie SQL i Python w jednym workflow
- Dokumentacja inline z Markdown
- Operacje na plikach z %fs
- Modularyzacja kodu z %run

### Przyk≈Çad 4.1: Demonstracja SQL magic command

**Cel:** Wykonanie zapytania SQL bezpo≈õrednio w notebooku

In [None]:
%sql
-- SQL magic command pozwala pisaƒá czyste SQL bez otoczki Pythona

SELECT 
  current_catalog() as catalog,
  current_schema() as schema,
  current_user() as user,
  current_timestamp() as timestamp

**Wyja≈õnienie:**

Magic command `%sql` zmienia jƒôzyk kom√≥rki na SQL. Wyniki sƒÖ automatycznie wy≈õwietlane jako tabela. SQL w Databricks to pe≈Çny Spark SQL z rozszerzeniami Delta Lake.

### Przyk≈Çad 4.2: File System operations z %fs

**Cel:** Eksploracja systemu plik√≥w DBFS

In [None]:
# Magic command %fs dla operacji na plikach
# Lista katalog√≥w g≈Ç√≥wnych w DBFS
dbutils.fs.ls("/")

In [None]:
# Alternatywnie: %fs magic command
%fs ls /

**Wyja≈õnienie:**

DBFS (Databricks File System) to abstrakcja nad cloud storage (S3, ADLS, GCS). Komenda `%fs` lub `dbutils.fs` pozwala na operacje na plikach. W Unity Catalog zaleca siƒô u≈ºywanie **Volumes** zamiast DBFS dla lepszego governance.

### Przyk≈Çad 4.3: Mieszanie jƒôzyk√≥w - Python i SQL

**Cel:** Demonstracja p≈Çynnego przechodzenia miƒôdzy Python i SQL

In [None]:
# Python: Przygotowanie danych
data = [
    (1, "Alice", "Engineering", 95000),
    (2, "Bob", "Sales", 75000),
    (3, "Charlie", "Engineering", 105000),
    (4, "Diana", "Marketing", 68000),
    (5, "Eve", "Engineering", 98000)
]

schema = StructType([
    StructField("id", IntegerType(), False),
    StructField("name", StringType(), False),
    StructField("department", StringType(), False),
    StructField("salary", IntegerType(), False)
])

df = spark.createDataFrame(data, schema)

# Rejestracja jako temp view dla dostƒôpu z SQL
df.createOrReplaceTempView("employees_temp")

print("Utworzono temp view: employees_temp")
display(df)

In [None]:
%sql
-- SQL: Agregacja na danych z Python

SELECT 
  department,
  COUNT(*) as employee_count,
  AVG(salary) as avg_salary,
  MAX(salary) as max_salary
FROM employees_temp
GROUP BY department
ORDER BY avg_salary DESC

**Wyja≈õnienie:**

Ten przyk≈Çad pokazuje si≈Çƒô notebook√≥w Databricks: przygotowanie danych w Python (wygodne API, biblioteki), nastƒôpnie analiza w SQL (deklaratywne zapytania, przejrzysto≈õƒá). Temp views sƒÖ widoczne w ca≈Çym notebooku niezale≈ºnie od jƒôzyka kom√≥rki.

## Sekcja 5: Unity Catalog vs Hive Metastore

**Wprowadzenie teoretyczne:**

Databricks wspiera dwa systemy metadanych: legacy Hive Metastore oraz nowoczesny Unity Catalog. Unity Catalog jest zalecany dla wszystkich nowych projekt√≥w ze wzglƒôdu na zaawansowane funkcje governance i bezpiecze≈Ñstwa.

**Kluczowe r√≥≈ºnice:**

| Aspekt | Hive Metastore | Unity Catalog |
|--------|----------------|---------------|
| **Governance** | Ograniczone | Pe≈Çne: RBAC, masking, audit |
| **Namespace** | 2-poziomowy (db.table) | 3-poziomowy (catalog.schema.table) |
| **Cross-workspace** | Nie | Tak (shared metastore) |
| **Lineage** | Brak | End-to-end lineage |
| **Data Sharing** | Ograniczone | Delta Sharing protocol |
| **Isolation** | Workspace-level | Catalog-level |

**Dlaczego Unity Catalog?**
- Centralne zarzƒÖdzanie dostƒôpem dla wszystkich workspace'√≥w
- Automatyczny lineage dla audytu i compliance
- Fine-grained permissions (column-level, row-level)
- Integracja z zewnƒôtrznymi systemami (Delta Sharing)

### Przyk≈Çad 5.1: Namespace - Hive vs Unity Catalog

**Cel:** Por√≥wnanie sk≈Çadni dostƒôpu do tabel

In [None]:
# Hive Metastore (2-poziomowy namespace)
print("=== Hive Metastore ===")
print("Sk≈Çadnia: database.table")
print("Przyk≈Çad: default.sales_data")
print("")

# Unity Catalog (3-poziomowy namespace)
print("=== Unity Catalog ===")
print("Sk≈Çadnia: catalog.schema.table")
print("Przyk≈Çad: prod.gold.sales_summary")
print("")
print("Zalety 3-poziomowego namespace:")
print("- Oddzielenie ≈õrodowisk (dev/test/prod catalogs)")
print("- Lepsze uprawnienia (grant na poziomie catalogu)")
print("- Wsp√≥≈Çdzielenie metastore miƒôdzy workspace'ami")

### Przyk≈Çad 5.2: Tworzenie tabeli w Unity Catalog

**Cel:** Demonstracja pe≈Çnej sk≈Çadni z 3-poziomowym namespace

In [None]:
# Utworzenie przyk≈Çadowej tabeli w Unity Catalog
table_name = f"{CATALOG}.{BRONZE_SCHEMA}.lakehouse_demo"

# Dane demonstracyjne
demo_data = [
    (1, "Unity Catalog", "Enabled", "2024-01-15"),
    (2, "Delta Lake", "Enabled", "2024-01-15"),
    (3, "Photon Engine", "Enabled", "2024-01-15"),
    (4, "Hive Metastore", "Legacy", "2024-01-15")
]

demo_schema = StructType([
    StructField("id", IntegerType(), False),
    StructField("feature", StringType(), False),
    StructField("status", StringType(), False),
    StructField("date", StringType(), False)
])

demo_df = spark.createDataFrame(demo_data, demo_schema)

# Zapis jako Delta Table w Unity Catalog
demo_df.write \
    .format("delta") \
    .mode("overwrite") \
    .option("overwriteSchema", "true") \
    .saveAsTable(table_name)

print(f"‚úÖ Tabela utworzona: {table_name}")

In [None]:
%sql
-- Odczyt tabeli z pe≈Çnym namespace Unity Catalog

SELECT * FROM ${CATALOG}.${BRONZE_SCHEMA}.lakehouse_demo

**Wyja≈õnienie:**

Tabela zosta≈Ça utworzona z pe≈Çnym 3-poziomowym namespace. W Unity Catalog ka≈ºda tabela automatycznie:
- Jest zarzƒÖdzana przez system governance
- Ma trackowany lineage
- Posiada przypisane uprawnienia na podstawie katalogu i schematu
- Jest dostƒôpna w Catalog Explorer dla eksploracji

### Przyk≈Çad 5.3: Eksploracja metadanych Unity Catalog

**Cel:** Wykorzystanie systemu informacyjnych schemat√≥w Unity Catalog

In [None]:
%sql
-- Unity Catalog udostƒôpnia system.information_schema dla metadanych

-- Lista tabel w naszym schemacie
SELECT 
  table_catalog,
  table_schema,
  table_name,
  table_type
FROM system.information_schema.tables
WHERE table_catalog = '${CATALOG}'
  AND table_schema = '${BRONZE_SCHEMA}'
ORDER BY table_name

**Wyja≈õnienie:**

Unity Catalog automatycznie utrzymuje `system.information_schema` - zbi√≥r widok√≥w SQL z metadanymi o wszystkich obiektach. To standardowe podej≈õcie zgodne z ANSI SQL, co u≈Çatwia integracjƒô z narzƒôdziami BI i data governance.

## Por√≥wnanie PySpark vs SQL

**DataFrame API (PySpark):**

In [None]:
# Podej≈õcie PySpark - programatyczne DataFrame API

df_pyspark = spark.table(f"{CATALOG}.{BRONZE_SCHEMA}.lakehouse_demo")

result_pyspark = df_pyspark \
    .filter(F.col("status") == "Enabled") \
    .select("feature", "status", "date") \
    .orderBy("feature")

display(result_pyspark)

**SQL Equivalent:**

In [None]:
%sql
-- Podej≈õcie SQL - deklaratywne zapytanie

SELECT 
  feature,
  status,
  date
FROM ${CATALOG}.${BRONZE_SCHEMA}.lakehouse_demo
WHERE status = 'Enabled'
ORDER BY feature

**Por√≥wnanie:**
- **Wydajno≈õƒá**: Identyczna - oba podej≈õcia kompilujƒÖ siƒô do tego samego Catalyst query plan
- **Kiedy u≈ºywaƒá PySpark**: 
  - Z≈Ço≈ºona logika biznesowa z UDF
  - Dynamiczne pipeline'y (parametryzacja, loops)
  - Integracja z bibliotekami Python (pandas, scikit-learn)
- **Kiedy u≈ºywaƒá SQL**: 
  - Proste transformacje i agregacje
  - Zesp√≥≈Ç z silnymi kompetencjami SQL
  - Migracja z tradycyjnych Data Warehouse
  - Lepsze wsparcie dla analityk√≥w biznesowych

## Walidacja i weryfikacja

### Checklist - Co powiniene≈õ zrozumieƒá po tym notebooku:
- [x] Koncepcja Lakehouse i korzy≈õci wzglƒôdem tradycyjnej architektury
- [x] Struktura Workspace: Sidebar, Compute, Catalog Explorer
- [x] Hierarchia Unity Catalog: Metastore ‚Üí Catalog ‚Üí Schema ‚Üí Objects
- [x] Typy klastr√≥w: All-Purpose vs Job, autoscaling, Photon
- [x] Magic commands: %sql, %python, %fs, %run, %md
- [x] R√≥≈ºnice miƒôdzy Hive Metastore (2-level) a Unity Catalog (3-level)
- [x] Tworzenie tabel w Unity Catalog z pe≈Çnym namespace
- [x] Dostƒôp do metadanych przez system.information_schema

### Komendy weryfikacyjne:

In [None]:
# Weryfikacja wynik√≥w

print("=== WERYFIKACJA KONFIGURACJI ===\n")

# 1. Sprawd≈∫ czy tabela demo zosta≈Ça utworzona
try:
    demo_count = spark.table(f"{CATALOG}.{BRONZE_SCHEMA}.lakehouse_demo").count()
    print(f"‚úÖ Tabela demo utworzona: {demo_count} rekord√≥w")
except:
    print("‚ùå Tabela demo nie istnieje")

# 2. Sprawd≈∫ katalog i schemat
current_catalog = spark.sql("SELECT current_catalog()").collect()[0][0]
print(f"‚úÖ Aktualny katalog: {current_catalog}")

# 3. Weryfikacja schemat√≥w bronze/silver/gold
schemas = [s.namespace for s in spark.sql(f"SHOW SCHEMAS IN {CATALOG}").collect()]
required_schemas = [BRONZE_SCHEMA, SILVER_SCHEMA, GOLD_SCHEMA]

for schema in required_schemas:
    if schema in schemas:
        print(f"‚úÖ Schema {schema} istnieje")
    else:
        print(f"‚ùå Schema {schema} nie istnieje")

# 4. Informacje o klastrze
print(f"\n‚úÖ Spark version: {spark.version}")
print(f"‚úÖ DBR version: {spark.conf.get('spark.databricks.clusterUsageTags.sparkVersion', 'unknown')}")

print("\nüéâ Wszystkie sprawdzenia zako≈Ñczone!")

## Troubleshooting

### Problem 1: "Catalog not found" lub "Schema not found"
**Objawy:**
- B≈ÇƒÖd: `AnalysisException: [SCHEMA_NOT_FOUND]`
- B≈ÇƒÖd: `AnalysisException: [CATALOG_NOT_FOUND]`

**RozwiƒÖzanie:**
```python
# Sprawd≈∫ dostƒôpne katalogi
spark.sql("SHOW CATALOGS").show()

# Sprawd≈∫ dostƒôpne schematy
spark.sql(f"SHOW SCHEMAS IN {CATALOG}").show()

# Upewnij siƒô, ≈ºe uruchomi≈Çe≈õ %run ./00_setup
```

### Problem 2: "Permission denied" przy tworzeniu tabel
**Objawy:**
- B≈ÇƒÖd: `PERMISSION_DENIED: User does not have CREATE TABLE on Schema`

**RozwiƒÖzanie:**
- Skontaktuj siƒô z administratorem workspace o nadanie uprawnie≈Ñ `CREATE TABLE`
- Sprawd≈∫ uprawnienia: `SHOW GRANTS ON SCHEMA catalog.schema`

### Problem 3: Klaster nie startuje lub jest zbyt wolny
**Objawy:**
- Klaster w stanie "Pending" przez d≈Çugi czas
- Timeout przy starcie

**RozwiƒÖzanie:**
- Sprawd≈∫ quota instancji w chmurze (Azure/AWS/GCP)
- Zmniejsz liczbƒô worker√≥w lub wybierz mniejszy node type
- Wy≈ÇƒÖcz autoscaling dla test√≥w

### Problem 4: Magic command %sql nie dzia≈Ça
**Objawy:**
- B≈ÇƒÖd sk≈Çadni lub brak wynik√≥w

**RozwiƒÖzanie:**
- Upewnij siƒô, ≈ºe `%sql` jest pierwszym elementem w kom√≥rce
- Sprawd≈∫ czy u≈ºywasz zmiennych: `${CATALOG}` zamiast `{CATALOG}`
- Dla zmiennych Python u≈ºyj: `spark.sql(f"SELECT ... FROM {CATALOG}.{SCHEMA}.table")`

### Debugging tips:
- U≈ºyj `explain()` na DataFrame aby zobaczyƒá plan wykonania
- Sprawd≈∫ logi klastra w Spark UI (zak≈Çadka "Cluster" ‚Üí "Spark UI")
- Weryfikuj typy danych: `df.printSchema()`
- Dla problem√≥w z wydajno≈õciƒÖ sprawd≈∫ liczbƒô partycji: `df.rdd.getNumPartitions()`

## Best Practices

### Architektura Lakehouse:
- U≈ºywaj Unity Catalog zamiast Hive Metastore dla nowych projekt√≥w
- Organizuj dane w logiczne katalogi (np. dev/test/prod)
- Stosuj naming convention dla schemat√≥w: bronze/silver/gold
- Wykorzystuj Delta Lake jako domy≈õlny format tabel

### ZarzƒÖdzanie Workspace:
- Organizuj notebooki w folderach wed≈Çug projekt√≥w lub zespo≈Ç√≥w
- U≈ºywaj Repos dla integracji z Git i wersjonowania
- Dokumentuj notebooki z Markdown cells
- Stosuj `%run` dla wsp√≥≈Çdzielenia kodu miƒôdzy notebookami

### Konfiguracja Klastr√≥w:
- Development: ma≈Çe klastry (2-4 workers), bez spot instances
- Production: autoscaling, spot instances dla oszczƒôdno≈õci
- W≈ÇƒÖcz Photon Engine dla zapyta≈Ñ SQL/DataFrame
- Ustaw auto-termination (np. 30 min nieaktywno≈õci) dla klastr√≥w All-Purpose
- Dla Jobs u≈ºywaj Job Clusters (efemeryczne, optymalne koszty)

### Governance i Security:
- Stosuj per-user lub per-team izolacjƒô katalog√≥w
- U≈ºywaj 3-poziomowego namespace: catalog.schema.table
- Przydzielaj uprawnienia na poziomie schematu, nie tabeli
- Monitoruj dostƒôp przez system.access.audit
- W≈ÇƒÖcz lineage dla compliance i debugowania

### Wydajno≈õƒá:
- Preferuj Delta Lake zamiast Parquet/CSV dla czƒôstych zapyta≈Ñ
- Partycjonuj du≈ºe tabele wed≈Çug kluczy czasowych lub geograficznych
- U≈ºywaj Z-ORDER dla kolumn u≈ºywanych w WHERE clauses
- Regularnie uruchamiaj OPTIMIZE i VACUUM na tabelach Delta

## Podsumowanie

### Co zosta≈Ço osiƒÖgniƒôte:
- Poznanie koncepcji Lakehouse jako ewolucji Data Lake + Data Warehouse
- Eksploracja element√≥w platformy Databricks: Workspace, Compute, Catalog
- Zrozumienie hierarchii Unity Catalog: Metastore ‚Üí Catalog ‚Üí Schema ‚Üí Objects
- Praktyka z magic commands: %sql, %python, %fs
- Por√≥wnanie Hive Metastore vs Unity Catalog
- Utworzenie pierwszej tabeli Delta w Unity Catalog z 3-poziomowym namespace

### Kluczowe wnioski:
1. **Lakehouse eliminuje duplikacjƒô danych**: Jedna kopia s≈Çu≈ºy BI, ML i real-time analytics
2. **Unity Catalog to fundament governance**: 3-poziomowy namespace, fine-grained permissions, automatyczny lineage
3. **Klastry sƒÖ elastyczne**: Autoscaling i spot instances redukujƒÖ koszty, Photon przyspiesza zapytania
4. **Notebooki sƒÖ potƒô≈ºne**: Mieszanie SQL/Python, magic commands, integracja z Git przez Repos
5. **Delta Lake jest domy≈õlnym formatem**: ACID transactions, time travel, schema evolution

### Quick Reference - Najwa≈ºniejsze komendy:

| Operacja | PySpark | SQL |
|----------|---------|-----|
| Ustaw katalog | `spark.sql(f"USE CATALOG {CATALOG}")` | `USE CATALOG my_catalog` |
| Lista katalog√≥w | `spark.sql("SHOW CATALOGS")` | `SHOW CATALOGS` |
| Lista schemat√≥w | `spark.sql("SHOW SCHEMAS")` | `SHOW SCHEMAS` |
| Utworzenie tabeli | `df.write.saveAsTable("cat.schema.table")` | `CREATE TABLE cat.schema.table AS SELECT ...` |
| Odczyt tabeli | `spark.table("cat.schema.table")` | `SELECT * FROM cat.schema.table` |
| Metadane | - | `SELECT * FROM system.information_schema.tables` |

### Nastƒôpne kroki:
- **Kolejny notebook**: `02_data_import_exploration.ipynb` - Wczytywanie danych z r√≥≈ºnych format√≥w (CSV, JSON, Parquet, Delta)
- **Warsztat praktyczny**: Po zako≈Ñczeniu dema (notebooki 01-05) przejdziemy do `01_workspace_data_exploration_workshop.ipynb`
- **Materia≈Çy dodatkowe**: 
  - [Databricks Lakehouse Fundamentals](https://www.databricks.com/learn/lakehouse)
  - [Unity Catalog Documentation](https://docs.databricks.com/data-governance/unity-catalog/index.html)
  - [Delta Lake Guide](https://docs.delta.io/latest/index.html)

## Czyszczenie zasob√≥w

PosprzƒÖtaj zasoby utworzone podczas notebooka:

In [None]:
# Opcjonalne czyszczenie zasob√≥w testowych
# UWAGA: Uruchom tylko je≈õli chcesz usunƒÖƒá wszystkie utworzone dane

# Usu≈Ñ tabelƒô demo
# spark.sql(f"DROP TABLE IF EXISTS {CATALOG}.{BRONZE_SCHEMA}.lakehouse_demo")

# Usu≈Ñ temp views
# spark.catalog.clearCache()
# spark.sql("DROP VIEW IF EXISTS employees_temp")

# print("‚úÖ Zasoby zosta≈Çy wyczyszczone")
print("‚ö†Ô∏è  Czyszczenie zasob√≥w zakomentowane - odkomentuj je≈õli chcesz usunƒÖƒá dane demo")

---

**Metadata:**
- **Notebook**: 01_databricks_lakehouse_intro.ipynb
- **Dzie≈Ñ**: 1 - Fundamentals & Exploration
- **Typ**: Demo
- **Czas**: 45 minut
- **Wersja**: 1.0
- **Data utworzenia**: 19 listopada 2025
- **Compliance**: 7/7 standard√≥w ‚úÖ

# Wprowadzenie do Databricks Lakehouse - Demo

**Cel szkoleniowy:** Zrozumienie koncepcji Lakehouse, poznanie podstawowych element√≥w platformy Databricks oraz konfiguracji ≈õrodowiska Unity Catalog.

**Zakres tematyczny:**
- Koncepcja Lakehouse (Data Lake + Data Warehouse)
- Elementy platformy: Workspace, Catalog Explorer, Repos, Volumes, DBFS
- Compute: clusters, autoscaling, spot instances, Photon Engine
- Notebooks: magic commands (%sql, %python, %fs, %md)
- Unity Catalog overview: katalogi, schematy, tabele
- R√≥≈ºnice miƒôdzy Hive Metastore a Unity Catalog


## Kontekst i wymagania

- **Dzie≈Ñ szkolenia**: Dzie≈Ñ 1 - Fundamentals & Exploration
- **Typ notebooka**: Demo
- **Wymagania techniczne**:
  - Databricks Runtime 13.0+ (zalecane: 14.3 LTS)
  - Unity Catalog w≈ÇƒÖczony
  - Uprawnienia: CREATE TABLE, CREATE SCHEMA, SELECT, MODIFY
  - Klaster: Standard z 2-4 workers
- **Czas trwania**: 45 minut

## Wstƒôp teoretyczny

**Cel sekcji:** Zrozumienie ewolucji architektur danych i miejsca Lakehouse w tym kontek≈õcie.

**Podstawowe pojƒôcia:**
- **Data Lake**: Scentralizowane repozytorium przechowujƒÖce surowe dane w r√≥≈ºnych formatach (strukturalne, semi-strukturalne, niestrukturalne)
- **Data Warehouse**: Zoptymalizowane repozytorium danych strukturalnych do analityki biznesowej i raportowania
- **Lakehouse**: Nowoczesna architektura ≈ÇƒÖczƒÖca elastyczno≈õƒá Data Lake z niezawodno≈õciƒÖ i wydajno≈õciƒÖ Data Warehouse

**Dlaczego to wa≈ºne?**
Lakehouse eliminuje potrzebƒô utrzymywania dw√≥ch oddzielnych system√≥w (Data Lake + Data Warehouse), redukujƒÖc koszty, z≈Ço≈ºono≈õƒá i op√≥≈∫nienia w dostƒôpie do danych. Dziƒôki Delta Lake uzyskujemy transakcyjno≈õƒá ACID, wersjonowanie danych i optymalizacjƒô zapyta≈Ñ bezpo≈õrednio na plikach w Data Lake.

## Izolacja per u≈ºytkownik

Uruchom skrypt inicjalizacyjny dla per-user izolacji katalog√≥w i schemat√≥w:

In [None]:
%run ./00_setup

## Konfiguracja

Import bibliotek i ustawienie zmiennych ≈õrodowiskowych:

In [None]:
from pyspark.sql import functions as F
from pyspark.sql.types import *
import re

# Wy≈õwietl kontekst u≈ºytkownika (zmienne z 00_setup)
print("=== Kontekst u≈ºytkownika ===")
print(f"Katalog: {CATALOG}")
print(f"Schema Bronze: {BRONZE_SCHEMA}")
print(f"Schema Silver: {SILVER_SCHEMA}")
print(f"Schema Gold: {GOLD_SCHEMA}")
print(f"U≈ºytkownik: {raw_user}")

# Ustaw katalog jako domy≈õlny
spark.sql(f"USE CATALOG {CATALOG}")

## Sekcja 1: Koncepcja Lakehouse Architecture

**Wprowadzenie teoretyczne:**

Lakehouse to nowoczesna architektura danych, kt√≥ra ≈ÇƒÖczy zalety Data Lake (niski koszt przechowywania, wsparcie dla r√≥≈ºnych format√≥w) z zaletami Data Warehouse (niezawodno≈õƒá, wydajno≈õƒá zapyta≈Ñ SQL, zarzƒÖdzanie transakcjami). Kluczowym elementem jest Delta Lake - warstwa metadanych zapewniajƒÖca transakcyjno≈õƒá ACID na plikach Parquet.

**Kluczowe pojƒôcia:**
- **ACID Transactions**: Atomowo≈õƒá, Sp√≥jno≈õƒá, Izolacja, Trwa≈Ço≈õƒá - gwarancje zapewniajƒÖce niezawodno≈õƒá operacji na danych
- **Delta Lake**: Open-source storage layer zapewniajƒÖcy transakcyjno≈õƒá na plikach w Data Lake
- **Unity Catalog**: Zunifikowany system zarzƒÖdzania danymi, metadanymi i kontrolƒÖ dostƒôpu

**Zastosowanie praktyczne:**
- Eliminacja duplikacji danych miƒôdzy systemami analitycznymi i operacyjnymi
- Jednoczesne wsparcie dla BI, Data Science i Machine Learning
- Redukcja koszt√≥w infrastruktury i utrzymania

### Przyk≈Çad 1.1: Por√≥wnanie tradycyjnej architektury vs Lakehouse

**Cel:** Wizualizacja r√≥≈ºnic miƒôdzy tradycyjnym podej≈õciem (Data Lake + Data Warehouse) a Lakehouse.

**Tradycyjna architektura:**
```
Raw Data ‚Üí Data Lake (S3/ADLS) ‚Üí ETL Process ‚Üí Data Warehouse (Snowflake/Redshift) ‚Üí BI Tools
                                ‚Üì
                         ML/Data Science (separate copy)
```

**Lakehouse architektura:**
```
Raw Data ‚Üí Delta Lake (single source of truth) ‚Üí BI Tools + ML + Real-time Analytics
```

**Korzy≈õci Lakehouse:**
- Jedna kopia danych (single source of truth)
- Ni≈ºsze koszty przechowywania
- Eliminacja op√≥≈∫nie≈Ñ synchronizacji
- Wsp√≥lne governance dla wszystkich use cases

## Sekcja 2: Elementy platformy Databricks

**Wprowadzenie teoretyczne:**

Platforma Databricks sk≈Çada siƒô z kilku kluczowych komponent√≥w, kt√≥re razem tworzƒÖ kompletne ≈õrodowisko do pracy z danymi w architekturze Lakehouse.

**Kluczowe komponenty:**
- **Workspace**: ≈örodowisko pracy zawierajƒÖce notebooks, eksperymenty, foldery i zasoby
- **Catalog Explorer**: Interfejs do zarzƒÖdzania katalogami, schematami, tabelami i widokami
- **Repos**: Integracja z Git do wersjonowania notebook√≥w i kodu
- **Volumes**: ZarzƒÖdzanie plikami niestrukturalnymi (obrazy, modele, artifacts)
- **DBFS (Databricks File System)**: Wirtualny system plik√≥w nad cloud storage

**Zastosowanie praktyczne:**
- Workspace organizuje projekty i wsp√≥≈Çpracƒô zespo≈ÇowƒÖ
- Catalog Explorer umo≈ºliwia eksploracjƒô i governance danych
- Repos integruje development workflow z Git

### Przyk≈Çad 2.1: Eksploracja Workspace

**Cel:** Zapoznanie siƒô z interfejsem Databricks Workspace

**Elementy Workspace:**
1. **Sidebar** (lewa strona):
   - Workspace: Foldery i notebooki
   - Repos: Integracja Git
   - Compute: ZarzƒÖdzanie klastrami
   - Workflows: Databricks Jobs
   - Catalog: Unity Catalog explorer

2. **G≈Ç√≥wny panel**: Edytor notebook√≥w lub widok szczeg√≥≈Ç√≥w

3. **G√≥rna belka**: Szybki dostƒôp do compute, account, help

**Instrukcje nawigacji:**
- U≈ºyj lewego menu do prze≈ÇƒÖczania miƒôdzy sekcjami
- W sekcji Catalog mo≈ºesz przeglƒÖdaƒá katalogi, schematy i tabele
- W sekcji Compute zarzƒÖdzasz klastrami Spark

### Przyk≈Çad 2.2: Catalog Explorer - struktura Unity Catalog

**Cel:** Zrozumienie hierarchii obiekt√≥w w Unity Catalog

In [None]:
# Wy≈õwietl aktualny katalog i schemat
current_catalog = spark.sql("SELECT current_catalog()").collect()[0][0]
current_schema = spark.sql("SELECT current_schema()").collect()[0][0]

print(f"Aktualny katalog: {current_catalog}")
print(f"Aktualny schemat: {current_schema}")

print("\n=== Hierarchia Unity Catalog ===")
print("Metastore")
print("  ‚îú‚îÄ‚îÄ Catalog (np. main, dev, prod)")
print("  ‚îÇ   ‚îú‚îÄ‚îÄ Schema/Database (np. bronze, silver, gold)")
print("  ‚îÇ   ‚îÇ   ‚îú‚îÄ‚îÄ Tables (Delta Tables)")
print("  ‚îÇ   ‚îÇ   ‚îú‚îÄ‚îÄ Views (SQL Views)")
print("  ‚îÇ   ‚îÇ   ‚îú‚îÄ‚îÄ Functions (UDFs)")
print("  ‚îÇ   ‚îÇ   ‚îî‚îÄ‚îÄ Volumes (dla plik√≥w)")

**Wyja≈õnienie:**

Unity Catalog organizuje dane w hierarchii: Metastore ‚Üí Catalog ‚Üí Schema ‚Üí Objects (Tables/Views/Functions). Ta struktura umo≈ºliwia:
- Logiczne oddzielenie ≈õrodowisk (dev/test/prod)
- GranularnƒÖ kontrolƒô dostƒôpu na ka≈ºdym poziomie
- ≈Åatwe zarzƒÖdzanie namespace'ami i izolacjƒÖ projekt√≥w

### Przyk≈Çad 2.3: PrzeglƒÖdanie katalog√≥w i schemat√≥w

**Cel:** Programowe listowanie obiekt√≥w w Unity Catalog

In [None]:
# Lista wszystkich katalog√≥w dostƒôpnych dla u≈ºytkownika
print("=== Dostƒôpne katalogi ===")
catalogs_df = spark.sql("SHOW CATALOGS")
display(catalogs_df)

# Lista schemat√≥w w aktualnym katalogu
print(f"\n=== Schematy w katalogu {CATALOG} ===")
schemas_df = spark.sql(f"SHOW SCHEMAS IN {CATALOG}")
display(schemas_df)

**Wyja≈õnienie:**

Polecenia `SHOW CATALOGS` i `SHOW SCHEMAS` pozwalajƒÖ na eksploracjƒô struktury Unity Catalog. Ka≈ºdy u≈ºytkownik widzi tylko te obiekty, do kt√≥rych ma uprawnienia. Per-user izolacja (jak w naszym `00_setup`) zapewnia, ≈ºe ka≈ºdy uczestnik szkolenia ma w≈ÇasnƒÖ przestrze≈Ñ roboczƒÖ.

## Sekcja 3: Compute - Klastry Spark

**Wprowadzenie teoretyczne:**

Klastry Spark w Databricks sƒÖ ≈õrodowiskiem wykonawczym dla przetwarzania danych. Databricks oferuje r√≥≈ºne typy klastr√≥w i optymalizacje, kt√≥re automatyzujƒÖ zarzƒÖdzanie infrastrukturƒÖ.

**Kluczowe pojƒôcia:**
- **All-Purpose Cluster**: Interaktywne klastry do analizy i rozwoju w notebookach
- **Job Cluster**: Efemeryczne klastry dla automatyzowanych zada≈Ñ (Databricks Jobs)
- **Autoscaling**: Automatyczne skalowanie liczby worker√≥w w zale≈ºno≈õci od obciƒÖ≈ºenia
- **Spot Instances**: Wykorzystanie ta≈Ñszych VM w chmurze (AWS Spot, Azure Spot, GCP Preemptible)
- **Photon Engine**: Natywny engine wykonawczy w C++ dla przyspieszenia zapyta≈Ñ SQL i DataFrame

**Zastosowanie praktyczne:**
- Autoscaling redukuje koszty przy zmiennym obciƒÖ≈ºeniu
- Spot instances zmniejszajƒÖ koszty compute o 60-80%
- Photon przyspiesza zapytania agregacyjne nawet 3x

### Przyk≈Çad 3.1: Informacje o klastrze

**Cel:** Sprawdzenie konfiguracji aktualnego klastra

In [None]:
# Informacje o Spark Context
print("=== Konfiguracja klastra ===")
print(f"Spark Version: {spark.version}")
print(f"Aplikacja: {spark.sparkContext.appName}")
print(f"Master: {spark.sparkContext.master}")

# Liczba executor√≥w
num_executors = len(spark.sparkContext._jsc.sc().statusTracker().getExecutorInfos()) - 1
print(f"Liczba executor√≥w (workers): {num_executors}")

# Runtime version
dbr_version = spark.conf.get("spark.databricks.clusterUsageTags.sparkVersion", "unknown")
print(f"Databricks Runtime: {dbr_version}")

# Photon w≈ÇƒÖczony?
photon_enabled = spark.conf.get("spark.databricks.photon.enabled", "false")
print(f"Photon Engine: {'W≈ÇƒÖczony' if photon_enabled == 'true' else 'Wy≈ÇƒÖczony'}")

**Wyja≈õnienie:**

Ten kod pokazuje podstawowe informacje o klastrze Spark. Liczba executor√≥w (workers) mo≈ºe siƒô zmieniaƒá dynamicznie przy w≈ÇƒÖczonym autoscalingu. Photon Engine, je≈õli w≈ÇƒÖczony, automatycznie przyspiesza zapytania SQL i operacje DataFrame bez zmian w kodzie.

### Przyk≈Çad 3.2: Best practices dla konfiguracji klastr√≥w

**Cel:** Poznanie rekomendacji dla r√≥≈ºnych use cases

**Dla Development (All-Purpose Cluster):**
- Runtime: 14.3 LTS (Long Term Support)
- Workers: 2-4 (autoscaling 2-8 dla wiƒôkszych projekt√≥w)
- Node type: Standard DS3_v2 (Azure) lub m5.xlarge (AWS)
- Photon: W≈ÇƒÖczony
- Spot instances: Nie (dla stabilno≈õci)

**Dla Production (Job Cluster):**
- Runtime: 14.3 LTS
- Workers: autoscaling 2-20 (zale≈ºnie od obciƒÖ≈ºenia)
- Node type: Memory-optimized (DS4_v2, m5.2xlarge)
- Photon: W≈ÇƒÖczony
- Spot instances: Tak (60-80% workers)
- Auto-termination: 10 minut nieaktywno≈õci

**Dla ML Workloads:**
- Runtime: 14.3 ML (zawiera biblioteki ML)
- Workers: GPU-enabled (NC6s_v3, p3.2xlarge)
- Single-node mode dla prototypowania

## Sekcja 4: Magic Commands w Notebookach

**Wprowadzenie teoretyczne:**

Databricks notebooks obs≈ÇugujƒÖ magic commands - specjalne polecenia zaczynajƒÖce siƒô od `%`, kt√≥re kontrolujƒÖ jƒôzyk kom√≥rki lub wykonujƒÖ operacje systemowe. Magic commands umo≈ºliwiajƒÖ mieszanie jƒôzyk√≥w w jednym notebooku oraz interakcjƒô z systemem plik√≥w.

**Dostƒôpne magic commands:**
- **%python**: Kom√≥rka Python (domy≈õlny)
- **%sql**: Kom√≥rka SQL
- **%scala**: Kom√≥rka Scala
- **%r**: Kom√≥rka R
- **%md**: Kom√≥rka Markdown (dokumentacja)
- **%fs**: Operacje na systemie plik√≥w (DBFS)
- **%sh**: Polecenia shell
- **%run**: Uruchomienie innego notebooka (jak import)

**Zastosowanie praktyczne:**
- ≈ÅƒÖczenie SQL i Python w jednym workflow
- Dokumentacja inline z Markdown
- Operacje na plikach z %fs
- Modularyzacja kodu z %run

### Przyk≈Çad 4.1: Demonstracja SQL magic command

**Cel:** Wykonanie zapytania SQL bezpo≈õrednio w notebooku

In [None]:
%sql
-- SQL magic command pozwala pisaƒá czyste SQL bez otoczki Pythona

SELECT 
  current_catalog() as catalog,
  current_schema() as schema,
  current_user() as user,
  current_timestamp() as timestamp

**Wyja≈õnienie:**

Magic command `%sql` zmienia jƒôzyk kom√≥rki na SQL. Wyniki sƒÖ automatycznie wy≈õwietlane jako tabela. SQL w Databricks to pe≈Çny Spark SQL z rozszerzeniami Delta Lake.

### Przyk≈Çad 4.2: File System operations z %fs

**Cel:** Eksploracja systemu plik√≥w DBFS

In [None]:
# Magic command %fs dla operacji na plikach
# Lista katalog√≥w g≈Ç√≥wnych w DBFS
dbutils.fs.ls("/")

In [None]:
# Alternatywnie: %fs magic command
%fs ls /

**Wyja≈õnienie:**

DBFS (Databricks File System) to abstrakcja nad cloud storage (S3, ADLS, GCS). Komenda `%fs` lub `dbutils.fs` pozwala na operacje na plikach. W Unity Catalog zaleca siƒô u≈ºywanie **Volumes** zamiast DBFS dla lepszego governance.

### Przyk≈Çad 4.3: Mieszanie jƒôzyk√≥w - Python i SQL

**Cel:** Demonstracja p≈Çynnego przechodzenia miƒôdzy Python i SQL

In [None]:
# Python: Przygotowanie danych
data = [
    (1, "Alice", "Engineering", 95000),
    (2, "Bob", "Sales", 75000),
    (3, "Charlie", "Engineering", 105000),
    (4, "Diana", "Marketing", 68000),
    (5, "Eve", "Engineering", 98000)
]

schema = StructType([
    StructField("id", IntegerType(), False),
    StructField("name", StringType(), False),
    StructField("department", StringType(), False),
    StructField("salary", IntegerType(), False)
])

df = spark.createDataFrame(data, schema)

# Rejestracja jako temp view dla dostƒôpu z SQL
df.createOrReplaceTempView("employees_temp")

print("Utworzono temp view: employees_temp")
display(df)

In [None]:
%sql
-- SQL: Agregacja na danych z Python

SELECT 
  department,
  COUNT(*) as employee_count,
  AVG(salary) as avg_salary,
  MAX(salary) as max_salary
FROM employees_temp
GROUP BY department
ORDER BY avg_salary DESC

**Wyja≈õnienie:**

Ten przyk≈Çad pokazuje si≈Çƒô notebook√≥w Databricks: przygotowanie danych w Python (wygodne API, biblioteki), nastƒôpnie analiza w SQL (deklaratywne zapytania, przejrzysto≈õƒá). Temp views sƒÖ widoczne w ca≈Çym notebooku niezale≈ºnie od jƒôzyka kom√≥rki.

## Sekcja 5: Unity Catalog vs Hive Metastore

**Wprowadzenie teoretyczne:**

Databricks wspiera dwa systemy metadanych: legacy Hive Metastore oraz nowoczesny Unity Catalog. Unity Catalog jest zalecany dla wszystkich nowych projekt√≥w ze wzglƒôdu na zaawansowane funkcje governance i bezpiecze≈Ñstwa.

**Kluczowe r√≥≈ºnice:**

| Aspekt | Hive Metastore | Unity Catalog |
|--------|----------------|---------------|
| **Governance** | Ograniczone | Pe≈Çne: RBAC, masking, audit |
| **Namespace** | 2-poziomowy (db.table) | 3-poziomowy (catalog.schema.table) |
| **Cross-workspace** | Nie | Tak (shared metastore) |
| **Lineage** | Brak | End-to-end lineage |
| **Data Sharing** | Ograniczone | Delta Sharing protocol |
| **Isolation** | Workspace-level | Catalog-level |

**Dlaczego Unity Catalog?**
- Centralne zarzƒÖdzanie dostƒôpem dla wszystkich workspace'√≥w
- Automatyczny lineage dla audytu i compliance
- Fine-grained permissions (column-level, row-level)
- Integracja z zewnƒôtrznymi systemami (Delta Sharing)

### Przyk≈Çad 5.1: Namespace - Hive vs Unity Catalog

**Cel:** Por√≥wnanie sk≈Çadni dostƒôpu do tabel

In [None]:
# Hive Metastore (2-poziomowy namespace)
print("=== Hive Metastore ===")
print("Sk≈Çadnia: database.table")
print("Przyk≈Çad: default.sales_data")
print("")

# Unity Catalog (3-poziomowy namespace)
print("=== Unity Catalog ===")
print("Sk≈Çadnia: catalog.schema.table")
print("Przyk≈Çad: prod.gold.sales_summary")
print("")
print("Zalety 3-poziomowego namespace:")
print("- Oddzielenie ≈õrodowisk (dev/test/prod catalogs)")
print("- Lepsze uprawnienia (grant na poziomie catalogu)")
print("- Wsp√≥≈Çdzielenie metastore miƒôdzy workspace'ami")

### Przyk≈Çad 5.2: Tworzenie tabeli w Unity Catalog

**Cel:** Demonstracja pe≈Çnej sk≈Çadni z 3-poziomowym namespace

In [None]:
# Utworzenie przyk≈Çadowej tabeli w Unity Catalog
table_name = f"{CATALOG}.{BRONZE_SCHEMA}.lakehouse_demo"

# Dane demonstracyjne
demo_data = [
    (1, "Unity Catalog", "Enabled", "2024-01-15"),
    (2, "Delta Lake", "Enabled", "2024-01-15"),
    (3, "Photon Engine", "Enabled", "2024-01-15"),
    (4, "Hive Metastore", "Legacy", "2024-01-15")
]

demo_schema = StructType([
    StructField("id", IntegerType(), False),
    StructField("feature", StringType(), False),
    StructField("status", StringType(), False),
    StructField("date", StringType(), False)
])

demo_df = spark.createDataFrame(demo_data, demo_schema)

# Zapis jako Delta Table w Unity Catalog
demo_df.write \
    .format("delta") \
    .mode("overwrite") \
    .option("overwriteSchema", "true") \
    .saveAsTable(table_name)

print(f"‚úÖ Tabela utworzona: {table_name}")

In [None]:
%sql
-- Odczyt tabeli z pe≈Çnym namespace Unity Catalog

SELECT * FROM ${CATALOG}.${BRONZE_SCHEMA}.lakehouse_demo

**Wyja≈õnienie:**

Tabela zosta≈Ça utworzona z pe≈Çnym 3-poziomowym namespace. W Unity Catalog ka≈ºda tabela automatycznie:
- Jest zarzƒÖdzana przez system governance
- Ma trackowany lineage
- Posiada przypisane uprawnienia na podstawie katalogu i schematu
- Jest dostƒôpna w Catalog Explorer dla eksploracji

### Przyk≈Çad 5.3: Eksploracja metadanych Unity Catalog

**Cel:** Wykorzystanie systemu informacyjnych schemat√≥w Unity Catalog

In [None]:
%sql
-- Unity Catalog udostƒôpnia system.information_schema dla metadanych

-- Lista tabel w naszym schemacie
SELECT 
  table_catalog,
  table_schema,
  table_name,
  table_type
FROM system.information_schema.tables
WHERE table_catalog = '${CATALOG}'
  AND table_schema = '${BRONZE_SCHEMA}'
ORDER BY table_name

**Wyja≈õnienie:**

Unity Catalog automatycznie utrzymuje `system.information_schema` - zbi√≥r widok√≥w SQL z metadanymi o wszystkich obiektach. To standardowe podej≈õcie zgodne z ANSI SQL, co u≈Çatwia integracjƒô z narzƒôdziami BI i data governance.

## Por√≥wnanie PySpark vs SQL

**DataFrame API (PySpark):**

In [None]:
# Podej≈õcie PySpark - programatyczne DataFrame API

df_pyspark = spark.table(f"{CATALOG}.{BRONZE_SCHEMA}.lakehouse_demo")

result_pyspark = df_pyspark \
    .filter(F.col("status") == "Enabled") \
    .select("feature", "status", "date") \
    .orderBy("feature")

display(result_pyspark)

**SQL Equivalent:**

In [None]:
%sql
-- Podej≈õcie SQL - deklaratywne zapytanie

SELECT 
  feature,
  status,
  date
FROM ${CATALOG}.${BRONZE_SCHEMA}.lakehouse_demo
WHERE status = 'Enabled'
ORDER BY feature

**Por√≥wnanie:**
- **Wydajno≈õƒá**: Identyczna - oba podej≈õcia kompilujƒÖ siƒô do tego samego Catalyst query plan
- **Kiedy u≈ºywaƒá PySpark**: 
  - Z≈Ço≈ºona logika biznesowa z UDF
  - Dynamiczne pipeline'y (parametryzacja, loops)
  - Integracja z bibliotekami Python (pandas, scikit-learn)
- **Kiedy u≈ºywaƒá SQL**: 
  - Proste transformacje i agregacje
  - Zesp√≥≈Ç z silnymi kompetencjami SQL
  - Migracja z tradycyjnych Data Warehouse
  - Lepsze wsparcie dla analityk√≥w biznesowych

## Walidacja i weryfikacja

### Checklist - Co powiniene≈õ zrozumieƒá po tym notebooku:
- [x] Koncepcja Lakehouse i korzy≈õci wzglƒôdem tradycyjnej architektury
- [x] Struktura Workspace: Sidebar, Compute, Catalog Explorer
- [x] Hierarchia Unity Catalog: Metastore ‚Üí Catalog ‚Üí Schema ‚Üí Objects
- [x] Typy klastr√≥w: All-Purpose vs Job, autoscaling, Photon
- [x] Magic commands: %sql, %python, %fs, %run, %md
- [x] R√≥≈ºnice miƒôdzy Hive Metastore (2-level) a Unity Catalog (3-level)
- [x] Tworzenie tabel w Unity Catalog z pe≈Çnym namespace
- [x] Dostƒôp do metadanych przez system.information_schema

### Komendy weryfikacyjne:

In [None]:
# Weryfikacja wynik√≥w

print("=== WERYFIKACJA KONFIGURACJI ===\n")

# 1. Sprawd≈∫ czy tabela demo zosta≈Ça utworzona
try:
    demo_count = spark.table(f"{CATALOG}.{BRONZE_SCHEMA}.lakehouse_demo").count()
    print(f"‚úÖ Tabela demo utworzona: {demo_count} rekord√≥w")
except:
    print("‚ùå Tabela demo nie istnieje")

# 2. Sprawd≈∫ katalog i schemat
current_catalog = spark.sql("SELECT current_catalog()").collect()[0][0]
print(f"‚úÖ Aktualny katalog: {current_catalog}")

# 3. Weryfikacja schemat√≥w bronze/silver/gold
schemas = [s.namespace for s in spark.sql(f"SHOW SCHEMAS IN {CATALOG}").collect()]
required_schemas = [BRONZE_SCHEMA, SILVER_SCHEMA, GOLD_SCHEMA]

for schema in required_schemas:
    if schema in schemas:
        print(f"‚úÖ Schema {schema} istnieje")
    else:
        print(f"‚ùå Schema {schema} nie istnieje")

# 4. Informacje o klastrze
print(f"\n‚úÖ Spark version: {spark.version}")
print(f"‚úÖ DBR version: {spark.conf.get('spark.databricks.clusterUsageTags.sparkVersion', 'unknown')}")

print("\nüéâ Wszystkie sprawdzenia zako≈Ñczone!")

## Troubleshooting

### Problem 1: "Catalog not found" lub "Schema not found"
**Objawy:**
- B≈ÇƒÖd: `AnalysisException: [SCHEMA_NOT_FOUND]`
- B≈ÇƒÖd: `AnalysisException: [CATALOG_NOT_FOUND]`

**RozwiƒÖzanie:**
```python
# Sprawd≈∫ dostƒôpne katalogi
spark.sql("SHOW CATALOGS").show()

# Sprawd≈∫ dostƒôpne schematy
spark.sql(f"SHOW SCHEMAS IN {CATALOG}").show()

# Upewnij siƒô, ≈ºe uruchomi≈Çe≈õ %run ./00_setup
```

### Problem 2: "Permission denied" przy tworzeniu tabel
**Objawy:**
- B≈ÇƒÖd: `PERMISSION_DENIED: User does not have CREATE TABLE on Schema`

**RozwiƒÖzanie:**
- Skontaktuj siƒô z administratorem workspace o nadanie uprawnie≈Ñ `CREATE TABLE`
- Sprawd≈∫ uprawnienia: `SHOW GRANTS ON SCHEMA catalog.schema`

### Problem 3: Klaster nie startuje lub jest zbyt wolny
**Objawy:**
- Klaster w stanie "Pending" przez d≈Çugi czas
- Timeout przy starcie

**RozwiƒÖzanie:**
- Sprawd≈∫ quota instancji w chmurze (Azure/AWS/GCP)
- Zmniejsz liczbƒô worker√≥w lub wybierz mniejszy node type
- Wy≈ÇƒÖcz autoscaling dla test√≥w

### Problem 4: Magic command %sql nie dzia≈Ça
**Objawy:**
- B≈ÇƒÖd sk≈Çadni lub brak wynik√≥w

**RozwiƒÖzanie:**
- Upewnij siƒô, ≈ºe `%sql` jest pierwszym elementem w kom√≥rce
- Sprawd≈∫ czy u≈ºywasz zmiennych: `${CATALOG}` zamiast `{CATALOG}`
- Dla zmiennych Python u≈ºyj: `spark.sql(f"SELECT ... FROM {CATALOG}.{SCHEMA}.table")`

### Debugging tips:
- U≈ºyj `explain()` na DataFrame aby zobaczyƒá plan wykonania
- Sprawd≈∫ logi klastra w Spark UI (zak≈Çadka "Cluster" ‚Üí "Spark UI")
- Weryfikuj typy danych: `df.printSchema()`
- Dla problem√≥w z wydajno≈õciƒÖ sprawd≈∫ liczbƒô partycji: `df.rdd.getNumPartitions()`

## Best Practices

### Architektura Lakehouse:
- U≈ºywaj Unity Catalog zamiast Hive Metastore dla nowych projekt√≥w
- Organizuj dane w logiczne katalogi (np. dev/test/prod)
- Stosuj naming convention dla schemat√≥w: bronze/silver/gold
- Wykorzystuj Delta Lake jako domy≈õlny format tabel

### ZarzƒÖdzanie Workspace:
- Organizuj notebooki w folderach wed≈Çug projekt√≥w lub zespo≈Ç√≥w
- U≈ºywaj Repos dla integracji z Git i wersjonowania
- Dokumentuj notebooki z Markdown cells
- Stosuj `%run` dla wsp√≥≈Çdzielenia kodu miƒôdzy notebookami

### Konfiguracja Klastr√≥w:
- Development: ma≈Çe klastry (2-4 workers), bez spot instances
- Production: autoscaling, spot instances dla oszczƒôdno≈õci
- W≈ÇƒÖcz Photon Engine dla zapyta≈Ñ SQL/DataFrame
- Ustaw auto-termination (np. 30 min nieaktywno≈õci) dla klastr√≥w All-Purpose
- Dla Jobs u≈ºywaj Job Clusters (efemeryczne, optymalne koszty)

### Governance i Security:
- Stosuj per-user lub per-team izolacjƒô katalog√≥w
- U≈ºywaj 3-poziomowego namespace: catalog.schema.table
- Przydzielaj uprawnienia na poziomie schematu, nie tabeli
- Monitoruj dostƒôp przez system.access.audit
- W≈ÇƒÖcz lineage dla compliance i debugowania

### Wydajno≈õƒá:
- Preferuj Delta Lake zamiast Parquet/CSV dla czƒôstych zapyta≈Ñ
- Partycjonuj du≈ºe tabele wed≈Çug kluczy czasowych lub geograficznych
- U≈ºywaj Z-ORDER dla kolumn u≈ºywanych w WHERE clauses
- Regularnie uruchamiaj OPTIMIZE i VACUUM na tabelach Delta

## Podsumowanie

### Co zosta≈Ço osiƒÖgniƒôte:
- Poznanie koncepcji Lakehouse jako ewolucji Data Lake + Data Warehouse
- Eksploracja element√≥w platformy Databricks: Workspace, Compute, Catalog
- Zrozumienie hierarchii Unity Catalog: Metastore ‚Üí Catalog ‚Üí Schema ‚Üí Objects
- Praktyka z magic commands: %sql, %python, %fs
- Por√≥wnanie Hive Metastore vs Unity Catalog
- Utworzenie pierwszej tabeli Delta w Unity Catalog z 3-poziomowym namespace

### Kluczowe wnioski:
1. **Lakehouse eliminuje duplikacjƒô danych**: Jedna kopia s≈Çu≈ºy BI, ML i real-time analytics
2. **Unity Catalog to fundament governance**: 3-poziomowy namespace, fine-grained permissions, automatyczny lineage
3. **Klastry sƒÖ elastyczne**: Autoscaling i spot instances redukujƒÖ koszty, Photon przyspiesza zapytania
4. **Notebooki sƒÖ potƒô≈ºne**: Mieszanie SQL/Python, magic commands, integracja z Git przez Repos
5. **Delta Lake jest domy≈õlnym formatem**: ACID transactions, time travel, schema evolution

### Quick Reference - Najwa≈ºniejsze komendy:

| Operacja | PySpark | SQL |
|----------|---------|-----|
| Ustaw katalog | `spark.sql(f"USE CATALOG {CATALOG}")` | `USE CATALOG my_catalog` |
| Lista katalog√≥w | `spark.sql("SHOW CATALOGS")` | `SHOW CATALOGS` |
| Lista schemat√≥w | `spark.sql("SHOW SCHEMAS")` | `SHOW SCHEMAS` |
| Utworzenie tabeli | `df.write.saveAsTable("cat.schema.table")` | `CREATE TABLE cat.schema.table AS SELECT ...` |
| Odczyt tabeli | `spark.table("cat.schema.table")` | `SELECT * FROM cat.schema.table` |
| Metadane | - | `SELECT * FROM system.information_schema.tables` |

### Nastƒôpne kroki:
- **Kolejny notebook**: `02_data_import_exploration.ipynb` - Wczytywanie danych z r√≥≈ºnych format√≥w (CSV, JSON, Parquet, Delta)
- **Warsztat praktyczny**: Po zako≈Ñczeniu dema (notebooki 01-05) przejdziemy do `01_workspace_data_exploration_workshop.ipynb`
- **Materia≈Çy dodatkowe**: 
  - [Databricks Lakehouse Fundamentals](https://www.databricks.com/learn/lakehouse)
  - [Unity Catalog Documentation](https://docs.databricks.com/data-governance/unity-catalog/index.html)
  - [Delta Lake Guide](https://docs.delta.io/latest/index.html)

## Czyszczenie zasob√≥w

PosprzƒÖtaj zasoby utworzone podczas notebooka:

In [None]:
# Opcjonalne czyszczenie zasob√≥w testowych
# UWAGA: Uruchom tylko je≈õli chcesz usunƒÖƒá wszystkie utworzone dane

# Usu≈Ñ tabelƒô demo
# spark.sql(f"DROP TABLE IF EXISTS {CATALOG}.{BRONZE_SCHEMA}.lakehouse_demo")

# Usu≈Ñ temp views
# spark.catalog.clearCache()
# spark.sql("DROP VIEW IF EXISTS employees_temp")

# print("‚úÖ Zasoby zosta≈Çy wyczyszczone")
print("‚ö†Ô∏è  Czyszczenie zasob√≥w zakomentowane - odkomentuj je≈õli chcesz usunƒÖƒá dane demo")

---

**Metadata:**
- **Notebook**: 01_databricks_lakehouse_intro.ipynb
- **Dzie≈Ñ**: 1 - Fundamentals & Exploration
- **Typ**: Demo
- **Czas**: 45 minut
- **Wersja**: 1.0
- **Data utworzenia**: 19 listopada 2025
- **Compliance**: 7/7 standard√≥w ‚úÖ