# Wprowadzenie do Databricks Lakehouse

**Cel szkoleniowy:** Zrozumienie koncepcji Lakehouse, poznanie podstawowych element√≥w platformy Databricks oraz konfiguracji ≈õrodowiska Unity Catalog.

**Zakres tematyczny:**
- Koncepcja Lakehouse (Data Lake + Data Warehouse)
- Elementy platformy: Workspace, Catalog Explorer, Repos, Volumes, DBFS
- Compute: clusters, autoscaling, spot instances, Photon Engine
- Notebooks: magic commands (%sql, %python, %md)
- Unity Catalog overview: katalogi, schematy, tabele
- R√≥≈ºnice miƒôdzy Hive Metastore a Unity Catalog

## Kontekst i wymagania

- **Dzie≈Ñ szkolenia**: Dzie≈Ñ 1 - Fundamentals & Exploration
- **Typ notebooka**: Demo
- **Wymagania techniczne**:
  - Databricks Runtime 13.0+ (zalecane: 14.3 LTS)
  - Unity Catalog w≈ÇƒÖczony
  - Uprawnienia: CREATE TABLE, CREATE SCHEMA, SELECT, MODIFY
  - Klaster: Standard z 2-4 workers
- **Czas trwania**: 20 minut

## Wstƒôp teoretyczny

**Cel sekcji:** Zrozumienie ewolucji architektur danych i miejsca Lakehouse w tym kontek≈õcie.

**Podstawowe pojƒôcia:**
- **Data Lake**: Scentralizowane repozytorium przechowujƒÖce surowe dane w r√≥≈ºnych formatach (strukturalne, semi-strukturalne, niestrukturalne)
- **Data Warehouse**: Zoptymalizowane repozytorium danych strukturalnych do analityki biznesowej i raportowania
- **Lakehouse**: Nowoczesna architektura ≈ÇƒÖczƒÖca elastyczno≈õƒá Data Lake z niezawodno≈õciƒÖ i wydajno≈õciƒÖ Data Warehouse

**Dlaczego to wa≈ºne?**
Lakehouse eliminuje potrzebƒô utrzymywania dw√≥ch oddzielnych system√≥w (Data Lake + Data Warehouse), redukujƒÖc koszty, z≈Ço≈ºono≈õƒá i op√≥≈∫nienia w dostƒôpie do danych. Dziƒôki Delta Lake uzyskujemy transakcyjno≈õƒá ACID, wersjonowanie danych i optymalizacjƒô zapyta≈Ñ bezpo≈õrednio na plikach w Data Lake.

## Izolacja per u≈ºytkownik

Uruchom skrypt inicjalizacyjny dla per-user izolacji katalog√≥w i schemat√≥w:

In [0]:
%run ../00_setup

## Konfiguracja

Import bibliotek i ustawienie zmiennych ≈õrodowiskowych:

In [0]:
from pyspark.sql import functions as F
from pyspark.sql.types import *
import re

# Wy≈õwietl kontekst u≈ºytkownika (zmienne z 00_setup)
print("=== Kontekst u≈ºytkownika ===")
print(f"Katalog: {CATALOG}")
print(f"Schema Bronze: {BRONZE_SCHEMA}")
print(f"Schema Silver: {SILVER_SCHEMA}")
print(f"Schema Gold: {GOLD_SCHEMA}")
print(f"U≈ºytkownik: {raw_user}")

In [0]:
# Ustaw katalog jako domy≈õlny
spark.sql(f"USE CATALOG {CATALOG}")

## Sekcja 1: Koncepcja Lakehouse Architecture

**Wprowadzenie teoretyczne:**

Lakehouse to nowoczesna architektura danych, kt√≥ra ≈ÇƒÖczy zalety Data Lake (niski koszt przechowywania, wsparcie dla r√≥≈ºnych format√≥w) z zaletami Data Warehouse (niezawodno≈õƒá, wydajno≈õƒá zapyta≈Ñ SQL, zarzƒÖdzanie transakcjami). Kluczowym elementem jest Delta Lake - warstwa metadanych zapewniajƒÖca transakcyjno≈õƒá ACID na plikach Parquet.

**Kluczowe pojƒôcia:**
- **ACID Transactions**: Atomowo≈õƒá, Sp√≥jno≈õƒá, Izolacja, Trwa≈Ço≈õƒá - gwarancje zapewniajƒÖce niezawodno≈õƒá operacji na danych
- **Delta Lake**: Open-source storage layer zapewniajƒÖcy transakcyjno≈õƒá na plikach w Data Lake
- **Unity Catalog**: Zunifikowany system zarzƒÖdzania danymi, metadanymi i kontrolƒÖ dostƒôpu

**Zastosowanie praktyczne:**
- Eliminacja duplikacji danych miƒôdzy systemami analitycznymi i operacyjnymi
- Jednoczesne wsparcie dla BI, Data Science i Machine Learning
- Redukcja koszt√≥w infrastruktury i utrzymania

Por√≥wnanie tradycyjnej architektury vs Lakehouse

**Cel:** Wizualizacja r√≥≈ºnic miƒôdzy tradycyjnym podej≈õciem (Data Lake + Data Warehouse) a Lakehouse.

**Tradycyjna architektura:**
```
Raw Data ‚Üí Data Lake (S3/ADLS) ‚Üí ETL Process ‚Üí Data Warehouse (Snowflake/Redshift) ‚Üí BI Tools
                                ‚Üì
                         ML/Data Science (separate copy)
```

**Lakehouse architektura:**
```
Raw Data ‚Üí Delta Lake (single source of truth) ‚Üí BI Tools + ML + Real-time Analytics
```

**Korzy≈õci Lakehouse:**
- Jedna kopia danych (single source of truth)
- Ni≈ºsze koszty przechowywania
- Eliminacja op√≥≈∫nie≈Ñ synchronizacji
- Wsp√≥lne governance dla wszystkich use cases

## Sekcja 2: Elementy platformy Databricks

**Wprowadzenie teoretyczne:**

Platforma Databricks sk≈Çada siƒô z kilku kluczowych komponent√≥w, kt√≥re razem tworzƒÖ kompletne ≈õrodowisko do pracy z danymi w architekturze Lakehouse.

**Kluczowe komponenty:**
- **Workspace**: ≈örodowisko pracy zawierajƒÖce notebooks, eksperymenty, foldery i zasoby
- **Catalog Explorer**: Interfejs do zarzƒÖdzania katalogami, schematami, tabelami i widokami
- **Git Folders (dawniej Repos)**: Integracja z Git do wersjonowania notebook√≥w i kodu
- **Volumes**: ZarzƒÖdzanie plikami niestrukturalnymi (obrazy, modele, artifacts)
- **DBFS (Databricks File System)**: Wirtualny system plik√≥w nad cloud storage

**Zastosowanie praktyczne:**
- Workspace organizuje projekty i wsp√≥≈Çpracƒô zespo≈ÇowƒÖ
- Catalog Explorer umo≈ºliwia eksploracjƒô i governance danych
- Git Folders integruje development workflow z Git

### Przyk≈Çad 2.1: Eksploracja Workspace

**Cel:** Zapoznanie siƒô z interfejsem Databricks Workspace

**Elementy Workspace:**
1. **Sidebar** (lewa strona):
   - Workspace: Foldery i notebooki
   - Git Folders: Integracja Git
   - Compute: ZarzƒÖdzanie klastrami
   - Workflows: Databricks Jobs
   - Catalog: Unity Catalog explorer

2. **G≈Ç√≥wny panel**: Edytor notebook√≥w lub widok szczeg√≥≈Ç√≥w

3. **G√≥rna belka**: Szybki dostƒôp do compute, account, help

**Instrukcje nawigacji:**
- U≈ºyj lewego menu do prze≈ÇƒÖczania miƒôdzy sekcjami
- W sekcji Catalog mo≈ºesz przeglƒÖdaƒá katalogi, schematy i tabele
- W sekcji Compute zarzƒÖdzasz klastrami Spark

### Przyk≈Çad 2.2: Catalog Explorer - struktura Unity Catalog

**Cel:** Zrozumienie hierarchii obiekt√≥w w Unity Catalog

In [0]:
# Wy≈õwietl aktualny katalog i schemat
current_catalog = spark.sql("SELECT current_catalog()").collect()[0][0]
current_schema = spark.sql("SELECT current_schema()").collect()[0][0]

print(f"Aktualny katalog: {current_catalog}")
print(f"Aktualny schemat: {current_schema}")

**Hierarchia Unity Catalog:**

```
Metastore
  ‚îú‚îÄ‚îÄ Catalog (np. main, dev, prod)
  ‚îÇ   ‚îú‚îÄ‚îÄ Schema/Database (np. bronze, silver, gold)
  ‚îÇ   ‚îÇ   ‚îú‚îÄ‚îÄ Tables (Delta Tables)
  ‚îÇ   ‚îÇ   ‚îú‚îÄ‚îÄ Views (SQL Views)
  ‚îÇ   ‚îÇ   ‚îú‚îÄ‚îÄ Functions (UDFs)
  ‚îÇ   ‚îÇ   ‚îî‚îÄ‚îÄ Volumes (dla plik√≥w)
```

Unity Catalog organizuje dane w trzech poziomach: `catalog.schema.table`

**Wyja≈õnienie:**

Unity Catalog organizuje dane w hierarchii: Metastore ‚Üí Catalog ‚Üí Schema ‚Üí Objects (Tables/Views/Functions). Ta struktura umo≈ºliwia:
- Logiczne oddzielenie ≈õrodowisk (dev/test/prod)
- GranularnƒÖ kontrolƒô dostƒôpu na ka≈ºdym poziomie
- ≈Åatwe zarzƒÖdzanie namespace'ami i izolacjƒÖ projekt√≥w

### Przyk≈Çad 2.3: PrzeglƒÖdanie katalog√≥w i schemat√≥w

**Cel:** Programowe listowanie obiekt√≥w w Unity Catalog

In [0]:
# Lista wszystkich katalog√≥w dostƒôpnych dla u≈ºytkownika
catalogs_df = spark.sql("SHOW CATALOGS")
display(catalogs_df)

In [0]:
# Lista schemat√≥w w aktualnym katalogu
schemas_df = spark.sql(f"SHOW SCHEMAS IN {CATALOG}")
display(schemas_df)

**Wyja≈õnienie:**

Polecenia `SHOW CATALOGS` i `SHOW SCHEMAS` pozwalajƒÖ na eksploracjƒô struktury Unity Catalog. Ka≈ºdy u≈ºytkownik widzi tylko te obiekty, do kt√≥rych ma uprawnienia. Per-user izolacja (jak w naszym `00_setup`) zapewnia, ≈ºe ka≈ºdy uczestnik szkolenia ma w≈ÇasnƒÖ przestrze≈Ñ roboczƒÖ.

## 2.4 Git Folders (Repos) i integracja z Git 

W praktyce praca z kodem w Databricks powinna opieraƒá siƒô o **Git Folders** (dawniej Repos), a nie o pojedyncze, osierocone notebooki w Workspace.

Typowy workflow:

1. **Utw√≥rz Git Folder** w Databricks: `Workspace ‚Üí Git Folders ‚Üí Add Repo`.
2. **Po≈ÇƒÖcz z Git** (GitHub / Azure DevOps / inne).
3. Pracuj na **branchach feature** (np. `feature/cleaning-module`).
4. Regularnie:
   - commituj i pushuj zmiany z Databricks do zdalnego repo,
   - tw√≥rz PR i merguj do main/dev.

Dobre praktyki:

- Jeden repo per projekt/domenƒô (np. `databricks-dea-training-kion`).
- Nie pracujemy w **Workspace root** ‚Äì zawsze w **Git Folders**.
- Notebooki szkoleniowe, dane testowe i README mogƒÖ byƒá w jednym repo.


## 2.5 Volumes vs DBFS ‚Äì gdzie trzymaƒá pliki?

W nowych workspace'ach opartych na Unity Catalog preferowanym miejscem przechowywania plik√≥w sƒÖ **Volumes**.

- `dbfs:/` traktujemy jako warstwƒô **legacy** lub obszar pomocniczy.
- `volume://catalog.schema.volume_name` to w pe≈Çni zarzƒÖdzany, kontrolowany przez UC obszar danych (uprawnienia, audit, lineage).

Przyk≈Çad definicji Volume (SQL):

```sql
CREATE VOLUME IF NOT EXISTS ${catalog}.${schema}.training_volume
COMMENT 'Obszar roboczy na potrzeby szkole≈Ñ';
```

Przyk≈Çad u≈ºycia w PySpark:

```python
catalog = dbutils.widgets.get("catalog")
schema = dbutils.widgets.get("schema")

volume_path = f"volume://{catalog}.{schema}.training_volume"
display(dbutils.fs.ls(volume_path))
```



## 2.6 Serverless SQL / SQL Warehouse ‚Äì kiedy zamiast clustra notebookowego?

Opr√≥cz klastr√≥w notebookowych Databricks oferuje **SQL Warehouse (serverless)** ‚Äì silnik zapyta≈Ñ SQL zoptymalizowany pod BI i analitykƒô ad‚Äëhoc.

Kiedy u≈ºywaƒá:
- Raportowanie w Power BI / innych narzƒôdziach BI.
- Analitycy biznesowi / power users, kt√≥rzy pracujƒÖ g≈Ç√≥wnie w SQL.
- Interaktywne dashboardy i zapytania ad‚Äëhoc do warstwy **Gold**.

R√≥≈ºnice do all‚Äëpurpose cluster:
- Rozliczanie w oparciu o **DBU SQL** (inne stawki).
- Automatyczny provisioning / scaling.
- Izolacja obciƒÖ≈ºenia BI od klastr√≥w in≈ºynierskich.


## Sekcja 3: Compute - Klastry Spark i Serverless

**Wprowadzenie teoretyczne:**

Klastry Spark w Databricks sƒÖ ≈õrodowiskiem wykonawczym dla przetwarzania danych. Tradycyjnie zarzƒÖdzamy klastrami (All-Purpose, Job), ale platforma coraz mocniej ewoluuje w stronƒô **Serverless Compute**, gdzie infrastruktura jest w pe≈Çni zarzƒÖdzana przez Databricks, startuje natychmiastowo i skaluje siƒô automatycznie.

**Kluczowe pojƒôcia:**
- **All-Purpose Cluster**: Interaktywne klastry do analizy i rozwoju w notebookach.
- **Job Cluster**: Efemeryczne klastry dla automatyzowanych zada≈Ñ.
- **Serverless Compute**: Bezobs≈Çugowa warstwa obliczeniowa (dostƒôpna dla SQL Warehouses, Jobs, a coraz czƒô≈õciej dla Notebook√≥w).
- **Autoscaling**: Automatyczne skalowanie liczby worker√≥w.
- **Photon Engine**: Natywny engine wykonawczy w C++ przyspieszajƒÖcy zapytania.

**Zastosowanie praktyczne:**
- Serverless eliminuje czas oczekiwania na start klastra (instant startup).
- Autoscaling redukuje koszty przy zmiennym obciƒÖ≈ºeniu.
- Photon przyspiesza zapytania agregacyjne nawet 3x.

### Przyk≈Çad 3.1: Informacje o klastrze

**Cel:** Sprawdzenie konfiguracji aktualnego klastra

In [0]:
# Informacje o Spark Context
spark_version = spark.version
app_name = spark.sparkContext.appName
master = spark.sparkContext.master

**Konfiguracja klastra:**

Podstawowe informacje o ≈õrodowisku Spark i Databricks Runtime.

In [0]:
print(f"Spark Version: {spark_version}")
print(f"Aplikacja: {app_name}")
print(f"Master: {master}")

In [0]:
# Liczba executor√≥w
num_executors = len(spark.sparkContext._jsc.sc().statusTracker().getExecutorInfos()) 

In [0]:
# Runtime version
dbr_version = spark.conf.get("spark.databricks.clusterUsageTags.sparkVersion", "unknown")

In [0]:
# Photon w≈ÇƒÖczony?
photon_enabled = spark.conf.get("spark.databricks.photon.enabled", "false")

**Wyja≈õnienie:**

Ten kod pokazuje podstawowe informacje o klastrze Spark. Liczba executor√≥w (workers) mo≈ºe siƒô zmieniaƒá dynamicznie przy w≈ÇƒÖczonym autoscalingu. Photon Engine, je≈õli w≈ÇƒÖczony, automatycznie przyspiesza zapytania SQL i operacje DataFrame bez zmian w kodzie.

### Przyk≈Çad 3.2: Best practices dla konfiguracji klastr√≥w

**Cel:** Poznanie rekomendacji dla r√≥≈ºnych use cases

**Dla Development (All-Purpose Cluster):**
- Runtime: 14.3 LTS (Long Term Support)
- Workers: 2-4 (autoscaling 2-8 dla wiƒôkszych projekt√≥w)
- Node type: Standard DS3_v2 (Azure) lub m5.xlarge (AWS)
- Photon: W≈ÇƒÖczony
- Spot instances: Nie (dla stabilno≈õci)

**Dla Production (Job Cluster):**
- Runtime: 14.3 LTS
- Workers: autoscaling 2-20 (zale≈ºnie od obciƒÖ≈ºenia)
- Node type: Memory-optimized (DS4_v2, m5.2xlarge)
- Photon: W≈ÇƒÖczony
- Spot instances: Tak (60-80% workers)
- Auto-termination: 10 minut nieaktywno≈õci

**Dla ML Workloads:**
- Runtime: 14.3 ML (zawiera biblioteki ML)
- Workers: GPU-enabled (NC6s_v3, p3.2xlarge)
- Single-node mode dla prototypowania

## Sekcja 4: Magic Commands w Notebookach

**Wprowadzenie teoretyczne:**

Databricks notebooks obs≈ÇugujƒÖ magic commands - specjalne polecenia zaczynajƒÖce siƒô od `%`, kt√≥re kontrolujƒÖ jƒôzyk kom√≥rki lub wykonujƒÖ operacje systemowe. Magic commands umo≈ºliwiajƒÖ mieszanie jƒôzyk√≥w w jednym notebooku oraz interakcjƒô z systemem plik√≥w.

**Dostƒôpne magic commands:**
- **%python**: Kom√≥rka Python (domy≈õlny)
- **%sql**: Kom√≥rka SQL
- **%scala**: Kom√≥rka Scala
- **%r**: Kom√≥rka R
- **%md**: Kom√≥rka Markdown (dokumentacja)
- **%fs**: Operacje na systemie plik√≥w (DBFS)
- **%sh**: Polecenia shell
- **%run**: Uruchomienie innego notebooka (jak import)
- **%pip**: Instalacja bibliotek Python (notebook-scoped)
- **%skip**: Skipuje komorke

**Zastosowanie praktyczne:**
- ≈ÅƒÖczenie SQL i Python w jednym workflow
- Dokumentacja inline z Markdown
- Operacje na plikach z %fs
- Modularyzacja kodu z %run
- ZarzƒÖdzanie zale≈ºno≈õciami z %pip


## Monitoring i logowanie ‚Äì gdzie szukaƒá problem√≥w?

Przy pracy z klastrami i Jobami warto znaƒá podstawowe miejsca, gdzie szukamy informacji diagnostycznych:

- **Cluster ‚Üí Event log** ‚Äì start/stop clustra, autoscaling, b≈Çƒôdy infrastruktury.
- **Spark UI** (zak≈Çadki Jobs, SQL, Storage, Environment) ‚Äì plan wykonania, shufflowanie, b≈Çƒôdy na poziomie zada≈Ñ.
- **Driver / Executor logs** ‚Äì szczeg√≥≈Çowe stacktrace'y wyjƒÖtk√≥w Pythona/Scali.
- **Job Run page** ‚Äì status poszczeg√≥lnych task√≥w, retry, czas wykonania.

Dobre praktyki:
- Przy d≈Çu≈ºszych pipeline'ach zawsze sprawdzaj Spark UI (sekcja SQL/Jobs).
- Krytyczne logi aplikacyjne zapisuj do tabel Delta / storage, a nie tylko do log√≥w clustra.


### Przyk≈Çad 4.1: Demonstracja SQL magic command

**Cel:** Wykonanie zapytania SQL bezpo≈õrednio w notebooku

In [0]:
%sql
-- SQL magic command pozwala pisaƒá czyste SQL bez otoczki Pythona

SELECT 
  current_catalog() as catalog,
  current_schema() as schema,
  current_user() as user,
  current_timestamp() as timestamp

**Wyja≈õnienie:**

Magic command `%sql` zmienia jƒôzyk kom√≥rki na SQL. Wyniki sƒÖ automatycznie wy≈õwietlane jako tabela. SQL w Databricks to pe≈Çny Spark SQL z rozszerzeniami Delta Lake.

### Przyk≈Çad 4.2: File System operations z fs

**Cel:** Eksploracja systemu plik√≥w DBFS

In [0]:
# Lista katalog√≥w g≈Ç√≥wnych w DBFS
dbutils.fs.ls("/")

**Wyja≈õnienie:**

DBFS (Databricks File System) to abstrakcja nad cloud storage (S3, ADLS, GCS). Komenda `%fs` lub `dbutils.fs` pozwala na operacje na plikach. W Unity Catalog zaleca siƒô u≈ºywanie **Volumes** zamiast DBFS dla lepszego governance.

### Przyk≈Çad 4.3: Mieszanie jƒôzyk√≥w - Python i SQL

**Cel:** Demonstracja p≈Çynnego przechodzenia miƒôdzy Python i SQL

In [0]:
# Python: Definicja danych surowych
data = [
    (1, "Alice", "Engineering", 95000),
    (2, "Bob", "Sales", 75000),
    (3, "Charlie", "Engineering", 105000),
    (4, "Diana", "Marketing", 68000),
    (5, "Eve", "Engineering", 98000)
]

# Definicja schematu
schema = StructType([
    StructField("id", IntegerType(), False),
    StructField("name", StringType(), False),
    StructField("department", StringType(), False),
    StructField("salary", IntegerType(), False)
])

In [0]:
# Utworzenie DataFrame
df = spark.createDataFrame(data, schema)
display(df)

In [0]:
# Rejestracja jako temp view dla dostƒôpu z SQL
df.createOrReplaceTempView("employees_temp")

**Temp view utworzony: employees_temp**

Temp view pozwala na dostƒôp do DataFrame z kom√≥rek SQL w tym samym notebooku.

In [0]:
%sql
-- SQL: Agregacja na danych z Python

SELECT 
  department,
  COUNT(*) as employee_count,
  AVG(salary) as avg_salary,
  MAX(salary) as max_salary
FROM employees_temp
GROUP BY department
ORDER BY avg_salary DESC

**Wyja≈õnienie:**

Ten przyk≈Çad pokazuje si≈Çƒô notebook√≥w Databricks: przygotowanie danych w Python (wygodne API, biblioteki), nastƒôpnie analiza w SQL (deklaratywne zapytania, przejrzysto≈õƒá). Temp views sƒÖ widoczne w ca≈Çym notebooku niezale≈ºnie od jƒôzyka kom√≥rki.

### Przyk≈Çad 4.4: ZarzƒÖdzanie bibliotekami (%pip)

W Databricks mo≈ºemy instalowaƒá biblioteki Python specyficzne dla danego notebooka (notebook-scoped libraries) u≈ºywajƒÖc komendy `%pip`. Jest to zalecane podej≈õcie zamiast instalacji globalnej na klastrze.

In [0]:
# Instalacja biblioteki emoji
%pip install emoji

In [0]:
import emoji
print(emoji.emojize('Databricks is :fire:'))

## Sekcja 4.5: Databricks Assistant (AI)

W roku 2025 praca z kodem jest wspomagana przez AI. Databricks posiada wbudowanego asystenta (**Databricks Assistant**), kt√≥ry jest ≈õwiadomy kontekstu Twoich danych (zna schematy tabel w Unity Catalog!).

**Jak korzystaƒá?**
1. Skr√≥t **Cmd+I** (Mac) lub **Ctrl+I** (Windows) wewnƒÖtrz kom√≥rki.
2. Panel boczny "Assistant".

**Do czego s≈Çu≈ºy?**
- **Generowanie kodu**: "Napisz zapytanie SQL, kt√≥re policzy ≈õredniƒÖ sprzeda≈º po regionach z tabeli sales".
- **Wyja≈õnianie kodu**: Zaznacz skomplikowany fragment i zapytaj "Explain this code".
- **Fixing errors**: Gdy kom√≥rka zwr√≥ci b≈ÇƒÖd, kliknij "Diagnose Error" ‚Äì asystent wyja≈õni przyczynƒô i zaproponuje poprawkƒô.
- **Transformacja**: "Przepisz ten kod z PySpark na SQL".

## Sekcja 5: Unity Catalog vs Hive Metastore

**Wprowadzenie teoretyczne:**

Databricks wspiera dwa systemy metadanych: legacy Hive Metastore oraz nowoczesny Unity Catalog. Unity Catalog jest zalecany dla wszystkich nowych projekt√≥w ze wzglƒôdu na zaawansowane funkcje governance i bezpiecze≈Ñstwa.

**Kluczowe r√≥≈ºnice:**

| Aspekt | Hive Metastore | Unity Catalog |
|--------|----------------|---------------|
| **Governance** | Ograniczone | Pe≈Çne: RBAC, masking, audit |
| **Namespace** | 2-poziomowy (db.table) | 3-poziomowy (catalog.schema.table) |
| **Cross-workspace** | Nie | Tak (shared metastore) |
| **Lineage** | Brak | End-to-end lineage |
| **Data Sharing** | Ograniczone | Delta Sharing protocol |
| **Isolation** | Workspace-level | Catalog-level |

**Dlaczego Unity Catalog?**
- Centralne zarzƒÖdzanie dostƒôpem dla wszystkich workspace'√≥w
- Automatyczny lineage dla audytu i compliance
- Fine-grained permissions (column-level, row-level)
- Integracja z zewnƒôtrznymi systemami (Delta Sharing)

### Przyk≈Çad 5.1: Namespace - Hive vs Unity Catalog

**Cel:** Por√≥wnanie sk≈Çadni dostƒôpu do tabel

**Hive Metastore (legacy)**

- **Sk≈Çadnia**: `database.table`
- **Przyk≈Çad**: `default.sales_data`
- **Ograniczenia**: Brak fine-grained permissions, brak lineage, workspace isolation

**Unity Catalog (nowoczesny)**

- **Sk≈Çadnia**: `catalog.schema.table`
- **Przyk≈Çad**: `prod.gold.sales_summary`

**Zalety 3-poziomowego namespace:**
- Oddzielenie ≈õrodowisk (dev/test/prod catalogs)
- Lepsze uprawnienia (grant na poziomie catalogu)
- Wsp√≥≈Çdzielenie metastore miƒôdzy workspace'ami
- End-to-end lineage
- Fine-grained access control

### Przyk≈Çad 5.2: Tworzenie tabeli w Unity Catalog

**Cel:** Demonstracja pe≈Çnej sk≈Çadni z 3-poziomowym namespace

In [0]:
# Utworzenie przyk≈Çadowej tabeli w Unity Catalog
table_name = f"{CATALOG}.{BRONZE_SCHEMA}.lakehouse_demo"

# Dane demonstracyjne
demo_data = [
    (1, "Unity Catalog", "Enabled", "2024-01-15"),
    (2, "Delta Lake", "Enabled", "2024-01-15"),
    (3, "Photon Engine", "Enabled", "2024-01-15"),
    (4, "Hive Metastore", "Legacy", "2024-01-15")
]

In [0]:
# Definicja schematu
demo_schema = StructType([
    StructField("id", IntegerType(), False),
    StructField("feature", StringType(), False),
    StructField("status", StringType(), False),
    StructField("date", StringType(), False)
])

In [0]:
# Utworzenie DataFrame
demo_df = spark.createDataFrame(demo_data, demo_schema)
display(demo_df)

In [0]:
# Zapis jako Delta Table w Unity Catalog
demo_df.write \
    .format("delta") \
    .mode("overwrite") \
    .option("overwriteSchema", "true") \
    .saveAsTable(table_name)

In [0]:
# Weryfikacja
display(spark.table(table_name))

**Sukces!** Tabela zosta≈Ça utworzona w Unity Catalog. Mo≈ºemy teraz zweryfikowaƒá jej istnienie.

### üéØ Zadanie: Sprawd≈∫ w UI

1. Kliknij **Catalog** w lewym menu bocznym.
2. Znajd≈∫ sw√≥j katalog (nazwa w zmiennej `CATALOG`, np. `ecommerce_platform_...`).
3. Rozwi≈Ñ schemat `bronze` (lub inny zdefiniowany w `BRONZE_SCHEMA`).
4. Kliknij na tabelƒô `lakehouse_demo`.
5. Zobacz zak≈Çadki: **Sample Data** (podglƒÖd) oraz **Lineage** (pochodzenie danych).

**Wyja≈õnienie:**

Tabela zosta≈Ça utworzona z pe≈Çnym 3-poziomowym namespace. W Unity Catalog ka≈ºda tabela automatycznie:
- Jest zarzƒÖdzana przez system governance
- Ma trackowany lineage
- Posiada przypisane uprawnienia na podstawie katalogu i schematu
- Jest dostƒôpna w Catalog Explorer dla eksploracji

**Managed vs External Tables:**
Powy≈ºsza tabela to **Managed Table**. Databricks zarzƒÖdza zar√≥wno metadanymi, jak i plikami danych (w domy≈õlnym storage katalogu/schematu). Usuniƒôcie tabeli (`DROP TABLE`) usuwa r√≥wnie≈º dane.

**External Table** powstaje, gdy podamy `LOCATION 'path'`. Wtedy `DROP TABLE` usuwa tylko metadane, a pliki pozostajƒÖ w storage'u.

### Bonus: Delta Time Travel (Teaser)

Ka≈ºda operacja na tabeli Delta jest rejestrowana w transaction logu. Dziƒôki temu mo≈ºemy ≈õledziƒá historiƒô zmian i cofaƒá siƒô w czasie (Time Travel).

In [0]:
display(spark.sql(f"DESCRIBE HISTORY {CATALOG}.{BRONZE_SCHEMA}.lakehouse_demo"))

In [0]:
%sql
DESCRIBE HISTORY ecommerce_platform_trainer.bronze.lakehouse_demo

### Przyk≈Çad 5.3: Eksploracja metadanych Unity Catalog

**Cel:** Wykorzystanie systemu informacyjnych schemat√≥w Unity Catalog

In [0]:
%sql
-- Unity Catalog udostƒôpnia system.information_schema dla metadanych

-- Lista tabel w naszym schemacie
SELECT 
  table_catalog,
  table_schema,
  table_name,
  table_type
FROM system.information_schema.tables
WHERE table_catalog = 'ecommerce_platform_trainer'
  AND table_schema = 'bronze'
ORDER BY table_name

**Wyja≈õnienie:**

Unity Catalog automatycznie utrzymuje `system.information_schema` - zbi√≥r widok√≥w SQL z metadanymi o wszystkich obiektach. To standardowe podej≈õcie zgodne z ANSI SQL, co u≈Çatwia integracjƒô z narzƒôdziami BI i data governance.

**System Tables:**
Warto wiedzieƒá, ≈ºe Unity Catalog udostƒôpnia r√≥wnie≈º tabele systemowe (wymaga w≈ÇƒÖczenia przez admina):
- `system.billing.usage`: szczeg√≥≈Çowe dane o kosztach (DBU)
- `system.access.audit`: logi audytowe (kto, co, kiedy)

## Por√≥wnanie PySpark vs SQL

**DataFrame API (PySpark):**

In [0]:
# Podej≈õcie PySpark - programatyczne DataFrame API

df_pyspark = spark.table(f"{CATALOG}.{BRONZE_SCHEMA}.lakehouse_demo")

In [0]:
result_pyspark = df_pyspark \
    .filter(F.col("status") == "Enabled") \
    .select("feature", "status", "date") \
    .orderBy("feature")

In [0]:
display(result_pyspark)

**SQL Equivalent:**

In [0]:
print(f"{CATALOG}.{BRONZE_SCHEMA}")

In [0]:
%sql

select * from 
ecommerce_platform_trainer.bronze.lakehouse_demo

### Parametryzacja z Databricks Widgets

Poni≈ºej u≈ºywamy mechanizmu **Widgets**, kt√≥ry pozwala na tworzenie interaktywnych kontrolek w notebooku. Dziƒôki temu mo≈ºemy przekazywaƒá parametry (np. nazwy tabel, daty) do kodu SQL i Python, co u≈Çatwia budowanie uniwersalnych raport√≥w.

In [0]:
# Parametryzacja z Databricks Widgets
# Ustawiamy warto≈õci domy≈õlne na podstawie zmiennych z 00_setup (je≈õli dostƒôpne)
# Dziƒôki temu SQL cells bƒôdƒÖ korzystaƒá z tego samego katalogu co Python cells

default_catalog = CATALOG if 'CATALOG' in locals() else "ecommerce_platform_trainer"
default_schema = BRONZE_SCHEMA if 'BRONZE_SCHEMA' in locals() else "bronze"

dbutils.widgets.text("CATALOG", default_catalog)
dbutils.widgets.text("BRONZE_SCHEMA", default_schema)

In [0]:
%sql

SELECT 
  feature,
  status,
  date
FROM IDENTIFIER(:CATALOG || '.' || :BRONZE_SCHEMA || '.lakehouse_demo')
WHERE status = 'Enabled'
ORDER BY feature

**Por√≥wnanie:**
- **Wydajno≈õƒá**: Identyczna - oba podej≈õcia kompilujƒÖ siƒô do tego samego Catalyst query plan
- **Kiedy u≈ºywaƒá PySpark**: 
  - Z≈Ço≈ºona logika biznesowa z UDF
  - Dynamiczne pipeline'y (parametryzacja, loops)
  - Integracja z bibliotekami Python (pandas, scikit-learn)
- **Kiedy u≈ºywaƒá SQL**: 
  - Proste transformacje i agregacje
  - Zesp√≥≈Ç z silnymi kompetencjami SQL
  - Migracja z tradycyjnych Data Warehouse
  - Lepsze wsparcie dla analityk√≥w biznesowych

## Walidacja i weryfikacja

### Checklist - Co powiniene≈õ zrozumieƒá po tym notebooku:
- [x] Koncepcja Lakehouse i korzy≈õci wzglƒôdem tradycyjnej architektury
- [x] Struktura Workspace: Sidebar, Compute, Catalog Explorer
- [x] Hierarchia Unity Catalog: Metastore ‚Üí Catalog ‚Üí Schema ‚Üí Objects
- [x] Typy klastr√≥w: All-Purpose vs Job, autoscaling, Photon
- [x] Magic commands: %sql, %python, %fs, %run, %md
- [x] R√≥≈ºnice miƒôdzy Hive Metastore (2-level) a Unity Catalog (3-level)
- [x] Tworzenie tabel w Unity Catalog z pe≈Çnym namespace
- [x] Dostƒôp do metadanych przez system.information_schema

## Troubleshooting

### Problem 1: "Catalog not found" lub "Schema not found"
**Objawy:**
- B≈ÇƒÖd: `AnalysisException: [SCHEMA_NOT_FOUND]`
- B≈ÇƒÖd: `AnalysisException: [CATALOG_NOT_FOUND]`

**RozwiƒÖzanie:**
```python
# Sprawd≈∫ dostƒôpne katalogi
spark.sql("SHOW CATALOGS").show()

# Sprawd≈∫ dostƒôpne schematy
spark.sql(f"SHOW SCHEMAS IN {CATALOG}").show()

# Upewnij siƒô, ≈ºe uruchomi≈Çe≈õ %run ./00_setup
```

### Problem 2: "Permission denied" przy tworzeniu tabel
**Objawy:**
- B≈ÇƒÖd: `PERMISSION_DENIED: User does not have CREATE TABLE on Schema`

**RozwiƒÖzanie:**
- Skontaktuj siƒô z administratorem workspace o nadanie uprawnie≈Ñ `CREATE TABLE`
- Sprawd≈∫ uprawnienia: `SHOW GRANTS ON SCHEMA catalog.schema`

### Problem 3: Klaster nie startuje lub jest zbyt wolny
**Objawy:**
- Klaster w stanie "Pending" przez d≈Çugi czas
- Timeout przy starcie

**RozwiƒÖzanie:**
- Sprawd≈∫ quota instancji w chmurze (Azure/AWS/GCP)
- Zmniejsz liczbƒô worker√≥w lub wybierz mniejszy node type
- Wy≈ÇƒÖcz autoscaling dla test√≥w

### Problem 4: Magic command %sql nie dzia≈Ça
**Objawy:**
- B≈ÇƒÖd sk≈Çadni lub brak wynik√≥w

**RozwiƒÖzanie:**
- Upewnij siƒô, ≈ºe `%sql` jest pierwszym elementem w kom√≥rce
- Sprawd≈∫ czy u≈ºywasz zmiennych: `${CATALOG}` zamiast `{CATALOG}`
- Dla zmiennych Python u≈ºyj: `spark.sql(f"SELECT ... FROM {CATALOG}.{SCHEMA}.table")`

### Debugging tips:
- U≈ºyj `explain()` na DataFrame aby zobaczyƒá plan wykonania
- Sprawd≈∫ logi klastra w Spark UI (zak≈Çadka "Cluster" ‚Üí "Spark UI")
- Weryfikuj typy danych: `df.printSchema()`
- Dla problem√≥w z wydajno≈õciƒÖ sprawd≈∫ liczbƒô partycji: `df.rdd.getNumPartitions()`

## Best Practices

### Architektura Lakehouse:
- U≈ºywaj Unity Catalog zamiast Hive Metastore dla nowych projekt√≥w
- Organizuj dane w logiczne katalogi (np. dev/test/prod)
- Stosuj naming convention dla schemat√≥w: bronze/silver/gold
- Wykorzystuj Delta Lake jako domy≈õlny format tabel

### ZarzƒÖdzanie Workspace:
- Organizuj notebooki w folderach wed≈Çug projekt√≥w lub zespo≈Ç√≥w
- U≈ºywaj Git Folders (Repos) dla integracji z Git i wersjonowania
- Dokumentuj notebooki z Markdown cells
- Stosuj `%run` dla wsp√≥≈Çdzielenia kodu miƒôdzy notebookami

### Konfiguracja Klastr√≥w:
- Development: ma≈Çe klastry (2-4 workers), bez spot instances
- Production: autoscaling, spot instances dla oszczƒôdno≈õci
- W≈ÇƒÖcz Photon Engine dla zapyta≈Ñ SQL/DataFrame
- Ustaw auto-termination (np. 30 min nieaktywno≈õci) dla klastr√≥w All-Purpose
- Dla Jobs u≈ºywaj Job Clusters (efemeryczne, optymalne koszty)

### Governance i Security:
- Stosuj per-user lub per-team izolacjƒô katalog√≥w
- U≈ºywaj 3-poziomowego namespace: catalog.schema.table
- Przydzielaj uprawnienia na poziomie schematu, nie tabeli
- Monitoruj dostƒôp przez system.access.audit
- W≈ÇƒÖcz lineage dla compliance i debugowania

### Wydajno≈õƒá:
- Preferuj Delta Lake zamiast Parquet/CSV dla czƒôstych zapyta≈Ñ
- Partycjonuj du≈ºe tabele wed≈Çug kluczy czasowych lub geograficznych
- U≈ºywaj Z-ORDER dla kolumn u≈ºywanych w WHERE clauses
- Regularnie uruchamiaj OPTIMIZE i VACUUM na tabelach Delta

## Podsumowanie

### Co zosta≈Ço osiƒÖgniƒôte:
- Poznanie koncepcji Lakehouse jako ewolucji Data Lake + Data Warehouse
- Eksploracja element√≥w platformy Databricks: Workspace, Compute, Catalog
- Zrozumienie hierarchii Unity Catalog: Metastore ‚Üí Catalog ‚Üí Schema ‚Üí Objects
- Praktyka z magic commands: %sql, %python, %fs, %pip
- Por√≥wnanie Hive Metastore vs Unity Catalog
- Utworzenie pierwszej tabeli Delta w Unity Catalog z 3-poziomowym namespace

### Kluczowe wnioski:
1. **Lakehouse eliminuje duplikacjƒô danych**: Jedna kopia s≈Çu≈ºy BI, ML i real-time analytics
2. **Unity Catalog to fundament governance**: 3-poziomowy namespace, fine-grained permissions, automatyczny lineage
3. **Klastry sƒÖ elastyczne**: Autoscaling i spot instances redukujƒÖ koszty, Photon przyspiesza zapytania
4. **Notebooki sƒÖ potƒô≈ºne**: Mieszanie SQL/Python, magic commands, integracja z Git przez Git Folders
5. **Delta Lake jest domy≈õlnym formatem**: ACID transactions, time travel, schema evolution

### Quick Reference - Najwa≈ºniejsze komendy:

| Operacja | PySpark | SQL |
|----------|---------|-----|
| Ustaw katalog | `spark.sql(f"USE CATALOG {CATALOG}")` | `USE CATALOG my_catalog` |
| Lista katalog√≥w | `spark.sql("SHOW CATALOGS")` | `SHOW CATALOGS` |
| Lista schemat√≥w | `spark.sql("SHOW SCHEMAS")` | `SHOW SCHEMAS` |
| Utworzenie tabeli | `df.write.saveAsTable("cat.schema.table")` | `CREATE TABLE cat.schema.table AS SELECT ...` |
| Odczyt tabeli | `spark.table("cat.schema.table")` | `SELECT * FROM cat.schema.table` |
| Metadane | - | `SELECT * FROM system.information_schema.tables` |
| Instalacja lib | `%pip install package` | - |

### Nastƒôpne kroki:
- **Kolejny notebook**: `02_data_import_exploration.ipynb` - Wczytywanie danych z r√≥≈ºnych format√≥w (CSV, JSON, Parquet, Delta)
- **Warsztat praktyczny**: Po zako≈Ñczeniu dema (notebooki 01-05) przejdziemy do `01_workspace_data_exploration_workshop.ipynb`
- **Materia≈Çy dodatkowe**: 
  - [Databricks Lakehouse Fundamentals](https://www.databricks.com/learn/lakehouse)
  - [Unity Catalog Documentation](https://docs.databricks.com/data-governance/unity-catalog/index.html)
  - [Delta Lake Guide](https://docs.delta.io/latest/index.html)