# Optymalizacja i najlepsze praktyki

**Cel szkoleniowy:** Opanowanie technik optymalizacji performance'u zapyta≈Ñ i tabel Delta w Databricks.

**Zakres tematyczny:**
- Optymalizacja zapyta≈Ñ: predicate pushdown, file pruning, column pruning
- Analiza planu fizycznego (explain())
- Optymalizacja tabel: partitioning, small files problem
- Auto optimize / auto compaction
- Dob√≥r rozmiaru plik√≥w i strategii ZORDER
- Liquid Clustering - nowoczesna alternatywa dla partycjonowania

## Kontekst i wymagania

- **Dzie≈Ñ szkolenia**: Dzie≈Ñ 2 - Delta Lake & Lakehouse
- **Typ notebooka**: Demo
- **Wymagania techniczne**:
  - Databricks Runtime 16.4 LTS lub nowszy (zalecane: 17.3 LTS)
  - Unity Catalog w≈ÇƒÖczony
  - Uprawnienia: CREATE TABLE, CREATE SCHEMA, SELECT, MODIFY
  - Klaster: Standard z minimum 2 workers lub **Serverless Compute** (zalecane)
- **Zale≈ºno≈õci**: Wykonany notebook `01_delta_lake_operations.ipynb`
- **Czas realizacji**: ~45 minut

> **Uwaga (2025):** Serverless Compute jest teraz domy≈õlnym trybem dla nowych workload√≥w.

## Wstƒôp teoretyczny

**Cel sekcji:** Zrozumienie kluczowych mechanizm√≥w optymalizacji w Databricks i Delta Lake.

**Typy optymalizacji:**

**1. Optymalizacja zapyta≈Ñ (Query Optimization):**
- **Predicate Pushdown**: Przeniesienie filtr√≥w jak najni≈ºej w planie wykonania
- **Column Pruning**: Odczyt tylko wymaganych kolumn (kolumnowy format Parquet)
- **File Pruning**: Ominiƒôcie plik√≥w nieistotnych dla zapytania
- **Join Optimization**: Broadcast joins, bucket joins, sortmerge joins

**2. Optymalizacja tabel (Table Optimization):**
- **Partitioning**: Fizyczne rozdzielenie danych wed≈Çug kluczy
- **Z-Ordering**: Klasterowanie danych w plikach wed≈Çug wybranych kolumn
- **Compaction (OPTIMIZE)**: ≈ÅƒÖczenie ma≈Çych plik√≥w w wiƒôksze
- **Auto Compaction**: Automatyczne ≈ÇƒÖczenie podczas zapisu

**3. Small Files Problem:**
Problem wydajno≈õci wywo≈Çany przez zbyt wiele ma≈Çych plik√≥w w tabeli. Spark preferuje pliki 128MB-1GB dla optymalnej wydajno≈õci.

## Izolacja per u≈ºytkownik

Uruchom skrypt inicjalizacyjny dla per-user izolacji katalog√≥w i schemat√≥w:

In [0]:
%run ../00_setup

## Konfiguracja

Import bibliotek i ustawienie zmiennych ≈õrodowiskowych:

In [0]:
from pyspark.sql import functions as F
from pyspark.sql.functions import col, lit, count, avg, sum, max, min
from pyspark.sql.types import *
import time

# Ustaw katalog i schemat jako domy≈õlne
spark.sql(f"USE CATALOG {CATALOG}")
spark.sql(f"USE SCHEMA {BRONZE_SCHEMA}")

**Kontekst u≈ºytkownika:**

In [None]:
display(
    spark.createDataFrame([
        ("CATALOG", CATALOG),
        ("BRONZE_SCHEMA", BRONZE_SCHEMA),
        ("SILVER_SCHEMA", SILVER_SCHEMA),
        ("GOLD_SCHEMA", GOLD_SCHEMA),
        ("USER", raw_user)
    ], ["Variable", "Value"])
)

## Sekcja 0: Przygotowanie danych

Ten notebook jest **w pe≈Çni niezale≈ºny** - sam ≈Çaduje dane ≈∫r√≥d≈Çowe i tworzy tabele potrzebne do demo optymalizacji.

In [None]:
# ≈öcie≈ºki do danych ≈∫r√≥d≈Çowych
CUSTOMERS_CSV = f"{DATASET_BASE_PATH}/customers/customers.csv"
ORDERS_JSON = f"{DATASET_BASE_PATH}/orders/orders_batch.json"
PRODUCTS_PARQUET = f"{DATASET_BASE_PATH}/products/products.parquet"

# Nazwy tabel (unikalne dla tego notebooka)
ORDERS_OPT = f"{BRONZE_SCHEMA}.orders_optimization"
CUSTOMERS_OPT = f"{BRONZE_SCHEMA}.customers_optimization"

**Wczytanie danych ≈∫r√≥d≈Çowych:**

In [None]:
# Wczytaj customers
customers_df = spark.read \
    .option("header", "true") \
    .option("inferSchema", "true") \
    .csv(CUSTOMERS_CSV)

# Wczytaj orders
orders_df = spark.read.json(ORDERS_JSON)

# Dodaj kolumnƒô order_date (data bez czasu) dla partycjonowania
orders_df = orders_df.withColumn(
    "order_date", 
    F.to_date(F.col("order_datetime"))
)

print(f"‚úì Customers: {customers_df.count()} rekord√≥w")
print(f"‚úì Orders: {orders_df.count()} rekord√≥w")

**Zapisz jako tabele Delta do optymalizacji:**

In [None]:
# Zapisz jako tabele Delta
customers_df.write \
    .format("delta") \
    .mode("overwrite") \
    .saveAsTable(CUSTOMERS_OPT)

orders_df.write \
    .format("delta") \
    .mode("overwrite") \
    .saveAsTable(ORDERS_OPT)

display(spark.createDataFrame([
    ("CUSTOMERS_OPT", CUSTOMERS_OPT, str(customers_df.count())),
    ("ORDERS_OPT", ORDERS_OPT, str(orders_df.count()))
], ["Tabela", "Full Name", "Rekordy"]))

## Sekcja 1: Analiza planu fizycznego (explain())

**Cel sekcji:** Naucz siƒô analizowaƒá plany wykonania zapyta≈Ñ, aby zidentyfikowaƒá bottlenecki wydajno≈õciowe.

**Teoria:**
Plan fizyczny to szczeg√≥≈Çowa mapa tego, jak Spark wykonuje zapytanie:
- **Stages**: Logiczne etapy przetwarzania
- **Tasks**: Jednostki pracy wykonywane na partycjach
- **Shuffles**: Wymiana danych miƒôdzy executor'ami
- **Pushdowns**: Optymalizacje przeniesione do ≈∫r√≥d≈Ça danych

**Rodzaje explain():**
- `explain()` - podstawowy plan
- `explain(True)` - pe≈Çny plan z detalami
- `explain('extended')` - rozszerzony plan
- `explain('cost')` - plan z kosztem

### Przyk≈Çad 1.1: Analiza planu prostego zapytania

In [0]:
# Przyk≈Çad 1.1 - Analiza planu prostego zapytania

simple_query = spark.sql(f"""
    SELECT customer_id, first_name, last_name, customer_segment, city
    FROM {CUSTOMERS_OPT}
    WHERE customer_segment = 'Premium'
    ORDER BY customer_id DESC
    LIMIT 10
""")

**Podstawowy plan zapytania:**

In [None]:
simple_query.explain()

**Rozszerzony plan zapytania (z detalami):**

In [None]:
simple_query.explain(True)

### Przyk≈Çad 1.2: Predicate Pushdown w praktyce

**Teoria:** Predicate pushdown to optymalizacja, gdzie filtry (warunki WHERE) sƒÖ "przepychane" jak najni≈ºej w planie wykonania, najlepiej do poziomu czytania plik√≥w. Dziƒôki temu czytamy tylko dane, kt√≥re spe≈ÇniajƒÖ warunki.

In [0]:
# Przyk≈Çad 1.2 - Predicate Pushdown

filtered_query = spark.sql(f"""
    SELECT order_id, customer_id, total_amount, order_date
    FROM {ORDERS_OPT}
    WHERE total_amount > 100 
    AND order_date >= '2024-01-01'
""")

**Sprawd≈∫ plan - poszukaj "PushedFilters" w planie:**

In [None]:
# Sprawd≈∫ plan - poszukaj "PushedFilters" w planie
filtered_query.explain(True)

**üí° W planie szukaj:**
- `PushedFilters` - filtry przepchniƒôte do poziomu czytania
- `ReadSchema` - tylko wybrane kolumny (column pruning)  
- `PartitionFilters` - filtry na partycjach

## Sekcja 2: Strategia partycjonowania

**Cel sekcji:** Nauka wyboru optymalnych kluczy partycjonowania dla najlepszej wydajno≈õci.

**Teoria partycjonowania:**
- **Partitioning**: Fizyczne rozdzielenie tabeli na katalogi wed≈Çug warto≈õci kolumn
- **Partition Pruning**: Spark pomija ca≈Çe partycje, kt√≥re nie sƒÖ potrzebne dla zapytania
- **Idealne partycje**: 1-10GB danych na partycjƒô, nie wiƒôcej ni≈º 10,000 partycji

**Najlepsze praktyki:**
- Partycjonuj wed≈Çug kolumn czƒôsto u≈ºywanych w filtrach
- Unikaj partycjonowania wed≈Çug kolumn o wysokiej kardinalno≈õci
- Preferuj kolumny z naturalnƒÖ hierarchiƒÖ czasowƒÖ (rok/miesiƒÖc/dzie≈Ñ)
- Unikaj zbyt wielu ma≈Çych partycji (small files problem)

### Przyk≈Çad 2.1: Tworzenie tabeli partycjonowanej

In [0]:
# Przyk≈Çad 2.1 - Tworzenie tabeli partycjonowanej

# Utw√≥rz tabelƒô partycjonowanƒÖ wed≈Çug roku i miesiƒÖca
ORDERS_PARTITIONED = f"{BRONZE_SCHEMA}.orders_opt_partitioned"

# Dodaj kolumny do partycjonowania
orders_with_partitions = spark.sql(f"""
    SELECT 
        *,
        YEAR(order_date) as year,
        MONTH(order_date) as month
    FROM {ORDERS_OPT}
""")

**Zapisz jako tabelƒô partycjonowanƒÖ:**

In [None]:
orders_with_partitions.write \
    .format("delta") \
    .mode("overwrite") \
    .partitionBy("year", "month") \
    .saveAsTable(ORDERS_PARTITIONED)

**Sprawd≈∫ strukturƒô partycji:**

In [None]:
display(
    spark.sql(f"DESCRIBE DETAIL {ORDERS_PARTITIONED}")
    .select("name", "location", "partitionColumns")
)

### Przyk≈Çad 2.2: Partition Pruning w dzia≈Çaniu

In [0]:
# Przyk≈Çad 2.2 - Partition Pruning

# Zapytanie kt√≥ry wykorzystuje partycje (rok/miesiƒÖc)
efficient_query = spark.sql(f"""
    SELECT order_id, customer_id, total_amount, order_date
    FROM {ORDERS_PARTITIONED}
    WHERE year = 2024 AND month = 1
""")

**Sprawd≈∫ plan - partition pruning w dzia≈Çaniu:**

In [None]:
# Sprawd≈∫ plan - poszukaj "PartitionFilters"
efficient_query.explain(True)

**Por√≥wnanie: zapytanie BEZ partition pruning:**

In [None]:
# Zapytanie kt√≥re nie wykorzystuje partycji (nie filtruje po roku/miesiƒÖcu)
inefficient_query = spark.sql(f"""
    SELECT order_id, customer_id, total_amount, order_date
    FROM {ORDERS_PARTITIONED}
    WHERE customer_id = 1
""")

inefficient_query.explain(True)

## Sekcja 3: Small Files Problem

**Cel sekcji:** Zrozumienie i rozwiƒÖzanie problemu ma≈Çych plik√≥w w Delta Lake.

**Co to jest Small Files Problem?**
- Gdy tabela ma zbyt wiele ma≈Çych plik√≥w (< 128MB ka≈ºdy)
- Spark preferuje pliki 128MB-1GB dla optymalnej wydajno≈õci
- Ma≈Çe pliki powodujƒÖ overhead w metadanych i zmniejszajƒÖ throughput

**Przyczyny ma≈Çych plik√≥w:**
- Czƒôste zapisy INSERT w ma≈Çych batch'ach
- Wysokie partycjonowanie z ma≈ÇƒÖ ilo≈õciƒÖ danych na partycjƒô
- Streaming z kr√≥tkimi trigger intervals

**RozwiƒÖzania:**
- **OPTIMIZE** - ≈ÇƒÖczy ma≈Çe pliki w wiƒôksze
- **Auto Compaction** - automatyczne ≈ÇƒÖczenie podczas zapisu
- **Repartition** przed zapisem
- **Coalesce** dla zmniejszenia liczby partycji

### Przyk≈Çad 3.1: Symulacja Small Files Problem

In [0]:
# Przyk≈Çad 3.1 - Symulacja Small Files Problem

SMALL_FILES_TABLE = f"{BRONZE_SCHEMA}.small_files_demo"

**Symuluj wiele ma≈Çych zapis√≥w (ka≈ºdy tworzy osobny plik):**

In [None]:
for i in range(5):
    small_batch = spark.range(i*100, (i+1)*100).select(
        col("id"),
        (col("id") * 2).alias("value"),
        lit(f"batch_{i}").alias("batch_name")
    )
    
    small_batch.write \
        .format("delta") \
        .mode("append") \
        .saveAsTable(SMALL_FILES_TABLE)

**Sprawd≈∫ liczbƒô plik√≥w:**

In [None]:
detail = spark.sql(f"DESCRIBE DETAIL {SMALL_FILES_TABLE}").collect()[0]

display(
    spark.createDataFrame([
        ("Liczba plik√≥w", str(detail['numFiles'])),
        ("Rozmiar tabeli", f"{detail['sizeInBytes']} bytes"),
        ("≈öredni rozmiar pliku", f"{detail['sizeInBytes'] / detail['numFiles']:.0f} bytes"),
        ("Status", "‚ö†Ô∏è Problem: zbyt wiele ma≈Çych plik√≥w!")
    ], ["Metric", "Value"])
)

### Przyk≈Çad 3.2: RozwiƒÖzanie - OPTIMIZE i Auto Compaction

In [0]:
# Przyk≈Çad 3.2 - RozwiƒÖzanie Small Files Problem

# Wykonaj OPTIMIZE na tabeli z ma≈Çymi plikami
spark.sql(f"OPTIMIZE {SMALL_FILES_TABLE}")

**Sprawd≈∫ stan po OPTIMIZE:**

In [None]:
detail_after = spark.sql(f"DESCRIBE DETAIL {SMALL_FILES_TABLE}").collect()[0]

display(
    spark.createDataFrame([
        ("Liczba plik√≥w (PO OPTIMIZE)", str(detail_after['numFiles'])),
        ("Rozmiar tabeli", f"{detail_after['sizeInBytes']} bytes"),
        ("≈öredni rozmiar pliku", f"{detail_after['sizeInBytes'] / detail_after['numFiles']:.0f} bytes")
    ], ["Metric", "Value"])
)

**W≈ÇƒÖcz Auto Compaction dla przysz≈Çych zapis√≥w:**

In [None]:
spark.sql(f"""
    ALTER TABLE {SMALL_FILES_TABLE}
    SET TBLPROPERTIES (
        'delta.autoOptimize.optimizeWrite' = 'true',
        'delta.autoOptimize.autoCompact' = 'true'
    )
""")

**Sprawd≈∫ w≈ÇƒÖczone w≈Ça≈õciwo≈õci Auto Compaction:**

In [None]:
properties = spark.sql(f"SHOW TBLPROPERTIES {SMALL_FILES_TABLE}").collect()
auto_props = [(p['key'], p['value']) for p in properties if 'autoOptimize' in p['key']]

display(spark.createDataFrame(auto_props, ["Property", "Value"]))

### Przyk≈Çad 3.3: VACUUM - Usuwanie starych plik√≥w

**Teoria:**
VACUUM usuwa stare pliki, kt√≥re nie sƒÖ ju≈º potrzebne (po operacjach DELETE, UPDATE, MERGE, OPTIMIZE). 
Domy≈õlnie Delta Lake zachowuje pliki przez 7 dni (168 godzin) dla Time Travel.

**‚ö†Ô∏è Uwaga:** Po VACUUM nie mo≈ºna u≈ºywaƒá Time Travel do wersji wcze≈õniejszych ni≈º retention period!

In [None]:
# Sprawd≈∫ ile plik√≥w mo≈ºna usunƒÖƒá (DRY RUN)
spark.sql(f"VACUUM {SMALL_FILES_TABLE} DRY RUN")

**Wykonaj VACUUM (usu≈Ñ stare pliki):**

> **Uwaga:** W produkcji u≈ºywaj domy≈õlnego retention (7 dni). Poni≈ºszy kod z `RETAIN 0 HOURS` jest tylko do demo!

In [None]:
# Wykonaj VACUUM - usu≈Ñ stare pliki
# W ≈õrodowisku demo wy≈ÇƒÖczamy sprawdzenie retention
spark.conf.set("spark.databricks.delta.retentionDurationCheck.enabled", "false")

# VACUUM z kr√≥tkim retention (TYLKO DO DEMO!)
spark.sql("""
    VACUUM orders_opt RETAIN 1 HOURS
""")

# Przywr√≥ƒá domy≈õlne ustawienie
spark.conf.set("spark.databricks.delta.retentionDurationCheck.enabled", "true")

print("‚úÖ VACUUM wykonany - stare pliki usuniƒôte")

## Sekcja 4: ZORDER BY - Advanced Clustering

**Cel sekcji:** Nauka wykorzystania ZORDER BY do optymalizacji zapyta≈Ñ z filtrami i joinami.

**Co to jest ZORDER BY?**
- Multi-dimensional clustering algorithm w Delta Lake
- Organizuje dane w plikach wed≈Çug warto≈õci wybranych kolumn
- Poprawia data skipping - pomijanie niepotrzebnych plik√≥w podczas czytania
- Szczeg√≥lnie skuteczny dla kolumn czƒôsto u≈ºywanych w filtrach WHERE i JOIN

**Kiedy u≈ºywaƒá ZORDER:**
- Kolumny czƒôsto filtrowane w zapytaniach
- Kolumny u≈ºywane w JOIN operations
- High-cardinality columns (wiele unikalnych warto≈õci)
- Maksymalnie 3-4 kolumny (wiƒôcej = diminishing returns)

**ZORDER vs Partitioning:**
- Partitioning: fizyczne rozdzielenie na katalogi
- ZORDER: logiczne uporzƒÖdkowanie w plikach (zachowuje pojedynczƒÖ strukturƒô folder√≥w)

### Przyk≈Çad 4.1: ZORDER BY dla czƒôsto filtrowanych kolumn

In [0]:
# Wykonaj ZORDER BY na najczƒô≈õciej filtrowanych kolumnach
spark.sql(f"""
    OPTIMIZE {ORDERS_OPT}
    ZORDER BY (customer_id, order_date)
""")

### Przyk≈Çad 4.2: Pomiar skuteczno≈õci ZORDER - Data Skipping

In [0]:
# Przyk≈Çad 4.2 - Pomiar skuteczno≈õci ZORDER

import time

# Zapytanie wykorzystujƒÖce kolumny z ZORDER
# customer_id to STRING (np. CUST000123), order_date to DATE
test_query = spark.sql(f"""
    SELECT COUNT(*) as cnt, AVG(total_amount) as avg_amount
    FROM {ORDERS_OPT}
    WHERE customer_id BETWEEN 'CUST000100' AND 'CUST000500'
    AND order_date >= '2024-06-01'
""")

**Pomiar czasu wykonania:**

In [None]:
start_time = time.time()
result = test_query.collect()
elapsed = time.time() - start_time

display(
    spark.createDataFrame([
        ("Wynik", str(result[0])),
        ("Czas wykonania", f"{elapsed:.2f}s")
    ], ["Metric", "Value"])
)

**Plan zapytania - sprawd≈∫ data skipping:**

In [None]:
# Sprawd≈∫ plan zapytania - data skipping
test_query.explain(True)

**üí° W planie szukaj:**
- `numFilesTotal` vs `numFilesSelected` - ile plik√≥w pominiƒôto
- `metadata time` - czas parsowania metadanych
- `files pruned` - data skipping statistics

## Sekcja 5: Liquid Clustering - Przysz≈Ço≈õƒá optymalizacji

**Cel sekcji:** Poznanie Liquid Clustering - nowoczesnej techniki zastƒôpujƒÖcej Hive Partitioning i ZORDER.

**Co to jest Liquid Clustering?**
To elastyczny mechanizm uk≈Çadania danych, kt√≥ry:
- Nie wymaga sztywnej struktury katalog√≥w (jak Partitioning)
- Pozwala na zmianƒô kluczy klastrowania bez przepisywania ca≈Çej tabeli
- Eliminuje problem "Small Files" zwiƒÖzany z nadmiernym partycjonowaniem
- Dzia≈Ça inkrementalnie (nie trzeba optymalizowaƒá ca≈Çej tabeli na raz)

**Kiedy u≈ºywaƒá?**
- Zamiast partycjonowania dla wiƒôkszo≈õci nowych tabel
- Gdy klucze partycjonowania majƒÖ wysokƒÖ kardynalno≈õƒá
- Gdy wzorce zapyta≈Ñ zmieniajƒÖ siƒô w czasie

In [None]:
LIQUID_TABLE = f"{BRONZE_SCHEMA}.orders_opt_liquid"

# Tworzymy tabelƒô u≈ºywajƒÖc CLUSTER BY zamiast PARTITIONED BY
spark.sql(f"""
CREATE OR REPLACE TABLE {LIQUID_TABLE}
CLUSTER BY (customer_id, order_date)
AS SELECT * FROM {ORDERS_OPT}
""")

**Sprawd≈∫ w≈Ça≈õciwo≈õci tabeli:**

In [None]:
# Sprawd≈∫ w≈Ça≈õciwo≈õci tabeli
display(spark.sql(f"DESCRIBE DETAIL {LIQUID_TABLE}").select("name", "clusteringColumns"))

### Przyk≈Çad 5.2: Inkrementalna optymalizacja

**Teoria:**
W przeciwie≈Ñstwie do ZORDER, kt√≥ry musi przeliczyƒá ca≈ÇƒÖ partycjƒô/tabelƒô, Liquid Clustering dzia≈Ça inkrementalnie. `OPTIMIZE` uporzƒÖdkuje tylko te dane, kt√≥re tego wymagajƒÖ (np. nowo dodane), co oszczƒôdza czas i zasoby.

In [None]:
# Uruchom OPTIMIZE - Liquid Clustering wie jak uk≈Çadaƒá dane na podstawie definicji tabeli
spark.sql(f"OPTIMIZE {LIQUID_TABLE}")

**Sprawd≈∫ historiƒô, aby zobaczyƒá operacjƒô CLUSTERING:**

In [None]:
display(
    spark.sql(f"DESCRIBE HISTORY {LIQUID_TABLE}")
    .select("version", "operation", "operationParameters")
    .limit(5)
)

### Por√≥wnanie: Liquid Clustering vs Partitioning + ZORDER

| Cecha | Partitioning + ZORDER | Liquid Clustering |
|-------|-----------------------|-------------------|
| **Konfiguracja** | Wymaga starannego doboru kolumn partycjonowania | Elastyczne `CLUSTER BY` |
| **Small Files** | Ryzyko przy nadmiernym partycjonowaniu | Automatycznie zarzƒÖdzane |
| **Zmiana klucza** | Trudna (wymaga przepisania tabeli) | ≈Åatwa (`ALTER TABLE CLUSTER BY`) |
| **Optymalizacja** | `OPTIMIZE ZORDER BY` (kosztowne) | `OPTIMIZE` (inkrementalne) |
| **Skew Data** | Podatne na data skew | Odporne na data skew |

**Rekomendacja:** U≈ºywaj Liquid Clustering dla wszystkich nowych tabel w Databricks Runtime 13.3+, chyba ≈ºe masz specyficzny pow√≥d, by u≈ºywaƒá partycjonowania (np. kompatybilno≈õƒá ze starszymi czytnikami).

## Best Practices - Przewodnik optymalizacji

### üéØ Strategia optymalizacji (w kolejno≈õci priorytet√≥w):

**1. Analiza workload:**
- Zidentyfikuj najczƒô≈õciej wykonywane zapytania
- Znajd≈∫ kolumny najczƒô≈õciej u≈ºywane w filtrach WHERE
- Sprawd≈∫ kt√≥re zapytania zajmujƒÖ najwiƒôcej czasu

**2. Optymalizacja zapyta≈Ñ:**
- U≈ºywaj filtr√≥w WHERE jak najwcze≈õniej w zapytaniu
- Wybieraj tylko potrzebne kolumny (SELECT specific columns, nie *)
- Preferuj JOIN na zindeksowanych kolumnach
- U≈ºywaj LIMIT gdy mo≈ºliwe

**3. Optymalizacja tabel:**
- **Partitioning**: Tylko dla du≈ºych tabel (>1TB) i czƒôsto filtrowanych kolumn
- **ZORDER BY**: Dla 2-4 najczƒô≈õciej filtrowanych kolumn
- **OPTIMIZE**: Regularnie (np. daily) dla aktywnych tabel
- **Auto Compaction**: W≈ÇƒÖcz dla tabel z czƒôstymi zapisami

**4. Monitoring i maintenance:**
- Regularnie sprawdzaj `DESCRIBE DETAIL` - liczba plik√≥w, rozmiar
- Uruchamiaj `VACUUM` co najmniej raz w tygodniu
- Monitoruj Spark UI dla d≈Çugo dzia≈ÇajƒÖcych zapyta≈Ñ
- U≈ºywaj `explain()` do analizy problemowych zapyta≈Ñ

## Troubleshooting - Diagnoza problem√≥w wydajno≈õciowych

### üîç Najczƒôstsze problemy i rozwiƒÖzania:

**Problem 1: Zapytanie dzia≈Ça bardzo wolno**
```python
# Diagnoza:
df.explain(True)  # Sprawd≈∫ plan wykonania
```
**Mo≈ºliwe przyczyny:**
- Brak filtr√≥w - czyta ca≈ÇƒÖ tabelƒô
- Shuffle operations - du≈ºo ruchu sieciowego  
- Skewed data - nier√≥wnomierne roz≈Ço≈ºenie danych
- Small files - zbyt wiele ma≈Çych plik√≥w

**Problem 2: "OutOfMemoryError" podczas JOIN**
**RozwiƒÖzanie:**
```python
# Zwiƒôksz partycje przed JOIN
df1 = df1.repartition(200, "join_key")
df2 = df2.repartition(200, "join_key")

# Lub u≈ºyj broadcast join dla ma≈Çych tabel
from pyspark.sql.functions import broadcast
result = large_df.join(broadcast(small_df), "key")
```

**Problem 3: D≈Çugie czasy zapisu do Delta**
**RozwiƒÖzanie:**
- W≈ÇƒÖcz Auto Compaction
- U≈ºyj `coalesce()` przed zapisem
- Avoid zbyt wysokie partycjonowanie

**Problem 4: OPTIMIZE nie poprawia wydajno≈õci**
**Przyczyna:** ZORDER BY jest potrzebny dla specific query patterns
```python
# Zamiast samego OPTIMIZE:
OPTIMIZE table_name

# U≈ºyj OPTIMIZE z ZORDER:
OPTIMIZE table_name ZORDER BY (frequently_filtered_columns)
```

## Podsumowanie

### Co osiƒÖgnƒôli≈õmy:

- **Analiza wydajno≈õci**: Czytanie i interpretacja plan√≥w fizycznych z `explain()`
- **Predicate Pushdown**: Identyfikacja bottleneck√≥w i pushed filters
- **Partycjonowanie**: Strategia partycjonowania wed≈Çug czƒôsto filtrowanych kolumn
- **ZORDER BY**: Multi-dimensional clustering dla 2-4 kolumn
- **Small Files Problem**: RozwiƒÖzywanie przez OPTIMIZE i Auto Compaction
- **Liquid Clustering**: Nowoczesna alternatywa dla partycjonowania

### Kluczowe wnioski:

| # | Zasada |
|---|--------|
| 1 | **Analiza przed optymalizacjƒÖ** - zawsze najpierw `explain()` |
| 2 | **Partitioning ‚â† ZORDER** - r√≥≈ºne techniki dla r√≥≈ºnych przypadk√≥w |
| 3 | **Small files = performance killer** - regularne OPTIMIZE |
| 4 | **ZORDER BY** - maksymalnie 3-4 kolumny, wybieraj najczƒô≈õciej filtrowane |
| 5 | **Liquid Clustering** - preferuj dla nowych tabel w DBR 13.3+ |

### Metryki do monitorowania:

| Metryka | Dobra warto≈õƒá | Akcja je≈õli przekroczona |
|---------|---------------|--------------------------|
| Liczba plik√≥w | < 1000/TB | OPTIMIZE |
| ≈öredni rozmiar pliku | 128MB-1GB | OPTIMIZE + Auto Compaction |
| Skipped files ratio | >80% | ZORDER BY |

### Nastƒôpne kroki:

üìö **Kolejny dzie≈Ñ:** DZIEN_3 - Transformacje i Governance

## Cleanup

Opcjonalnie usu≈Ñ tabele demo utworzone podczas ƒáwicze≈Ñ:

In [0]:
# Cleanup - usu≈Ñ tabele demo utworzone w tym notebooku

# Odkomentuj poni≈ºsze linie aby usunƒÖƒá tabele demo:

# spark.sql(f"DROP TABLE IF EXISTS {ORDERS_OPT}")
# spark.sql(f"DROP TABLE IF EXISTS {CUSTOMERS_OPT}")
# spark.sql(f"DROP TABLE IF EXISTS {ORDERS_PARTITIONED}")
# spark.sql(f"DROP TABLE IF EXISTS {SMALL_FILES_TABLE}")
# spark.sql(f"DROP TABLE IF EXISTS {LIQUID_TABLE}")

# print("‚úÖ Wszystkie tabele demo usuniƒôte")

print("‚ÑπÔ∏è Cleanup wy≈ÇƒÖczony (odkomentuj kod aby usunƒÖƒá tabele demo)")