# Optymalizacja i najlepsze praktyki - Demo

**Cel szkoleniowy:** Opanowanie technik optymalizacji performance'u zapyta≈Ñ i tabel Delta w Databricks.

**Zakres tematyczny:**
- Optymalizacja zapyta≈Ñ: predicate pushdown, file pruning, column pruning
- Analiza planu fizycznego (explain())
- Optymalizacja tabel: partitioning, small files problem
- Auto optimize / auto compaction
- Dob√≥r rozmiaru plik√≥w i strategii ZORDER
- Monitoring i diagnoza performance issues

## Kontekst i wymagania

- **Dzie≈Ñ szkolenia**: Dzie≈Ñ 2 - Lakehouse & Delta Lake
- **Typ notebooka**: Demo + Workshop
- **Wymagania techniczne**:
  - Databricks Runtime 13.0+ (zalecane: 14.3 LTS)
  - Unity Catalog w≈ÇƒÖczony
  - Uprawnienia: CREATE TABLE, CREATE SCHEMA, SELECT, MODIFY
  - Klaster: Standard z minimum 2 workers (zalecane: i3.xlarge lub wy≈ºej)
- **Zale≈ºno≈õci**: Wykonany notebook 01_delta_lake_operations.ipynb

## Wstƒôp teoretyczny

**Cel sekcji:** Zrozumienie kluczowych mechanizm√≥w optymalizacji w Databricks i Delta Lake.

**Typy optymalizacji:**

**1. Optymalizacja zapyta≈Ñ (Query Optimization):**
- **Predicate Pushdown**: Przeniesienie filtr√≥w jak najni≈ºej w planie wykonania
- **Column Pruning**: Odczyt tylko wymaganych kolumn (kolumnowy format Parquet)
- **File Pruning**: Ominiƒôcie plik√≥w nieistotnych dla zapytania
- **Join Optimization**: Broadcast joins, bucket joins, sortmerge joins

**2. Optymalizacja tabel (Table Optimization):**
- **Partitioning**: Fizyczne rozdzielenie danych wed≈Çug kluczy
- **Z-Ordering**: Klasterowanie danych w plikach wed≈Çug wybranych kolumn
- **Compaction (OPTIMIZE)**: ≈ÅƒÖczenie ma≈Çych plik√≥w w wiƒôksze
- **Auto Compaction**: Automatyczne ≈ÇƒÖczenie podczas zapisu

**3. Small Files Problem:**
Problem wydajno≈õci wywo≈Çany przez zbyt wiele ma≈Çych plik√≥w w tabeli. Spark preferuje pliki 128MB-1GB dla optymalnej wydajno≈õci.

## Izolacja per u≈ºytkownik

Uruchom skrypt inicjalizacyjny dla per-user izolacji katalog√≥w i schemat√≥w:

In [0]:
%run ../00_setup

## Konfiguracja

Import bibliotek i ustawienie zmiennych ≈õrodowiskowych:

In [0]:
from pyspark.sql import functions as F
from pyspark.sql.functions import col, lit, count, avg, sum, max, min
from pyspark.sql.types import *
import time

# Wy≈õwietl kontekst u≈ºytkownika
print("=== Kontekst u≈ºytkownika ===")
print(f"Katalog: {CATALOG}")
print(f"Schema Bronze: {BRONZE_SCHEMA}")
print(f"Schema Silver: {SILVER_SCHEMA}")
print(f"Schema Gold: {GOLD_SCHEMA}")
print(f"U≈ºytkownik: {raw_user}")

# Ustaw katalog i schemat jako domy≈õlne
spark.sql(f"USE CATALOG {CATALOG}")
spark.sql(f"USE SCHEMA {BRONZE_SCHEMA}")

# Nazwy tabel (za≈Ço≈ºenie: notebook 01_delta_lake_operations zosta≈Ç wykonany)
CUSTOMERS_DELTA = f"{BRONZE_SCHEMA}.customers_delta"
ORDERS_DELTA = f"{BRONZE_SCHEMA}.orders_delta"

print(f"\n=== Tabele do optymalizacji ===")
print(f"Customers: {CUSTOMERS_DELTA}")
print(f"Orders: {ORDERS_DELTA}")

## Sekcja 1: Analiza planu fizycznego (explain())

**Cel sekcji:** Naucz siƒô analizowaƒá plany wykonania zapyta≈Ñ, aby zidentyfikowaƒá bottlenecki wydajno≈õciowe.

**Teoria:**
Plan fizyczny to szczeg√≥≈Çowa mapa tego, jak Spark wykonuje zapytanie:
- **Stages**: Logiczne etapy przetwarzania
- **Tasks**: Jednostki pracy wykonywane na partycjach
- **Shuffles**: Wymiana danych miƒôdzy executor'ami
- **Pushdowns**: Optymalizacje przeniesione do ≈∫r√≥d≈Ça danych

**Rodzaje explain():**
- `explain()` - podstawowy plan
- `explain(True)` - pe≈Çny plan z detalami
- `explain('extended')` - rozszerzony plan
- `explain('cost')` - plan z kosztem

### Przyk≈Çad 1.1: Analiza planu prostego zapytania

In [0]:
# Przyk≈Çad 1.1 - Analiza planu prostego zapytania

# U≈ºyj tabeli customers_delta utworzonej w 01_delta_lake_operations.ipynb
# CUSTOMERS_DELTA jest ju≈º zdefiniowany w sekcji Konfiguracja

print("=== Podstawowy plan zapytania ===")
simple_query = spark.sql(f"""
    SELECT customer_id, first_name, last_name, customer_segment, city
    FROM {CUSTOMERS_DELTA}
    WHERE customer_segment = 'Premium'
    ORDER BY customer_id DESC
    LIMIT 10
""")

# Wy≈õwietl podstawowy plan
simple_query.explain()

print("\n=== Rozszerzony plan zapytania ===")
# Wy≈õwietl rozszerzony plan
simple_query.explain(True)

### Przyk≈Çad 1.2: Predicate Pushdown w praktyce

**Teoria:** Predicate pushdown to optymalizacja, gdzie filtry (warunki WHERE) sƒÖ "przepychane" jak najni≈ºej w planie wykonania, najlepiej do poziomu czytania plik√≥w. Dziƒôki temu czytamy tylko dane, kt√≥re spe≈ÇniajƒÖ warunki.

In [0]:
# Przyk≈Çad 1.2 - Predicate Pushdown

# U≈ºyj tabeli orders_delta utworzonej w 01_delta_lake_operations.ipynb
# ORDERS_DELTA jest ju≈º zdefiniowany w sekcji Konfiguracja

print("=== Zapytanie z filtrami (predicate pushdown) ===")
filtered_query = spark.sql(f"""
    SELECT order_id, customer_id, total_amount, order_date
    FROM {ORDERS_DELTA}
    WHERE total_amount > 100 
    AND order_date >= '2024-01-01'
""")

# Sprawd≈∫ plan - poszukaj "PushedFilters" w planie
filtered_query.explain(True)

print("\nüí° Znajd≈∫ w planie:")
print("- 'PushedFilters' - filtry przepchniƒôte do poziomu czytania")
print("- 'ReadSchema' - tylko wybrane kolumny (column pruning)")
print("- 'PartitionFilters' - filtry na partycjach")

## Sekcja 2: Strategia partycjonowania

**Cel sekcji:** Nauka wyboru optymalnych kluczy partycjonowania dla najlepszej wydajno≈õci.

**Teoria partycjonowania:**
- **Partitioning**: Fizyczne rozdzielenie tabeli na katalogi wed≈Çug warto≈õci kolumn
- **Partition Pruning**: Spark pomija ca≈Çe partycje, kt√≥re nie sƒÖ potrzebne dla zapytania
- **Idealne partycje**: 1-10GB danych na partycjƒô, nie wiƒôcej ni≈º 10,000 partycji

**Najlepsze praktyki:**
- Partycjonuj wed≈Çug kolumn czƒôsto u≈ºywanych w filtrach
- Unikaj partycjonowania wed≈Çug kolumn o wysokiej kardinalno≈õci
- Preferuj kolumny z naturalnƒÖ hierarchiƒÖ czasowƒÖ (rok/miesiƒÖc/dzie≈Ñ)
- Unikaj zbyt wielu ma≈Çych partycji (small files problem)

### Przyk≈Çad 2.1: Tworzenie tabeli partycjonowanej

In [0]:
# Przyk≈Çad 2.1 - Tworzenie tabeli partycjonowanej

# Utw√≥rz tabelƒô partycjonowanƒÖ wed≈Çug roku i miesiƒÖca
ORDERS_PARTITIONED = f"{BRONZE_SCHEMA}.orders_partitioned"

print("=== Tworzenie tabeli partycjonowanej ===")

# Dodaj kolumny do partycjonowania
orders_with_partitions = spark.sql(f"""
    SELECT 
        *,
        YEAR(order_date) as year,
        MONTH(order_date) as month
    FROM {ORDERS_DELTA}
""")

# Zapisz jako tabelƒô partycjonowanƒÖ
orders_with_partitions.write \
    .format("delta") \
    .mode("overwrite") \
    .partitionBy("year", "month") \
    .saveAsTable(ORDERS_PARTITIONED)

print(f"‚úì Tabela {ORDERS_PARTITIONED} utworzona z partycjonowaniem wed≈Çug roku i miesiƒÖca")

# Sprawd≈∫ strukturƒô partycji
spark.sql(f"DESCRIBE DETAIL {ORDERS_PARTITIONED}").select("name", "location", "partitionColumns").show(truncate=False)

### Przyk≈Çad 2.2: Partition Pruning w dzia≈Çaniu

In [0]:
# Przyk≈Çad 2.2 - Partition Pruning

print("=== Zapytanie wykorzystujƒÖce partition pruning ===")

# Zapytanie kt√≥ry wykorzystuje partycje (rok/miesiƒÖc)
efficient_query = spark.sql(f"""
    SELECT order_id, customer_id, total_amount, order_date
    FROM {ORDERS_PARTITIONED}
    WHERE year = 2024 AND month = 1
""")

# Sprawd≈∫ plan - poszukaj "PartitionFilters"
efficient_query.explain(True)

print("\n=== Por√≥wnanie: zapytanie BEZ partition pruning ===")

# Zapytanie kt√≥re nie wykorzystuje partycji (nie filtruje po roku/miesiƒÖcu)
inefficient_query = spark.sql(f"""
    SELECT order_id, customer_id, total_amount, order_date
    FROM {ORDERS_PARTITIONED}
    WHERE customer_id = 1
""")

inefficient_query.explain(True)

print("\nüí° Por√≥wnaj plany:")
print("- Pierwszy: partition pruning aktywny (PartitionFilters)")
print("- Drugi: brak partition pruning - czyta wszystkie partycje")

## Sekcja 3: Small Files Problem

**Cel sekcji:** Zrozumienie i rozwiƒÖzanie problemu ma≈Çych plik√≥w w Delta Lake.

**Co to jest Small Files Problem?**
- Gdy tabela ma zbyt wiele ma≈Çych plik√≥w (< 128MB ka≈ºdy)
- Spark preferuje pliki 128MB-1GB dla optymalnej wydajno≈õci
- Ma≈Çe pliki powodujƒÖ overhead w metadanych i zmniejszajƒÖ throughput

**Przyczyny ma≈Çych plik√≥w:**
- Czƒôste zapisy INSERT w ma≈Çych batch'ach
- Wysokie partycjonowanie z ma≈ÇƒÖ ilo≈õciƒÖ danych na partycjƒô
- Streaming z kr√≥tkimi trigger intervals

**RozwiƒÖzania:**
- **OPTIMIZE** - ≈ÇƒÖczy ma≈Çe pliki w wiƒôksze
- **Auto Compaction** - automatyczne ≈ÇƒÖczenie podczas zapisu
- **Repartition** przed zapisem
- **Coalesce** dla zmniejszenia liczby partycji

### Przyk≈Çad 3.1: Symulacja Small Files Problem

In [0]:
# Przyk≈Çad 3.1 - Symulacja Small Files Problem

SMALL_FILES_TABLE = f"{BRONZE_SCHEMA}.small_files_demo"

print("=== Tworzenie tabeli z ma≈Çymi plikami ===")

# Symuluj wiele ma≈Çych zapis√≥w (ka≈ºdy tworzy osobny plik)
for i in range(5):
    small_batch = spark.range(i*100, (i+1)*100).select(
        col("id"),
        (col("id") * 2).alias("value"),
        lit(f"batch_{i}").alias("batch_name")
    )
    
    small_batch.write \
        .format("delta") \
        .mode("append") \
        .saveAsTable(SMALL_FILES_TABLE)
    
    print(f"‚úì Zapisano batch {i}")

print("\n=== Sprawdzenie liczby plik√≥w ===")
detail = spark.sql(f"DESCRIBE DETAIL {SMALL_FILES_TABLE}").collect()[0]
print(f"Liczba plik√≥w: {detail['numFiles']}")
print(f"Rozmiar tabeli: {detail['sizeInBytes']} bytes")
print(f"≈öredni rozmiar pliku: {detail['sizeInBytes'] / detail['numFiles']:.0f} bytes")

print("\n‚ö†Ô∏è  Problem: zbyt wiele ma≈Çych plik√≥w!")

### Przyk≈Çad 3.2: RozwiƒÖzanie - OPTIMIZE i Auto Compaction

In [0]:
# Przyk≈Çad 3.2 - RozwiƒÖzanie Small Files Problem

print("=== RozwiƒÖzanie: OPTIMIZE ===")

# Wykonaj OPTIMIZE na tabeli z ma≈Çymi plikami
spark.sql(f"OPTIMIZE {SMALL_FILES_TABLE}")

# Sprawd≈∫ stan po OPTIMIZE
detail_after = spark.sql(f"DESCRIBE DETAIL {SMALL_FILES_TABLE}").collect()[0]
print(f"\nPo OPTIMIZE:")
print(f"Liczba plik√≥w: {detail_after['numFiles']}")
print(f"Rozmiar tabeli: {detail_after['sizeInBytes']} bytes")
print(f"≈öredni rozmiar pliku: {detail_after['sizeInBytes'] / detail_after['numFiles']:.0f} bytes")

print("\n=== Konfiguracja Auto Compaction ===")

# W≈ÇƒÖcz auto compaction dla przysz≈Çych zapis√≥w
spark.sql(f"""
    ALTER TABLE {SMALL_FILES_TABLE}
    SET TBLPROPERTIES (
        'delta.autoOptimize.optimizeWrite' = 'true',
        'delta.autoOptimize.autoCompact' = 'true'
    )
""")

print("‚úì Auto Compaction w≈ÇƒÖczony")

# Sprawd≈∫ w≈Ça≈õciwo≈õci tabeli
properties = spark.sql(f"SHOW TBLPROPERTIES {SMALL_FILES_TABLE}").collect()
auto_props = [p for p in properties if 'autoOptimize' in p['key']]
print("\nW≈ÇƒÖczone w≈Ça≈õciwo≈õci Auto Compaction:")
for prop in auto_props:
    print(f"- {prop['key']}: {prop['value']}")

## Sekcja 4: ZORDER BY - Advanced Clustering

**Cel sekcji:** Nauka wykorzystania ZORDER BY do optymalizacji zapyta≈Ñ z filtrami i joinami.

**Co to jest ZORDER BY?**
- Multi-dimensional clustering algorithm w Delta Lake
- Organizuje dane w plikach wed≈Çug warto≈õci wybranych kolumn
- Poprawia data skipping - pomijanie niepotrzebnych plik√≥w podczas czytania
- Szczeg√≥lnie skuteczny dla kolumn czƒôsto u≈ºywanych w filtrach WHERE i JOIN

**Kiedy u≈ºywaƒá ZORDER:**
- Kolumny czƒôsto filtrowane w zapytaniach
- Kolumny u≈ºywane w JOIN operations
- High-cardinality columns (wiele unikalnych warto≈õci)
- Maksymalnie 3-4 kolumny (wiƒôcej = diminishing returns)

**ZORDER vs Partitioning:**
- Partitioning: fizyczne rozdzielenie na katalogi
- ZORDER: logiczne uporzƒÖdkowanie w plikach (zachowuje pojedynczƒÖ strukturƒô folder√≥w)

### Przyk≈Çad 4.1: ZORDER BY dla czƒôsto filtrowanych kolumn

In [0]:
# Przyk≈Çad 4.1 - ZORDER BY

print("=== Wykonanie ZORDER BY ===")

# Za≈Ç√≥≈ºmy, ≈ºe czƒôsto filtrujemy podle customer_id i order_date
# Wykonaj ZORDER BY na tych kolumnach
spark.sql(f"""
    OPTIMIZE {ORDERS_DELTA}
    ZORDER BY (customer_id, order_date)
""")

print("‚úì ZORDER BY wykonany na kolumnach: customer_id, order_date")

# Sprawd≈∫ historiƒô optymalizacji
print("\n=== Historia operacji OPTIMIZE ===")
history = spark.sql(f"DESCRIBE HISTORY {ORDERS_DELTA}")
optimize_operations = history.filter(col("operation") == "OPTIMIZE")

display(
    optimize_operations.select(
        "version", "timestamp", "operation", 
        "operationParameters", "operationMetrics"
    ).orderBy("version", ascending=False).limit(3)
)

print("\nüí° Sprawd≈∫ 'operationParameters' - powinno zawieraƒá informacjƒô o ZORDER")

### Przyk≈Çad 4.2: Pomiar skuteczno≈õci ZORDER - Data Skipping

In [0]:
# Przyk≈Çad 4.2 - Pomiar skuteczno≈õci ZORDER

import time

print("=== Test skuteczno≈õci ZORDER BY ===")

# Zapytanie wykorzystujƒÖce kolumny z ZORDER
test_query = spark.sql(f"""
    SELECT COUNT(*), AVG(total_amount)
    FROM {ORDERS_DELTA}
    WHERE customer_id BETWEEN 100 AND 200
    AND order_date >= '2024-01-01'
""")

# Pomiar czasu wykonania
start_time = time.time()
result = test_query.collect()
end_time = time.time()

print(f"Wynik: {result[0]}")
print(f"Czas wykonania: {end_time - start_time:.2f} sekund")

# Sprawd≈∫ plan zapytania - data skipping
print("\n=== Plan zapytania (sprawd≈∫ data skipping) ===")
test_query.explain(True)

print("\nüí° W planie szukaj:")
print("- 'numFilesTotal' vs 'numFilesSelected' - ile plik√≥w pominiƒôto")
print("- 'metadata time' - czas parsowania metadanych")
print("- 'files pruned' - data skipping statistics")

## Best Practices - Przewodnik optymalizacji

### üéØ Strategia optymalizacji (w kolejno≈õci priorytet√≥w):

**1. Analiza workload:**
- Zidentyfikuj najczƒô≈õciej wykonywane zapytania
- Znajd≈∫ kolumny najczƒô≈õciej u≈ºywane w filtrach WHERE
- Sprawd≈∫ kt√≥re zapytania zajmujƒÖ najwiƒôcej czasu

**2. Optymalizacja zapyta≈Ñ:**
- U≈ºywaj filtr√≥w WHERE jak najwcze≈õniej w zapytaniu
- Wybieraj tylko potrzebne kolumny (SELECT specific columns, nie *)
- Preferuj JOIN na zindeksowanych kolumnach
- U≈ºywaj LIMIT gdy mo≈ºliwe

**3. Optymalizacja tabel:**
- **Partitioning**: Tylko dla du≈ºych tabel (>1TB) i czƒôsto filtrowanych kolumn
- **ZORDER BY**: Dla 2-4 najczƒô≈õciej filtrowanych kolumn
- **OPTIMIZE**: Regularnie (np. daily) dla aktywnych tabel
- **Auto Compaction**: W≈ÇƒÖcz dla tabel z czƒôstymi zapisami

**4. Monitoring i maintenance:**
- Regularnie sprawdzaj `DESCRIBE DETAIL` - liczba plik√≥w, rozmiar
- Uruchamiaj `VACUUM` co najmniej raz w tygodniu
- Monitoruj Spark UI dla d≈Çugo dzia≈ÇajƒÖcych zapyta≈Ñ
- U≈ºywaj `explain()` do analizy problemowych zapyta≈Ñ

## Troubleshooting - Diagnoza problem√≥w wydajno≈õciowych

### üîç Najczƒôstsze problemy i rozwiƒÖzania:

**Problem 1: Zapytanie dzia≈Ça bardzo wolno**
```python
# Diagnoza:
df.explain(True)  # Sprawd≈∫ plan wykonania
```
**Mo≈ºliwe przyczyny:**
- Brak filtr√≥w - czyta ca≈ÇƒÖ tabelƒô
- Shuffle operations - du≈ºo ruchu sieciowego  
- Skewed data - nier√≥wnomierne roz≈Ço≈ºenie danych
- Small files - zbyt wiele ma≈Çych plik√≥w

**Problem 2: "OutOfMemoryError" podczas JOIN**
**RozwiƒÖzanie:**
```python
# Zwiƒôksz partycje przed JOIN
df1 = df1.repartition(200, "join_key")
df2 = df2.repartition(200, "join_key")

# Lub u≈ºyj broadcast join dla ma≈Çych tabel
from pyspark.sql.functions import broadcast
result = large_df.join(broadcast(small_df), "key")
```

**Problem 3: D≈Çugie czasy zapisu do Delta**
**RozwiƒÖzanie:**
- W≈ÇƒÖcz Auto Compaction
- U≈ºyj `coalesce()` przed zapisem
- Avoid zbyt wysokie partycjonowanie

**Problem 4: OPTIMIZE nie poprawia wydajno≈õci**
**Przyczyna:** ZORDER BY jest potrzebny dla specific query patterns
```python
# Zamiast samego OPTIMIZE:
OPTIMIZE table_name

# U≈ºyj OPTIMIZE z ZORDER:
OPTIMIZE table_name ZORDER BY (frequently_filtered_columns)
```

## Podsumowanie

### ‚úÖ W tym notebooku nauczyli≈õmy siƒô:

**Analiza wydajno≈õci:**
- Czytanie i interpretacja plan√≥w fizycznych z `explain()`
- Identyfikacja bottleneck√≥w: shuffles, skewed data, small files
- Wykorzystanie predicate pushdown i column pruning

**Optymalizacja tabel:**
- Strategia partycjonowania wed≈Çug czƒôsto filtrowanych kolumn
- ZORDER BY dla multi-dimensional clustering
- RozwiƒÖzywanie Small Files Problem przez OPTIMIZE
- Auto Compaction dla automatycznej optymalizacji

**Monitoring i maintenance:**
- Regularne wykonywanie DESCRIBE DETAIL
- Strategia VACUUM dla storage management
- Pomiar skuteczno≈õci optymalizacji

### üéØ Kluczowe wnioski:

1. **Analiza przed optymalizacjƒÖ**: Zawsze najpierw zdiagnozuj problem przez `explain()`
2. **Partitioning ‚â† ZORDER**: R√≥≈ºne techniki dla r√≥≈ºnych przypadk√≥w u≈ºycia
3. **Small files = performance killer**: Regularne OPTIMIZE jest konieczne
4. **ZORDER BY**: Maksymalnie 3-4 kolumny, wybieraj najczƒô≈õciej filtrowane
5. **Auto Compaction**: Must-have dla production workloads

### üìà Metryki do monitorowania:

| Metryka | Dobra warto≈õƒá | Akcja je≈õli przekroczona |
|---------|---------------|--------------------------|
| Liczba plik√≥w | < 1000/TB | OPTIMIZE |
| ≈öredni rozmiar pliku | 128MB-1GB | OPTIMIZE + Auto Compaction |
| Czas zapytania | Baseline +20% | Analiza explain(), ZORDER |
| Skipped files ratio | >80% | ZORDER BY na filtrowanych kolumnach |

### üöÄ Nastƒôpne kroki:
- **02_medallion_architecture.ipynb**: Architektura Bronze/Silver/Gold
- **03_batch_streaming_load.ipynb**: Copy Into, Auto Loader, Streaming
- **04_bronze_silver_gold_pipeline.ipynb**: End-to-end data pipeline

## Cleanup

Opcjonalnie usu≈Ñ tabele demo utworzone podczas ƒáwicze≈Ñ:

In [0]:
# Cleanup - usu≈Ñ tabele demo

# Odkomentuj poni≈ºsze linie aby usunƒÖƒá tabele demo:

# spark.sql(f"DROP TABLE IF EXISTS {ORDERS_PARTITIONED}")
# spark.sql(f"DROP TABLE IF EXISTS {SMALL_FILES_TABLE}")

# print("‚úì Tabele demo usuniƒôte")

print("Cleanup wy≈ÇƒÖczony (odkomentuj kod aby usunƒÖƒá tabele demo)")