# Inicjalizacja kontekstu u≈ºytkownika

Cel: izolacja zasob√≥w dla ka≈ºdego uczestnika. Tworzone sƒÖ schematy per u≈ºytkownik w katalogu `training_catalog`: `<user_slug>_bronze`, `<user_slug>_silver`, `<user_slug>_gold`. Uruchom tƒô kom√≥rkƒô przed dalszymi krokami w innych notebookach.

## üìÅ Architektura danych w szkoleniu

Szkolenie u≈ºywa **dw√≥ch podej≈õƒá do przechowywania danych** w zale≈ºno≈õci od dnia:

### Dzie≈Ñ 1-2: Lokalne pliki ‚Üí Delta Tables
- **≈πr√≥d≈Ço**: Folder `dataset/` (CSV, JSON, Parquet)
- **Zmienna**: `DATASET_BASE_PATH` 
- **Cel**: Za≈Çadowanie do Delta tables w schematach Bronze/Silver/Gold
- **Przyk≈Çad**: `spark.read.csv(f"{DATASET_BASE_PATH}/customers/customers.csv")`

### Dzie≈Ñ 3: Unity Catalog Volumes
- **≈πr√≥d≈Ço**: Unity Catalog Volumes (`/Volumes/training_catalog/default/kion_datasets`)
- **Zmienna**: `VOLUMES_BASE_PATH` (opcjonalne dla Dzie≈Ñ 3)
- **Cel**: Demonstracja zaawansowanych feature'√≥w UC (DLT, Lakeflow, Governance)
- **Przyk≈Çad**: `spark.read.csv("/Volumes/training_catalog/default/kion_datasets/customers.csv")`

### Dlaczego dwa podej≈õcia?
- **Progresja edukacyjna**: Od prostych plik√≥w (Dzie≈Ñ 1) ‚Üí Delta Lake (Dzie≈Ñ 2) ‚Üí Unity Catalog (Dzie≈Ñ 3)
- **Real-world scenarios**: W produkcji czƒôsto u≈ºywa siƒô Volumes dla managed data access w UC
- **Best practices**: Dzie≈Ñ 3 pokazuje, jak zarzƒÖdzaƒá danymi w enterprise environment

---

In [0]:
# === Konfiguracja katalog√≥w i schemat√≥w ===
CATALOG = "training_catalog"

# Pobierz aktualnego u≈ºytkownika (dla ≈õrodowiska produkcyjnego)
# raw_user = spark.sql("SELECT current_user()").first()[0]
raw_user = "trainer"  # Dla ≈õrodowiska szkoleniowego

import re
user_slug = re.sub(
    r'[^a-z0-9]', 
    '_', 
    raw_user.lower()
)

print(f"User slug: {user_slug}")

# Schematy per u≈ºytkownik (izolacja zasob√≥w)
BRONZE_SCHEMA = f"{user_slug}_bronze"
SILVER_SCHEMA = f"{user_slug}_silver"
GOLD_SCHEMA   = f"{user_slug}_gold"

# === ≈öcie≈ºka do dataset√≥w ===
# Dla lokalnego ≈õrodowiska - ≈õcie≈ºka do folderu dataset w tym repo
#import os
#DATASET_BASE_PATH = os.path.abspath("../dataset")

 #Dla Databricks ≈õrodowiska - Unity Catalog Volume:
DATASET_BASE_PATH = "/Volumes/training_catalog/default/kion_datasets"


print(f"Dataset base path: {DATASET_BASE_PATH}")

# === Tworzenie katalog√≥w i schemat√≥w (tylko w Databricks) ===
try:
    spark.sql(f'USE CATALOG {CATALOG}')
    
    for s in [BRONZE_SCHEMA, SILVER_SCHEMA, GOLD_SCHEMA]:
        spark.sql(f'CREATE SCHEMA IF NOT EXISTS {CATALOG}.{s}')
    
    spark.sql(f'USE SCHEMA {BRONZE_SCHEMA}')
    print("‚úì Unity Catalog schemas created successfully")
except Exception as e:
    print(f"‚ö† Unity Catalog not available or not configured: {e}")
    print("Continuing with default database...")

# === Wy≈õwietl informacje o katalogu ===
print("\n=== Informacje o katalogu ===")
display(
    spark.sql(f"DESCRIBE CATALOG EXTENDED {CATALOG}")
)

# === Podsumowanie konfiguracji ===
print("\n=== Podsumowanie konfiguracji u≈ºytkownika ===")
display(
    spark.createDataFrame(
        [
            (
                raw_user, 
                f'{CATALOG}.{BRONZE_SCHEMA}', 
                f'{CATALOG}.{SILVER_SCHEMA}', 
                f'{CATALOG}.{GOLD_SCHEMA}',
                DATASET_BASE_PATH
            )
        ],
        ['user', 'bronze_schema', 'silver_schema', 'gold_schema', 'dataset_path']
    )
)

print("\n‚úì Inicjalizacja zako≈Ñczona pomy≈õlnie!")
print(f"‚úì U≈ºytkownik: {raw_user}")
print(f"‚úì Katalog: {CATALOG}")
print(f"‚úì Schematy: {BRONZE_SCHEMA}, {SILVER_SCHEMA}, {GOLD_SCHEMA}")
print(f"‚úì ≈öcie≈ºka do danych: {DATASET_BASE_PATH}")
