# Inicjalizacja kontekstu u≈ºytkownika

Cel: izolacja zasob√≥w dla ka≈ºdego uczestnika. Tworzone sƒÖ schematy per u≈ºytkownik w katalogu `training_catalog`: `<user_slug>_bronze`, `<user_slug>_silver`, `<user_slug>_gold`. Uruchom tƒô kom√≥rkƒô przed dalszymi krokami w innych notebookach.

## üìÅ Architektura danych w szkoleniu

Szkolenie u≈ºywa **dw√≥ch podej≈õƒá do przechowywania danych** w zale≈ºno≈õci od dnia:

### Dzie≈Ñ 1-2: Lokalne pliki ‚Üí Delta Tables
- **≈πr√≥d≈Ço**: Folder `dataset/` (CSV, JSON, Parquet)
- **Zmienna**: `DATASET_BASE_PATH` 
- **Cel**: Za≈Çadowanie do Delta tables w schematach Bronze/Silver/Gold
- **Przyk≈Çad**: `spark.read.csv(f"{DATASET_BASE_PATH}/customers/customers.csv")`

### Dzie≈Ñ 3: Unity Catalog Volumes
- **≈πr√≥d≈Ço**: Unity Catalog Volumes (`/Volumes/training_catalog/default/kion_datasets`)
- **Zmienna**: `VOLUMES_BASE_PATH` (opcjonalne dla Dzie≈Ñ 3)
- **Cel**: Demonstracja zaawansowanych feature'√≥w UC (DLT, Lakeflow, Governance)
- **Przyk≈Çad**: `spark.read.csv("/Volumes/training_catalog/default/kion_datasets/customers.csv")`

### Dlaczego dwa podej≈õcia?
- **Progresja edukacyjna**: Od prostych plik√≥w (Dzie≈Ñ 1) ‚Üí Delta Lake (Dzie≈Ñ 2) ‚Üí Unity Catalog (Dzie≈Ñ 3)
- **Real-world scenarios**: W produkcji czƒôsto u≈ºywa siƒô Volumes dla managed data access w UC
- **Best practices**: Dzie≈Ñ 3 pokazuje, jak zarzƒÖdzaƒá danymi w enterprise environment

---

In [0]:
# === Konfiguracja katalog√≥w i schemat√≥w ===
CATALOG = "training_catalog"

# Pobierz aktualnego u≈ºytkownika (dla ≈õrodowiska produkcyjnego)
# raw_user = spark.sql("SELECT current_user()").first()[0]
raw_user = "trainer"  # Dla ≈õrodowiska szkoleniowego

import re
user_slug = re.sub(
    r'[^a-z0-9]', 
    '_', 
    raw_user.lower()
)

print(f"User slug: {user_slug}")

# Schematy per u≈ºytkownik (izolacja zasob√≥w)
BRONZE_SCHEMA = f"{user_slug}_bronze"
SILVER_SCHEMA = f"{user_slug}_silver"
GOLD_SCHEMA   = f"{user_slug}_gold"

# === ≈öcie≈ºka do dataset√≥w ===
# Dla lokalnego ≈õrodowiska - ≈õcie≈ºka do folderu dataset w tym repo
import os
DATASET_BASE_PATH = os.path.abspath("../dataset")

# Dla Databricks ≈õrodowiska - Unity Catalog Volume:
# DATASET_BASE_PATH = "/Volumes/training_catalog/default/kion_datasets"


print(f"Dataset base path: {DATASET_BASE_PATH}")

# === Tworzenie katalog√≥w i schemat√≥w (tylko w Databricks) ===
try:
    spark.sql(f'USE CATALOG {CATALOG}')
    
    for s in [BRONZE_SCHEMA, SILVER_SCHEMA, GOLD_SCHEMA]:
        spark.sql(f'CREATE SCHEMA IF NOT EXISTS {CATALOG}.{s}')
    
    spark.sql(f'USE SCHEMA {BRONZE_SCHEMA}')
    print("‚úì Unity Catalog schemas created successfully")
except Exception as e:
    print(f"‚ö† Unity Catalog not available or not configured: {e}")
    print("Continuing with default database...")

# === Wy≈õwietl informacje o katalogu ===
print("\n=== Informacje o katalogu ===")
display(
    spark.sql(f"DESCRIBE CATALOG EXTENDED {CATALOG}")
)

# === Podsumowanie konfiguracji ===
print("\n=== Podsumowanie konfiguracji u≈ºytkownika ===")
display(
    spark.createDataFrame(
        [
            (
                raw_user, 
                f'{CATALOG}.{BRONZE_SCHEMA}', 
                f'{CATALOG}.{SILVER_SCHEMA}', 
                f'{CATALOG}.{GOLD_SCHEMA}',
                DATASET_BASE_PATH
            )
        ],
        ['user', 'bronze_schema', 'silver_schema', 'gold_schema', 'dataset_path']
    )
)

print("\n‚úì Inicjalizacja zako≈Ñczona pomy≈õlnie!")
print(f"‚úì U≈ºytkownik: {raw_user}")
print(f"‚úì Katalog: {CATALOG}")
print(f"‚úì Schematy: {BRONZE_SCHEMA}, {SILVER_SCHEMA}, {GOLD_SCHEMA}")
print(f"‚úì ≈öcie≈ºka do danych: {DATASET_BASE_PATH}")


## üîß Funkcje pomocnicze (opcjonalne - tylko dla Dzie≈Ñ 3)

Poni≈ºsza funkcja kopiuje dane z lokalnego folderu `dataset/` do Unity Catalog Volumes.  
**U≈ºyj tylko je≈õli pracujesz na Databricks i chcesz przygotowaƒá dane dla Dzie≈Ñ 3.**

In [None]:
def copy_dataset_to_volumes():
    """
    Kopiuje dane z lokalnego folderu dataset/ do Unity Catalog Volumes.
    U≈ºywane tylko w ≈õrodowisku Databricks dla przygotowania Dzie≈Ñ 3.
    """
    import shutil
    from pathlib import Path
    
    print("=== Kopiowanie danych do Unity Catalog Volumes ===")
    print(f"≈πr√≥d≈Ço: {DATASET_BASE_PATH}")
    print(f"Cel: {VOLUMES_BASE_PATH}")
    
    try:
        # Sprawd≈∫, czy Volume istnieje
        dbutils.fs.ls(VOLUMES_BASE_PATH)
        print("‚úì Volume dostƒôpny")
        
        # Kopiuj ka≈ºdy folder z dataset/
        folders_to_copy = ['customers', 'orders', 'products']
        
        for folder in folders_to_copy:
            source = os.path.join(DATASET_BASE_PATH, folder)
            target = f"{VOLUMES_BASE_PATH}/{folder}"
            
            if os.path.exists(source):
                print(f"  Kopiowanie: {folder}/")
                
                # Utw√≥rz folder w Volumes je≈õli nie istnieje
                try:
                    dbutils.fs.mkdirs(target)
                except:
                    pass
                
                # Kopiuj pliki
                for file in os.listdir(source):
                    source_file = os.path.join(source, file)
                    target_file = f"{target}/{file}"
                    
                    if os.path.isfile(source_file):
                        dbutils.fs.cp(f"file:{source_file}", target_file, recurse=False)
                        print(f"    ‚úì {file}")
            else:
                print(f"  ‚ö† Folder {folder}/ nie istnieje w dataset/")
        
        print("\n‚úì Kopiowanie zako≈Ñczone pomy≈õlnie!")
        print(f"Dane dostƒôpne w: {VOLUMES_BASE_PATH}")
        
        return True
        
    except Exception as e:
        print(f"\n‚úó B≈ÇƒÖd kopiowania: {e}")
        print("Upewnij siƒô, ≈ºe:")
        print("  1. Unity Catalog jest w≈ÇƒÖczony")
        print("  2. Volume zosta≈Ç utworzony: CREATE VOLUME IF NOT EXISTS training_catalog.default.kion_datasets")
        print("  3. Masz uprawnienia do zapisu w Volume")
        return False

# Odkomentuj poni≈ºszƒÖ liniƒô, aby skopiowaƒá dane do Volumes (tylko raz, przed Dzie≈Ñ 3)
# copy_dataset_to_volumes()

## üîç Funkcje diagnostyczne

Pomocne funkcje do sprawdzania stanu ≈õrodowiska i danych.

In [None]:
def show_environment_info():
    """Wy≈õwietla pe≈Çne informacje o konfiguracji ≈õrodowiska"""
    print("=" * 70)
    print("üìä INFORMACJE O ≈öRODOWISKU SZKOLENIOWYM")
    print("=" * 70)
    
    print(f"\nüë§ U≈ºytkownik: {raw_user}")
    print(f"   User slug: {user_slug}")
    
    print(f"\nüìÅ Schematy:")
    print(f"   Bronze: {CATALOG}.{BRONZE_SCHEMA}")
    print(f"   Silver: {CATALOG}.{SILVER_SCHEMA}")
    print(f"   Gold:   {CATALOG}.{GOLD_SCHEMA}")
    
    print(f"\nüíæ ≈öcie≈ºki do danych:")
    print(f"   Dataset (Dzie≈Ñ 1-2): {DATASET_BASE_PATH}")
    print(f"   Volumes (Dzie≈Ñ 3):   {VOLUMES_BASE_PATH}")
    
    print(f"\n‚öôÔ∏è Spark:")
    print(f"   Spark version: {spark.version}")
    try:
        print(f"   Databricks Runtime: {spark.conf.get('spark.databricks.clusterUsageTags.sparkVersion')}")
    except:
        print(f"   Databricks Runtime: N/A (local environment)")
    
    print(f"\nüóÑÔ∏è Unity Catalog:")
    try:
        current_catalog = spark.sql("SELECT current_catalog()").first()[0]
        current_schema = spark.sql("SELECT current_schema()").first()[0]
        print(f"   Current catalog: {current_catalog}")
        print(f"   Current schema: {current_schema}")
        print(f"   Status: ‚úì Aktywny")
    except:
        print(f"   Status: ‚úó Niedostƒôpny")
    
    print("\n" + "=" * 70)

def show_tables_summary():
    """Wy≈õwietla podsumowanie tabel utworzonych w schematach"""
    print("=" * 70)
    print("üìã PODSUMOWANIE TABEL W SCHEMATACH")
    print("=" * 70)
    
    for schema_name, schema_var in [
        ("Bronze", BRONZE_SCHEMA),
        ("Silver", SILVER_SCHEMA),
        ("Gold", GOLD_SCHEMA)
    ]:
        print(f"\n{schema_name} Layer ({CATALOG}.{schema_var}):")
        try:
            tables = spark.sql(f"SHOW TABLES IN {CATALOG}.{schema_var}")
            table_count = tables.count()
            
            if table_count > 0:
                print(f"  ‚úì {table_count} tabel(i):")
                for row in tables.collect():
                    table_type = "VIEW" if row.isTemporary else "TABLE"
                    print(f"    - {row.tableName} ({table_type})")
            else:
                print(f"  ‚ö† Brak tabel (schemat pusty)")
        except Exception as e:
            print(f"  ‚úó Nie mo≈ºna odczytaƒá tabel: {e}")
    
    print("\n" + "=" * 70)

def show_dataset_statistics():
    """Wy≈õwietla statystyki plik√≥w w folderze dataset/"""
    print("=" * 70)
    print("üìà STATYSTYKI DANYCH ≈πR√ìD≈ÅOWYCH")
    print("=" * 70)
    
    folders = ['customers', 'orders', 'products']
    
    for folder in folders:
        folder_path = os.path.join(DATASET_BASE_PATH, folder)
        print(f"\nüìÇ {folder}/")
        
        if os.path.exists(folder_path):
            files = [f for f in os.listdir(folder_path) if os.path.isfile(os.path.join(folder_path, f))]
            print(f"  Liczba plik√≥w: {len(files)}")
            
            total_size = 0
            for file in files:
                file_path = os.path.join(folder_path, file)
                size = os.path.getsize(file_path)
                total_size += size
                size_mb = size / (1024 * 1024)
                print(f"    - {file}: {size_mb:.2f} MB")
            
            total_mb = total_size / (1024 * 1024)
            print(f"  ≈ÅƒÖczny rozmiar: {total_mb:.2f} MB")
        else:
            print(f"  ‚úó Folder nie istnieje")
    
    print("\n" + "=" * 70)

# Przyk≈Çad u≈ºycia (odkomentuj aby uruchomiƒá):
# show_environment_info()
# show_tables_summary()
# show_dataset_statistics()