# Workshop: Transformations & Data Cleaning

**Cel szkoleniowy:** Praktyczne opanowanie transformacji danych w PySpark i SQL oraz technik czyszczenia danych.

**Zakres tematyczny:**
- Transformacje kolumnowe i warunkowe
- Filtry, sortowania, agregacje
- Por√≥wnanie PySpark vs SQL
- Czyszczenie: nulls, duplikaty, walidacja typ√≥w
- Quality checks i flagowanie problem√≥w

**Czas trwania:** 90 minut

## Kontekst i wymagania

- **Dzie≈Ñ szkolenia**: Dzie≈Ñ 1 - Fundamentals & Exploration
- **Typ notebooka**: Workshop
- **Wymagania techniczne**:
  - Databricks Runtime 13.0+ (zalecane: 14.3 LTS)
  - Unity Catalog w≈ÇƒÖczony
  - Uprawnienia: CREATE TABLE, CREATE SCHEMA, SELECT, MODIFY
  - Klaster: Standard z minimum 2 workers

## Wprowadzenie do warsztatu

W tym warsztacie bƒôdziesz:
1. Transformowaƒá dane za pomocƒÖ PySpark DataFrame API
2. Pisaƒá r√≥wnowa≈ºne transformacje w SQL
3. Czy≈õciƒá dane (nulls, duplikaty, nieprawid≈Çowe warto≈õci)
4. Walidowaƒá typy danych i konwertowaƒá kolumny
5. Implementowaƒá quality checks

### Kryteria sukcesu:
- Wszystkie transformacje dzia≈ÇajƒÖ poprawnie w PySpark i SQL
- Dane sƒÖ oczyszczone z duplikat√≥w i null values
- Quality checks zidentyfikowa≈Çy wszystkie problemy
- Finalna tabela spe≈Çnia standardy jako≈õci

## Izolacja per u≈ºytkownik

Uruchom skrypt inicjalizacyjny dla per-user izolacji katalog√≥w i schemat√≥w:

In [None]:
%run ../../00_setup

## Konfiguracja

In [None]:
from pyspark.sql import functions as F
from pyspark.sql.functions import col, when, trim, lower, upper, regexp_replace, to_date, coalesce, lit
from pyspark.sql.types import *

# ≈öcie≈ºki do danych
CUSTOMERS_CSV = f"{DATASET_BASE_PATH}/customers/customers.csv"
ORDERS_JSON = f"{DATASET_BASE_PATH}/orders/orders_batch.json"

print(f"Katalog: {CATALOG}")
print(f"Schema: {BRONZE_SCHEMA}")

spark.sql(f"USE CATALOG {CATALOG}")
spark.sql(f"USE SCHEMA {BRONZE_SCHEMA}")

## Przygotowanie danych

In [None]:
# Wczytaj dane
customers_df = spark.read.format("csv").option("header", "true").option("inferSchema", "true").load(CUSTOMERS_CSV)
orders_df = spark.read.format("json").option("inferSchema", "true").load(ORDERS_JSON)

print(f"Customers: {customers_df.count()} rekord√≥w")
print(f"Orders: {orders_df.count()} rekord√≥w")

---

## Zadanie 1: Transformacje kolumnowe - PySpark (15 min)

### Cel:
Zastosuj transformacje kolumnowe na danych klient√≥w.

### Instrukcje:
1. Dodaj kolumnƒô `email_domain` wyodrƒôbniajƒÖc domenƒô z email
2. Dodaj kolumnƒô `country_code` z pierwszymi 2 literami kraju (uppercase)
3. Dodaj kolumnƒô `customer_full_name` - trim i lowercase
4. Usu≈Ñ kolumnƒô `registration_date` (je≈õli istnieje)
5. Zmie≈Ñ nazwƒô kolumny `first_name` na `customer_full_name`

### Wskaz√≥wki:
- U≈ºyj: `withColumn()`, `regexp_extract()`, `substring()`, `trim()`, `lower()`, `drop()`, `withColumnRenamed()`

In [None]:
# TODO: Dodaj kolumnƒô email_domain
customers_transformed = customers_df.withColumn(
    "email_domain",
    F.____(____(____), "@(.+)$", 1)  # regexp_extract, col, email
)

# TODO: Dodaj kolumnƒô country_code (pierwsze 2 litery, uppercase)
customers_transformed = customers_transformed.withColumn(
    "country_code",
    ____(col("____").substr(1, ____))  # upper, country, 2
)

# TODO: Dodaj kolumnƒô customer_full_name (trim i lowercase)
customers_transformed = customers_transformed.withColumn(
    "customer_full_name",
    ____(____(col("first_name")))  # lower, trim
)

# TODO: Usu≈Ñ kolumnƒô registration_date (je≈õli istnieje)
if "registration_date" in customers_transformed.columns:
    customers_transformed = customers_transformed.____("____")  # drop, registration_date

# TODO: Zmie≈Ñ nazwƒô first_name na customer_full_name
customers_transformed = customers_transformed.____("first_name", "____")  # withColumnRenamed, customer_full_name

print("=== Przyk≈Çadowe dane po transformacjach ===")
display(customers_transformed.limit(5))

---

## Zadanie 2: Transformacje warunkowe (15 min)

### Cel:
Dodaj kolumny z logikƒÖ warunkowƒÖ.

### Instrukcje:
1. Dodaj kolumnƒô `customer_segment` (VIP dla PL/DE, Regular dla reszty)
2. Dodaj kolumnƒô `email_valid` (True je≈õli email zawiera '@', False w przeciwnym razie)
3. Dodaj kolumnƒô `country_region` (Europe dla PL/DE/FR, Other dla reszty)

### Wskaz√≥wki:
- U≈ºyj: `when().otherwise()`
- Dla wielu warunk√≥w: `.when().when().otherwise()`

In [None]:
# TODO: Dodaj kolumnƒô customer_segment (VIP dla PL/DE, Regular dla reszty)
customers_transformed = customers_transformed.withColumn(
    "customer_segment",
    ____(col("country").isin("Poland", "____"), "VIP")  # when, Germany
    .otherwise("____")  # Regular
)

# TODO: Dodaj kolumnƒô email_valid (True je≈õli zawiera @)
customers_transformed = customers_transformed.withColumn(
    "email_valid",
    when(col("____").____("@"), ____)  # email, contains, True
    .otherwise(False)
)

# TODO: Dodaj kolumnƒô country_region (Europe dla PL/DE/FR, Other dla reszty)
customers_transformed = customers_transformed.withColumn(
    "country_region",
    when(col("country").____("Poland", "Germany", "France"), "____")  # isin, Europe
    .____("Other")  # otherwise
)

print("=== Przyk≈Çadowe dane z transformacjami warunkowymi ===")
display(
    customers_transformed
    .select("customer_id", "country", "customer_segment", "email_valid", "country_region")
    .limit(10)
)

---

## Zadanie 3: Filtry i sortowanie (10 min)

### Cel:
Filtruj i sortuj dane.

### Instrukcje:
1. Filtruj klient√≥w z Polski
2. Filtruj zam√≥wienia o warto≈õci > 100
3. Sortuj zam√≥wienia wed≈Çug total_amount malejƒÖco
4. Znajd≈∫ top 10 najdro≈ºszych zam√≥wie≈Ñ

### Wskaz√≥wki:
- U≈ºyj: `.filter()` lub `.where()`, `.orderBy()`, `.limit()`

In [None]:
# TODO: Filtruj klient√≥w z Polski
polish_customers = customers_transformed.filter(col("____") == "Poland")  # country
print(f"Klienci z Polski: {polish_customers.count()}")

# TODO: Filtruj zam√≥wienia o warto≈õci > 100
high_value_orders = orders_df.filter(col("____") > ____)  # total_amount, 100
print(f"Zam√≥wienia > 100: {high_value_orders.count()}")

# TODO: Top 10 najdro≈ºszych zam√≥wie≈Ñ (sortowanie malejƒÖce)
top_orders = (
    orders_df
    .orderBy(col("total_amount").____())  # desc
    .limit(____)  # 10
)

print("\n=== Top 10 najdro≈ºszych zam√≥wie≈Ñ ===")
display(top_orders)

---

## Zadanie 4: Agregacje - PySpark (15 min)

### Cel:
Przeprowad≈∫ agregacje na zam√≥wieniach.

### Instrukcje:
1. Policz zam√≥wienia wed≈Çug statusu
2. Oblicz ca≈ÇkowitƒÖ warto≈õƒá zam√≥wie≈Ñ wed≈Çug statusu
3. Znajd≈∫ ≈õredniƒÖ warto≈õƒá zam√≥wienia wed≈Çug customer_id
4. Policz zam√≥wienia per klient

### Wskaz√≥wki:
- U≈ºyj: `.groupBy()`, `.agg()`, `count()`, `sum()`, `avg()`

In [None]:
# TODO: Policz zam√≥wienia wed≈Çug statusu
orders_by_status = (
    orders_df
    .groupBy("____")  # status
    .count()
    .orderBy("count", ascending=____)  # False
)

print("=== Zam√≥wienia wed≈Çug statusu ===")
display(orders_by_status)

In [None]:
# TODO: Ca≈Çkowita warto≈õƒá i ≈õrednia wed≈Çug statusu
revenue_by_status = (
    orders_df
    .groupBy("status")
    .agg(
        F.____("total_amount").alias("total_revenue"),  # sum
        F.____("total_amount").alias("avg_order_value")  # avg
    )
)

print("=== Revenue wed≈Çug statusu ===")
display(revenue_by_status)

In [None]:
# TODO: Statystyki per klient
customer_stats = (
    orders_df
    .groupBy("____")  # customer_id
    .agg(
        F.____("*").alias("total_orders"),  # count
        F.sum("____").alias("total_spent"),  # total_amount
        F.avg("total_amount").alias("avg_order_value")
    )
)

print("=== Top 10 klient√≥w wed≈Çug wydatk√≥w ===")
display(customer_stats.orderBy("____", ascending=False).limit(10))  # total_spent

---

## Zadanie 5: SQL Equivalent (10 min)

### Cel:
Napisz te same transformacje w SQL.

### Instrukcje:
1. Utw√≥rz temp view dla customers i orders
2. Napisz SQL query agregujƒÖcy zam√≥wienia wed≈Çug statusu
3. Napisz SQL query z JOINem customers i orders

### Wskaz√≥wki:
- U≈ºyj: `createOrReplaceTempView()`, `spark.sql()`

In [None]:
# TODO: Utw√≥rz temp views dla SQL queries
customers_df.____("customers")  # createOrReplaceTempView
orders_df.createOrReplaceTempView("____")  # orders

print("‚úì Temp views utworzone: customers, orders")

In [None]:
# TODO: SQL query - agregacja zam√≥wie≈Ñ wed≈Çug statusu
result = spark.sql("""
    SELECT 
        status,
        ____(*) as order_count,  -- COUNT
        ____(total_amount) as total_revenue,  -- SUM
        ____(total_amount) as avg_order_value  -- AVG
    FROM ____  -- orders
    GROUP BY ____  -- status
    ORDER BY total_revenue ____  -- DESC
""")

print("=== Agregacja zam√≥wie≈Ñ (SQL) ===")
display(result)

In [None]:
# TODO: SQL query - JOIN customers i orders
result = spark.sql("""
    SELECT 
        c.customer_id,
        c.first_name,
        c.country,
        ____(____.order_id) as total_orders,  -- COUNT, o
        SUM(o.____) as total_spent  -- total_amount
    FROM ____ c  -- customers
    ____ JOIN orders o ON c.customer_id = o.customer_id  -- LEFT
    GROUP BY c.customer_id, c.first_name, c.country
    ORDER BY ____ DESC  -- total_spent
    LIMIT ____  -- 10
""")

print("=== Top 10 klient√≥w z zam√≥wieniami (SQL JOIN) ===")
display(result)

---

## Zadanie 6: Data Cleaning - Nulls (15 min)

### Cel:
Obs≈Çu≈º warto≈õci NULL w danych.

### Instrukcje:
1. Policz warto≈õci NULL w ka≈ºdej kolumnie customers
2. ZastƒÖp NULL w `email` warto≈õciƒÖ "unknown@example.com"
3. ZastƒÖp NULL w `country` warto≈õciƒÖ "Unknown"
4. Usu≈Ñ rekordy gdzie `customer_id` jest NULL

### Wskaz√≥wki:
- U≈ºyj: `.fillna()`, `.dropna()`, `coalesce()`

In [None]:
# TODO: Policz warto≈õci NULL w ka≈ºdej kolumnie
from pyspark.sql.functions import sum as spark_sum

null_counts = customers_df.select([
    spark_sum(col(c).____().cast("int")).alias(c)  # isNull
    for c in customers_df.columns
])

print("=== Warto≈õci NULL przed czyszczeniem ===")
display(null_counts)

In [None]:
# TODO: ZastƒÖp NULL w email warto≈õciƒÖ domy≈õlnƒÖ
customers_clean = customers_df.____({  # fillna
    "email": "____"  # unknown@example.com
})

# TODO: ZastƒÖp NULL w country
customers_clean = customers_clean.fillna({
    "____": "Unknown"  # country
})

# TODO: Usu≈Ñ rekordy gdzie customer_id jest NULL
customers_clean = customers_clean.____(____ =["customer_id"])  # dropna, subset

print(f"\n‚úì Rekordy po czyszczeniu NULL: {customers_clean.count()}")
print(f"  Usuniƒôto: {customers_df.count() - customers_clean.count()} rekord√≥w")

---

## Zadanie 7: Deduplikacja (10 min)

### Cel:
Usu≈Ñ duplikaty z danych.

### Instrukcje:
1. Znajd≈∫ liczbƒô duplikat√≥w w customers (wszystkie kolumny)
2. Usu≈Ñ duplikaty oparte na customer_id
3. Usu≈Ñ duplikaty oparte na email

### Wskaz√≥wki:
- U≈ºyj: `.dropDuplicates()`, `.distinct()`

In [None]:
# TODO: Znajd≈∫ liczbƒô duplikat√≥w (wszystkie kolumny)
total_rows = customers_clean.count()
distinct_rows = customers_clean.____().count()  # distinct
duplicates = total_rows - distinct_rows

print("=== Analiza duplikat√≥w ===")
print(f"Ca≈Çkowita liczba rekord√≥w: {total_rows}")
print(f"Unikalne rekordy: {distinct_rows}")
print(f"Duplikaty (wszystkie kolumny): {____}")  # duplicates

In [None]:
# TODO: Usu≈Ñ duplikaty na podstawie customer_id
customers_dedup = customers_clean.____([____])  # dropDuplicates, "customer_id"

print(f"\n‚úì Rekordy po deduplikacji (customer_id): {customers_dedup.count()}")
print(f"  Usuniƒôto: {customers_clean.count() - customers_dedup.count()} duplikat√≥w")

In [None]:
# TODO: Sprawd≈∫ duplikaty w kolumnie email
email_duplicates = (
    customers_clean
    .groupBy("____")  # email
    .count()
    .filter("count > ____")  # 1
)

print(f"\n=== Duplikaty email ===")
print(f"Liczba duplikat√≥w email: {email_duplicates.count()}")

if email_duplicates.count() > 0:
    print("\nPrzyk≈Çady duplikat√≥w email:")
    display(email_duplicates.orderBy("count", ascending=False).limit(5))

---

## Zadanie 8: Quality Checks (10 min)

### Cel:
Zaimplementuj quality checks i flaguj problemy.

### Instrukcje:
1. Dodaj kolumnƒô `quality_flag` (0 = OK, 1 = problem)
2. Flaguj rekordy gdzie email nie zawiera '@'
3. Flaguj rekordy gdzie country = "Unknown"
4. Policz rekordy z problemami

### Wskaz√≥wki:
- U≈ºyj: `when().otherwise()` dla flagowania

In [None]:
# TODO: Dodaj quality_flag (0 = OK, 1 = problem)
customers_with_flags = customers_dedup.withColumn(
    "quality_flag",
    when(~col("email").____("@"), ____)  # contains, 1
    .when(col("____") == "Unknown", 1)  # country
    .otherwise(____)  # 0
)

# TODO: Policz rekordy z problemami
problem_count = customers_with_flags.filter(col("quality_flag") == ____).count()  # 1
ok_count = customers_with_flags.filter(col("quality_flag") == 0).count()

print("=== Quality Checks ===")
print(f"‚úì Rekordy OK: {ok_count}")
print(f"‚ö† Rekordy z problemami: {____}")  # problem_count
print(f"  Procent problem√≥w: {(problem_count / customers_with_flags.count() * 100):.2f}%")

In [None]:
# TODO: Wy≈õwietl przyk≈Çadowe rekordy z problemami
if problem_count > 0:
    print("\n=== Przyk≈Çadowe rekordy z problemami ===")
    display(
        customers_with_flags
        .filter(col("____") == 1)  # quality_flag
        .select("customer_id", "customer_full_name", "email", "country", "quality_flag")
        .limit(5)
    )
else:
    print("\n‚úì Brak rekord√≥w z problemami!")

---

## Walidacja i weryfikacja

### Checklist:
- [ ] Transformacje kolumnowe zastosowane
- [ ] Transformacje warunkowe dzia≈ÇajƒÖ
- [ ] Agregacje poprawne (PySpark i SQL)
- [ ] NULL values obs≈Çu≈ºone
- [ ] Duplikaty usuniƒôte
- [ ] Quality checks zaimplementowane

In [None]:
print("="*60)
print("=== WERYFIKACJA WYNIK√ìW WARSZTATU ===")
print("="*60)

try:
    # Sprawd≈∫ czy wszystkie DataFrames zosta≈Çy utworzone
    assert 'customers_transformed' in locals(), "customers_transformed nie zosta≈Ç utworzony"
    assert 'customers_clean' in locals(), "customers_clean nie zosta≈Ç utworzony"
    assert 'customers_dedup' in locals(), "customers_dedup nie zosta≈Ç utworzony"
    assert 'customers_with_flags' in locals(), "customers_with_flags nie zosta≈Ç utworzony"
    
    print("\n‚úì Wszystkie DataFrames utworzone")
    
    # Statystyki finalne
    print(f"\nüìä Statystyki ko≈Ñcowe:")
    print(f"  Oryginalna liczba rekord√≥w: {customers_df.count()}")
    print(f"  Po transformacjach: {customers_transformed.count()}")
    print(f"  Po czyszczeniu NULL: {customers_clean.count()}")
    print(f"  Po deduplikacji: {customers_dedup.count()}")
    print(f"  Finalna liczba rekord√≥w: {customers_with_flags.count()}")
    
    print(f"\n‚úÖ Quality Checks:")
    ok_records = customers_with_flags.filter(col('quality_flag') == 0).count()
    problem_records = customers_with_flags.filter(col('quality_flag') == 1).count()
    print(f"  ‚úì Rekordy bez problem√≥w: {ok_records}")
    print(f"  ‚ö† Rekordy z problemami: {problem_records}")
    
    # Zapisz do tabeli (opcjonalnie)
    output_table = f"{BRONZE_SCHEMA}.customers_clean_workshop"
    print(f"\nüíæ Zapisywanie do tabeli: {output_table}")
    
    customers_with_flags.write.format("delta").mode("overwrite").option("overwriteSchema", "true").saveAsTable(output_table)
    
    print(f"  ‚úì Zapisano tabelƒô: {output_table}")
    
    print("\n" + "="*60)
    print("‚úì‚úì‚úì WARSZTAT ZAKO≈ÉCZONY POMY≈öLNIE! ‚úì‚úì‚úì")
    print("="*60)
    
except AssertionError as e:
    print(f"\n‚úó B≈ÇƒÖd: {e}")
    print("  Upewnij siƒô, ≈ºe wszystkie zadania zosta≈Çy wykonane!")
except Exception as e:
    print(f"\n‚úó Nieoczekiwany b≈ÇƒÖd: {e}")

---

## Podsumowanie warsztatu

### ‚úÖ Co osiƒÖgnƒÖ≈Çe≈õ:

**Transformacje:**
- ‚úÖ Transformacje kolumnowe: `withColumn()`, `drop()`, `withColumnRenamed()`
- ‚úÖ Ekstrakcja danych: `regexp_extract()`, `substring()`
- ‚úÖ Formatowanie: `trim()`, `lower()`, `upper()`
- ‚úÖ Logika warunkowa: `when().otherwise()`
- ‚úÖ Filtry i sortowanie: `filter()`, `orderBy()`, `limit()`

**Agregacje:**
- ‚úÖ Grupowanie: `groupBy()`, `agg()`
- ‚úÖ Funkcje agregujƒÖce: `count()`, `sum()`, `avg()`, `min()`, `max()`
- ‚úÖ R√≥wnowa≈ºne zapytania SQL

**Data Cleaning:**
- ‚úÖ Obs≈Çuga warto≈õci NULL: `fillna()`, `dropna()`, `coalesce()`
- ‚úÖ Deduplikacja: `dropDuplicates()`, `distinct()`
- ‚úÖ Quality checks i flagowanie problem√≥w
- ‚úÖ Analiza jako≈õci danych

### üéØ Kluczowe wnioski:

1. **PySpark vs SQL** - Oba podej≈õcia dajƒÖ te same rezultaty, wyb√≥r zale≈ºy od preferencji
2. **Czyszczenie danych jest kluczowe** - NULL i duplikaty mogƒÖ zniekszta≈Çciƒá analizy
3. **Quality flags** - PozwalajƒÖ na monitorowanie jako≈õci bez usuwania danych
4. **Transformacje ≈Ça≈Ñcuchowe** - PySpark pozwala na eleganckie ≈ÇƒÖczenie operacji

### üìö Best Practices zastosowane:

- ‚úì Dodawanie nowych kolumn zamiast modyfikowania istniejƒÖcych
- ‚úì Logowanie statystyk przed i po czyszczeniu
- ‚úì U≈ºywanie flag jako≈õci zamiast usuwania problematycznych danych
- ‚úì Komentowanie i dokumentowanie transformacji
- ‚úì Weryfikacja wynik√≥w na ka≈ºdym etapie

### ‚û°Ô∏è Nastƒôpne kroki:
- **Kolejny warsztat**: `03_views_basic_jobs_workshop.ipynb`
- **Praktyka**: Zastosuj te techniki na w≈Çasnych danych
- **Dokumentacja**: [PySpark SQL Functions](https://spark.apache.org/docs/latest/api/python/reference/pyspark.sql/functions.html)

---