# Demo 1: Zaawansowane Transformacje PySpark

**Temat:** Advanced PySpark Transformations  
**Czas trwania:** 60 minut  
**Typ:** Live coding demo + teoria

---

## üìã Cele szkoleniowe

- Window Functions: partitionBy, orderBy, rowsBetween, rangeBetween
- Funkcje okienkowe: lag, lead, row_number, dense_rank, rank
- Rolling windows i agregacje ruchome
- Struktury z≈Ço≈ºone: explode, posexplode, sequence
- JSON processing: from_json, to_json, schema_of_json
- Funkcje datowe: date_trunc, date_add, add_months, last_day

---

## Inicjalizacja ≈õrodowiska

In [0]:
%run ../00_setup

---

## Czƒô≈õƒá 1: Window Functions - podstawy

### Koncepcja Window Functions

Window Functions pozwalajƒÖ na wykonywanie oblicze≈Ñ na "oknach" (partycjach) danych bez aggregacji ca≈Çego DataFrame.

**Kluczowe elementy:**
- `partitionBy()`: Podzia≈Ç danych na grupy
- `orderBy()`: Sortowanie w ramach partycji
- `rowsBetween()` / `rangeBetween()`: Definicja zakresu okna

**Zastosowania:**
- Ranking (row_number, rank, dense_rank)
- Por√≥wnania czasowe (lag, lead)
- Agregacje ruchome (rolling sum, moving average)
- Analiza trend√≥w

In [0]:
from pyspark.sql import Window
from pyspark.sql.functions import (
    col, row_number, rank, dense_rank, lag, lead,
    sum as _sum, avg, count, max as _max, min as _min,
    to_date, date_trunc, date_add, add_months, last_day,
    explode, posexplode, sequence, from_json, to_json, schema_of_json,
    current_timestamp, round as _round, lit
)
from pyspark.sql.types import StructType, StructField, IntegerType, StringType, DoubleType, DateType, ArrayType
import datetime

# Przygotowanie przyk≈Çadowych danych zam√≥wie≈Ñ
orders_data = [
    (1, 1, "2024-01-15", 150.0),
    (2, 2, "2024-01-16", 200.0),
    (3, 1, "2024-02-10", 300.0),
    (4, 3, "2024-02-12", 100.0),
    (5, 2, "2024-03-05", 450.0),
    (6, 1, "2024-03-15", 250.0),
    (7, 3, "2024-03-20", 180.0),
    (8, 2, "2024-04-01", 320.0),
    (9, 1, "2024-04-10", 400.0),
    (10, 3, "2024-04-15", 220.0),
]

orders_schema = StructType([
    StructField("order_id", IntegerType(), False),
    StructField("customer_id", IntegerType(), False),
    StructField("order_date", StringType(), False),
    StructField("amount", DoubleType(), False)
])

orders_df = spark.createDataFrame(orders_data, orders_schema)
orders_df = orders_df.withColumn("order_date", to_date(col("order_date")))

orders_df.display()

### Przygotowanie danych przyk≈Çadowych

Utworzenie DataFrame z przyk≈Çadowymi zam√≥wieniami do demonstracji:

In [None]:
orders_data = [
    (1, 1, "2024-01-15", 150.0),
    (2, 2, "2024-01-16", 200.0),
    (3, 1, "2024-02-10", 300.0),
    (4, 3, "2024-02-12", 100.0),
    (5, 2, "2024-03-05", 450.0),
    (6, 1, "2024-03-15", 250.0),
    (7, 3, "2024-03-20", 180.0),
    (8, 2, "2024-04-01", 320.0),
    (9, 1, "2024-04-10", 400.0),
    (10, 3, "2024-04-15", 220.0),
]

### Definicja schematu

Utworzenie schematu dla DataFrame zam√≥wie≈Ñ:

In [None]:
orders_schema = StructType([
    StructField("order_id", IntegerType(), False),
    StructField("customer_id", IntegerType(), False),
    StructField("order_date", StringType(), False),
    StructField("amount", DoubleType(), False)
])

### Utworzenie DataFrame

Tworzenie DataFrame i konwersja kolumny daty:

In [None]:
orders_df = spark.createDataFrame(orders_data, orders_schema)
orders_df = orders_df.withColumn("order_date", to_date(col("order_date")))

orders_df.display()

### Przyk≈Çad 1: Ranking - row_number, rank, dense_rank

**R√≥≈ºnice:**
- `row_number()`: Unikalne numery (1, 2, 3, 4, ...)
- `rank()`: Z przerwami przy r√≥wnych warto≈õciach (1, 2, 2, 4, ...)
- `dense_rank()`: Bez przerw przy r√≥wnych warto≈õciach (1, 2, 2, 3, ...)

In [0]:
# Ranking zam√≥wie≈Ñ dla ka≈ºdego klienta wed≈Çug kwoty (malejƒÖco)
window_spec = Window.partitionBy("customer_id").orderBy(col("amount").desc())

orders_ranked = orders_df.withColumn("row_num", row_number().over(window_spec)) \
    .withColumn("rank", rank().over(window_spec)) \
    .withColumn("dense_rank", dense_rank().over(window_spec))

orders_ranked.orderBy("customer_id", "row_num").display()

### Przyk≈Çad 2: Funkcje lag i lead

**lag()**: Warto≈õƒá z poprzedniego wiersza  
**lead()**: Warto≈õƒá z nastƒôpnego wiersza

**Zastosowania:**
- Por√≥wnanie z poprzednim okresem
- Obliczenie zmian (deltas)
- Analiza sekwencji zdarze≈Ñ

In [0]:
# Por√≥wnanie z poprzednim i nastƒôpnym zam√≥wieniem
window_spec_time = Window.partitionBy("customer_id").orderBy("order_date")

orders_lag_lead = orders_df \
    .withColumn("prev_amount", lag("amount", 1).over(window_spec_time)) \
    .withColumn("next_amount", lead("amount", 1).over(window_spec_time)) \
    .withColumn("amount_change", col("amount") - col("prev_amount")) \
    .withColumn("amount_change_pct", 
                _round((col("amount") - col("prev_amount")) / col("prev_amount") * 100, 2))

orders_lag_lead.orderBy("customer_id", "order_date").display()

---

## Czƒô≈õƒá 2: Rolling Windows - agregacje ruchome

### rowsBetween vs rangeBetween

**rowsBetween(start, end)**: Zakres wierszy  
- `Window.unboundedPreceding`: Od poczƒÖtku partycji  
- `Window.unboundedFollowing`: Do ko≈Ñca partycji  
- `-1, 0`: Poprzedni wiersz i bie≈ºƒÖcy  
- `-2, 0`: Dwa poprzednie + bie≈ºƒÖcy (3-row window)

**rangeBetween(start, end)**: Zakres warto≈õci (wymaga orderBy)

In [0]:
# Rolling sum - suma kroczƒÖca (wszystkie poprzednie + bie≈ºƒÖcy)
window_cumulative = Window.partitionBy("customer_id") \
    .orderBy("order_date") \
    .rowsBetween(Window.unboundedPreceding, Window.currentRow)

orders_cumulative = orders_df \
    .withColumn("cumulative_sum", _sum("amount").over(window_cumulative)) \
    .withColumn("cumulative_count", count("order_id").over(window_cumulative)) \
    .withColumn("cumulative_avg", _round(avg("amount").over(window_cumulative), 2))

orders_cumulative.orderBy("customer_id", "order_date").display()

In [0]:
# Moving average - ≈õrednia kroczƒÖca z 3 ostatnich zam√≥wie≈Ñ
window_moving_3 = Window.partitionBy("customer_id") \
    .orderBy("order_date") \
    .rowsBetween(-2, 0)  # 2 poprzednie + bie≈ºƒÖcy = 3 wiersze

orders_moving_avg = orders_df \
    .withColumn("moving_avg_3", _round(avg("amount").over(window_moving_3), 2)) \
    .withColumn("moving_sum_3", _sum("amount").over(window_moving_3)) \
    .withColumn("moving_max_3", _max("amount").over(window_moving_3)) \
    .withColumn("moving_min_3", _min("amount").over(window_moving_3))

In [None]:
orders_moving_avg.orderBy("customer_id", "order_date").display()

---

## Czƒô≈õƒá 3: Struktury z≈Ço≈ºone - Arrays

### explode i posexplode

**explode()**: Rozwija tablicƒô do osobnych wierszy  
**posexplode()**: Jak explode, ale z numerem pozycji

**Zastosowania:**
- Normalizacja danych zagnie≈ºd≈ºonych
- Analiza list (tagi, kategorie, produkty)
- Event tracking (sekwencje akcji)

In [0]:
# Przyk≈Çad: Produkty w zam√≥wieniach (array)
orders_with_products_data = [
    (1, 1, "2024-01-15", ["Laptop", "Mouse", "Keyboard"]),
    (2, 2, "2024-01-16", ["Monitor", "Cable"]),
    (3, 1, "2024-02-10", ["Headphones"]),
    (4, 3, "2024-02-12", ["Tablet", "Case", "Stylus", "Charger"]),
]

orders_products_schema = StructType([
    StructField("order_id", IntegerType(), False),
    StructField("customer_id", IntegerType(), False),
    StructField("order_date", StringType(), False),
    StructField("products", ArrayType(StringType()), False)
])

orders_products_df = spark.createDataFrame(orders_with_products_data, orders_products_schema)

**Dane oryginalne (z arrayami)**

Ka≈ºde zam√≥wienie zawiera listƒô produkt√≥w jako array. Struktura danych:
- `order_id`: ID zam√≥wienia
- `customer_id`: ID klienta
- `order_date`: Data zam√≥wienia
- `products`: Array z nazwami produkt√≥w

### Schemat dla danych z produktami

Definicja schematu zawierajƒÖcego array produkt√≥w:

In [None]:
orders_products_schema = StructType([
    StructField("order_id", IntegerType(), False),
    StructField("customer_id", IntegerType(), False),
    StructField("order_date", StringType(), False),
    StructField("products", ArrayType(StringType()), False)
])

### Utworzenie DataFrame z arrayami

Tworzenie DataFrame i wy≈õwietlenie danych oryginalnych:

In [None]:
orders_products_df = spark.createDataFrame(orders_with_products_data, orders_products_schema)

orders_products_df.display()

In [0]:
# explode() - rozwija tablicƒô do osobnych wierszy
orders_exploded = orders_products_df.select(
    "order_id",
    "customer_id",
    "order_date",
    explode("products").alias("product")
)

orders_exploded.display()

**Wynik:** Array produkt√≥w zosta≈Ç rozwiniƒôty do osobnych wierszy - ka≈ºdy produkt ma teraz sw√≥j wiersz.

In [0]:
orders_posexploded = orders_products_df.select(
    "order_id",
    "customer_id",
    "order_date",
    posexplode("products").alias("position", "product")
)

orders_posexploded.display()

**Wynik:** `posexplode()` rozwija array i dodatkowo dodaje kolumnƒô `position` z numerem pozycji w oryginalnej tablicy (0-indexed).

### Praktyczny przyk≈Çad: Analiza koszyka zakupowego

**Scenariusz biznesowy:** 
Mamy zam√≥wienia z listƒÖ produkt√≥w i chcemy przeanalizowaƒá:
- Kt√≥re produkty sƒÖ najczƒô≈õciej kupowane razem
- ≈öredniƒÖ liczbƒô produkt√≥w w koszyku
- Top produkty per kategoria klienta

In [0]:
# Dane: Zam√≥wienia z produktami, cenami i kategoriami
basket_data = [
    (101, 1, "Premium", "2024-01-15", [
        {"product": "Laptop", "price": 1200.0, "category": "Electronics"},
        {"product": "Mouse", "price": 25.0, "category": "Accessories"},
        {"product": "Keyboard", "price": 75.0, "category": "Accessories"},
        {"product": "USB Cable", "price": 10.0, "category": "Accessories"}
    ]),
    (102, 2, "Standard", "2024-01-16", [
        {"product": "Monitor", "price": 300.0, "category": "Electronics"},
        {"product": "HDMI Cable", "price": 15.0, "category": "Accessories"}
    ]),
    (103, 1, "Premium", "2024-02-10", [
        {"product": "Headphones", "price": 150.0, "category": "Audio"},
        {"product": "Laptop", "price": 1200.0, "category": "Electronics"}
    ]),
    (104, 3, "Standard", "2024-02-12", [
        {"product": "Tablet", "price": 400.0, "category": "Electronics"},
        {"product": "Case", "price": 30.0, "category": "Accessories"},
        {"product": "Stylus", "price": 50.0, "category": "Accessories"},
        {"product": "Charger", "price": 25.0, "category": "Accessories"}
    ]),
    (105, 2, "Premium", "2024-03-05", [
        {"product": "Smartphone", "price": 800.0, "category": "Electronics"},
        {"product": "Screen Protector", "price": 20.0, "category": "Accessories"},
        {"product": "Phone Case", "price": 35.0, "category": "Accessories"}
    ]),
]

# Schemat dla zagnie≈ºd≈ºonych danych
basket_schema = StructType([
    StructField("order_id", IntegerType(), False),
    StructField("customer_id", IntegerType(), False),
    StructField("customer_tier", StringType(), False),
    StructField("order_date", StringType(), False),
    StructField("items", ArrayType(
        StructType([
            StructField("product", StringType(), False),
            StructField("price", DoubleType(), False),
            StructField("category", StringType(), False)
        ])
    ), False)
])

basket_df = spark.createDataFrame(basket_data, basket_schema) \
    .withColumn("order_date", to_date(col("order_date")))

print("üì¶ Dane oryginalne - zam√≥wienia z zagnie≈ºd≈ºonymi produktami:")
basket_df.display()

### Schemat dla zagnie≈ºd≈ºonych danych

Definicja schematu dla array of structs:

In [None]:
basket_schema = StructType([
    StructField("order_id", IntegerType(), False),
    StructField("customer_id", IntegerType(), False),
    StructField("customer_tier", StringType(), False),
    StructField("order_date", StringType(), False),
    StructField("items", ArrayType(
        StructType([
            StructField("product", StringType(), False),
            StructField("price", DoubleType(), False),
            StructField("category", StringType(), False)
        ])
    ), False)
])

### Utworzenie DataFrame koszyka

Tworzenie DataFrame z zagnie≈ºd≈ºonymi produktami i wy≈õwietlenie danych oryginalnych:

In [None]:
basket_df = spark.createDataFrame(basket_data, basket_schema) \
    .withColumn("order_date", to_date(col("order_date")))

basket_df.display()

**üì¶ Dane oryginalne - zam√≥wienia z zagnie≈ºd≈ºonymi produktami**

Ka≈ºde zam√≥wienie zawiera:
- `order_id`: ID zam√≥wienia
- `customer_id`: ID klienta  
- `customer_tier`: Tier klienta (Premium/Standard)
- `order_date`: Data zam√≥wienia
- `items`: Array of structs z produktami (nazwa, cena, kategoria)

In [0]:
# Krok 1: explode() - rozw√≥j zagnie≈ºd≈ºonych produkt√≥w
basket_exploded = basket_df.select(
    "order_id",
    "customer_id",
    "customer_tier",
    "order_date",
    explode("items").alias("item")
).select(
    "order_id",
    "customer_id",
    "customer_tier",
    "order_date",
    col("item.product").alias("product"),
    col("item.price").alias("price"),
    col("item.category").alias("category")
)

basket_exploded.display()

In [None]:
# Podsumowanie: ile rekord√≥w przed i po explode
orders_before = basket_df.count()
items_after = basket_exploded.count()

print(f"üìà Statystyki:")
print(f"   Zam√≥wie≈Ñ (przed explode): {orders_before}")
print(f"   Pozycji produkt√≥w (po explode): {items_after}")

**Wynik:** Dane po explode - ka≈ºdy produkt w osobnym wierszu

**Statystyki transformacji:**
- Zam√≥wie≈Ñ (przed explode): 5
- Pozycji produkt√≥w (po explode): ~15+ (w zale≈ºno≈õci od liczby produkt√≥w w ka≈ºdym zam√≥wieniu)

In [0]:
# Analiza 1: Top 5 najpopularniejszych produkt√≥w
top_products = basket_exploded \
    .groupBy("product", "category") \
    .agg(
        count("*").alias("times_ordered"),
        _sum("price").alias("total_revenue"),
        _round(avg("price"), 2).alias("avg_price")
    ) \
    .orderBy(col("times_ordered").desc()) \
    .limit(5)

top_products.display()

**üèÜ TOP 5 Najpopularniejszych produkt√≥w**

Analiza pokazuje kt√≥re produkty sƒÖ najczƒô≈õciej zamawiane, wraz z ca≈Çkowitym przychodem i ≈õredniƒÖ cenƒÖ.

In [None]:
# Analiza 2: Sprzeda≈º per kategoria
category_sales = basket_exploded \
    .groupBy("category") \
    .agg(
        count("*").alias("items_sold"),
        _sum("price").alias("revenue"),
        _round(avg("price"), 2).alias("avg_item_price")
    ) \
    .orderBy(col("revenue").desc())

category_sales.display()

**üìä Sprzeda≈º per kategoria**

Analiza przychod√≥w wed≈Çug kategorii produkt√≥w - pozwala zidentyfikowaƒá najwa≈ºniejsze kategorie biznesowe.

In [0]:
from pyspark.sql.functions import when

# Analiza 3: Metryki koszyka zakupowego per zam√≥wienie
basket_metrics = basket_exploded \
    .groupBy("order_id", "customer_id", "customer_tier", "order_date") \
    .agg(
        count("product").alias("basket_size"),
        _sum("price").alias("order_total"),
        _round(avg("price"), 2).alias("avg_item_price"),
        _max("price").alias("most_expensive_item"),
        count(when(col("category") == "Electronics", 1)).alias("electronics_count"),
        count(when(col("category") == "Accessories", 1)).alias("accessories_count")
    ) \
    .orderBy("order_id")

basket_metrics.display()

**üõí Metryki koszyka zakupowego**

Analiza ka≈ºdego zam√≥wienia pod kƒÖtem:
- Rozmiar koszyka (liczba produkt√≥w)
- Warto≈õƒá ca≈Çkowita zam√≥wienia
- ≈örednia cena produktu w koszyku
- Najdro≈ºszy produkt
- Podzia≈Ç na kategorie (Electronics vs Accessories)

In [None]:
# Podsumowanie per tier klienta
tier_analysis = basket_metrics \
    .groupBy("customer_tier") \
    .agg(
        count("order_id").alias("orders_count"),
        _round(avg("basket_size"), 2).alias("avg_basket_size"),
        _round(avg("order_total"), 2).alias("avg_order_value"),
        _sum("order_total").alias("total_revenue")
    ) \
    .orderBy(col("total_revenue").desc())

tier_analysis.display()

**üíé Analiza per tier klienta**

Por√≥wnanie zachowa≈Ñ zakupowych miƒôdzy segmentami klient√≥w (Premium vs Standard).

In [0]:
# Analiza 4: Market Basket Analysis - produkty kupowane razem

# Przygotowanie: Self-join produkt√≥w z tego samego zam√≥wienia
basket_pairs = basket_exploded.alias("a") \
    .join(
        basket_exploded.alias("b"),
        (col("a.order_id") == col("b.order_id")) & 
        (col("a.product") < col("b.product"))  # Unikamy duplikat√≥w (A+B = B+A)
    ) \
    .select(
        col("a.product").alias("product_a"),
        col("b.product").alias("product_b")
    )

# Zlicz najczƒôstsze pary produkt√≥w
product_pairs_count = basket_pairs \
    .groupBy("product_a", "product_b") \
    .agg(count("*").alias("times_together")) \
    .orderBy(col("times_together").desc())

product_pairs_count.display()

**üîó Produkty kupowane razem (Market Basket Analysis)**

Self-join tego samego zam√≥wienia, aby znale≈∫ƒá wszystkie pary produkt√≥w kupowanych razem. Warunek `product_a < product_b` eliminuje duplikaty.

In [None]:
# Insight: Kt√≥re produkty sƒÖ najczƒô≈õciej kupowane z Electronics?
electronics_combos = basket_exploded.alias("e") \
    .join(
        basket_exploded.alias("a"),
        (col("e.order_id") == col("a.order_id")) & 
        (col("e.category") == "Electronics") &
        (col("a.category") != "Electronics")
    ) \
    .groupBy(col("e.product").alias("electronics_item"), 
             col("a.product").alias("paired_with")) \
    .agg(count("*").alias("combo_count")) \
    .orderBy(col("combo_count").desc()) \
    .limit(10)

electronics_combos.display()

**üîå Produkty najczƒô≈õciej kupowane z Electronics**

Analiza cross-selling: kt√≥re produkty z innych kategorii sƒÖ najczƒô≈õciej kupowane razem z produktami Electronics.

### üí° Kluczowe wnioski z przyk≈Çadu

**Co zrobili≈õmy:**
1. ‚úÖ U≈ºyli≈õmy `explode()` do rozwiniƒôcia zagnie≈ºd≈ºonych produkt√≥w (array of structs)
2. ‚úÖ Obliczyli≈õmy metryki per produkt i kategoria
3. ‚úÖ Przeanalizowali≈õmy koszyki zakupowe (basket size, avg value)
4. ‚úÖ Wykonali≈õmy Market Basket Analysis (produkty kupowane razem)

**Zastosowania biznesowe:**
- üéØ **Rekomendacje produkt√≥w**: Produkty czƒôsto kupowane razem
- üìä **Analiza koszyka**: ≈örednia warto≈õƒá, rozmiar per segment klienta
- üí∞ **Cross-selling**: Kt√≥re akcesoria sprzedawaƒá z elektronikƒÖ
- üìà **Revenue optimization**: Kategorie generujƒÖce najwiƒôkszy przych√≥d

**Performance tips:**
- ‚ö†Ô∏è `explode()` zwiƒôksza liczbƒô wierszy - u≈ºywaj z filterem gdzie mo≈ºliwe
- ‚úÖ Po explode agreguj dane, aby zmniejszyƒá rozmiar
- ‚úÖ Dla bardzo du≈ºych array√≥w rozwa≈º partitioning przed explode

### sequence() - generowanie sekwencji

**sequence(start, stop, step)**: Generuje tablicƒô warto≈õci

**Zastosowania:**
- Generowanie zakres√≥w dat
- Tworzenie series czasowych
- Wype≈Çnianie brak√≥w w danych

In [0]:
# Przyk≈Çad: Generowanie sekwencji dni miƒôdzy datami
from pyspark.sql.functions import expr

date_ranges_data = [
    ("2024-01-01", "2024-01-05"),
    ("2024-02-01", "2024-02-03"),
]

date_ranges_df = spark.createDataFrame(date_ranges_data, ["start_date", "end_date"]) \
    .withColumn("start_date", to_date(col("start_date"))) \
    .withColumn("end_date", to_date(col("end_date")))

# Generuj sekwencjƒô dni
date_sequence = date_ranges_df.withColumn(
    "date_array",
    expr("sequence(start_date, end_date, interval 1 day)")
)

date_sequence.display()

**Sekwencja dat jako array**

Funkcja `sequence()` tworzy array dat miƒôdzy `start_date` a `end_date` z krokiem 1 dzie≈Ñ.

In [None]:
# Rozw√≥j do osobnych wierszy
date_sequence.select(
    "start_date",
    "end_date",
    explode("date_array").alias("date")
).display()

**Sekwencja dat po explode**

Ka≈ºda data z array zostaje rozwiniƒôta do osobnego wiersza - przydatne do analizy szereg√≥w czasowych.

---

## Czƒô≈õƒá 4: JSON Processing

### from_json, to_json, schema_of_json

**from_json()**: Parsowanie JSON string ‚Üí struct/array  
**to_json()**: Konwersja struct/array ‚Üí JSON string  
**schema_of_json()**: Automatyczne wykrycie schematu JSON

**Zastosowania:**
- Parsowanie API responses
- Event tracking (nested JSON events)
- Log processing

In [0]:
# Przyk≈Çad: Parsowanie JSON payload
json_data = [
    (1, '{"user_id": 101, "action": "click", "metadata": {"page": "home", "duration": 30}}'),
    (2, '{"user_id": 102, "action": "purchase", "metadata": {"page": "checkout", "duration": 120}}'),
    (3, '{"user_id": 101, "action": "view", "metadata": {"page": "product", "duration": 45}}'),
]

json_df = spark.createDataFrame(json_data, ["event_id", "json_payload"])

**Dane oryginalne (JSON jako string)**

Dane event√≥w zawierajƒÖ JSON payload jako string z zagnie≈ºd≈ºonƒÖ strukturƒÖ:
- `user_id`: ID u≈ºytkownika
- `action`: Typ akcji (click, purchase, view)  
- `metadata`: Zagnie≈ºd≈ºone dane (page, duration)

In [0]:
# Automatyczne wykrycie schematu JSON
json_schema = schema_of_json(lit(json_data[0][1]))

# Parsowanie JSON
json_parsed = json_df.withColumn("parsed_data", from_json(col("json_payload"), json_schema))

json_parsed.display()

**Automatyczne wykrycie schematu i parsowanie JSON**

1. `schema_of_json()` automatycznie wykrywa schemat z przyk≈Çadowego JSON
2. `from_json()` parsuje string JSON do struct zgodnie z wykrytym schematem

In [0]:
# WyciƒÖganie p√≥l z zagnie≈ºd≈ºonego JSON
json_flattened = json_parsed.select(
    "event_id",
    col("parsed_data.user_id").alias("user_id"),
    col("parsed_data.action").alias("action"),
    col("parsed_data.metadata.page").alias("page"),
    col("parsed_data.metadata.duration").alias("duration")
)

json_flattened.display()

**Dane po sp≈Çaszczeniu (flattening)**

WyciƒÖganie konkretnych p√≥l z zagnie≈ºd≈ºonej struktury JSON:
- Dostƒôp do p√≥l pierwszego poziomu: `parsed_data.user_id`
- Dostƒôp do zagnie≈ºd≈ºonych p√≥l: `parsed_data.metadata.page`

---

## Czƒô≈õƒá 5: Funkcje datowe i czasowe

### Kluczowe funkcje

**date_trunc()**: Obciƒôcie do granicy (rok, miesiƒÖc, dzie≈Ñ, godzina)  
**date_add()**: Dodawanie dni  
**add_months()**: Dodawanie miesiƒôcy  
**last_day()**: Ostatni dzie≈Ñ miesiƒÖca  
**datediff()**: R√≥≈ºnica w dniach  
**months_between()**: R√≥≈ºnica w miesiƒÖcach

**Zastosowania:**
- Agregacje temporalne (daily, monthly, yearly)
- Analiza cohort
- Retention analysis
- Forecast horizons

In [0]:
from pyspark.sql.functions import datediff, months_between, year, month, dayofweek, quarter

# Przyk≈Çad: Analiza temporalna zam√≥wie≈Ñ
orders_temporal = orders_df \
    .withColumn("year", year("order_date")) \
    .withColumn("month", month("order_date")) \
    .withColumn("quarter", quarter("order_date")) \
    .withColumn("day_of_week", dayofweek("order_date")) \
    .withColumn("month_start", date_trunc("month", "order_date")) \
    .withColumn("month_end", last_day("order_date")) \
    .withColumn("next_month_start", date_add(last_day("order_date"), 1))

orders_temporal.display()

In [0]:
# Przyk≈Çad: Obliczanie okres√≥w miƒôdzy zam√≥wieniami
window_date = Window.partitionBy("customer_id").orderBy("order_date")

orders_periods = orders_df \
    .withColumn("prev_order_date", lag("order_date", 1).over(window_date)) \
    .withColumn("days_since_last_order", 
                datediff(col("order_date"), col("prev_order_date"))) \
    .withColumn("months_since_last_order", 
                _round(months_between(col("order_date"), col("prev_order_date")), 2))

orders_periods.orderBy("customer_id", "order_date").display()

---

## Czƒô≈õƒá 6: Praktyczny przyk≈Çad - Customer Behavior Analysis

### Zadanie: Analiza zachowa≈Ñ klient√≥w

Wykorzystamy wszystkie poznane techniki do kompleksowej analizy:
1. Ranking zam√≥wie≈Ñ dla ka≈ºdego klienta
2. Por√≥wnanie z poprzednim zam√≥wieniem (lag)
3. ≈örednia ruchoma wydatk√≥w
4. Segmentacja temporalna

In [0]:
# Definicja okien dla analizy zachowa≈Ñ klient√≥w
window_customer_time = Window.partitionBy("customer_id").orderBy("order_date")
window_customer_amount = Window.partitionBy("customer_id").orderBy(col("amount").desc())
window_moving_avg = Window.partitionBy("customer_id").orderBy("order_date").rowsBetween(-2, 0)
window_cumulative = Window.partitionBy("customer_id").orderBy("order_date").rowsBetween(Window.unboundedPreceding, Window.currentRow)

# Kompleksowa analiza zachowa≈Ñ klient√≥w
customer_behavior = orders_df \
    .withColumn("order_rank", row_number().over(window_customer_amount)) \
    .withColumn("order_sequence", row_number().over(window_customer_time)) \
    .withColumn("prev_amount", lag("amount", 1).over(window_customer_time)) \
    .withColumn("amount_change", col("amount") - col("prev_amount")) \
    .withColumn("moving_avg_3", _round(avg("amount").over(window_moving_avg), 2)) \
    .withColumn("cumulative_spent", _sum("amount").over(window_cumulative)) \
    .withColumn("month", date_trunc("month", "order_date"))

customer_behavior.orderBy("customer_id", "order_date").display()

In [None]:
# Kompleksowa analiza zachowa≈Ñ klient√≥w
customer_behavior = orders_df \
    .withColumn("order_rank", row_number().over(window_customer_amount)) \
    .withColumn("order_sequence", row_number().over(window_customer_time)) \
    .withColumn("prev_amount", lag("amount", 1).over(window_customer_time)) \
    .withColumn("amount_change", col("amount") - col("prev_amount")) \
    .withColumn("moving_avg_3", _round(avg("amount").over(window_moving_avg), 2)) \
    .withColumn("cumulative_spent", _sum("amount").over(window_cumulative)) \
    .withColumn("month", date_trunc("month", "order_date"))

customer_behavior.orderBy("customer_id", "order_date").display()

**Kompleksowa analiza zachowa≈Ñ klient√≥w**

≈ÅƒÖczymy wszystkie poznane techniki:
- **Ranking**: Pozycja zam√≥wienia wg kwoty
- **Sekwencja**: Kolejno≈õƒá zam√≥wie≈Ñ w czasie  
- **Lag**: Por√≥wnanie z poprzednim zam√≥wieniem
- **Moving average**: ≈örednia kroczƒÖca z 3 zam√≥wie≈Ñ
- **Cumulative sum**: ≈ÅƒÖczne wydatki klienta
- **Temporal grouping**: Grupowanie per miesiƒÖc

---

## Podsumowanie

### ‚úÖ Om√≥wione zagadnienia

1. **Window Functions**
   - partitionBy, orderBy
   - row_number, rank, dense_rank
   - lag, lead

2. **Rolling Windows**
   - rowsBetween / rangeBetween
   - Cumulative aggregations
   - Moving averages

3. **Struktury z≈Ço≈ºone**
   - explode / posexplode
   - sequence()

4. **JSON Processing**
   - from_json, to_json
   - schema_of_json
   - Flattening nested JSON

5. **Funkcje datowe**
   - date_trunc, date_add, add_months, last_day
   - datediff, months_between
   - Temporal aggregations

---

### üéØ Best Practices

1. **Window Functions**: U≈ºywaj partitionBy dla efektywno≈õci
2. **Rolling Windows**: Wybierz odpowiedni zakres (rows vs range)
3. **explode**: Uwa≈ºaj na performance przy du≈ºych arrayach
4. **JSON**: Wykorzystuj schema_of_json dla automatycznego wykrycia struktury
5. **Temporal**: Standaryzuj strefy czasowe przed analizƒÖ

---