# 02. Schema Evolution

Iceberg의 **Schema Evolution** 기능을 통해 테이블 스키마를 안전하게 변경하고, 기존 데이터에 미치는 영향을 확인합니다.

## Schema Evolution 개념

전통적인 테이블 포맷에서 스키마 변경은 위험한 작업입니다.  
컬럼 이름이나 순서에 의존하기 때문에, 변경 시 기존 데이터와 호환성 문제가 발생할 수 있습니다.

### Iceberg의 접근 방식: Field ID 기반 매핑

Iceberg는 **이름(name)**이 아닌 **고유 ID(field ID)**로 컬럼을 추적합니다.

```
Schema v0:                    Schema v1:
┌─────────────────────┐      ┌─────────────────────────────┐
│ id=1  order_id      │      │ id=1  order_id              │
│ id=2  customer_id   │      │ id=2  customer_id           │
│ id=3  product_name  │      │ id=3  item_name (renamed!)  │
│ id=4  order_date    │      │ id=4  order_date            │
│ id=5  amount        │      │ id=5  amount                │
│ id=6  status        │      │ id=6  status                │
└─────────────────────┘      │ id=7  discount_rate (new!)  │
                              └─────────────────────────────┘
```

- 컬럼 이름을 변경해도 `field ID`가 같으면 동일 컬럼으로 인식
- 새 컬럼이 추가되면 기존 데이터에서는 `NULL`로 반환
- 스키마 변경 자체(ADD/RENAME/DROP)만으로는 기존 Parquet 파일을 다시 쓰지 않아도 file id로 맵핑 가능 (read-time projection)
  - 단, OPTIMIZE/compaction/rewrite_data_files나 일부 UPDATE/DELETE/MERGE에서는 새 파일로 재작성될 수 있음 (in-place 수정은 없음)

### 지원되는 스키마 변경

| 변경 유형 | SQL | 설명 |
|-----------|-----|------|
| 컬럼 추가 | `ADD COLUMNS` | 새 컬럼 추가 (기존 데이터는 NULL) |
| 컬럼 이름 변경 | `RENAME COLUMN` | field ID는 유지 |
| 컬럼 타입 변경 | `ALTER COLUMN ... TYPE` | 호환 가능한 타입만 (int→bigint 등) |
| 컬럼 삭제 | `DROP COLUMN` | 메타데이터에서만 제거 |

## 환경 설정

In [1]:
import sys
sys.path.append('..')

from utils.spark_setup import create_spark_session
from utils.data_generator import generate_orders, to_spark_df

In [2]:
spark = create_spark_session("SchemaEvolution")

Spark + Iceberg 세션 준비 완료 (warehouse: file:///home/jovyan/data/warehouse)


## 테이블 생성 및 초기 데이터 삽입

In [3]:
spark.sql("CREATE DATABASE IF NOT EXISTS demo.lab")
spark.sql("DROP TABLE IF EXISTS demo.lab.schema_orders")

spark.sql("""
    CREATE TABLE demo.lab.schema_orders (
        order_id     BIGINT,
        customer_id  BIGINT,
        product_name STRING,
        order_date   DATE,
        amount       DOUBLE,
        status       STRING
    )
    USING iceberg
    PARTITIONED BY (months(order_date))
""")

print("테이블 생성 완료")

테이블 생성 완료


In [4]:
# 100건 삽입 (Schema v0)
orders = generate_orders(num_records=100, seed=42)
df = to_spark_df(spark, orders)
df.writeTo("demo.lab.schema_orders").append()

count = spark.sql("SELECT COUNT(*) AS cnt FROM demo.lab.schema_orders").collect()[0]["cnt"]
print(f"초기 데이터 삽입: {count}건")

초기 데이터 삽입: 100건


In [5]:
# 초기 스냅샷 ID 저장
snap_v0 = spark.sql("SELECT snapshot_id FROM demo.lab.schema_orders.snapshots ORDER BY committed_at").collect()
snapshot_v0_id = snap_v0[-1]["snapshot_id"]
print(f"Schema v0 스냅샷 ID: {snapshot_v0_id}")

# 현재 스키마 확인
print("\n[ 현재 스키마 ]")
spark.sql("DESCRIBE demo.lab.schema_orders").show(truncate=False)

Schema v0 스냅샷 ID: 3746370947229820768

[ 현재 스키마 ]
+--------------+------------------+-------+
|col_name      |data_type         |comment|
+--------------+------------------+-------+
|order_id      |bigint            |null   |
|customer_id   |bigint            |null   |
|product_name  |string            |null   |
|order_date    |date              |null   |
|amount        |double            |null   |
|status        |string            |null   |
|              |                  |       |
|# Partitioning|                  |       |
|Part 0        |months(order_date)|       |
+--------------+------------------+-------+



## ADD COLUMNS: 새 컬럼 추가

`discount_rate` 컬럼을 추가합니다. 기존 데이터에서 이 컬럼은 `NULL`이 됩니다.

In [6]:
spark.sql("""
    ALTER TABLE demo.lab.schema_orders
    ADD COLUMNS (discount_rate DOUBLE)
""")

print("discount_rate 컬럼 추가 완료")

# 스키마 확인
print("\n[ 변경된 스키마 ]")
spark.sql("DESCRIBE demo.lab.schema_orders").show(truncate=False)

discount_rate 컬럼 추가 완료

[ 변경된 스키마 ]
+--------------+------------------+-------+
|col_name      |data_type         |comment|
+--------------+------------------+-------+
|order_id      |bigint            |null   |
|customer_id   |bigint            |null   |
|product_name  |string            |null   |
|order_date    |date              |null   |
|amount        |double            |null   |
|status        |string            |null   |
|discount_rate |double            |null   |
|              |                  |       |
|# Partitioning|                  |       |
|Part 0        |months(order_date)|       |
+--------------+------------------+-------+



In [7]:
# 기존 데이터에서 discount_rate 값 확인
print("[ 기존 데이터의 discount_rate 값 ]\n")

spark.sql("""
    SELECT order_id, product_name, amount, discount_rate
    FROM demo.lab.schema_orders
    ORDER BY order_id
    LIMIT 10
""").show(truncate=False)

null_count = spark.sql("""
    SELECT COUNT(*) AS cnt
    FROM demo.lab.schema_orders
    WHERE discount_rate IS NULL
""").collect()[0]["cnt"]

print(f"discount_rate가 NULL인 레코드: {null_count}건 (= 기존 전체 데이터)")

[ 기존 데이터의 discount_rate 값 ]

+--------+-------------+-------+-------------+
|order_id|product_name |amount |discount_rate|
+--------+-------------+-------+-------------+
|1       |MacBook Air  |1053.0 |null         |
|2       |iPad Air     |711.47 |null         |
|3       |MacBook Pro  |2072.38|null         |
|4       |AirPods      |178.6  |null         |
|5       |AirPods      |217.27 |null         |
|6       |AirPods Pro  |293.9  |null         |
|7       |iPad Pro     |971.32 |null         |
|8       |AirPods      |236.57 |null         |
|9       |Mac Studio   |1845.1 |null         |
|10      |iPhone 14 Pro|1310.26|null         |
+--------+-------------+-------+-------------+

discount_rate가 NULL인 레코드: 100건 (= 기존 전체 데이터)


## 새 스키마로 데이터 삽입

`discount_rate`를 포함한 새 데이터 50건을 삽입합니다.

In [8]:
import random
random.seed(77)

# discount_rate를 포함하는 데이터 생성
new_orders = generate_orders(num_records=50, id_offset=101, seed=77)
for order in new_orders:
    order['discount_rate'] = round(random.uniform(0.0, 0.3), 2)

# Spark DataFrame으로 변환 (discount_rate 포함)
import pandas as pd
from pyspark.sql.functions import col

pdf = pd.DataFrame(new_orders)
new_df = spark.createDataFrame(pdf)
new_df = new_df.withColumn("order_date", col("order_date").cast("date"))

new_df.writeTo("demo.lab.schema_orders").append()

count = spark.sql("SELECT COUNT(*) AS cnt FROM demo.lab.schema_orders").collect()[0]["cnt"]
print(f"삽입 후 총 레코드: {count}건")

삽입 후 총 레코드: 150건


In [9]:
# 새 데이터의 discount_rate 확인
print("[ 새로 삽입된 데이터 (discount_rate 포함) ]\n")

spark.sql("""
    SELECT order_id, product_name, amount, discount_rate
    FROM demo.lab.schema_orders
    WHERE order_id >= 101
    ORDER BY order_id
    LIMIT 10
""").show(truncate=False)

# NULL vs non-NULL 통계
stats = spark.sql("""
    SELECT
        COUNT(*) AS total,
        COUNT(discount_rate) AS has_discount,
        COUNT(*) - COUNT(discount_rate) AS null_discount
    FROM demo.lab.schema_orders
""").collect()[0]

print(f"전체: {stats['total']}건, discount_rate 있음: {stats['has_discount']}건, NULL: {stats['null_discount']}건")

[ 새로 삽입된 데이터 (discount_rate 포함) ]

+--------+--------------+-------+-------------+
|order_id|product_name  |amount |discount_rate|
+--------+--------------+-------+-------------+
|101     |Apple Watch   |372.14 |0.16         |
|102     |Magic Mouse   |99.04  |0.2          |
|103     |iPad Air      |664.52 |0.02         |
|104     |Apple Watch   |324.53 |0.17         |
|105     |iPhone SE     |539.58 |0.3          |
|106     |Magic Keyboard|169.38 |0.12         |
|107     |Mac Mini      |790.28 |0.21         |
|108     |MacBook Pro   |2276.3 |0.05         |
|109     |Pro Display   |6490.22|0.14         |
|110     |Magic Keyboard|227.97 |0.16         |
+--------+--------------+-------+-------------+

전체: 150건, discount_rate 있음: 50건, NULL: 100건


## RENAME COLUMN: 컬럼 이름 변경

`product_name`을 `item_name`으로 변경합니다. Field ID는 그대로 유지됩니다.

In [10]:
spark.sql("""
    ALTER TABLE demo.lab.schema_orders
    RENAME COLUMN product_name TO item_name
""")

print("product_name → item_name 변경 완료")

# 변경된 스키마 확인
print("\n[ 변경된 스키마 ]")
spark.sql("DESCRIBE demo.lab.schema_orders").show(truncate=False)

product_name → item_name 변경 완료

[ 변경된 스키마 ]
+--------------+------------------+-------+
|col_name      |data_type         |comment|
+--------------+------------------+-------+
|order_id      |bigint            |null   |
|customer_id   |bigint            |null   |
|item_name     |string            |null   |
|order_date    |date              |null   |
|amount        |double            |null   |
|status        |string            |null   |
|discount_rate |double            |null   |
|              |                  |       |
|# Partitioning|                  |       |
|Part 0        |months(order_date)|       |
+--------------+------------------+-------+



In [11]:
# 이름 변경 후 데이터 조회 — 기존 데이터도 item_name으로 조회 가능
print("[ RENAME 후 데이터 조회 ]\n")

spark.sql("""
    SELECT order_id, item_name, amount
    FROM demo.lab.schema_orders
    ORDER BY order_id
    LIMIT 5
""").show(truncate=False)

print("기존 데이터도 새 이름(item_name)으로 정상 조회됩니다.")
print("→ Iceberg가 field ID로 매핑하기 때문입니다.")

[ RENAME 후 데이터 조회 ]

+--------+-----------+-------+
|order_id|item_name  |amount |
+--------+-----------+-------+
|1       |MacBook Air|1053.0 |
|2       |iPad Air   |711.47 |
|3       |MacBook Pro|2072.38|
|4       |AirPods    |178.6  |
|5       |AirPods    |217.27 |
+--------+-----------+-------+

기존 데이터도 새 이름(item_name)으로 정상 조회됩니다.
→ Iceberg가 field ID로 매핑하기 때문입니다.


## metadata.json에서 스키마 히스토리 확인

metadata.json의 `schemas` 배열에 모든 스키마 버전이 기록됩니다.

In [12]:
import json
import glob
import os

METADATA_PATH = "/home/jovyan/data/warehouse/lab/schema_orders/metadata"

# 최신 metadata.json
metadata_files = sorted(glob.glob(f"{METADATA_PATH}/v*.metadata.json"))
latest = metadata_files[-1]
print(f"최신 metadata: {os.path.basename(latest)}")
print(f"전체 metadata 파일 수: {len(metadata_files)}개\n")

with open(latest) as f:
    meta = json.load(f)

print(f"현재 schema ID: {meta.get('current-schema-id')}")
print(f"스키마 버전 수: {len(meta.get('schemas', []))}\n")

for schema in meta.get('schemas', []):
    print(f"--- Schema ID: {schema['schema-id']} ---")
    for field in schema['fields']:
        print(f"  id={field['id']:2d}  {field['name']:20s}  type={field['type']}")
    print()

최신 metadata: v5.metadata.json
전체 metadata 파일 수: 5개

현재 schema ID: 2
스키마 버전 수: 3

--- Schema ID: 0 ---
  id= 1  order_id              type=long
  id= 2  customer_id           type=long
  id= 3  product_name          type=string
  id= 4  order_date            type=date
  id= 5  amount                type=double
  id= 6  status                type=string

--- Schema ID: 1 ---
  id= 1  order_id              type=long
  id= 2  customer_id           type=long
  id= 3  product_name          type=string
  id= 4  order_date            type=date
  id= 5  amount                type=double
  id= 6  status                type=string
  id= 7  discount_rate         type=double

--- Schema ID: 2 ---
  id= 1  order_id              type=long
  id= 2  customer_id           type=long
  id= 3  item_name             type=string
  id= 4  order_date            type=date
  id= 5  amount                type=double
  id= 6  status                type=string
  id= 7  discount_rate         type=double



## Time Travel로 이전 스키마 데이터 조회

스키마가 변경되기 전 시점의 데이터를 Time Travel로 조회합니다.  
`VERSION AS OF` 조회 시 컬럼 이름/개수가 어떤 스키마를 따르는지 확인해봅니다.

In [13]:
# Schema v0 시점의 데이터 조회 (ADD COLUMNS 이전)
print(f"[ Schema v0 시점 (스냅샷 {snapshot_v0_id}) ]\n")

spark.sql(f"""
    SELECT *
    FROM demo.lab.schema_orders
    VERSION AS OF {snapshot_v0_id}
    ORDER BY order_id
    LIMIT 5
""").show(truncate=False)

v0_count = spark.sql(f"""
    SELECT COUNT(*) AS cnt
    FROM demo.lab.schema_orders
    VERSION AS OF {snapshot_v0_id}
""").collect()[0]["cnt"]

print(f"v0 시점 레코드 수: {v0_count}건")
print("\n→ VERSION AS OF는 해당 스냅샷의 스키마를 기준으로 조회됩니다.")
print("→ 이 스냅샷에서는 product_name이 보이고 discount_rate 컬럼은 나타나지 않습니다.")

[ Schema v0 시점 (스냅샷 3746370947229820768) ]

+--------+-----------+------------+----------+-------+----------+
|order_id|customer_id|product_name|order_date|amount |status    |
+--------+-----------+------------+----------+-------+----------+
|1       |350        |MacBook Air |2024-02-05|1053.0 |pending   |
|2       |858        |iPad Air    |2024-03-27|711.47 |processing|
|3       |130        |MacBook Pro |2024-01-05|2072.38|completed |
|4       |127        |AirPods     |2024-03-18|178.6  |processing|
|5       |658        |AirPods     |2024-03-30|217.27 |cancelled |
+--------+-----------+------------+----------+-------+----------+

v0 시점 레코드 수: 100건

→ VERSION AS OF는 해당 스냅샷의 스키마를 기준으로 조회됩니다.
→ 이 스냅샷에서는 product_name이 보이고 discount_rate 컬럼은 나타나지 않습니다.


## 관찰 포인트

### Schema Evolution의 핵심

1. **컬럼이 추가되어도 기존 데이터는 그대로입니다**
   - 스키마 변경(ADD/RENAME/DROP) 자체 때문에 기존 Parquet 파일을 다시 쓰지는 않습니다
   - 최신 스냅샷 조회에서는 read-time projection으로 새 컬럼이 기존 데이터에서 `NULL`로 반환됩니다

2. **컬럼 이름을 변경해도 데이터가 깨지지 않습니다**
   - Iceberg는 `field ID`로 컬럼을 추적합니다
   - `product_name` → `item_name`으로 변경해도, ID가 같으면 동일 컬럼

3. **Iceberg가 스키마 버전을 추적합니다**
   - `metadata.json`의 `schemas` 배열에 모든 버전이 기록
   - `current-schema-id`로 현재 활성 스키마를 식별
   - 스냅샷마다 `schema-id`가 연결되며, `VERSION AS OF`는 해당 스냅샷 스키마로 조회됩니다

4. **스키마 변경 시 파일 rewrite가 없는 장점**
   - 대규모 테이블에서 스키마 변경이 **즉시(O(1))** 완료
   - ALTER TABLE은 metadata.json만 갱신하므로 매우 빠름
   - 데이터 마이그레이션이 필요 없음
   - 단, OPTIMIZE/compaction/rewrite_data_files 및 일부 UPDATE/DELETE/MERGE는 새 파일을 생성해 교체할 수 있음 (기존 파일 in-place 수정은 없음)

In [14]:
spark.stop()
print("Spark 세션 종료")

Spark 세션 종료
