# 01. 환경 설정

이 노트북에서는 Iceberg 실습에 필요한 환경을 구성합니다.

1. Python 패키지 설치
2. Iceberg Spark Runtime JAR 다운로드
3. Spark + Iceberg 세션 생성 확인
4. 데이터 생성 유틸리티 동작 확인

## 1. 패키지 설치

실습에 필요한 Python 패키지를 설치합니다.

- `requests`는 다음 단계의 Iceberg JAR 다운로드(`download_iceberg_jar`)에 필요합니다.
- 이 셀을 건너뛰면 JAR 다운로드 단계에서 `ModuleNotFoundError`가 발생할 수 있습니다.


In [1]:
import sys
sys.path.append('..')

from utils.spark_setup import install_packages

install_packages()

6개 패키지 설치 완료.


## 2. Iceberg JAR 다운로드

In [2]:
from utils.spark_setup import download_iceberg_jar

download_iceberg_jar()

Iceberg JAR 다운로드 중 ...
JAR 다운로드 완료: /home/jovyan/iceberg-spark.jar (28.0 MB)


'/home/jovyan/iceberg-spark.jar'

## 3. Spark + Iceberg 세션 생성

In [3]:
from utils.spark_setup import create_spark_session

spark = create_spark_session()

# 카탈로그 확인
spark.sql("SHOW CATALOGS").show()

Spark + Iceberg 세션 준비 완료 (warehouse: file:///home/jovyan/data/warehouse)
+-------------+
|      catalog|
+-------------+
|spark_catalog|
+-------------+



## 4. 실습용 데이터베이스 생성

In [4]:
spark.sql("CREATE DATABASE IF NOT EXISTS demo.lab")
print("demo.lab 데이터베이스 생성 완료")

spark.sql("SHOW DATABASES IN demo").show()

demo.lab 데이터베이스 생성 완료
+---------+
|namespace|
+---------+
|      lab|
+---------+



## 5. 데이터 생성 유틸리티 확인

In [5]:
from utils.data_generator import generate_orders, to_spark_df

# 샘플 데이터 5건 생성
sample = generate_orders(5, seed=42)
for row in sample:
    print(row)

{'order_id': 1, 'customer_id': 350, 'product_name': 'MacBook Air', 'order_date': '2024-02-05', 'amount': 1053.0, 'status': 'pending'}
{'order_id': 2, 'customer_id': 858, 'product_name': 'iPad Air', 'order_date': '2024-03-27', 'amount': 711.47, 'status': 'processing'}
{'order_id': 3, 'customer_id': 130, 'product_name': 'MacBook Pro', 'order_date': '2024-01-05', 'amount': 2072.38, 'status': 'completed'}
{'order_id': 4, 'customer_id': 127, 'product_name': 'AirPods', 'order_date': '2024-03-18', 'amount': 178.6, 'status': 'processing'}
{'order_id': 5, 'customer_id': 658, 'product_name': 'AirPods', 'order_date': '2024-03-30', 'amount': 217.27, 'status': 'cancelled'}


In [6]:
# Spark DataFrame 변환 확인
df = to_spark_df(spark, sample)
df.printSchema()
df.show(truncate=False)

root
 |-- order_id: long (nullable = true)
 |-- customer_id: long (nullable = true)
 |-- product_name: string (nullable = true)
 |-- order_date: date (nullable = true)
 |-- amount: double (nullable = true)
 |-- status: string (nullable = true)

+--------+-----------+------------+----------+-------+----------+
|order_id|customer_id|product_name|order_date|amount |status    |
+--------+-----------+------------+----------+-------+----------+
|1       |350        |MacBook Air |2024-02-05|1053.0 |pending   |
|2       |858        |iPad Air    |2024-03-27|711.47 |processing|
|3       |130        |MacBook Pro |2024-01-05|2072.38|completed |
|4       |127        |AirPods     |2024-03-18|178.6  |processing|
|5       |658        |AirPods     |2024-03-30|217.27 |cancelled |
+--------+-----------+------------+----------+-------+----------+



## 6. 파일 탐색 유틸리티 확인

In [7]:
from utils.file_explorer import show_tree

# warehouse 디렉토리 구조 확인
show_tree("/home/jovyan/data/warehouse", max_depth=2)

└── lab/


## 환경 설정 완료

모든 유틸리티가 정상 동작합니다. 다음 노트북부터 본격적인 실습을 시작합니다.

**다음 단계:** `1_fundamentals/01-architecture-overview.ipynb`