Day1-2교시: 파티션 전략 및 성능 최적화
- repartition vs coalesce, shuffle 발생 원인
- spark.sql.shuffle.partitions, explain()
- 산출물: 물리 계획 캡처 + 개선 포인트 기록

In [None]:
import os
import sys
from pyspark.sql import SparkSession

IN_COLAB = "google.colab" in sys.modules
BASE = "/content" if IN_COLAB else os.getcwd()
CSV_PATH = os.path.join(BASE, "TestData", "titanic.csv")

spark = SparkSession.builder.appName("Day1_Partitioning").getOrCreate()

기본 shuffle partitions 확인 (기본값 200)

In [None]:
default_shuffle = spark.conf.get("spark.sql.shuffle.partitions")
print(f"spark.sql.shuffle.partitions (default): {default_shuffle}")

In [None]:
df = spark.read.format("csv").option("header", "true").option("inferSchema", "true").load(CSV_PATH)
print("Partition count (after read):", df.rdd.getNumPartitions())

Join 시 shuffle 발생: 두 개의 작은 DataFrame을 join하면 파티션 수가 shuffle.partitions에 맞춰짐

In [None]:
df_small = df.limit(50)
df_small2 = df.select("PassengerId", "Pclass").limit(50)

explain(False): 물리 계획만 (간단). explain(True): 논리+물리+코드 등

In [None]:
joined = df_small.join(df_small2, ["PassengerId"], "inner")
print("=== Physical plan (before tuning) ===")
joined.explain(False)

shuffle partitions 줄이기 (작은 데이터에서는 파티션 수 감소로 오버헤드 감소)

In [None]:
spark.conf.set("spark.sql.shuffle.partitions", "4")

joined2 = df_small.join(df_small2, ["PassengerId"], "inner")
print("=== Physical plan (after shuffle.partitions=4) ===")
joined2.explain(False)

repartition vs coalesce
- repartition(n): shuffle 발생, 파티션 수 증가/감소
- coalesce(n): shuffle 없이 감소만 (증가는 불가)

In [None]:
df_rep = df.repartition(8)
df_coal = df.coalesce(2)
print("After repartition(8):", df_rep.rdd.getNumPartitions())
print("After coalesce(2):", df_coal.rdd.getNumPartitions())

산출물: explain() 출력 캡처 후 개선 포인트 기록

In [None]:
spark.stop()