Day1-3교시: Spark SQL & 집계 최적화
- DataFrame vs SQL, Catalyst Optimizer
- 브로드캐스트 조인 (작은 테이블을 각 executor로 복사해 shuffle 감소)
- 산출물: 실행 계획 비교 스냅샷, 최적화 체크리스트

In [None]:
import os
import sys
from pyspark.sql import SparkSession

IN_COLAB = "google.colab" in sys.modules
BASE = "/content" if IN_COLAB else os.getcwd()
CSV_PATH = os.path.join(BASE, "TestData", "titanic.csv")

spark = SparkSession.builder.appName("Day1_SparkSQL_Broadcast").getOrCreate()

데이터 로드: 메인 테이블 + 작은 테이블(브로드캐스트 후보)

In [None]:
df = spark.read.format("csv").option("header", "true").option("inferSchema", "true").load(CSV_PATH)
df.createOrReplaceTempView("titanic")

# Pclass 설명용 작은 테이블 (3행)
class_info = spark.createDataFrame([(1, "1st"), (2, "2nd"), (3, "3rd")], ["Pclass", "ClassLabel"])
class_info.createOrReplaceTempView("class_info")

SQL로 집계 쿼리

In [None]:
spark.sql("""
SELECT Pclass, COUNT(*) as cnt, AVG(Fare) as avg_fare
FROM titanic
GROUP BY Pclass
ORDER BY Pclass
""").show()

Join without broadcast: 기본 SortMergeJoin (shuffle 발생)

In [None]:
joined_no_broadcast = df.join(class_info, "Pclass")
print("=== Plan (no broadcast) ===")
joined_no_broadcast.explain(False)

Broadcast Join: broadcast()로 작은 테이블 지정

In [None]:
from pyspark.sql.functions import broadcast

joined_broadcast = df.join(broadcast(class_info), "Pclass")
print("=== Plan (with broadcast) ===")
joined_broadcast.explain(False)

In [None]:
joined_broadcast.groupBy("ClassLabel").count().show()

SQL에서 브로드캐스트 힌트 (Spark 3.x: BROADCAST 테이블명)

In [None]:
spark.sql("""
SELECT /*+ BROADCAST(c) */ t.PassengerId, t.Pclass, c.ClassLabel
FROM titanic t
JOIN class_info c ON t.Pclass = c.Pclass
LIMIT 5
""").show()

최적화 체크리스트 (산출물): explain()에서 BroadcastHashJoin 사용 여부, shuffle 단계 감소 확인

In [None]:
print("산출물: explain() 출력을 캡처하고, BroadcastHashJoin vs SortMergeJoin 비교를 기록하세요.")

spark.stop()