# Spark 아키텍처 & DataFrame 실무
- Spark 실행 구조 (Driver/Executor), Lazy Evaluation
- DataFrame 중심 처리, CSV vs Parquet
- 산출물: 스키마 정의 코드, CSV vs Parquet 실행시간 비교표 (templates/csv_vs_parquet_comparison.csv)

In [1]:
import time
from pyspark.sql import SparkSession
from pyspark.sql.types import StructType, StructField, IntegerType, StringType, DoubleType

# 데이터 경로: 프로젝트 루트를 작업 디렉터리로 두고 실행하세요.
CSV_PATH = "TestData/titanic.csv"
OUTPUT_PARQUET = "out_titanic.parquet"

spark = SparkSession.builder.appName("Day1_DataFrame_Parquet") \
    .config("spark.sql.repl.eagerEval.enabled", True) \
    .getOrCreate()

### 스키마 명시 정의 

In [None]:
titanic_schema = StructType([
    StructField("PassengerId", IntegerType(), True),
    StructField("Survived", IntegerType(), True),
    StructField("Pclass", IntegerType(), True),
    StructField("Name", StringType(), True),
    StructField("Sex", StringType(), True),
    StructField("Age", DoubleType(), True),
    StructField("SibSp", IntegerType(), True),
    StructField("Parch", IntegerType(), True),
    StructField("Ticket", StringType(), True),
    StructField("Fare", DoubleType(), True),
    StructField("Cabin", StringType(), True),
    StructField("Embarked", StringType(), True),
])

CSV 읽기 (스키마 명시) + 실행 시간 측정

In [None]:
t0 = time.perf_counter()
df_csv = spark.read.format("csv") \
    .option("header", "true") \
    .option("sep", ",") \
    .schema(titanic_schema) \
    .load(CSV_PATH)
df_csv.count()
elapsed_csv_read = time.perf_counter() - t0
print(f"CSV read (full, with schema): {elapsed_csv_read:.3f}s")

CSV → Parquet 변환 저장

In [None]:
t1 = time.perf_counter()
df_csv.write.mode("overwrite").parquet(OUTPUT_PARQUET)
elapsed_write = time.perf_counter() - t1
print(f"Write CSV to Parquet: {elapsed_write:.3f}s")

Parquet 읽기 (전체) + 실행 시간

In [None]:
t2 = time.perf_counter()
df_pq = spark.read.parquet(OUTPUT_PARQUET)
df_pq.count()
elapsed_parquet_read = time.perf_counter() - t2
print(f"Parquet read (full): {elapsed_parquet_read:.3f}s")

컬럼 프루닝: 필요한 컬럼만 선택 후 읽기 (Parquet은 컬럼 단위 저장이라 유리)

In [None]:
t3 = time.perf_counter()
df_pq_pruned = spark.read.parquet(OUTPUT_PARQUET).select("Survived", "Pclass", "Sex", "Age", "Fare")
df_pq_pruned.count()
elapsed_parquet_pruned = time.perf_counter() - t3
print(f"Parquet read (pruned columns): {elapsed_parquet_pruned:.3f}s")

비교표 채우기 (templates/csv_vs_parquet_comparison.csv 참고)
아래 값을 복사해 산출물 CSV에 기록하세요.

In [None]:
print("=== CSV vs Parquet 실행시간 비교 (산출물에 기록) ===")
print(f"read_full,CSV,{elapsed_csv_read:.3f},schema explicit")
print(f"read_full,Parquet,{elapsed_parquet_read:.3f},")
print(f"read_pruned_columns,Parquet,{elapsed_parquet_pruned:.3f},")
print(f"write,CSV_to_Parquet,{elapsed_write:.3f},")

spark.stop()