Day1-4~5교시: MLlib 파이프라인 & 분류 베이스라인
- Estimator vs Transformer, Pipeline, Fit/Transform
- StringIndexer, OneHotEncoder, VectorAssembler, StandardScaler
- Logistic Regression 베이스라인 구축
- 평가 지표: AUC, PR, Confusion Matrix
- 산출물: 공통 파이프라인 템플릿 코드, baseline 결과표

In [None]:
import os
import sys
from pyspark.ml import Pipeline
from pyspark.ml.classification import LogisticRegression
from pyspark.ml.evaluation import BinaryClassificationEvaluator, MulticlassClassificationEvaluator
from pyspark.ml.feature import StringIndexer, OneHotEncoder, VectorAssembler, StandardScaler
from pyspark.sql import SparkSession

IN_COLAB = "google.colab" in sys.modules
BASE = "/content" if IN_COLAB else os.getcwd()
CSV_PATH = os.path.join(BASE, "TestData", "Social_Network_Ads.csv")
SEED = 42

spark = SparkSession.builder.appName("Day1_MLlib_Classification_Baseline").getOrCreate()

## 1. 데이터 로드 및 확인

In [None]:
df = spark.read.format("csv").option("header", "true").option("inferSchema", "true").load(CSV_PATH)
df.limit(3).show()

In [None]:
# 데이터 스키마 확인
df.printSchema()

## 2. MLlib 파이프라인 구조

### Transformer vs Estimator
- **Transformer**: transform() 메서드로 DataFrame을 변환 (예: VectorAssembler)
- **Estimator**: fit() 메서드로 학습 후 Transformer 생성 (예: StringIndexer, StandardScaler)

### 단계별 구성
1. **StringIndexer**: 범주형 컬럼(Gender) → 숫자 인덱스 (fit으로 vocabulary 결정)
2. **OneHotEncoder**: 인덱스 → 희소 벡터 (원-핫 인코딩)
3. **VectorAssembler**: 여러 컬럼 → 단일 feature 벡터 (Transformer)
4. **StandardScaler**: 평균 0, 분산 1로 정규화 (fit으로 mean/std 결정)

In [None]:
indexer = StringIndexer(inputCol="Gender", outputCol="Gender_idx").setHandleInvalid("keep")
encoder = OneHotEncoder(inputCols=["Gender_idx"], outputCols=["Gender_ohe"])
assembler = VectorAssembler(
    inputCols=["Age", "EstimatedSalary", "Gender_ohe"],
    outputCol="features"
)
scaler = StandardScaler(inputCol="features", outputCol="scaled_features")

### Pipeline으로 순서 정의
- 모든 단계를 Pipeline에 넣으면 fit() 한 번에 전 단계 학습
- transform()으로 새 데이터에도 동일한 변환 적용

In [None]:
pipeline = Pipeline(stages=[indexer, encoder, assembler, scaler])
model = pipeline.fit(df)
transformed = model.transform(df)

In [None]:
# 변환 결과 확인
transformed.select("Age", "EstimatedSalary", "Gender", "scaled_features", "Purchased").limit(5).show(truncate=False)

### 공통 파이프라인 템플릿 (산출물)
- 범주형 컬럼 여러 개 확장 가능
- 템플릿 예시:

In [None]:
print("""
# 여러 범주형 컬럼 처리 템플릿:
categorical_cols = ["Gender", "Country", ...]
numeric_cols = ["Age", "EstimatedSalary", ...]

indexers = [StringIndexer(inputCol=c, outputCol=c+"_idx").setHandleInvalid("keep") 
            for c in categorical_cols]
encoders = [OneHotEncoder(inputCols=[c+"_idx"], outputCols=[c+"_ohe"]) 
            for c in categorical_cols]
assembler = VectorAssembler(
    inputCols=numeric_cols + [c+"_ohe" for c in categorical_cols], 
    outputCol="features"
)
scaler = StandardScaler(inputCol="features", outputCol="scaled_features")
pipeline = Pipeline(stages=indexers + encoders + [assembler, scaler])
""")

## 3. 분류 베이스라인 구축 (Logistic Regression)

### Train/Test 분리

In [None]:
# 파이프라인 적용 후 features와 label만 선택
df_ready = pipeline.fit(df).transform(df)
data = df_ready.select("scaled_features", "Purchased").withColumnRenamed("scaled_features", "features")

In [None]:
# Train/Test split (80:20, seed 고정)
train_data, test_data = data.randomSplit([0.8, 0.2], seed=SEED)

print(f"Train size: {train_data.count()}")
print(f"Test size: {test_data.count()}")

### Logistic Regression 모델 학습

In [None]:
lr = LogisticRegression(featuresCol="features", labelCol="Purchased")
lr_model = lr.fit(train_data)

In [None]:
# Test 데이터에 예측
predictions = lr_model.transform(test_data)

In [None]:
# 예측 결과 확인
predictions.select("features", "Purchased", "rawPrediction", "probability", "prediction").limit(5).show(truncate=False)

### 평가 지표 계산

- **AUC (ROC)**: ROC 곡선 아래 면적 (0~1, 높을수록 좋음)
- **AUC (PR)**: Precision-Recall 곡선 아래 면적
- **Accuracy**: 정확도 (맞춘 비율)

In [None]:
auc_eval = BinaryClassificationEvaluator(labelCol="Purchased", rawPredictionCol="rawPrediction", metricName="areaUnderROC")
pr_eval = BinaryClassificationEvaluator(labelCol="Purchased", rawPredictionCol="rawPrediction", metricName="areaUnderPR")
accuracy_eval = MulticlassClassificationEvaluator(labelCol="Purchased", predictionCol="prediction", metricName="accuracy")

auc = auc_eval.evaluate(predictions)
pr_area = pr_eval.evaluate(predictions)
accuracy = accuracy_eval.evaluate(predictions)

In [None]:
print("=" * 50)
print("Baseline Logistic Regression - Test Metrics:")
print("=" * 50)
print(f"  AUC (ROC):  {auc:.4f}")
print(f"  AUC (PR):   {pr_area:.4f}")
print(f"  Accuracy:   {accuracy:.4f}")
print("=" * 50)

### Confusion Matrix

In [None]:
# 실제 vs 예측 분포
predictions.groupBy("Purchased", "prediction").count().orderBy("Purchased", "prediction").show()

### 산출물: Baseline 결과표 기록
- templates/tuning_before_after.csv에 아래 결과 기록

In [None]:
print("\n=== Baseline 결과 (산출물에 기록) ===")
print("model,stage,metric_name,metric_value")
print(f"LogisticRegression,baseline,auc,{auc:.4f}")
print(f"LogisticRegression,baseline,areaUnderPR,{pr_area:.4f}")
print(f"LogisticRegression,baseline,accuracy,{accuracy:.4f}")

## 정리

**학습한 내용:**
1. MLlib 파이프라인 구조 (Transformer/Estimator)
2. 전처리 단계 (StringIndexer, OneHotEncoder, VectorAssembler, StandardScaler)
3. Logistic Regression 베이스라인 모델 구축
4. 평가 지표 (AUC, PR, Accuracy, Confusion Matrix)

**다음 단계:**
- 050_CrossValidator_Tuning.py에서 하이퍼파라미터 튜닝으로 성능 개선

In [None]:
spark.stop()