# MLflow 기반 실험 추적
- 머신러닝 실험을 추적하고 관리하는 Databricks에서 만든 오픈소스 플랫폼  
- ML 프로젝트의 전체 생명주기를 관리: run 생성, param/metric 기록, 모델 artifact 저장, 실험 비교  

In [None]:
# MLflow 설치

In [None]:
# MLflow 실험 결과 저장 디렉토리
# MLflow 추적 URI 설정 (로컬 파일 시스템 사용)
# 실험 결과를 mlruns 폴더에 저장
# MLflow 실험 이름 설정
# 실험 이름: "ncs_spark_day1" (여러 run을 그룹화)

In [None]:
# 1. CSV 파일을 DataFrame으로 읽기
# 2. 전처리 단계 정의
# StringIndexer: 문자열을 숫자로 변환 (Gender → Gender_idx)
# OneHotEncoder: 범주형 숫자를 원-핫 벡터로 변환 (Gender_idx → Gender_ohe)
# VectorAssembler: 여러 피처를 하나의 벡터로 결합
# StandardScaler: 피처 표준화 (평균 0, 분산 1)
# 3. 전처리 파이프라인 생성 및 적용 - 모든 전처리 단계를 순서대로 묶음
# 파이프라인 학습 후 데이터 변환
# 4. ML 모델 학습용 데이터 준비 (피처와 라벨만 선택)
# 5. 학습/테스트 데이터 분할 (80% 학습, 20% 테스트)

Run 1: Baseline LR

In [None]:
# MLflow run 시작 (실험 기록 시작)
# with 블록이 끝나면 run이 자동으로 종료되고 모든 정보가 저장됨
    # run_name: 이 실험의 이름 (UI에서 식별용)
    # 1. 로지스틱 회귀 모델 생성
    # 2. 학습 데이터로 모델 학습
    # 3. 테스트 데이터로 예측
    # 4. 성능 평가 (AUC-ROC 계산)
    # 5. MLflow에 파라미터 기록
    # 6. MLflow에 성능 지표 기록
    # 7. MLflow에 모델 저장
    # 학습된 모델을 "model"이라는 이름으로 저장
    # 나중에 다운로드하거나 재사용 가능

Run 2: Tuned LR (CrossValidator best model)

In [None]:
# 1. 로지스틱 회귀 모델 생성
# 2. 평가 지표 설정 (AUC-ROC)
# 3. 하이퍼파라미터 그리드 생성 (테스트할 파라미터 조합)
# 총 2 × 2 = 4가지 조합
# 4. 교차검증 설정 (최적 파라미터 찾기)
# 총 학습 횟수: 4가지 조합 × 3 Folds = 12번
# 5. MLflow run 시작 (튜닝된 모델 실험 기록)
    # run_name: 이 실험의 이름 (baseline_lr과 구분)
    # 4가지 조합을 3-Fold CV로 평가하여 최고 성능 조합 선택
    # 가장 높은 평균 AUC를 가진 모델 추출
    # 테스트 데이터로 예측
    # 테스트 성능 평가
    # MLflow에 파라미터 기록
    # MLflow에 성능 지표 기록 - 튜닝 후 테스트 AUC (baseline_lr의 AUC와 비교 가능)
    # MLflow에 최적 모델 저장 -  최고 성능 모델을 저장 (나중에 재사용 가능)

실험 비교: MLflow UI에서 mlruns 폴더를 tracking_uri로 열어 run 목록 확인. 산출물 템플릿에 run_id, metric 기록.

In [None]:
# MLflow 실험 결과 저장 위치 출력
# # "ncs_spark"라는 이름의 실험 객체 가져오기
# 해당 실험의 모든 run(실행 기록) 검색
# 실험 ID를 사용하여 모든 run의 정보를 DataFrame으로 가져옴
# 주요 컬럼만 선택하여 출력 (성능 비교용)
# - run_id: 각 실험의 고유 ID
# - metrics.test_auc: 테스트 데이터의 AUC 성능 지표
# - params.regParam: 정규화 강도 파라미터
# - params.elasticNetParam: L1/L2 정규화 비율 파라미터