# 1.2 SageMaker Training with MLFlow

## 학습 작업의 실행 노트북 개요

- SageMaker Training에 SageMaker 실험을 추가하여 여러 실험의 결과를 비교할 수 있습니다.
    - [작업 실행 시 필요 라이브러리 import](#작업-실행-시-필요-라이브러리-import)
    - [SageMaker 세션과 Role, 사용 버킷 정의](#SageMaker-세션과-Role,-사용-버킷-정의)
    - [하이퍼파라미터 정의](#하이퍼파라미터-정의)
    - [학습 실행 작업 정의](#학습-실행-작업-정의)
        - 학습 코드 명
        - 학습 코드 폴더 명
        - 학습 코드가 사용한 Framework 종류, 버전 등
        - 학습 인스턴스 타입과 개수
        - SageMaker 세션
        - 학습 작업 하이퍼파라미터 정의
        - 학습 작업 산출물 관련 S3 버킷 설정 등
    - [학습 데이터셋 지정](#학습-데이터셋-지정)
        - 학습에 사용하는 데이터셋의 S3 URI 지정
    - [SageMaker 실험 설정](#SageMaker-실험-설정)
    - [학습 실행](#학습-실행)
    - [데이터 세트 설명](#데이터-세트-설명)
    - [실험 결과 보기](#실험-결과-보기)

In [None]:
%store -r
print(f"tracking_server_name : {tracking_server_name}")

### 작업 실행 시 필요 라이브러리 import

In [None]:
import boto3
import sagemaker

### SageMaker 세션과 Role, 사용 버킷 정의

In [None]:
sagemaker_session = sagemaker.session.Session()
role = sagemaker.get_execution_role()

In [None]:
bucket = sagemaker_session.default_bucket()
code_location = f's3://{bucket}/xgboost/code'
output_path = f's3://{bucket}/xgboost/output'

### 하이퍼파라미터 정의

In [None]:
hyperparameters = {
       "scale_pos_weight" : "29",    
        "max_depth": "3",
        "eta": "0.2",
        "objective": "binary:logistic",
        "num_round": "100",
}

### 학습 실행 작업 정의

In [None]:
instance_count = 1
instance_type = "ml.m5.large"
# instance_type = "local"
max_run = 1*60*60

use_spot_instances = False
if use_spot_instances:
    max_wait = 1*60*60
else:
    max_wait = None

In [None]:
if instance_type in ['local', 'local_gpu']:
    from sagemaker.local import LocalSession
    sagemaker_session = LocalSession()
    sagemaker_session.config = {'local': {'local_code': True}}
else:
    sagemaker_session = sagemaker.session.Session()

In [None]:
from sagemaker.xgboost.estimator import XGBoost

estimator = XGBoost(
    entry_point="xgboost_script_mlflow.py",
    source_dir="src",
    output_path=output_path,
    code_location=code_location,
    hyperparameters=hyperparameters,
    role=role,
    sagemaker_session=sagemaker_session,
    instance_count=instance_count,
    instance_type=instance_type,
    framework_version="1.7-1",
    max_run=max_run,
    use_spot_instances=use_spot_instances,  # spot instance 활용
    max_wait=max_wait,
)

### 학습 데이터셋 지정

In [None]:
data_path=f's3://{bucket}/xgboost/dataset'
!aws s3 sync ../data/dataset/ $data_path

In [None]:
if instance_type in ['local', 'local_gpu']:
    from pathlib import Path
    file_path = f'file://{Path.cwd()}'
    inputs = file_path.split('lab_1_training')[0] + 'data/dataset/'
    
else:
    inputs = data_path
inputs

### SageMaker MLFlow 설정

In [None]:
import mlflow
import mlflow.xgboost
import os
from time import strftime

sm_client = boto3.client('sagemaker')

In [None]:
# 추적 서버 설명 가져오기
tracking_server = sm_client.describe_mlflow_tracking_server(
    TrackingServerName=tracking_server_name
)

# 추적 서버 URI 가져오기
tracking_server_uri = tracking_server['TrackingServerArn']

# MLflow 추적 서버 URI 설정
mlflow.set_tracking_uri(tracking_server_uri)

In [None]:
experiment_name = 'xgboost-poc-1'

# MLflow 실험 생성 또는 가져오기
mlflow.set_experiment(experiment_name)


### 학습 실행

In [None]:

# 현재 실행 시간을 기반으로 고유한 실행 이름 생성
create_date = strftime("%m%d-%H%M%s")
run_name = f'{experiment_name}-{create_date}'

# MLflow 실행 시작
with mlflow.start_run(run_name=run_name) as run:
    run_id = run.info.run_id
    
    # 하이퍼파라미터 로깅
    for key, value in hyperparameters.items():
        mlflow.log_param(key, value)
    
    # 인스턴스 정보 로깅
    mlflow.log_param("instance_type", instance_type)
    mlflow.log_param("instance_count", instance_count)
    
    # 입력 데이터 경로 로깅
    mlflow.log_param("input_data_path", inputs)
    
    # SageMaker 훈련 작업에 MLflow 환경 변수 전달
    estimator.environment = {
            "MLFLOW_TRACKING_URI": mlflow.get_tracking_uri(),
            "MLFLOW_EXPERIMENT_NAME": experiment_name,
            "MLFLOW_RUN_ID": run_id
    }
    
    # SageMaker 훈련 작업 시작
    estimator.fit(
        inputs={'inputdata': inputs},
        job_name=run_name,
        wait=False
    )
    
    # MLflow에 모델 아티팩트 경로 로깅
    mlflow.log_param("model_artifact_path", f"{output_path}/{run_name}/output/model.tar.gz")

In [None]:
estimator.logs()

###  실험 결과 보기
위의 실험한 결과를 확인 합니다.
- 각각의 훈련잡의 시도에 대한 훈련 사용 데이터, 모델 입력 하이퍼 파라미터, 모델 평가 지표, 모델 아티펙트 결과 위치 등의 확인이 가능합니다.
- **아래의 모든 내용은 SageMaker Studio 를 통해서 직관적으로 확인이 가능합니다.**

In [None]:
import pandas as pd
pd.options.display.max_columns = 50
pd.options.display.max_rows = 10
pd.options.display.max_colwidth = 100

In [None]:
# MLflow 실험 결과 가져오기
from mlflow.tracking import MlflowClient

client = MlflowClient()

# 실험 결과 조회
try:
    experiment = client.get_experiment_by_name(experiment_name)
    if experiment:
        experiment_id = experiment.experiment_id
        
        # 실행 결과 검색 (정렬 없이)
        runs = client.search_runs(experiment_ids=[experiment_id])
        
        if runs:
            print(f"실험 '{experiment_name}'에서 {len(runs)}개의 실행 결과를 찾았습니다.")
            
            # 사용 가능한 메트릭 이름 확인
            print("사용 가능한 메트릭 이름:")
            for key in runs[0].data.metrics.keys():
                print(f"- {key}")
            
            # 결과를 데이터프레임으로 변환
            runs_data = []
            for run in runs:
                run_data = {
                    "run_id": run.info.run_id,
                    "run_name": run.info.run_name,
                    "status": run.info.status,
                    "start_time": run.info.start_time,
                    "end_time": run.info.end_time,
                }
                
                # 메트릭 추가
                for key, value in run.data.metrics.items():
                    run_data[key] = value
                
                # 파라미터 추가
                for key, value in run.data.params.items():
                    run_data[f"param_{key}"] = value
                
                runs_data.append(run_data)
            
            runs_df = pd.DataFrame(runs_data)
            
            # 파이썬에서 정렬 (validation_auc 열이 있는 경우)
            if 'validation_auc' in runs_df.columns:
                runs_df = runs_df.sort_values(by='validation_auc', ascending=False)
                
            display(runs_df)
        else:
            print("실험에 실행 결과가 없습니다.")
    else:
        print(f"실험 '{experiment_name}'을 찾을 수 없습니다.")
except Exception as e:
    print(f"실험 결과 조회 중 오류 발생: {e}")