In [1]:
#### 다음 실습 코드는 학습 목적으로만 사용 바랍니다. 문의 : audit@korea.ac.kr 임성열 Ph.D.

!pip install mlflow scikit-learn numpy pandas

from pathlib import Path
Path("mlruns/.trash").mkdir(parents=True, exist_ok=True)  # 루트 + .trash 동시 생성

Collecting mlflow
  Downloading mlflow-3.4.0-py3-none-any.whl.metadata (30 kB)
Collecting mlflow-skinny==3.4.0 (from mlflow)
  Downloading mlflow_skinny-3.4.0-py3-none-any.whl.metadata (31 kB)
Collecting mlflow-tracing==3.4.0 (from mlflow)
  Downloading mlflow_tracing-3.4.0-py3-none-any.whl.metadata (19 kB)
Collecting Flask<4 (from mlflow)
  Using cached flask-3.1.2-py3-none-any.whl.metadata (3.2 kB)
Collecting alembic!=1.10.0,<2 (from mlflow)
  Downloading alembic-1.17.0-py3-none-any.whl.metadata (7.2 kB)
Collecting cryptography<46,>=43.0.0 (from mlflow)
  Using cached cryptography-45.0.7-cp311-abi3-win_amd64.whl.metadata (5.7 kB)
Collecting docker<8,>=4.0.0 (from mlflow)
  Using cached docker-7.1.0-py3-none-any.whl.metadata (3.8 kB)
Collecting fastmcp<3,>=2.0.0 (from mlflow)
  Downloading fastmcp-2.12.4-py3-none-any.whl.metadata (19 kB)
Collecting graphene<4 (from mlflow)
  Using cached graphene-3.4.3-py2.py3-none-any.whl.metadata (6.9 kB)
Collecting waitress<4 (from mlflow)
  Using 


[notice] A new release of pip is available: 24.0 -> 25.2
[notice] To update, run: python.exe -m pip install --upgrade pip


In [2]:
import os, getpass
from datetime import datetime
import mlflow
import mlflow.sklearn
from sklearn.ensemble import RandomForestRegressor
from sklearn.datasets import load_diabetes
from sklearn.model_selection import train_test_split
from mlflow.models import infer_signature
import numpy as np

if mlflow.active_run() is not None: # MLflow 사용 시, 현재 파이썬 프로세스 (현재 쓰레드)에서 실행 중인 run이 있으면 종료, mlflow.start_run()을 여러 번 호출하면 중첩 run 에러
    mlflow.end_run()
    
mlflow.set_experiment("diabetes_experiment1")  # experiment_id가 아님!

# 사용자/리비전 정보 태깅
user = getpass.getuser()
run_name = f"{user}-rf-{datetime.now():%m%d_%H%M}"
    
# 일반적으로는 학습 코드 내부에 MLflow 로깅을 심어(autolog 또는 수동 log) 각 사용자가 자신의 실험을 남기는 방식으로 사용
# 보통은 중앙 Tracking Server(MLflow 서버) 를 띄우고, 각 사용자가 자신의 개발 환경(노트북/서버/CI)에서 HTTP로 로그를 보내는 구조 사용
    
# Experiment name으로 설정해야 함
mlflow.autolog()  # 자동 로깅 활성화

# 데이터 준비
X, y = load_diabetes(return_X_y=True) # load_diabetes()는 scikit-learn에서 제공하는 내장 예제 데이터셋 로더 함수
X_train, X_test, y_train, y_test = train_test_split(X, y)

# 실험 시작
with mlflow.start_run() as run:
    model = RandomForestRegressor(n_estimators=100)
    model.fit(X_train, y_train)

    score = model.score(X_test, y_test)
    
    # 파라미터, 메트릭 기록
    mlflow.log_param("n_estimators", 100)
    mlflow.log_metric("r2_score", score)

    # 입력 예시 추가 (테스트 데이터의 첫 번째 샘플)
    input_example = X_test[:1]

    # signature 자동 생성
    signature = infer_signature(X_test, model.predict(X_test))
    # signature는 MLflow 모델 저장 시, 입력과 출력 데이터의 스키마(형식)를 명시하는 객체이며 이를 통해 MLflow는 모델을 저장할 때, 해당 모델이 "어떤 입력을 받고 어떤 출력을 낼지"를 명시적으로 기록

    # 모델 저장 (input_example과 signature 추가)
    mlflow.sklearn.log_model(
        sk_model=model,
        name="model",
        input_example=input_example,
        signature=signature # 
    )

print("MLflow run completed with model, input_example, and signature.")


2025/10/14 09:45:57 INFO mlflow.tracking.fluent: Experiment with name 'diabetes_experiment1' does not exist. Creating a new experiment.
2025/10/14 09:46:26 INFO mlflow.tracking.fluent: Autologging successfully enabled for sklearn.
  from .autonotebook import tqdm as notebook_tqdm
Downloading artifacts: 100%|██████████| 7/7 [00:00<00:00, 1399.90it/s]
2025/10/14 09:48:01 INFO mlflow.models.model: Found the following environment variables used during model inference: [LANGSMITH_API_KEY]. Please check if you need to set them when deploying the model. To disable this message, set environment variable `MLFLOW_RECORD_ENV_VARS_IN_MODEL_LOGGING` to `false`.


MLflow run completed with model, input_example, and signature.


In [3]:

import mlflow
from sklearn.model_selection import train_test_split
from sklearn.datasets import load_diabetes
from sklearn.ensemble import RandomForestRegressor

if mlflow.active_run() is not None: # MLflow 사용 시, 현재 실행 중인 run이 있으면 종료, mlflow.start_run()을 여러 번 호출하면 중첩 run 에러
    mlflow.end_run()

# Experiment name으로 설정해야 함
mlflow.set_experiment("diabetes_experiment2")  # experiment_id가 아님!

# 일반적으로는 학습 코드 내부에 MLflow 로깅을 심어(autolog 또는 수동 log) 각 사용자가 자신의 실험을 남기는 방식으로 사용
# 보통은 중앙 Tracking Server(MLflow 서버) 를 띄우고, 각 사용자가 자신의 개발 환경(노트북/서버/CI)에서 HTTP로 로그를 보내는 구조 사용

# 사용자/리비전 정보 태깅
user = getpass.getuser()
run_name = f"{user}-rf-{datetime.now():%m%d_%H%M}"

mlflow.autolog()  # 자동 로깅 활성화

db = load_diabetes()

X_train, X_test, y_train, y_test = train_test_split(db.data, db.target)

# Autologging은 mlflow.start_run() 안에서 안정적으로 동작
with mlflow.start_run():
    rf = RandomForestRegressor(n_estimators=100, max_depth=6, max_features=3)
    rf.fit(X_train, y_train)

    # 모델 예측 (autolog가 알아서 기록)
    predictions = rf.predict(X_test)


2025/10/14 09:48:05 INFO mlflow.tracking.fluent: Experiment with name 'diabetes_experiment2' does not exist. Creating a new experiment.


2025/10/14 09:48:06 INFO mlflow.tracking.fluent: Autologging successfully enabled for sklearn.


In [4]:
# 참고로, 여러 모델러들이 작업 공유를 위해서는 mlflow server(서버)를 셋팅하여 사용합니다. (실험 로그 수집 및 모델 레포지토리 공유, 추적 용이)
# 서버 버전 적용도 기존 mlflow 설치만으로 충분하고, 확장 기능(DB/클라우드) 을 쓸 때만 드라이버를 추가 셋업하여 사용합니다.
'''mlflow server \
  --host 127.0.0.1 --port 5003 \
  --backend-store-uri "mysql+pymysql://manager:passwd@127.0.0.1:53301/sql_db" \
  --artifacts-destination file:///mnt/mlflow-artifacts \
  --serve-artifacts'''

# 본 과정에서는 여러 모델러들간 실험 로그 수집 및 모델 레포지토리 공유 등이 목적이 아니므로, 로컬에서 mlflow ui를 사용하여 테스트합니다.
# 참고로 본 과정에서는 AI서비스 서비스 목적에 맞게, "예측형 AI 모델 서빙 및 AIOps 구성" 능력에 초점을 두고 있습니다.

# mlflwo ui 사용을 위해 다음 코드를 실행합니다. (모델, 레포지토리는 로컬 실행 버전 조회)
# 학습을 실행시키는 코드 위치 밑에 mlruns 폴더가 생기며, mlflow ui도 현 위치에서 실행시켜야 합니다.
# mlflow ui --host 127.0.0.1 --port 5001 # mlflow ui를 실행, 5000번은 구글 예약 포트

[32mINFO[0m:     Uvicorn running on [1mhttp://127.0.0.1:5001[0m (Press CTRL+C to quit)
[32mINFO[0m:     Started parent process [[36m[1m74548[0m]
[32mINFO[0m:     Started server process [[36m74552[0m]
[32mINFO[0m:     Waiting for application startup.
[32mINFO[0m:     Application startup complete.
[32mINFO[0m:     Started server process [[36m74550[0m]
[32mINFO[0m:     Waiting for application startup.
[32mINFO[0m:     Application startup complete.
[32mINFO[0m:     Started server process [[36m74551[0m]
[32mINFO[0m:     Waiting for application startup.
[32mINFO[0m:     Application startup complete.
[32mINFO[0m:     Started server process [[36m74553[0m]
[32mINFO[0m:     Waiting for application startup.
[32mINFO[0m:     Application startup complete.
[32mINFO[0m:     127.0.0.1:52587 - "[1mGET / HTTP/1.1[0m" [32m200 OK[0m
[32mINFO[0m:     127.0.0.1:52587 - "[1mGET /static-files/static/js/main.afd6eeec.js HTTP/1.1[0m" [32m200 OK[0m
[32mINFO[