# MLflow – Lưu trữ & Truy xuất Experiment

- MLflow tracking server lưu toàn bộ lịch sử chạy ở /mlruns folder
- Biết được cấu trúc thư mục lưu trữ của MLflow?
    - Tên experiment
    - Các lần "run"
    - Metrics 
    - Parameters 
    - Artifacts 
    - meta.yaml lưu metadata của experiment
- Mỗi khi chạy một run, MLflow:
    - Tạo thư mục mới với ID duy nhất
    - Ghi các metric được log qua mlflow.log_metric()
    - Ghi params nếu có mlflow.log_param()
    - Ghi artifacts nếu có mlflow.log_artifact()
- Xác định cách truy xuất dữ liệu trong MLflow UI
    - đọc trực tiếp từ thư mục mlruns/
    - Khi bạn chạy mlflow ui, MLflow sẽ lấy dữ liệu từ đó và render lên giao diện web.
    - Tất cả các metrics bạn log sẽ hiển thị ở đây.
- Khi chạy tracking server trên cloud (S3, GCS, Azure...), bạn cần cấu hình lại:
    - --backend-store-uri: nơi lưu dữ liệu (ví dụ: database, S3...)
    - --default-artifact-root: nơi lưu artifact (S3 bucket, GCS...)
    - Ví dụ : mlflow ui --backend-store-uri sqlite:///mlflow.db


In [7]:
import mlflow
import os

Tracking Server là nơi lưu trữ, ghi nhận và quản lý các thông tin liên quan đến quá trình huấn luyện mô hình, như:
 - Thông số hyperparameters
 - Kết quả đánh giá (accuracy, loss, ...)
 - Tệp mô hình đã huấn luyện
 - Thời gian chạy, metadata, v.v.

In [None]:
# Cấu hình địa chỉ Tracking Server
""" MLflow tracking URI là trung tâm điều phối
    MLflow UI lấy dữ liệu từ URI được chỉ định (mặc định là http://127.0.0.1:5000) 
    để hiển thị các experiment, metrics, params, artifacts.
"""
mlflow.set_tracking_uri("http://127.0.0.1:5000")

## Thí nghiệm 1

In [None]:
# Tạo/Chọn một thí nghiệm (experiment)
mlflow.set_experiment("ex1: check localhost connection")

2025/06/21 07:02:54 INFO mlflow.tracking.fluent: Experiment with name 'check localhost connection' does not exist. Creating a new experiment.


<Experiment: artifact_location='mlflow-artifacts:/699676149943717778', creation_time=1750489374455, experiment_id='699676149943717778', last_update_time=1750489374455, lifecycle_stage='active', name='check localhost connection', tags={}>

In [4]:
# Thực hiện log thử nghiệm
with mlflow.start_run():
    mlflow.log_metric("test", 1)
    mlflow.log_metric("krish", 2)

🏃 View run intelligent-boar-81 at: http://127.0.0.1:5000/#/experiments/699676149943717778/runs/b13bc6aa81ea424c8f7c3969fef7514a
🧪 View experiment at: http://127.0.0.1:5000/#/experiments/699676149943717778


## Thí nghiệm 2

In [8]:
mlflow.set_experiment("ex2 : log param, metric, artifact")

# Bước 2: Khởi tạo run và ghi dữ liệu
with mlflow.start_run():

    # Log params
    mlflow.log_param("learning_rate", 0.01)
    mlflow.log_param("optimizer", "adam")

    # Log metrics
    mlflow.log_metric("accuracy", 0.85)
    mlflow.log_metric("loss", 0.35)

    # Log artifact (ví dụ file output.txt)
    output_dir = "outputs"
    os.makedirs(output_dir, exist_ok=True)

    with open(f"{output_dir}/output.txt", "w") as f:
        f.write("This is an artifact file")

    mlflow.log_artifact(f"{output_dir}/output.txt")

🏃 View run enchanting-swan-950 at: http://127.0.0.1:5000/#/experiments/954305207716940056/runs/ddeb62cd6cc544faaba3eccab58bd8ba
🧪 View experiment at: http://127.0.0.1:5000/#/experiments/954305207716940056
