In [1]:
# Импорт необходимых библиотек
import mlflow
import os

from sklearn.datasets import load_diabetes
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_absolute_error
from sklearn.ensemble import RandomForestRegressor
from dotenv import load_dotenv

In [2]:
# Загрузка переменных окружения из файла .env
load_dotenv()

True

In [3]:
# Загрузка датасета Diabetes из scikit-learn
df = load_diabetes()

In [4]:
# Разделение данных на обучающий и тестовый наборы
X_train, X_test, y_train, y_test = train_test_split(df.data, df.target)

Ниже пример автоматического логирования эксперимента. MLflow поддерживает ряд библиотек, таких как sklearn, и будет логировать все гиперпараметры и возможные метрики. При это вы можете логировать свои специфичные метрики при помощи log_metric(). Ознакомиться со списком библиотек, поддерживаемых в автогорировании, можно по ссылке: https://mlflow.org/docs/latest/tracking.html#automatic-logging

In [5]:
# Установка URI для отслеживания MLflow с использованием переменной окружения
mlflow.set_tracking_uri(os.getenv("MLFLOW_TRACKING_URI"))

# Установка имени эксперимента в MLflow
mlflow.set_experiment('НАЗВАНИЕ ВАШЕГО ПРОЕКТА')

# # Включение автоматического логирования параметров и метрик MLflow
mlflow.autolog()

# Создание нового run в рамках эксперимента в MLflow
with mlflow.start_run():
    rf = RandomForestRegressor(n_estimators=100, max_depth=6, max_features=3)
    rf.fit(X_train, y_train)
    prediction = rf.predict(X_test)
    # Явное логирование метрик
    mlflow.log_metric("my_metric", 0) 

2023/11/17 22:57:12 INFO mlflow.tracking.fluent: Autologging successfully enabled for sklearn.


Если модель из вашей библиотеки не поддерживается автологированием, то можно явно указать какие гиперпараметры и метрики нужно логировать.

In [9]:
# Создание нового run в рамках эксперимента в MLflow
with mlflow.start_run():
    # Задаем параметры модели
    params = {'n_estimators':100, 
              'max_depth':6}
    
    # Инициализация модели RandomForestRegressor с указанными параметрами
    rf = RandomForestRegressor(**params)

    # Обучение модели на обучающих данных
    rf.fit(X_train, y_train)

    # Предсказание на тестовых данных
    prediction = rf.predict(X_test)

    # Вычисление средней абсолютной ошибки (MAE)
    MAE = mean_absolute_error(y_test, prediction)

    # Явное логирование параметров
    mlflow.log_params(params)

    # Логирование метрик
    mlflow.log_metric("my_metric_MAE", MAE)
    
    # Явное логирование модели
    mlflow.sklearn.log_model(rf, 'RandomForestRegressor')