## MLOps am Beispiel von MLFlow

see: https://mlflow.org/docs/latest/ml/ 

MLflow ist eine Open-Source-Plattform, die speziell entwickelt wurde, um Machine-Learning-Anwender und -Teams bei der Bew√§ltigung der Komplexit√§t des Machine-Learning-Prozesses zu unterst√ºtzen. MLflow konzentriert sich auf den gesamten Lebenszyklus von Machine-Learning-Projekten und stellt sicher, dass jede Phase verwaltbar, nachvollziehbar und reproduzierbar ist.

Diese √úbung baut auf folgendem Tutorial auf: https://mlflow.org/docs/latest/ml/getting-started/quickstart/

Sie vermuten bereits: ja, wir ben√∂tigen mal wieder eine neue Library :). Installieren Sie mit pip mlflow:

In [1]:
pip install mlflow

Collecting mlflow
  Downloading mlflow-3.6.0-py3-none-any.whl.metadata (31 kB)
Collecting mlflow-skinny==3.6.0 (from mlflow)
  Downloading mlflow_skinny-3.6.0-py3-none-any.whl.metadata (31 kB)
Collecting mlflow-tracing==3.6.0 (from mlflow)
  Downloading mlflow_tracing-3.6.0-py3-none-any.whl.metadata (19 kB)
Collecting Flask-CORS<7 (from mlflow)
  Downloading flask_cors-6.0.1-py3-none-any.whl.metadata (5.3 kB)
Collecting alembic!=1.10.0,<2 (from mlflow)
  Downloading alembic-1.17.1-py3-none-any.whl.metadata (7.2 kB)
Collecting docker<8,>=4.0.0 (from mlflow)
  Downloading docker-7.1.0-py3-none-any.whl.metadata (3.8 kB)
Collecting graphene<4 (from mlflow)
  Downloading graphene-3.4.3-py2.py3-none-any.whl.metadata (6.9 kB)
Collecting gunicorn<24 (from mlflow)
  Downloading gunicorn-23.0.0-py3-none-any.whl.metadata (4.4 kB)
Collecting huey<3,>=2.5.0 (from mlflow)
  Downloading huey-2.5.4-py3-none-any.whl.metadata (4.6 kB)
Collecting pyarrow<23,>=4.0.0 (from mlflow)
  Downloading pyarrow-22.

### Starten des ML-Flow Servers

MLFlow ist eine serverbasierte Anwendung. Sie k√∂nnen somit das Backend entweder in der Cloud oder lokal auf Ihrem eigenen Rechner laufen lassen. Der Einfachheit halber l√§uft im folgenden der MLFlow Server auf Ihrem lokalen Rechner. Sofern Sie mit mehreren Entwicklern an einem Machine Learning Projekt arbeiten, ist es sicherlich hilfreich zu einer Cloud-L√∂sung zu greifen.

Gut, nun m√ºssen wir zuerst den MLFlow Server starten. Dies geht leider nicht aus dem Jupyter Notebook, f√ºhren Sie daher folgende Schritte mit dem Terminal oder Powershell aus:

1) Aktivieren Sie Ihr virtuelles Environment:

Mac: ```source .venv/bin/activate```

Windows: ```.venv/Scripts/activate.ps1```

2) Starten Sie den MLFlow Server:

```mlflow server --backend-store-uri sqlite:///mlflow.db --port 5000```

3) √ñffnen Sie die UI des MLFlow Servers im Browser:

http://127.0.0.1:5000 

### Vorbereitung: Datensatz und Modell

Wir m√∂chten anhand des IRIS-Datensatzes einen einfachen Klassifikator mit 3 Klassen trainieren. Der Iris-Datensatz ist einer der bekanntesten und am h√§ufigsten verwendeten Datens√§tze in der Statistik, im maschinellen Lernen und in der Datenanalyse.

**Ursprung:** Der Datensatz wurde 1936 von dem britischen Statistiker und Biologen Ronald A. Fisher in seiner Arbeit zur diskriminanzanalytischen Methode ver√∂ffentlicht.

**Zweck:** Fisher nutzte die Daten, um zu zeigen, wie man anhand von morphologischen Merkmalen verschiedene Arten der Gattung Iris (Schwertlilien) unterscheiden kann.

Der Iris-Datensatz enth√§lt 150 Eintr√§ge (Proben) von drei Arten der Gattung Iris: Iris setosa, Iris versicolor, Iris virginica

F√ºr jede Probe wurden vier Merkmale gemessen (in Zentimetern):

| Merkmal | Beschreibung |
| ------- | ------------ |
|Sepal Length|L√§nge des Kelchblatts|
|Sepal Width|Breite des Kelchblatts|
|Petal Length|L√§nge des Bl√ºtenblatts|
|Petal Width|Breite des Bl√ºtenblatts|

Wir bereiten den Datensatz vor:

In [26]:
import pandas as pd
from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score

# Load the Iris dataset
X, y = datasets.load_iris(return_X_y=True)

# Split the data into training and test sets
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42
)


√úber ein dictionary definieren wir die Parameter f√ºr das Modelltraining:

In [27]:
params = {
    "solver": "lbfgs",
    "max_iter": 1000,
    "multi_class": "auto",
    "random_state": 8877,
}

### Autologging mit MLflow

Im folgenden trainieren wir eine einfache LogisticRegression als Klassifikator. Mit nur einer Zeile k√∂nnen wir MLFlow dazu bringen, das Experiemnt zu tracken. Schauen Sie im https://mlflow.org/docs/latest/ml/getting-started/quickstart/ nach und f√ºgen die entsprechende Zeile hinzu:

In [28]:
import mlflow

mlflow.set_tracking_uri("http://localhost:5000")
mlflow.set_experiment("MLflow AKI Iris Experiment")

# Enable autologging for scikit-learn
mlflow.sklearn.autolog()

# Just train the model normally
lr = LogisticRegression(**params)
lr.fit(X_train, y_train)

2025/11/12 22:36:00 INFO mlflow.utils.autologging_utils: Created MLflow autologging run with ID '0004f738d7824c0aae75cad87bd1afde', which will track hyperparameters, performance metrics, model artifacts, and lineage information for the current sklearn workflow


üèÉ View run angry-snipe-68 at: http://localhost:5000/#/experiments/1/runs/0004f738d7824c0aae75cad87bd1afde
üß™ View experiment at: http://localhost:5000/#/experiments/1


0,1,2
,penalty,'l2'
,dual,False
,tol,0.0001
,C,1.0
,fit_intercept,True
,intercept_scaling,1
,class_weight,
,random_state,8877
,solver,'lbfgs'
,max_iter,1000


Schauen Sie sich in der Weboberfl√§che an, was MLflow f√ºr Sie geloggt hat. Neben s√§mtlichen Metriken werden auch der Datensatz und das Modell geloggt. Suchen Sie die confusion matrix!

## Manuelles Logging mit MLflow

Nachdem wir nun gelernt haben, wie man einen Modelltrainingslauf mit MLflow-Autologging protokolliert, wollen wir einen Schritt weiter gehen und lernen, wie man ein Modell und Metadaten manuell protokolliert. Dies ist n√ºtzlich, wenn Sie mehr Kontrolle √ºber den Protokollierungsprozess haben m√∂chten.

Die Schritte, die wir durchf√ºhren werden, sind:

1) Starten Sie einen MLflow-Laufkontext, um einen neuen Lauf zu starten, in dem wir das Modell und die Metadaten protokollieren werden.
2) Trainieren und testen des Modells
3) Protokollieren Sie Modellparameter und Leistungsmetriken.
4) Kennzeichnen Sie den Lauf, um ihn leicht wiederzufinden.

In [29]:
# Start an MLflow run
with mlflow.start_run():
    # Log the parameters
    mlflow.log_params(params)

    # Train the model
    lr = LogisticRegression(**params)
    lr.fit(X_train, y_train)

    # Log the model
    mlflow.sklearn.log_model(sk_model=lr, name="iris_model", registered_model_name="iris_model_registered")

    # Predict on the test set, compute and log the loss metric
    y_pred = lr.predict(X_test)
    accuracy = accuracy_score(y_test, y_pred)
    mlflow.log_metric("accuracy", accuracy)

    # Optional: Set a tag that we can use to remind ourselves what this run was for
    mlflow.set_tag("Training Info", "Basic LR model for iris data")

Registered model 'iris_model_registered' already exists. Creating a new version of this model...
2025/11/12 22:36:09 INFO mlflow.store.model_registry.abstract_store: Waiting up to 300 seconds for model version to finish creation. Model name: iris_model_registered, version 2


üèÉ View run illustrious-auk-234 at: http://localhost:5000/#/experiments/1/runs/b2eaeafa68f14584a547b6f1efe52fb8
üß™ View experiment at: http://localhost:5000/#/experiments/1


Created version '2' of model 'iris_model_registered'.


Schauen Sie sich wieder die geloggten Werte an. Was sind die Unterschiede?

## Nutzen von gespeicherten Modellen

Sofern wir ein Modell registriert haben (entweder durch registered_model_name oder in der Bedienoberfl√§che), k√∂nnen wir es einfach wieder laden:

In [30]:
model_name = "iris_model_registered"
model_uri = f"models:/{model_name}/1" # Version 1 of the model
loaded_modell = mlflow.pyfunc.load_model(model_uri)

Downloading artifacts: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 5/5 [00:00<00:00, 310.50it/s]


Jetzt haben wir unser Modell √ºber mlflow geladen. Wir k√∂nnen das nun f√ºr Batch-Processing direkt in Python-Code nutzen, mit neuen Daten weiter trainieren oder √§hnlich zu 4-E-HostingInterfaces √ºber einen REST-Endpunkt zur Verf√ºgung stellen. Als interessante Aufgabe k√∂nnen Sie versuchen mit einem Flask-Server das geladene Model zu hosten - nutzen Sie gerne daf√ºr die Hilfe von einem LLM Ihrer Wahl.