# üöÄ From Model to Production with MLflow ‚Äì KI Summer Summit Edition üöÄ

Herzlich willkommen zu unserem Hands-on MLOps Workshop!

Heute schauen wir uns an, wie wir ein einfaches Machine-Learning-Modell trainieren und es so vorbereiten, dass es in einer echten Anwendung genutzt werden k√∂nnte. Dabei spielt **MLflow** eine zentrale Rolle, um uns das Leben leichter zu machen.

## üßæ Was erwartet uns heute?

### üìå Unser Ziel:
Am Ende dieses Workshops wirst du praktisch erlebt haben, wie man:
1.  Ein einfaches KI-Modell trainiert.
2.  Mit **MLflow** den √úberblick √ºber verschiedene Trainingsversuche beh√§lt (Tracking).
3.  Ein gutes Modell in der **MLflow Model Registry** speichert und versioniert.
4.  Dieses Modell als Test-API bereitstellt (Deployment mit **Docker + MLflow**).

### ü§î Warum ist das wichtig? Die Herausforderung ohne MLOps:
Stell dir vor, du trainierst ein KI-Modell. Du probierst verschiedene Einstellungen (sog. Hyperparameter) aus, vielleicht auch verschiedene Datenaufbereitungen. 
-   *Wie merkst du dir, welche Einstellungen zum besten Ergebnis gef√ºhrt haben?*
-   *Wie findest du ein √§lteres, gutes Modell wieder, wenn du es sp√§ter brauchst?*
-   *Wie gibst du dein Modell an Kollegen weiter, damit sie es testen oder in ein Produkt einbauen k√∂nnen?*

Ohne Werkzeuge wie MLflow wird das schnell un√ºbersichtlich und fehleranf√§llig. Manuelle Notizen, unz√§hlige Dateien mit Namen wie `modell_final_v2_wirklich_final.pkl` sind nicht ideal. MLOps (Machine Learning Operations) hilft, diesen Prozess zu professionalisieren ‚Äì √§hnlich wie DevOps in der Softwareentwicklung.


Heute konzentrieren wir uns auf diese drei Aspekte, um einen typischen MLOps-Workflow nachzuvollziehen.

## üöÄ Vorteile von MLflow ‚Äì Das Toolkit f√ºr den ML-Lebenszyklus

**MLflow** ist eine Open-Source-Plattform zur Verwaltung des gesamten Machine-Learning-Lebenszyklus ‚Äì von der Entwicklung bis zur Produktion. Sie bietet strukturierte Unterst√ºtzung in vier zentralen Bereichen:


### üîé 1. Experiment Tracking

- Zeichnet Parameter, Metriken, Artefakte und Code-Versionen auf.
- Vergleich und Analyse von Experimenten ‚Äì inkl. Visualisierung.
- Unterst√ºtzt Reproduzierbarkeit und systematische Optimierung.
- Ideal f√ºr exploratives Arbeiten und Hyperparameter-Tuning.


### üì¶ 2. Model Packaging (MLflow Models)

- Speichert Modelle in einem einheitlichen Format (`MLmodel`).
- Erm√∂glicht plattform√ºbergreifende Nutzung: Python, R, Docker, REST, Spark.
- Standardisierte Modell√ºbergabe ‚Äì ideal f√ºr Deployment und Tests.
- Unterst√ºtzt verschiedene Frameworks: Scikit-learn, TensorFlow, PyTorch u.v.m.


### üóÇÔ∏è 3. Model Registry

- Zentrale Verwaltung und Versionierung trainierter Modelle.
- Unterst√ºtzt **Stages**: `Staging`, `Production`, `Archived`.
- Dokumentation via **Kommentare** und **Tags**.
- Erleichtert Review-, Freigabe- und √úbergabeprozesse im Team.
- Integriert mit CI/CD-Workflows und Deployment-Pipelines.


### üöÄ 4. Deployment & Reproduzierbarkeit

- Unterst√ºtzung f√ºr Deployment auf:
  - REST-API
  - Docker-Container
  - Azure ML, AWS SageMaker, Kubernetes
- Logging von Umgebung, Datenpfaden und Code-Versionen.
- Garantiert **Reproduzierbarkeit** ‚Äì auch nach Monaten oder in neuen Umgebungen.


## üí° Warum MLflow nutzen?

- üîÑ **Reproduzierbare ML-Prozesse** ‚Äì keine verlorenen Experimente.
- üë• **Bessere Team-Zusammenarbeit** ‚Äì durch zentrale Modellverwaltung.
- ‚öôÔ∏è **Struktur statt Chaos** ‚Äì alles nachvollziehbar dokumentiert.
- ‚è±Ô∏è **Schneller in Produktion** ‚Äì klarer √úbergang von Entwicklung zu Betrieb.
- üìä **Mehr Fokus auf Modellqualit√§t** ‚Äì weniger manuelle Dokumentation.


---
## üìä 2. Vorbereitung: Notwendige Werkzeuge installieren
Zuerst installieren wir die Python-Pakete, die wir f√ºr den Workshop brauchen. Keine Sorge, das ist meist eine einmalige Sache pro Projekt.

In [None]:
# Wir installieren die ben√∂tigten Pakete. 
# Das '-q' am Ende sorgt daf√ºr, dass nicht so viel Text bei der Installation ausgegeben wird.
!pip install mlflow scikit-learn pandas matplotlib seaborn -q
print("Pakete installiert! Wenn dies das erste Mal ist, starte ggf. den Kernel neu (oben im Men√º unter 'Kernel' -> 'Restart Kernel').")

Jetzt laden wir die installierten Werkzeuge in unser Notebook, damit wir sie verwenden k√∂nnen.

In [None]:
import mlflow
import mlflow.sklearn # Speziell f√ºr Scikit-learn Modelle mit MLflow
import pandas as pd # F√ºr Tabellen-Daten (wie Excel, aber in Python)
import matplotlib.pyplot as plt # Zum Erstellen von Diagrammen
import seaborn as sns # Macht Diagramme noch sch√∂ner und einfacher
from sklearn.model_selection import train_test_split # Zum Aufteilen unserer Daten
from sklearn.ensemble import RandomForestClassifier # Unser KI-Modell f√ºr heute
from sklearn.metrics import accuracy_score, confusion_matrix, ConfusionMatrixDisplay # Zum Bewerten des Modells
from sklearn.datasets import load_iris # Ein bekannter Beispieldatensatz
import os # Um mit Ordnern und Dateien zu arbeiten
import json # Um Daten im JSON-Format zu verarbeiten (wichtig f√ºr APIs)
import requests # Um Anfragen an Web-APIs zu senden
import sklearn # Um die Version von Scikit-learn zu pr√ºfen

# Diese Zeile sorgt daf√ºr, dass Diagramme direkt hier im Notebook angezeigt werden
%matplotlib inline

print(f"MLflow Version: {mlflow.__version__}")
print(f"Scikit-learn Version: {sklearn.__version__}")
print(f"Pandas Version: {pd.__version__}")

### üîå Verbindung zum gemeinsamen MLflow Tracking Server
Wir verwenden einen gemeinsamen MLflow Server. Damit wir eure Experimente auseinanderhalten k√∂nnen, erstellt bitte jeder sein eigenes Experiment mit seinem Namen.

**WICHTIG:** √Ñndere `DEIN_NAME_HIER` in der n√§chsten Zelle zu deinem Namen oder einem eindeutigen K√ºrzel (ohne Leerzeichen, am besten nur Buchstaben, Zahlen, Unterstriche).

In [None]:
# Dein Name oder ein eindeutiges K√ºrzel (z.B. MaxM, AnnaS)
# BITTE √ÑNDERN:
TEILNEHMER_NAME = "AhmadS" # <<< HIER DEINEN NAMEN EINTRAGEN!

if TEILNEHMER_NAME == "DEIN_NAME_HIER" or TEILNEHMER_NAME == "":
    print("WARNUNG: Bitte setze die Variable TEILNEHMER_NAME auf deinen Namen oder ein K√ºrzel!")
    print("Du kannst die Zelle trotzdem ausf√ºhren, aber dein Experimentname wird 'DEIN_NAME_HIER' enthalten.")
    #raise ValueError("Bitte setze die Variable TEILNEHMER_NAME auf deinen Namen oder ein K√ºrzel!")

# Die Adresse unseres gemeinsamen MLflow Servers
MLFLOW_TRACKING_SERVER_URI = "https://06a8-35-236-198-227.ngrok-free.app"

try:
    mlflow.set_tracking_uri(MLFLOW_TRACKING_SERVER_URI)
    print(f"Verbunden mit MLflow Tracking Server: {mlflow.get_tracking_uri()}")
except Exception as e:
    print(f"Konnte MLflow Tracking URI nicht setzen: {e}.")

# Eindeutiger Experimentname f√ºr dich
EXPERIMENT_NAME = f"Iris_Challenge_{TEILNEHMER_NAME}"
try:
    # Versucht, das Experiment zu erstellen oder auszuw√§hlen, falls es schon existiert
    current_experiment = mlflow.get_experiment_by_name(EXPERIMENT_NAME)
    if current_experiment is None: # Experiment existiert nicht, neu erstellen
        experiment_id = mlflow.create_experiment(EXPERIMENT_NAME)
        print(f"Neues MLflow Experiment '{EXPERIMENT_NAME}' (ID: {experiment_id}) erstellt.")
    else: # Experiment existiert bereits
        experiment_id = current_experiment.experiment_id
        print(f"Vorhandenes MLflow Experiment '{EXPERIMENT_NAME}' (ID: {experiment_id}) ausgew√§hlt.")
    mlflow.set_experiment(experiment_id=experiment_id) # Setze als aktives Experiment
    
    print(f"Dein Experiment in der MLflow UI: {MLFLOW_TRACKING_SERVER_URI}/#/experiments/{experiment_id}")
    
except Exception as e:
    print(f"Fehler beim Erstellen/Setzen des Experiments '{EXPERIMENT_NAME}': {e}")
    print("Stelle sicher, dass der Server erreichbar ist und dein TEILNEHMER_NAME g√ºltig ist (und nicht leer oder der Platzhalter ist).")

# Eindeutiger Modellname f√ºr die Registry
REGISTERED_MODEL_NAME_TEMPLATE = f"IrisRF_{TEILNEHMER_NAME}"

---
## üå± 3. Daten laden und verstehen
Jedes KI-Modell braucht Daten zum Lernen. Wir verwenden den "Iris"-Datensatz. Das ist ein klassischer Datensatz in der KI-Welt, der Merkmale von Schwertlilien (Iris) enth√§lt. Ziel ist es, anhand der Bl√ºtenblatt- und Kelchblattma√üe die Art der Iris vorherzusagen.

Zuerst laden wir die Daten und schauen sie uns kurz an.

In [None]:
# Lade den Iris-Datensatz. 'as_frame=True' gibt uns eine sch√∂ne Tabelle (DataFrame).
iris_data = load_iris(as_frame=True)
df_iris = iris_data.frame

# Wir f√ºgen eine Spalte hinzu, die den Namen der Iris-Art enth√§lt, statt nur einer Zahl.
df_iris['target_name'] = df_iris['target'].map({0: 'Setosa', 1: 'Versicolor', 2: 'Virginica'})

print("So sehen die ersten 5 Zeilen unserer Daten aus:")
display(df_iris.head()) # 'display' ist sch√∂ner f√ºr Tabellen im Notebook

print(f"\nInsgesamt haben wir {df_iris.shape[0]} Datenpunkte (Blumen) und {df_iris.shape[1]} Spalten (Merkmale + Ziel). ")

### üîé Ein Bild sagt mehr als tausend Zahlen: Daten visualisieren
Um ein Gef√ºhl f√ºr die Daten zu bekommen, ist es gut, sie zu visualisieren. Ein `pairplot` zeigt uns, wie die verschiedenen Merkmale (z.B. L√§nge und Breite der Bl√ºtenbl√§tter) miteinander zusammenh√§ngen und ob sich die verschiedenen Iris-Arten dadurch unterscheiden lassen.

In [None]:
print("Erstelle Pairplot... Das kann einen Moment dauern.")
plt.figure(figsize=(10, 8))
# 'hue' f√§rbt die Punkte nach der Iris-Art ein.
# 'diag_kind=kde' zeigt uns die Verteilung jedes einzelnen Merkmals.
sns.pairplot(df_iris, hue='target_name', diag_kind='kde', markers=["o", "s", "D"])
plt.suptitle("Beziehungen der Merkmale im Iris-Datensatz", y=1.02)
plt.show()

print("Man sieht schon: Manche Arten (z.B. Setosa, oft blau in Plots) scheinen sich gut von den anderen unterscheiden zu lassen!")

### üéØ Was soll das Modell lernen? Features (X) und Target (y)
Wir m√ºssen dem Modell sagen, welche Spalten die Eingabemerkmale (Features, oft `X` genannt) sind und welche Spalte das ist, was wir vorhersagen wollen (Target, oft `y` genannt).

In [None]:
# Die Features sind die Spalten mit den Messwerten der Blumen.
X = df_iris[iris_data.feature_names] # iris_data.feature_names enth√§lt die Namen der Merkmalsspalten

# Das Target ist die Spalte 'target', die die Art der Blume als Zahl (0, 1 oder 2) enth√§lt.
y = df_iris['target']

print("Das sind unsere Eingabemerkmale (X) f√ºr das Modell (erste 5 Zeilen):")
display(X.head())
print("\nDas ist unsere Zielvariable (y), die das Modell vorhersagen soll (erste 5 Zeilen):")
display(y.head())

---
## üß† 4. Ein KI-Modell trainieren
Jetzt wird's spannend: Wir trainieren ein Modell! Wir verwenden einen `RandomForestClassifier`. Das ist ein g√§ngiges und oft recht gutes Modell f√ºr solche Klassifikationsaufgaben.

**Wichtiger Schritt: Daten aufteilen!**
Wir k√∂nnen nicht alle Daten zum Trainieren verwenden. Wir brauchen einen Teil der Daten, um sp√§ter zu testen, wie gut unser Modell *unbekannte* Daten vorhersagen kann. Sonst lernt das Modell die Trainingsdaten vielleicht nur auswendig, kann aber nichts Neues. Das nennt man √úberanpassung (Overfitting).
Wir teilen unsere Daten also in ein Trainingsset (zum Lernen) und ein Testset (zum √úberpr√ºfen).

In [None]:
# Wir teilen die Daten: 80% zum Trainieren, 20% zum Testen.
# 'random_state=42' sorgt daf√ºr, dass die Aufteilung immer gleich ist, wenn wir den Code nochmal ausf√ºhren.
# 'stratify=y' versucht, die Anteile der Iris-Arten in Trainings- und Testset gleich zu halten.
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42, stratify=y)

print(f"Wir haben {X_train.shape[0]} Datenpunkte zum Trainieren und {X_test.shape[0]} zum Testen.")

### ü§ñ Das Modell lernt: Training des RandomForestClassifiers
Ein Modell hat verschiedene "Stellschrauben", sogenannte Hyperparameter. Diese beeinflussen, wie das Modell lernt. Wir w√§hlen hier ein paar typische Werte.

In [None]:
# Das sind unsere 'Stellschrauben' (Hyperparameter) f√ºr den RandomForest
model_hyperparameters = {
    "n_estimators": 50,     # Wie viele "B√§ume" soll unser Wald haben? Weniger f√ºr schnelleres Training.
    "max_depth": 4,         # Wie tief darf jeder Baum werden?
    "random_state": 42      # Damit das Modelltraining reproduzierbar ist.
}

# Wir erstellen unser Modell mit diesen Einstellungen
rf_model = RandomForestClassifier(**model_hyperparameters)

# Jetzt trainieren wir das Modell mit unseren Trainingsdaten.
# Das Modell lernt jetzt Muster in X_train, um y_train vorhersagen zu k√∂nnen.
print("Modelltraining startet...")
rf_model.fit(X_train, y_train)
print("Modelltraining abgeschlossen!")

# Nun testen wir, wie gut unser Modell auf den *unbekannten* Testdaten ist.
y_predictions = rf_model.predict(X_test)

# Wir berechnen die Genauigkeit (Accuracy): Wie viel Prozent hat das Modell richtig vorhergesagt?
accuracy = accuracy_score(y_test, y_predictions)
print(f"\nGenauigkeit des Modells auf den Testdaten: {accuracy:.2f} (d.h. {accuracy*100:.0f}% richtig!)")

# Die Confusion Matrix zeigt uns genauer, wo das Modell Fehler gemacht hat.
print("\nConfusion Matrix (Zeilen: Echte Arten, Spalten: Vorhergesagte Arten):")
cm = confusion_matrix(y_test, y_predictions)
print(cm)

# Visualisieren der Confusion Matrix
disp = ConfusionMatrixDisplay(confusion_matrix=cm, display_labels=iris_data.target_names)
fig, ax = plt.subplots(figsize=(6,5))
disp.plot(cmap=plt.cm.Blues, ax=ax)
ax.set_title("Leistung des Modells (Confusion Matrix)")
plt.show()

print("Eine perfekte Diagonale von links oben nach rechts unten w√§re ideal.")

**Zwischenfazit und Herausforderung:**
Okay, wir haben ein Modell trainiert und es scheint ganz gut zu sein! Aber was, wenn wir jetzt `n_estimators` auf 100 √§ndern? Oder `max_depth` auf 6? Wird es besser oder schlechter? 
Ohne ein System m√ºssten wir uns das alles manuell notieren oder die Ergebnisse m√ºhsam vergleichen. Hier kommt MLflow ins Spiel!

---
## üì¶ 5. MLflow Tracking: Ordnung ins Experimentier-Chaos bringen
Mit MLflow k√∂nnen wir jetzt diesen Trainingslauf protokollieren. Wir sagen MLflow:
-   Welche Hyperparameter wir verwendet haben.
-   Welche Genauigkeit (Accuracy) wir erreicht haben.
-   Wir k√∂nnen sogar Diagramme (wie die Confusion Matrix) und das trainierte Modell selbst speichern.

Das ist super praktisch, um sp√§ter verschiedene Versuche zu vergleichen oder ein gutes Modell wiederzufinden!

In [None]:
# Wir starten einen "MLflow Run". Das ist wie eine einzelne Aufzeichnungssitzung.
run_description = "Erster RF Versuch mit Basis-Parametern"

# Der Name, unter dem wir das Modell sp√§ter in der "Modell-Bibliothek" (Registry) finden wollen.
REGISTERED_MODEL_NAME = "Irisblumen_Klassifikator_RF"

print(f"Starte MLflow Run f√ºr Experiment '{EXPERIMENT_NAME}'...")

try:
    # 'with' sorgt daf√ºr, dass der Run am Ende automatisch geschlossen wird.
    with mlflow.start_run(run_name=run_description) as run:
        run_id = run.info.run_id
        print(f"MLflow Run gestartet mit ID: {run_id}")

        # 1. Parameter loggen (unsere "Stellschrauben")
        print("Logge Hyperparameter...")
        mlflow.log_params(model_hyperparameters)
        mlflow.log_param("daten_aufteilung", "80/20 train/test")

        # 2. Metriken loggen (unsere Ergebnisse)
        print("Logge Metriken...")
        mlflow.log_metric("accuracy", accuracy)

        # 3. Artefakte loggen (z.B. Diagramme)
        print("Logge Confusion Matrix als Bild...")
        fig_cm, ax_cm = plt.subplots()
        cm_display = ConfusionMatrixDisplay(confusion_matrix=cm, display_labels=iris_data.target_names)
        cm_display.plot(ax=ax_cm, cmap=plt.cm.Greens)
        ax_cm.set_title("Confusion Matrix (geloggt mit MLflow)")
        # Speichern und loggen des Bildes
        mlflow.log_figure(fig_cm, "evaluation_plots/confusion_matrix.png")
        plt.close(fig_cm) # Schlie√üen, damit es nicht doppelt angezeigt wird

        # 4. Das Modell selbst loggen UND in der Registry registrieren
        print(f"Logge das trainierte Modell und registriere es als '{REGISTERED_MODEL_NAME}'...")
        
        # 'input_example' und 'signature' helfen MLflow zu verstehen, welche Art von Daten das Modell erwartet und liefert.
        # Das ist n√ºtzlich f√ºr das sp√§tere Bereitstellen des Modells als API.
        input_example = X_train.head(3) # Ein kleines Beispiel der Eingabedaten
        signature = mlflow.models.infer_signature(X_train, y_predictions) # MLflow versucht, das Format selbst zu erkennen
        
        mlflow.sklearn.log_model(
            sk_model=rf_model, # Das trainierte Modellobjekt
            artifact_path="rf_iris_model_files", # Ordnername innerhalb des Runs f√ºr die Modelldateien
            registered_model_name=REGISTERED_MODEL_NAME, # Name f√ºr die Model Registry
            signature=signature,
            input_example=input_example
        )
        print("Modell erfolgreich geloggt und registriert!")

    print("\nMLflow Run abgeschlossen.")
    print(f"Schau dir diesen Run in der MLflow UI an! (Experiment: '{EXPERIMENT_NAME}', Run ID: {run_id})")
    # print(f"Link zum Run (falls UI erreichbar): {mlflow.get_tracking_uri().replace('file:', '')}/#/experiments/{mlflow.get_experiment_by_name(EXPERIMENT_NAME).experiment_id}/runs/{run_id}")

except Exception as e:
    print(f"Ein Fehler ist im MLflow Run aufgetreten: {e}")
    print("Stelle sicher, dass der MLflow Tracking Server (oder der lokale Pfad) korrekt eingerichtet ist.")

**Was ist jetzt passiert?**
Wenn du jetzt die MLflow UI √∂ffnest (die Adresse h√§ngt von deiner Einrichtung ab, bei lokalem Tracking musst du evtl. `mlflow ui --backend-store-uri file:./mlruns_workshop_local` in einem Terminal starten), siehst du unter dem Experiment `KI_Summit_Irisblumen_Klassifikation` einen neuen Eintrag. Dort findest du alle Infos: Parameter, Genauigkeit, das Bild der Confusion Matrix und das gespeicherte Modell!

---
## üìÅ 6. MLflow Model Registry: Die Bibliothek f√ºr unsere besten Modelle
Stell dir vor, du hast jetzt viele Modelle trainiert und eines davon ist richtig gut. Das m√∂chtest du vielleicht f√ºr eine Produktivanwendung verwenden. Die Model Registry hilft dir dabei, den √úberblick zu behalten.

**Was ist die Model Registry?**
-   Ein zentraler Ort, um deine besten Modelle zu speichern.
-   Jedes Modell kann mehrere **Versionen** haben (z.B. wenn du es mit neuen Daten nachtrainierst).
-   Jede Version kann einen **Status (Stage)** haben, z.B.:
    -   `None` oder `Development`: Noch in Entwicklung.
    -   `Staging`: Bereit zum Testen in einer Testumgebung.
    -   `Production`: Freigegeben f√ºr den produktiven Einsatz.
    -   `Archived`: Veraltet, wird nicht mehr verwendet.

### üí° Warum ist die Model Registry wichtig?
| Vorteil              | Nutzen f√ºr MLOps                                        |
|----------------------|----------------------------------------------------------|
| ü§ù Zusammenarbeit     | Gemeinsamer Zugriff f√ºr Data Scientists & Engineers     |
| üîÅ Reproduzierbarkeit | Exakte Versionen f√ºr Analysen und Deployments           |
| üöÄ Deployment         | Klare Prozesse f√ºr √úbergabe & Stage-√úberg√§nge           |
| üßæ Governance         | Audit-Trail & Kontrolle √ºber produktive Modellversionen |

---

Da wir oben `registered_model_name` beim `log_model` angegeben haben, wurde unser Modell `Irisblumen_Klassifikator_RF` automatisch in der Registry angelegt (Version 1, Stage `None`).

**N√§chster Schritt (manuell in der MLflow UI):**
1.  √ñffne die MLflow UI.
2.  Gehe zum Reiter "Models".
3.  Klicke auf dein Modell `Irisblumen_Klassifikator_RF`.
4.  Du siehst Version 1. Klicke darauf.
5.  Rechts oben kannst du √ºber "Stage" -> "Transition To" den Status √§ndern, z.B. auf "Staging" oder "Production". F√ºr unseren Workshop nehmen wir an, du w√§hlst **"Production"** (oder eine andere Stage deiner Wahl).

Dies hilft Teams, klar zu definieren, welche Modellversion f√ºr welchen Zweck vorgesehen ist.

## üóÇÔ∏è MLflow Model Registry ‚Äì Zentrale Modellverwaltung f√ºr MLOps

Die **MLflow Model Registry** ist ein zentrales Repository zur Verwaltung des gesamten Lebenszyklus deiner ML-Modelle. Sie erm√∂glicht:

- üìå **Versionierung**
- üîÑ **Stage-√úberg√§nge**
- üìù **Kommentare & Metadaten**
- üèõÔ∏è **Governance & Nachvollziehbarkeit**

---

### üîß Kernfunktionen

#### üìå 1. Modellversionierung
- Jede Registrierung eines Modells mit gleichem Namen erzeugt automatisch eine neue Version.
- Du kannst alle Trainings-Iterationen nachverfolgen (z.‚ÄØB. bei Feintuning oder Datenupdates).

#### üîÑ 2. Stage Management
- Modelle lassen sich durch definierte Stufen bewegen:
  - `None` / `Development`: Im Aufbau oder experimentell
  - `Staging`: Bereit f√ºr Tests
  - `Production`: Freigegeben f√ºr Produktion
  - `Archived`: Veraltet, nicht mehr aktiv
- Die Stage-√úberg√§nge helfen beim Deployment-Workflow und im Review-Prozess.

#### üìù 3. Annotation & Dokumentation
- F√ºge **Beschreibungen** und **Kommentare** zu Modellen und Versionen hinzu.
- Erm√∂glicht Kontext, Review-Nachvollziehbarkeit und Auditability.

#### üèõÔ∏è 4. Zentrale Modellbibliothek
- Modelle sind an einem Ort auffindbar, versioniert und dokumentiert.
- F√∂rdert **Teamarbeit**, **Modell-Wiederverwendung** und **Governance**.




---
## üìÅ 6. MLflow Model Registry: Dein bestes Modell f√ºr die Nachwelt

Jetzt, wo du (hoffentlich) durch Vergleichen in der MLflow UI deinen besten Run gefunden hast, wollen wir dieses spezifische Modell offiziell in der "Modell-Bibliothek" (Model Registry) speichern.

**Manuelle Registrierung deines besten Modells √ºber die UI:**

1.  **Finde deinen besten Run in der MLflow UI** (in deinem Experiment, sortiert nach Accuracy).
2.  Klicke auf diesen besten Run, um die Detailansicht zu √∂ffnen.
3.  Unter **"Artifacts"** siehst du den Ordner, in dem das Modell gespeichert wurde (standardm√§√üig `model_files` oder der Name, den du bei `artifact_path` in `log_model` angegeben hast).
4.  Klicke auf diesen Modellordner. Du solltest jetzt eine Datei namens `MLmodel` und weitere Dateien sehen.
5.  Oben rechts auf der Seite dieses Artefakt-Ordners gibt es einen blauen Button **"Register Model"**. Klicke darauf.
6.  Ein Dialog √∂ffnet sich:
    *   **W√§hle "Create New Model"** und gib als **Model Name** deinen personalisierten Namen ein: `IrisRF_DEIN_NAME` (z.B. `IrisRF_MaxM`). **Tue dies nur, wenn du diesen Modellnamen zum ERSTEN MAL registrierst.**
    *   **ODER:** Wenn du (z.B. im ersten Run) schon ein Modell unter `IrisRF_DEIN_NAME` registriert hast, w√§hle unter **"Select Model"** dein existierendes Modell `IrisRF_DEIN_NAME` aus. Dadurch wird eine *neue Version* zu diesem bestehenden registrierten Modell hinzugef√ºgt.
    *   Du kannst eine **Description** f√ºr diese Modellversion hinzuf√ºgen (z.B. "Beste Accuracy mit n_est=X, depth=Y").
    *   Klicke auf **"Register"**.
7.  Dein Modell ist nun in der Registry! Du kannst es unter dem Reiter **"Models"** in der MLflow UI finden.
8.  Gehe zu "Models", klicke auf dein Modell `IrisRF_DEIN_NAME`.
9.  Du siehst jetzt wahrscheinlich **Version 1** (oder eine h√∂here, falls du schon √∂fter registriert hast). Klicke auf die neueste Version (die deines besten Modells).
10. Rechts oben kannst du √ºber den Button **"Stage"** -> **"Transition To..."** den Status dieser Version √§ndern. W√§hle z.B. **"Staging"** oder **"Production"**. Dies signalisiert, dass dieses Modell bereit f√ºr den n√§chsten Schritt ist.


---
## üåê 7. Das Modell bereitstellen: Von der Datei zur API
Ein trainiertes Modell ist sch√∂n, aber meistens wollen wir es auch nutzen k√∂nnen, z.B. in einer App oder auf einer Webseite. Daf√ºr stellen wir es oft als eine Art "Web-Service" (API) bereit. Man schickt Daten an die API, und sie schickt eine Vorhersage zur√ºck.

MLflow bietet Werkzeuge, um das relativ einfach zu machen.

**WICHTIG:** Die folgenden Befehle sind f√ºr die **Kommandozeile (Terminal)** gedacht, nicht direkt f√ºr dieses Notebook. Du m√ºsstest sie auf deinem Computer ausf√ºhren, wo MLflow und Docker (f√ºr Option 2) installiert sind.

### 7.1 Schneller Test: Modell lokal als API starten mit `mlflow models serve`
Dieser Befehl startet einen einfachen Webserver, der unser Modell √ºber eine API ansprechbar macht. Perfekt f√ºr schnelle Tests.

**Beispiel-Kommando (im Terminal ausf√ºhren):**
```bash
# Zuerst: Sag dem Terminal, wo dein MLflow Server/Logbuch ist.
export MLFLOW_TRACKING_URI="https://06a8-35-236-198-227.ngrok-free.app" 

# Starte den Server f√ºr Version 1 unseres Modells auf Port 5001
mlflow models serve -m "models:/Irisblumen_Klassifikator_RF/1" -p 5001 --env-manager local
#!nohup mlflow models serve -m "models:/Irisblumen_Klassifikator_RF/1" -p 5001 --env-manager local > mlflow.log 2>&1 &
#!ps aux | grep mlflow
#!kill 12345

# Alternativ, wenn du das Modell in Stage "Production" geschoben hast:
# mlflow models serve -m "models:/Irisblumen_Klassifikator_RF/Production" -p 5001 --env-manager local
```
-   `-m "models:/Modellname/VersionOderStage"`: Sagt MLflow, welches Modell es laden soll.
-   `-p 5001`: Der Netzwerk-Port, unter dem die API erreichbar ist.
-   `--env-manager local`: Nutzt deine lokale Python-Umgebung (einfacher f√ºr Demos).

### 7.2 F√ºr die "echte Welt": Docker-Container erstellen mit `mlflow models build-docker`
F√ºr eine robustere Bereitstellung packt man das Modell und alles, was es braucht, in einen **Docker-Container**. Das ist wie eine standardisierte Box, die √ºberall gleich l√§uft.

**Beispiel-Kommando (im Terminal ausf√ºhren, Docker muss installiert sein):**
```bash

# Docker-Image f√ºr unser Modell erstellen (Name: iris-api-service)
mlflow models build-docker -m "models:/Irisblumen_Klassifikator_RF/1" -n "iris-api-service" --env-manager local

# Den erstellten Container starten (Port 5001 auf deinem PC leitet zu Port 8080 im Container)
# docker run -p 5001:8080 iris-api-service
```
Dieser Docker-Container k√∂nnte dann z.B. in der Cloud oder auf eigenen Servern betrieben werden.

### 7.3 Die API testen: Eine Anfrage senden
Wenn dein Modell-Server l√§uft (entweder mit `mlflow models serve` oder via Docker), k√∂nnen wir ihm jetzt Daten schicken und eine Vorhersage bekommen. Das machen wir hier im Notebook mit der `requests` Bibliothek.

**WICHTIG: Dieser Code funktioniert nur, wenn du parallel einen der obigen Serving-Befehle im Terminal gestartet hast und der Server auf `http://localhost:5001` l√§uft!**

In [None]:
# Wir nehmen eine Beispiel-Blume aus unseren Testdaten
if 'X_test' in locals() and not X_test.empty:
    sample_flower_features = X_test.iloc[[0]] # Die erste Blume aus dem Testset
    print("Diese Blumendaten schicken wir an die API:")
    display(sample_flower_features)

    # Die API erwartet die Daten in einem bestimmten JSON-Format.
    # 'dataframe_split' ist ein g√§ngiges Format.
    payload = {
        "dataframe_split": {
            "columns": sample_flower_features.columns.tolist(),
            "data": sample_flower_features.values.tolist()
        }
    }

    # Die Adresse unserer API (Port 5001, wie oben im Terminal-Befehl festgelegt)
    api_url = "http://localhost:5001/invocations"

    print(f"\nSende Anfrage an: {api_url}")
    print("Mit diesen Daten (JSON-Format):\n", json.dumps(payload, indent=2))

    try:
        # Wir senden die Daten an die API und warten auf die Antwort
        response = requests.post(api_url, json=payload, headers={"Content-Type": "application/json"})
        response.raise_for_status() # L√∂st einen Fehler aus, wenn die API ein Problem meldet (z.B. Fehler 400 oder 500)
        
        predictions_json = response.json()
        print("\nAntwort von der API (Status {}):".format(response.status_code))
        print(json.dumps(predictions_json, indent=2))
        
        # Die Vorhersage ist meistens unter dem Schl√ºssel 'predictions'
        if 'predictions' in predictions_json and len(predictions_json['predictions']) > 0:
            predicted_index = predictions_json['predictions'][0]
            # Umwandlung des Index (0, 1, 2) in den Namen der Iris-Art
            predicted_species_name = iris_data.target_names[int(predicted_index)]
            print(f"\nDas Modell sagt voraus: Es ist eine Iris '{predicted_species_name}' (Index {predicted_index}).")
        else:
            print("\nKonnte die Vorhersage nicht aus der Antwort lesen.")

    except requests.exceptions.ConnectionError:
        print(f"\nFEHLER: Konnte keine Verbindung zu {api_url} herstellen.")
        print("Hast du den 'mlflow models serve' oder 'docker run' Befehl in einem separaten Terminal gestartet?")
    except requests.exceptions.HTTPError as e:
        print(f"\nHTTP FEHLER von der API: {e}")
        print("Antwort der API:", e.response.text)
    except Exception as e:
        print(f"\nEin anderer Fehler ist aufgetreten: {e}")
else:
    print("Testdaten (X_test) nicht gefunden. Bitte f√ºhre die Zellen oben aus, um sie zu erstellen.")

---
## üîÅ 8. (Optional) Bonus ‚Äì Was kommt danach? Monitoring!
Wenn ein Modell produktiv l√§uft, ist die Arbeit nicht vorbei! Man muss es im Auge behalten:
-   **Bleibt die Leistung gut?** (z.B. Genauigkeit)
-   **√Ñndern sich die Daten, die reinkommen?** (sog. Data Drift)
-   **Funktioniert die API technisch einwandfrei?** (Latenz, Fehlerraten)

Das nennt man **Monitoring**. Daf√ºr gibt es spezielle Werkzeuge (z.B. Evidently AI, Prometheus, Grafana, oder Cloud-Dienste). Das ist aber ein Thema f√ºr einen eigenen Workshop! F√ºr heute ist es wichtig zu wissen, dass dieser Schritt existiert und entscheidend ist.

---
## ‚úÖ Geschafft! Dein erster vollst√§ndiger MLOps-Durchlauf!

Herzlichen Gl√ºckwunsch! üéâ  
Du hast erfolgreich den Weg von der **Modellentwicklung** bis zur **produktnahen Bereitstellung** mit MLflow durchlaufen. Dabei hast du zentrale Konzepte und Tools der MLOps-Welt praktisch kennengelernt.

Super! Du hast heute gesehen und selbst ausprobiert, wie man:
1.  Ein KI-Modell trainiert.
2.  Mit **MLflow Tracking** den √úberblick √ºber Experimente beh√§lt (Parameter, Metriken, Modelle).
3.  Ein Modell in der **MLflow Model Registry** versioniert und f√ºr den Einsatz markiert.
4.  Ein Modell prinzipiell als API bereitstellen kann (mit `mlflow models serve` oder Docker).

**Warum das alles?** Dieser strukturierte Ansatz hilft enorm, wenn man mit mehreren Modellen, im Team oder √ºber l√§ngere Zeit an KI-Projekten arbeitet. Es macht den Prozess nachvollziehbar, wiederholbar und weniger fehleranf√§llig.

### üß† Was haben wir erreicht?
1.  üîé **MLflow Tracking**
      - Parameter, Metriken und Artefakte wie z.‚ÄØB. Confusion Matrices geloggt.
      - Vergleichbare und reproduzierbare Experimente erstellt.
2.  üóÇÔ∏è **MLflow Model Registry**
      - Gelernt, wie Modelle versioniert und in Stages eingeteilt werden.
      - Modelle zentral abgelegt und f√ºr Produktion vorbereitet.
3.  üöÄ **Deployment-Konzepte**
      - Prinzipielle Bereitstellung via:
        - `mlflow models serve` (lokaler Server)
        - **Docker Container** f√ºr portable und konsistente Auslieferung
      - Die Befehle und Ans√§tze f√ºr reale Umgebungen verstanden (auch wenn im Notebook nicht ausgef√ºhrt).
4. üîÑ **Predictions via REST API**
      - Gelernt, wie man mit `curl` oder `requests` Vorhersagen von einem bereitgestellten Modell abrufen kann.
      - Input/Output-Formate von MLflow-APIs verstanden.


---

## üîß Wie geht‚Äôs weiter? ‚Äì Deine **Next Steps**

> Dieser Workshop war ein Einstieg ‚Äì jetzt kannst du tiefer einsteigen und praxisrelevante Erweiterungen ausprobieren:

### üñ•Ô∏è 1. **MLflow UI erkunden**
  - Starte die UI lokal (`mlflow ui`) oder auf einem Server.
  - Schau dir Runs, Artefakte und die Registry im Detail an.

### ‚òÅÔ∏è 2. **Deployment auf Cloud-Plattformen**
- MLflow l√§sst sich mit Cloud-Diensten kombinieren:
  - AWS SageMaker
  - Azure ML
  - Google Cloud AI Platform

### üß™ 3. **Andere Modelle und Use Cases**
- Nutze MLflow f√ºr andere Algorithmen, Frameworks und Datens√§tze.
- Teste Tracking und Registry mit NLP, Zeitreihen, Deep Learning usw.

### üê≥ 4. **Docker-Deployment real umsetzen**
- Erstelle ein Docker-Image deines Modells und teste lokal oder in der Cloud.
- Schicke REST-Requests f√ºr echte Vorhersagen.

### üîÅ 5. **CI/CD f√ºr ML aufbauen**
- Automatisiere Trainings-, Test-, Registrierungs- und Deploymentprozesse:
  - z.‚ÄØB. mit GitHub Actions, GitLab CI, Jenkins, Argo Workflows

---

## üôå Danke!

Vielen Dank f√ºr deine Teilnahme am Workshop!  
Du hast die Grundlagen gelegt f√ºr strukturiertes, nachhaltiges und teamf√§higes Machine Learning ‚Äì also **echtes MLOps**.

> Bleib neugierig, probiere Dinge aus und denk daran:  
> Ein gutes Modell ist nichts ohne ein gutes Deployment! üòâ

---
