# üöÄ From Model to Production with MLflow ‚Äì KI Summer Summit Edition

## üéØ Ziel des Workshops
- Einfaches Machine-Learning-Modell trainieren.
- Trainingsversuche mit **MLflow** tracken.
- Bestes Modell in der **MLflow Model Registry** speichern und versionieren.
- Modell als Test-API mit **Docker + MLflow** bereitstellen.

## ü§î Warum ist das wichtig?
- Schwierigkeit ohne MLOps:
  - √úberblick √ºber Hyperparameter und Datenvarianten geht verloren.
  - Gute Modelle wiederfinden ist m√ºhsam.
  - Weitergabe an Kollegen oft chaotisch (`modell_final_v2_wirklich_final.pkl`).
- **MLOps** schafft Professionalit√§t und Struktur ‚Äì √§hnlich wie DevOps.

## üîß Vorteile von MLflow

### 1. Experiment Tracking
- Erfasst Parameter, Metriken, Artefakte, Code-Versionen.
- Vergleich und Analyse von Experimenten.
- Unterst√ºtzt Reproduzierbarkeit und Hyperparameter-Tuning.

### 2. Model Packaging (MLflow Models)
- Einheitliches Format (`MLmodel`).
- Plattform√ºbergreifende Nutzung (Python, R, Docker, REST, Spark).
- Standardisierte Modell√ºbergabe.
- Kompatibel mit Scikit-learn, TensorFlow, PyTorch u.‚ÄØv.‚ÄØm.

### 3. Model Registry
- Zentrale Verwaltung und Versionierung von Modellen.
- **Stages**: `Staging`, `Production`, `Archived`.
- Dokumentation mit **Kommentaren** und **Tags**.
- Unterst√ºtzt Review, Freigabe und CI/CD.

### 4. Deployment & Reproduzierbarkeit
- Deployment auf REST-API, Docker, Azure ML, AWS SageMaker, Kubernetes.
- Logging von Umgebung, Datenpfaden und Code-Versionen.
- Sicherstellung von Reproduzierbarkeit auch langfristig.

## üí° Warum MLflow?
- üîÑ Reproduzierbare ML-Prozesse.
- üë• Bessere Team-Zusammenarbeit durch zentrale Modellverwaltung.
- ‚öôÔ∏è Struktur statt Chaos.
- ‚è±Ô∏è Schnelleres Deployment in Produktion.
- üìä Mehr Fokus auf Modellqualit√§t statt Dokumentation.


---
## üìä 2. Vorbereitung: Notwendige Werkzeuge installieren

In [None]:
!pip install mlflow scikit-learn pandas matplotlib seaborn openpyxl -q
print("Pakete installiert!")

In [None]:
print("Die installierten Werkzeuge laden")
import mlflow
import mlflow.sklearn # Speziell f√ºr Scikit-learn Modelle mit MLflow
import pandas as pd # F√ºr Tabellen-Daten (wie Excel, aber in Python)
import matplotlib.pyplot as plt # Zum Erstellen von Diagrammen
import seaborn as sns # Macht Diagramme noch sch√∂ner und einfacher
from sklearn.model_selection import train_test_split # Zum Aufteilen unserer Daten
from sklearn.ensemble import RandomForestClassifier # Unser KI-Modell f√ºr heute
from sklearn.metrics import accuracy_score, confusion_matrix, ConfusionMatrixDisplay # Zum Bewerten des Modells
from sklearn.datasets import load_iris # Ein bekannter Beispieldatensatz
import os # Um mit Ordnern und Dateien zu arbeiten
import json # Um Daten im JSON-Format zu verarbeiten (wichtig f√ºr APIs)
import requests # Um Anfragen an Web-APIs zu senden
import sklearn # Um die Version von Scikit-learn zu pr√ºfen

# Diese Zeile sorgt daf√ºr, dass Diagramme direkt hier im Notebook angezeigt werden
%matplotlib inline

print(f"MLflow Version: {mlflow.__version__}")
print(f"Scikit-learn Version: {sklearn.__version__}")
print(f"Pandas Version: {pd.__version__}")

### üîå Verbindung zum gemeinsamen MLflow Tracking Server
Wir verwenden einen gemeinsamen MLflow Server. Damit wir eure Experimente auseinanderhalten k√∂nnen, erstellt bitte jeder sein eigenes Experiment mit seinem Namen.

**WICHTIG:** √Ñndere `DEIN_NAME_HIER` in der n√§chsten Zelle zu deinem Namen oder einem eindeutigen K√ºrzel (ohne Leerzeichen, am besten nur Buchstaben, Zahlen, Unterstriche).

In [None]:
# Dein Name oder ein eindeutiges K√ºrzel (z.B. MaxM, AnnaS)
# BITTE √ÑNDERN:
TEILNEHMER_NAME = "Ahmad" # <<< HIER DEINEN NAMEN EINTRAGEN!

if TEILNEHMER_NAME == "DEIN_NAME_HIER" or TEILNEHMER_NAME == "":
    print("WARNUNG: Bitte setze die Variable TEILNEHMER_NAME auf deinen Namen oder ein K√ºrzel!")

os.environ["MLFLOW_TRACKING_USERNAME"] = "mlflow"
os.environ["MLFLOW_TRACKING_PASSWORD"] = "SprinteinsMlFlow123#"

# Die Adresse unseres gemeinsamen MLflow Servers
MLFLOW_TRACKING_SERVER_URI = "https://mlflow.kaywan.de"

try:
    mlflow.set_tracking_uri(MLFLOW_TRACKING_SERVER_URI)
    print(f"Verbunden mit MLflow Tracking Server: {mlflow.get_tracking_uri()}")
except Exception as e:
    print(f"Konnte MLflow Tracking URI nicht setzen: {e}.")

# Eindeutiger Experimentname f√ºr dich
EXPERIMENT_NAME = f"Iris_Challenge_{TEILNEHMER_NAME}"
try:
    # Versucht, das Experiment zu erstellen oder auszuw√§hlen, falls es schon existiert
    current_experiment = mlflow.get_experiment_by_name(EXPERIMENT_NAME)
    if current_experiment is None: # Experiment existiert nicht, neu erstellen
        experiment_id = mlflow.create_experiment(EXPERIMENT_NAME)
        print(f"Neues MLflow Experiment '{EXPERIMENT_NAME}' (ID: {experiment_id}) erstellt.")
    else: # Experiment existiert bereits
        experiment_id = current_experiment.experiment_id
        print(f"Vorhandenes MLflow Experiment '{EXPERIMENT_NAME}' (ID: {experiment_id}) ausgew√§hlt.")
    mlflow.set_experiment(experiment_id=experiment_id) # Setze als aktives Experiment
    
    print(f"Dein Experiment in der MLflow UI: {MLFLOW_TRACKING_SERVER_URI}/#/experiments/{experiment_id}")
    
except Exception as e:
    print(f"Fehler beim Erstellen/Setzen des Experiments '{EXPERIMENT_NAME}': {e}")
    print("Stelle sicher, dass der Server erreichbar ist und dein TEILNEHMER_NAME g√ºltig ist (und nicht leer oder der Platzhalter ist).")

---
## üå± 3. Daten laden und verstehen
Jedes KI-Modell braucht Daten zum Lernen. Wir verwenden den "Iris"-Datensatz. Das ist ein klassischer Datensatz in der KI-Welt, der Merkmale von Schwertlilien (Iris) enth√§lt. Ziel ist es, anhand der Bl√ºtenblatt- und Kelchblattma√üe die Art der Iris vorherzusagen.

Zuerst laden wir die Daten und schauen sie uns kurz an.

In [None]:
# Lade den Iris-Datensatz. 'as_frame=True' gibt uns eine sch√∂ne Tabelle (DataFrame).
iris_data = load_iris(as_frame=True)
df_iris = iris_data.frame

# Wir f√ºgen eine Spalte hinzu, die den Namen der Iris-Art enth√§lt, statt nur einer Zahl.
df_iris['target_name'] = df_iris['target'].map({0: 'Setosa', 1: 'Versicolor', 2: 'Virginica'})

print("So sehen die ersten 5 Zeilen unserer Daten aus:")
display(df_iris.head()) # 'display' ist sch√∂ner f√ºr Tabellen im Notebook

print(f"\nInsgesamt haben wir {df_iris.shape[0]} Datenpunkte (Blumen) und {df_iris.shape[1]} Spalten (Merkmale + Ziel). ")

### üîé Ein Bild sagt mehr als tausend Zahlen: Daten visualisieren

In [None]:
print("Erstelle Pairplot... Das kann einen Moment dauern.")
plt.figure(figsize=(10, 8))

# Create a pairplot showing relationships between all iris featuresrelationships
sns.pairplot(df_iris, hue='target_name', diag_kind='kde', markers=["o", "s", "D"])
plt.suptitle("Beziehungen der Merkmale im Iris-Datensatz", y=1.02)
plt.show()

print("Man sieht schon: Manche Arten (z.B. Setosa, oft blau in Plots) scheinen sich gut von den anderen unterscheiden zu lassen!")

### Interpretation des Pairplots

- **Jede Grafik** zeigt die Beziehung zwischen zwei Merkmalen.
- **Diagonale Plots**: Verteilung jedes Merkmals pro Iris-Art.
- **Wichtige Beobachtungen**:
  - Die drei Iris-Arten (Setosa, Versicolor, Virginica) sind farblich und symbolisch unterschieden.
  - *Setosa* ist klar von den anderen Arten getrennt (besonders bei **petal length** und **petal width**).
  - *Versicolor* und *Virginica* √ºberlappen teilweise ‚Üí Klassifikation hier schwieriger.
  - **Bl√ºtenblattmerkmale (petal)** sind aussagekr√§ftiger als **Kelchblattmerkmale (sepal)**.
- **Fazit**: Ein gutes ML-Modell sollte diese Muster erkennen und f√ºr die Klassifikation nutzen.


### üéØ Was soll das Modell lernen? Features (X) und Target (y)
Wir m√ºssen dem Modell sagen, welche Spalten die Eingabemerkmale (Features, oft `X` genannt) sind und welche Spalte das ist, was wir vorhersagen wollen (Target, oft `y` genannt).

In [None]:
# Die Features sind die Spalten mit den Messwerten der Blumen.
X = df_iris[iris_data.feature_names] # iris_data.feature_names enth√§lt die Namen der Merkmalsspalten

# Das Target ist die Spalte 'target', die die Art der Blume als Zahl (0, 1 oder 2) enth√§lt.
y = df_iris['target']

print("Das sind unsere Eingabemerkmale (X) mit den zugeh√∂rigen Zielwerten (y):")

# Beispiele f√ºr Setosa (Target 0)
print("\n--- Beispiele f√ºr Setosa (Target 0) ---")
setosa_examples = pd.concat([X.iloc[:3], y.iloc[:3].rename("target")], axis=1)
display(setosa_examples)

# Beispiele f√ºr Versicolor (Target 1)
print("\n--- Beispiele f√ºr Versicolor (Target 1) ---")
versicolor_examples = pd.concat([X.iloc[50:53], y.iloc[50:53].rename("target")], axis=1)
display(versicolor_examples)

# Beispiele f√ºr Virginica (Target 2)
print("\n--- Beispiele f√ºr Virginica (Target 2) ---")
virginica_examples = pd.concat([X.iloc[100:103], y.iloc[100:103].rename("target")], axis=1)
display(virginica_examples)

print("\nUnser Modell wird diese Merkmale nutzen, um die Iris-Art (Target 0, 1 oder 2) vorherzusagen.")


---
## üß† 4. Ein KI-Modell trainieren

- **Ziel:** Ein Klassifikationsmodell auf Basis von `RandomForestClassifier` trainieren.
- **Warum Random Forest?**  
  - Robust und oft sehr performant f√ºr Klassifikationsaufgaben.
  - Gut geeignet f√ºr kleine bis mittelgro√üe Datens√§tze.

In [None]:
# Wir teilen die Daten: 80% zum Trainieren, 20% zum Testen.
# Warum teilen? 
# Modell soll nicht nur Trainingsdaten auswendig lernen (Vermeidung von **Overfitting**). 
# Wir brauchen Daten, die das Modell noch nicht gesehen hat (**Testset**), um die echte Vorhersagef√§higkeit zu pr√ºfen.
# Aufteilung:
# Trainingsset** ‚Üí Modell lernen lassen.  
# Testset** ‚Üí Modellleistung √ºberpr√ºfen.

# 'random_state=42' sorgt daf√ºr, dass die Aufteilung immer gleich ist, wenn wir den Code nochmal ausf√ºhren.
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.4, random_state=42, stratify=y)

print(f"Wir haben {X_train.shape[0]} Datenpunkte zum Trainieren und {X_test.shape[0]} zum Testen.")

### ü§ñ Das Modell lernt: Training des RandomForestClassifiers
Ein Modell hat verschiedene "Stellschrauben", sogenannte Hyperparameter. Diese beeinflussen, wie das Modell lernt. Wir w√§hlen hier ein paar typische Werte.

In [None]:
# Das sind unsere 'Stellschrauben' (Hyperparameter) f√ºr den RandomForest
model_hyperparameters = {
    "n_estimators": 100,     # Wie viele "B√§ume" soll unser Wald haben? Weniger f√ºr schnelleres Training.
    "max_depth": 30,         # Wie tief darf jeder Baum werden?
    "random_state": 42      # Damit das Modelltraining reproduzierbar ist.
}

# Wir erstellen unser Modell mit diesen Einstellungen
rf_model = RandomForestClassifier(**model_hyperparameters)

# Jetzt trainieren wir das Modell mit unseren Trainingsdaten.
# Das Modell lernt jetzt Muster in X_train, um y_train vorhersagen zu k√∂nnen.
print("Modelltraining startet...")
rf_model.fit(X_train, y_train)
print("Modelltraining abgeschlossen!")

# Nun testen wir, wie gut unser Modell auf den *unbekannten* Testdaten ist.
y_predictions = rf_model.predict(X_test)

# Wir berechnen die Genauigkeit (Accuracy): Wie viel Prozent hat das Modell richtig vorhergesagt?
accuracy = accuracy_score(y_test, y_predictions)
print(f"\nGenauigkeit des Modells auf den Testdaten: {accuracy:.2f} (d.h. {accuracy*100:.0f}% richtig!)")

# Die Confusion Matrix zeigt uns genauer, wo das Modell Fehler gemacht hat.
print("\nConfusion Matrix (Zeilen: Echte Arten, Spalten: Vorhergesagte Arten):")
cm = confusion_matrix(y_test, y_predictions)
print(cm)

# Visualisieren der Confusion Matrix
disp = ConfusionMatrixDisplay(confusion_matrix=cm, display_labels=iris_data.target_names)
fig, ax = plt.subplots(figsize=(6,5))
disp.plot(cmap=plt.cm.Blues, ax=ax)
ax.set_title("Leistung des Modells (Confusion Matrix)")
plt.show()

print("Eine perfekte Diagonale von links oben nach rechts unten w√§re ideal.")

## **Zwischenfazit & Herausforderung**
- Modell erfolgreich trainiert ‚Üí erste gute Ergebnisse.
- Aber: √Ñnderungen der Hyperparameter (z.‚ÄØB. `n_estimators=100`, `max_depth=6`) beeinflussen das Ergebnis.
- Problem ohne System:
  - Manuelle Notizen n√∂tig.
  - Ergebnisse schwer vergleichbar.
- **L√∂sung:** MLflow f√ºr strukturiertes Experiment-Tracking.

In [60]:
HTML('<img src="https://raw.githubusercontent.com/asalah6/mlops-workshop/refs/heads/main/ex_track.png" width="800" height="400" alt="MLflow Tracking Visualization">')



---

## üì¶ **5. MLflow Tracking: Ordnung ins Experimentier-Chaos bringen**
- **MLflow-Funktionen:**
  - Speichert verwendete **Hyperparameter**.
  - Zeichnet erzielte **Metriken** auf (z.‚ÄØB. Accuracy).
  - Erm√∂glicht Ablage von **Artefakten**:
    - Diagramme (z.‚ÄØB. Confusion Matrix).
    - Trainiertes Modell.
- **Vorteile:**
  - Einfacher Vergleich verschiedener Trainingsl√§ufe.
  - Schnelles Wiederfinden guter Modelle.
  - Grundlage f√ºr reproduzierbare Experimente.


In [None]:
# Wir starten einen "MLflow Run". Das ist wie eine einzelne Aufzeichnungssitzung.
run_description = f"RF n_est={model_hyperparameters['n_estimators']}, depth={model_hyperparameters['max_depth']}"

# Der Name, unter dem wir das Modell sp√§ter in der "Modell-Bibliothek" (Registry) finden wollen.
REGISTERED_MODEL_NAME = f"IrisRF_{TEILNEHMER_NAME}"

print(f"Starte MLflow Run f√ºr Experiment '{EXPERIMENT_NAME}'...")

try:
    # 'with' sorgt daf√ºr, dass der Run am Ende automatisch geschlossen wird.
    with mlflow.start_run(run_name=run_description) as run:
        run_id = run.info.run_id
        print(f"MLflow Run gestartet mit ID: {run_id}")

        # 1. Parameter loggen (unsere "Stellschrauben")
        print("Logge Hyperparameter...")
        mlflow.log_params(model_hyperparameters)
        
        mlflow.log_param("daten_aufteilung", f"{X_train.shape[0]}/{X_test.shape[0]} train/test")
        mlflow.log_param("dataset_size", len(df_iris))
        mlflow.log_param("features_used", ", ".join(X.columns.tolist()))

        # 2. Metriken loggen (unsere Ergebnisse)
        print("Logge Metriken...")
        mlflow.log_metric("accuracy", accuracy)

        # 3. Artefakte loggen (z.B. Diagramme)
        print("Logge Confusion Matrix als Bild...")
        fig_cm, ax_cm = plt.subplots()
        cm_display = ConfusionMatrixDisplay(confusion_matrix=cm, display_labels=iris_data.target_names)
        cm_display.plot(ax=ax_cm, cmap=plt.cm.Greens)
        ax_cm.set_title("Confusion Matrix (geloggt mit MLflow)")
        # Speichern und loggen des Bildes
        mlflow.log_figure(fig_cm, "evaluation_plots/confusion_matrix.png")
        plt.close(fig_cm) # Schlie√üen, damit es nicht doppelt angezeigt wird

        # 4. Das Modell selbst loggen UND in der Registry registrieren
        print(f"Logge das trainierte Modell und registriere es als '{REGISTERED_MODEL_NAME}'...")
        
        # 'input_example' und 'signature' helfen MLflow zu verstehen, welche Art von Daten das Modell erwartet und liefert.
        # Das ist n√ºtzlich f√ºr das sp√§tere Bereitstellen des Modells als API.
        input_example = X_train.head(3) # Ein kleines Beispiel der Eingabedaten
        signature = mlflow.models.infer_signature(X_train, y_predictions) # MLflow versucht, das Format selbst zu erkennen
        
        mlflow.sklearn.log_model(
            sk_model=rf_model, # Das trainierte Modellobjekt
            artifact_path="rf_iris_model_files", # Ordnername innerhalb des Runs f√ºr die Modelldateien
            registered_model_name=REGISTERED_MODEL_NAME, # Name f√ºr die Model Registry
            signature=signature,
            input_example=input_example
        )
        print("Modell erfolgreich geloggt und registriert!")

    print("\nMLflow Run abgeschlossen.")
    print(f"Schau dir diesen Run in der MLflow UI an! (Experiment: '{EXPERIMENT_NAME}', Run ID: {run_id})")
    # print(f"Link zum Run (falls UI erreichbar): {mlflow.get_tracking_uri().replace('file:', '')}/#/experiments/{mlflow.get_experiment_by_name(EXPERIMENT_NAME).experiment_id}/runs/{run_id}")

except Exception as e:
    print(f"Ein Fehler ist im MLflow Run aufgetreten: {e}")
    print("Stelle sicher, dass der MLflow Tracking Server (oder der lokale Pfad) korrekt eingerichtet ist.")

## üìÅ 6. MLflow Model Registry ‚Äì Zentrale Modellverwaltung

### **Was ist die Model Registry?**
- Zentraler Ort f√ºr gespeicherte **beste Modelle**.
- **Versionierung** jeder Modellvariante.
- **Stages** f√ºr unterschiedliche Zust√§nde:
  - `None` / `Development` ‚Üí In Entwicklung
  - `Staging` ‚Üí Zum Testen
  - `Production` ‚Üí Produktiv eingesetzt
  - `Archived` ‚Üí Veraltet

---

### **Warum ist das wichtig?**
| Vorteil              | Nutzen f√ºr MLOps                             |
|----------------------|----------------------------------------------|
| ü§ù Zusammenarbeit     | Gemeinsamer Zugriff f√ºr Teams               |
| üîÅ Reproduzierbarkeit | Exakte Versionen f√ºr Analysen & Deployments |
| üöÄ Deployment         | Klare Prozesse f√ºr √úbergabe & Freigabe      |
| üßæ Governance         | Audit-Trail und Kontrolle produktiver Modelle |

---

### **Kernfunktionen**
1. **Versionierung**
   - Jede Registrierung eines Modells erzeugt eine neue Version.
   - Nachvollziehbarkeit bei Feintuning oder Datenupdates.
2. **Stage Management**
   - Definierte √úberg√§nge: Development ‚Üí Staging ‚Üí Production ‚Üí Archived.
   - Unterst√ºtzt Review- und Deployment-Workflows.
3. **Annotation & Dokumentation**
   - Kommentare, Metadaten und Beschreibungen hinzuf√ºgen.
   - Erm√∂glicht klare Nachvollziehbarkeit und Governance.
4. **Zentrale Modellbibliothek**
   - Alle Modelle an einem Ort auffindbar und dokumentiert.
   - F√∂rdert Teamarbeit und Wiederverwendbarkeit.

---

### **Manuelle Registrierung (MLflow UI)**
1. **Besten Run ausw√§hlen** (nach Accuracy sortieren).
2. In den Run-Details ‚Üí **Artifacts ‚Üí Modellordner** (mit `MLmodel`).
3. **Register Model** anklicken.
4. **Neues Modell** erstellen (`IrisRF_DEIN_NAME`) oder bestehendes Modell ausw√§hlen.
5. **Description** hinzuf√ºgen ‚Üí **Register** klicken.
6. Unter **"Models"** ‚Üí Modell ausw√§hlen ‚Üí Version ansehen.
7. **Stage √§ndern** (z.‚ÄØB. zu `Staging` oder `Production`).

---

**Ergebnis:**  
‚Üí Dein bestes Modell ist versioniert, dokumentiert und bereit f√ºr den Einsatz.


---
## üåê 7. Das Modell bereitstellen: Von der Datei zur API
Ein trainiertes Modell ist sch√∂n, aber meistens wollen wir es auch nutzen k√∂nnen, z.B. in einer App oder auf einer Webseite. Daf√ºr stellen wir es oft als eine Art "Web-Service" (API) bereit. Man schickt Daten an die API, und sie schickt eine Vorhersage zur√ºck.

MLflow bietet Werkzeuge, um das relativ einfach zu machen.

**WICHTIG:** Die folgenden Befehle sind f√ºr die **Kommandozeile (Terminal)** gedacht, nicht direkt f√ºr dieses Notebook. Du m√ºsstest sie auf deinem Computer ausf√ºhren, wo MLflow und Docker (f√ºr Option 2) installiert sind.

### 7.1 Schneller Test: Modell lokal als API starten mit `mlflow models serve`
Dieser Befehl startet einen einfachen Webserver, der unser Modell √ºber eine API ansprechbar macht. Perfekt f√ºr schnelle Tests.

**Beispiel-Kommando (im Terminal ausf√ºhren):**
```bash
# Zuerst: Sag dem Terminal, wo dein MLflow Server/Logbuch ist.
export MLFLOW_TRACKING_URI="https://mlflow.kaywan.de"
export MLFLOW_TRACKING_USERNAME="mlflow"
export MLFLOW_TRACKING_PASSWORD="SprinteinsMlFlow123#"

# Starte den Server f√ºr Version 1 unseres Modells auf Port 5001
export MODEL_NAME="IrisRF_Ahmad"
mlflow models serve -m "models:/${MODEL_NAME}/1" -p 5001 --env-manager local
#!nohup mlflow models serve -m "models:/${MODEL_NAME}/1" -p 5001 --env-manager local > mlflow.log 2>&1 &
#!ps aux | grep mlflow
#!kill 12345

# Alternativ, wenn du das Modell in Stage "Production" geschoben hast:
# mlflow models serve -m "models:/Irisblumen_Klassifikator_RF/Production" -p 5001 --env-manager local
```
-   `-m "models:/Modellname/VersionOderStage"`: Sagt MLflow, welches Modell es laden soll.
-   `-p 5001`: Der Netzwerk-Port, unter dem die API erreichbar ist.
-   `--env-manager local`: Nutzt deine lokale Python-Umgebung (einfacher f√ºr Demos).

### 7.2 F√ºr die "echte Welt": Docker-Container erstellen mit `mlflow models build-docker`
F√ºr eine robustere Bereitstellung packt man das Modell und alles, was es braucht, in einen **Docker-Container**, die √ºberall gleich l√§uft.

**Beispiel-Kommando (im Terminal ausf√ºhren, Docker muss installiert sein):**
```bash

# Docker-Image f√ºr unser Modell erstellen (Name: iris-api-service)
mlflow models build-docker -m "models:/Irisblumen_Klassifikator_RF/1" -n "iris-api-service" --env-manager local

# Den erstellten Container starten (Port 5001 auf deinem PC leitet zu Port 8080 im Container)
# docker run -p 5001:8080 iris-api-service
```
Dieser Docker-Container k√∂nnte dann z.B. in der Cloud oder auf eigenen Servern betrieben werden.

### 7.3 Die API testen: Eine Anfrage senden
Wenn dein Modell-Server l√§uft (entweder mit `mlflow models serve` oder via Docker), k√∂nnen wir ihm jetzt Daten schicken und eine Vorhersage bekommen. Das machen wir hier im Notebook mit der `requests` Bibliothek.

In [None]:
# Wir nehmen eine Beispiel-Blume aus unseren Testdaten
if 'X_test' in locals() and not X_test.empty:
    sample_flower_features = X_test.iloc[[0]] # Die erste Blume aus dem Testset
    print("Diese Blumendaten schicken wir an die API:")
    display(sample_flower_features)

    # Die API erwartet die Daten in einem bestimmten JSON-Format.
    # 'dataframe_split' ist ein g√§ngiges Format.
    payload = {
        "dataframe_split": {
            "columns": sample_flower_features.columns.tolist(),
            "data": sample_flower_features.values.tolist()
        }
    }

    # Die Adresse unserer API (Port 5001, wie oben im Terminal-Befehl festgelegt)
    api_url = "http://localhost:5001/invocations"

    print(f"\nSende Anfrage an: {api_url}")
    print("Mit diesen Daten (JSON-Format):\n", json.dumps(payload, indent=2))

    try:
        # Wir senden die Daten an die API und warten auf die Antwort
        response = requests.post(api_url, json=payload, headers={"Content-Type": "application/json"})
        response.raise_for_status() # L√∂st einen Fehler aus, wenn die API ein Problem meldet (z.B. Fehler 400 oder 500)
        
        predictions_json = response.json()
        print("\nAntwort von der API (Status {}):".format(response.status_code))
        print(json.dumps(predictions_json, indent=2))
        
        # Die Vorhersage ist meistens unter dem Schl√ºssel 'predictions'
        if 'predictions' in predictions_json and len(predictions_json['predictions']) > 0:
            predicted_index = predictions_json['predictions'][0]
            # Umwandlung des Index (0, 1, 2) in den Namen der Iris-Art
            predicted_species_name = iris_data.target_names[int(predicted_index)]
            print(f"\nDas Modell sagt voraus: Es ist eine Iris '{predicted_species_name}' (Index {predicted_index}).")
        else:
            print("\nKonnte die Vorhersage nicht aus der Antwort lesen.")

    except requests.exceptions.ConnectionError:
        print(f"\nFEHLER: Konnte keine Verbindung zu {api_url} herstellen.")
        print("Hast du den 'mlflow models serve' oder 'docker run' Befehl in einem separaten Terminal gestartet?")
    except requests.exceptions.HTTPError as e:
        print(f"\nHTTP FEHLER von der API: {e}")
        print("Antwort der API:", e.response.text)
    except Exception as e:
        print(f"\nEin anderer Fehler ist aufgetreten: {e}")
else:
    print("Testdaten (X_test) nicht gefunden. Bitte f√ºhre die Zellen oben aus, um sie zu erstellen.")

## üîÑ 8. Von manuellen Schritten zur MLOps-Pipeline

Die Schritte, die wir in diesem Workshop durchgef√ºhrt haben, k√∂nnen in einer professionellen Umgebung automatisiert werden. Eine strukturierte MLOps-Pipeline hilft dabei, den Prozess reproduzierbar und skalierbar zu machen.

### Vorteile einer MLOps-Pipeline:
- **Reproduzierbarkeit**: Konsistente Ausf√ºhrung durch Automatisierung
- **Konfigurierbarkeit**: Parameter zentral verwalten (√§hnlich zu DVC)
- **Skalierbarkeit**: Einfache Anwendung auf gr√∂√üere Datens√§tze
- **Versionierung**: Automatisches Tracking aller Artefakte und Parameter

### Beispiel einer einfachen Pipeline-Struktur:

```python
stages:
  load_data:
    cmd: python src/load_data.py
    deps:
      - src/load_data.py
    outs:
      - data/iris.csv

  train_model:
    cmd: python src/train_model.py
    deps:
      - src/train_model.py
      - data/iris.csv
      - params.yaml
    outs:
      - model.pkl
      - data/X_test.csv
      - data/y_test.csv

  evaluate:
    cmd: python src/evaluate.py
    deps:
      - src/evaluate.py
      - model.pkl
      - data/X_test.csv
      - data/y_test.csv
    metrics:
      - metrics.txt

```

In [61]:
HTML('<img src="https://raw.githubusercontent.com/asalah6/mlops-workshop/refs/heads/main/dvs_pipeline.png" width="800" height="400" alt="MLflow Tracking Visualization">')

## ‚úÖ Geschafft! Dein erster vollst√§ndiger MLOps-Durchlauf

### **Was wurde erreicht?**
1. **Modelltraining**
   - Ein KI-Modell erfolgreich trainiert.
2. **MLflow Tracking**
   - Parameter, Metriken und Artefakte (z.‚ÄØB. Confusion Matrix) geloggt.
   - Vergleichbare und reproduzierbare Experimente erstellt.
3. **MLflow Model Registry**
   - Modell versioniert und Stages zugewiesen.
   - Zentrale Ablage und Vorbereitung f√ºr Produktion.
4. **Deployment-Konzepte**
   - Grundprinzipien f√ºr:
     - `mlflow models serve` (lokaler Server)
     - Bereitstellung via **Docker**.
   - Grundlagen des produktnahen Deployments verstanden.
5. **Predictions via REST API**
   - Vorhersagen mit `curl` oder `requests` abgerufen.
   - Input/Output-Formate von MLflow-APIs kennengelernt.

---

### **Warum ist das wichtig?**
- Nachvollziehbarer und reproduzierbarer ML-Workflow.
- Teamfreundlich und skalierbar.
- Bereit f√ºr professionelle MLOps-Pipelines.


---

## üîß Wie geht‚Äôs weiter? ‚Äì Deine **Next Steps**

> Dieser Workshop war ein Einstieg ‚Äì jetzt kannst du tiefer einsteigen und praxisrelevante Erweiterungen ausprobieren:

### üñ•Ô∏è 1. **MLflow UI erkunden**
  - Starte die UI lokal (`mlflow ui`) oder auf einem Server.
  - Schau dir Runs, Artefakte und die Registry im Detail an.

### ‚òÅÔ∏è 2. **Deployment auf Cloud-Plattformen**
- MLflow l√§sst sich mit Cloud-Diensten kombinieren:
  - AWS SageMaker
  - Azure ML
  - Google Cloud AI Platform

### üß™ 3. **Andere Modelle und Use Cases**
- Nutze MLflow f√ºr andere Algorithmen, Frameworks und Datens√§tze.
- Teste Tracking und Registry mit NLP, Zeitreihen, Deep Learning usw.

### üê≥ 4. **Docker-Deployment real umsetzen**
- Erstelle ein Docker-Image deines Modells und teste lokal oder in der Cloud.
- Schicke REST-Requests f√ºr echte Vorhersagen.

### üîÅ 5. **CI/CD f√ºr ML aufbauen**
- Automatisiere Trainings-, Test-, Registrierungs- und Deploymentprozesse:
  - z.‚ÄØB. mit GitHub Actions, GitLab CI, Jenkins, Argo Workflows

---

## üôå Danke!

Vielen Dank f√ºr deine Teilnahme am Workshop!  
Du hast die Grundlagen gelegt f√ºr strukturiertes, nachhaltiges und teamf√§higes Machine Learning ‚Äì also **echtes MLOps**.

> Bleib neugierig, probiere Dinge aus und denk daran:  
> Ein gutes Modell ist nichts ohne ein gutes Deployment! üòâ

---
