# Pipeline()

Die `Pipeline()`-Funktion aus dem Modul `sklearn` (Scikit-learn) wird verwendet, um eine Abfolge von Verarbeitungsschritten für maschinelles Lernen in einem einzigen Objekt zu kapseln. Dies ist besonders nützlich, um den Code sauber und übersichtlich zu halten, insbesondere wenn man mehrere Schritte durchlaufen muss, wie etwa Datenvorverarbeitung und Modelltraining.

### Wofür wird `Pipeline()` genutzt?

- **Automatisierung mehrerer Schritte**: Anstatt die Datenvorverarbeitung und das Training manuell in mehreren Schritten durchzuführen, kann man alle Schritte in einer Pipeline definieren und diese zusammen anwenden.
- **Vermeidung von Datenlecks**: Wenn man separate Schritte für Vorverarbeitung und Modelltraining hat, kann es passieren, dass Datenlecks entstehen. Eine Pipeline verhindert das, indem sie sicherstellt, dass alle Schritte in der richtigen Reihenfolge ausgeführt werden und nur auf den Trainingssatz angewendet werden.
- **Einfachere Cross-Validation**: Mit einer Pipeline kann man sicherstellen, dass die Vorverarbeitung in jedem [Fold](../Fachwörter/Fold.ipynb) einer Cross-Validation korrekt angewendet wird.

### Aufbau einer Pipeline

Eine Pipeline besteht aus einer Abfolge von **Transformern** und einem **Estimator**. 

- **Transformer**: Jeder Schritt (außer der letzte) muss ein Transformer sein, also eine Funktion oder ein Modell, das Daten umwandelt (z. B. Skalieren, One-Hot-Encoding).
- **Estimator**: Der letzte Schritt muss ein Estimator sein, also ein Modell, das die finale Vorhersage trifft (z. B. ein Klassifikator oder ein Regressor).

### Beispielcode

```python
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.datasets import load_iris

# Beispiel Datensatz laden
data = load_iris()
X, y = data.data, data.target

# Daten in Trainings- und Testsets aufteilen
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Pipeline erstellen
pipeline = Pipeline([
    ('scaler', StandardScaler()),  # Schritt 1: Daten skalieren
    ('classifier', LogisticRegression())  # Schritt 2: Klassifikator trainieren
])

# Pipeline auf die Trainingsdaten anwenden
pipeline.fit(X_train, y_train)

# Vorhersagen treffen
predictions = pipeline.predict(X_test)

print(predictions)
```

### Erklärung:

1. **StandardScaler**: Skaliert die Eingabedaten, sodass sie einen Mittelwert von 0 und eine Standardabweichung von 1 haben.
2. **LogisticRegression**: Wird als Klassifikator verwendet, um das trainierte Modell zu erstellen.
3. **Pipeline**: Fasst den Vorverarbeitungsschritt (`scaler`) und den Klassifikator (`classifier`) zusammen, sodass beide Schritte in einem Aufruf (`pipeline.fit()`) durchgeführt werden.

### Vorteile von `Pipeline()`:

- **Sauberer Code**: Alle Schritte in einer einzigen Pipeline.
- **Wiederverwendbar**: Die Pipeline kann einfach wiederholt auf verschiedene Daten angewendet werden.
- **Vermeidung von Fehlern**: Die Pipeline behandelt Datenlecks und sorgt dafür, dass Cross-Validation korrekt durchgeführt wird.