# MLOps Workshop: Datenvorverarbeitung

## 1. Einführung
In diesem Notebook werden wir uns mit der Vorverarbeitung unseres Telco Customer Churn Datensatzes beschäftigen. Wir werden uns auf Datenbereinigung und Feature Engineering konzentrieren.

## 2. Lernziele
Nach Abschluss dieses Notebooks werden Sie:
- Methoden zur systematischen Datenbereinigung beherrschen
- Feature Engineering Techniken anwenden können
- Eine vollständige Preprocessing Pipeline erstellen können
- Preprocessing Best Practices im MLOps-Kontext verstehen

## 3. Setup und Datenvorbereitung


In [1]:
# Benötigte Bibliotheken importieren
import pandas as pd
import numpy as np
from sklearn.preprocessing import StandardScaler, LabelEncoder
import pickle
import os
import matplotlib.pyplot as plt
import seaborn as sns

# Matplotlib für deutsche Beschriftungen konfigurieren
plt.rcParams['axes.formatter.use_locale'] = True


In [18]:
# Datensatz laden
df = pd.read_csv('../data/raw/telco_customer_churn_with_missing.csv')
print(f"Datensatz geladen: {df.shape} (Zeilen, Spalten)")


Datensatz geladen: (7053, 21) (Zeilen, Spalten)


## 4. Datenbereinigung

### 4.1 Fehlende Werte behandeln

**Übung 1: Fehlende Werte analysieren**
1. Untersuchen Sie den Datensatz auf fehlende Werte
2. Visualisieren Sie die Verteilung der fehlenden Werte
3. Entwickeln Sie eine Strategie zur Behandlung fehlender Werte
4. Implementieren Sie Ihre Strategie



### 4.2 Duplikate behandeln

**Übung 2: Duplikate identifizieren und bereinigen**
1. Überprüfen Sie den Datensatz auf verschiedene Arten von Duplikaten
2. Analysieren Sie gefundene Duplikate
3. Entscheiden Sie, wie mit Duplikaten umgegangen werden soll
4. Implementieren Sie Ihre Duplikatbereinigung


## 5. Feature Engineering

### 5.1 Kategorische Variablen kodieren

**Übung 3: Kategorische Variablen vorbereiten**
1. Identifizieren Sie alle kategorischen Variablen im Datensatz
2. Analysieren Sie die Kardinalität jeder kategorischen Variable
3. Wählen Sie geeignete Encoding-Methoden für verschiedene Variablentypen
4. Implementieren Sie das Encoding


### 5.2 Feature-Generierung

**Übung 4: Neue Features erstellen**
1. Identifizieren Sie mindestens drei geschäftsrelevante neue Features
2. Dokumentieren Sie die Bedeutung jedes neuen Features
3. Implementieren Sie die Feature-Generierung
4. Analysieren Sie die neuen Features


## 6. Preprocessing Pipeline

**Übung 5: End-to-End Preprocessing Pipeline**
1. Erstellen Sie eine Pipeline-Klasse, die alle Preprocessing-Schritte vereint
2. Implementieren Sie Methoden für:
   - Datenbereinigung
   - Feature Engineering
   - Kategorisches Encoding
   - Feature Scaling
3. Speichern Sie die verarbeiteten Daten
4. Dokumentieren Sie die Pipeline


## 7. Übungen für Studierende

1. Datenqualität
   - Entwickeln Sie zusätzliche Datenqualitätsprüfungen
   - Implementieren Sie Warnungen für problematische Datenpunkte
   - Erstellen Sie einen Datenqualitätsbericht

2. Feature Engineering
   - Erstellen Sie mindestens zwei weitere sinnvolle Features
   - Analysieren Sie die Beziehung der neuen Features zur Zielvariable
   - Dokumentieren Sie ihre Überlegungen

3. Pipeline-Erweiterung
   - Fügen Sie Logging zur Pipeline hinzu
   - Implementieren Sie Fehlerbehandlung
   - Erstellen Sie Unit Tests für die Pipeline

## 8. Weiterführende Ressourcen
- [Scikit-learn Preprocessing Guide](https://scikit-learn.org/stable/modules/preprocessing.html)
- [Feature Engineering Best Practices](https://www.featurestore.org/)
- [Python Data Cleaning Guide](https://realpython.com/python-data-cleaning-numpy-pandas/)

## 9. Nächste Schritte
- Modellierung der vorverarbeiteten Daten
- Integration der Pipeline in MLflow
- Automatisierung des Preprocessing-Workflows