# VL 09 Übung: Code Challenge - Multiple Choice

[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/klar74/WS2025_lecture/blob/main/Vorlesung_09/VL09_Code_Challenge_Multiple_Choice_Clean.ipynb)

**Lernziel:** Preprocessing-Konzepte durch praktische Code-Vervollständigung festigen

## Anleitung
In jeder Aufgabe fehlt ein Code-Stück. Wählt die richtige Option aus den Multiple-Choice-Antworten und fügt sie ein. **Führt die Zelle aus um zu testen, ob es funktioniert!**

In [None]:
# Setup: Datensatz für alle Aufgaben
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.feature_selection import SelectKBest, f_classif

np.random.seed(42)

# Einfacher Datensatz
data = {
    'temperatur': [75, 80, 85, 70, 90, 78, 82, 88],
    'druck': [2.1, 2.3, 1.9, 2.4, 1.8, 2.2, 2.0, 1.7],
    'lieferant': ['A', 'B', 'A', 'C', 'B', 'A', 'C', 'B'],
    'qualität': [1, 1, 0, 1, 0, 1, 0, 0]
}

df = pd.DataFrame(data)
print("Datensatz geladen:")
print(df)

## Aufgabe 1: Train/Test Split
**Ziel:** Daten in 70% Training und 30% Test aufteilen

**Anleitung:** Entkommentiert die richtige Zeile!

In [None]:
# Aufgabe 1: Train/Test Split

# wir verwenden diese Spalten:
X = df[['temperatur', 'druck', 'lieferant']]
y = df['qualität']

# WÄHLT DIE RICHTIGE SPLIT-KONFIGURATION - Entkommentiert eine:
# Option A:
#X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.7, random_state=42)

# Option B:
#X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Option C:
#X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.5, random_state=42)

# EURE LÖSUNG (entkommentiert die richtige Option oben):


# Test
print(f"Training set shape: {X_train.shape}")
print(f"Test set shape: {X_test.shape}")
print(f"Training labels: {len(y_train)}")
print(f"Test labels: {len(y_test)}")

# Prüfung: 70/30 Split korrekt?
total_samples = len(X)
expected_train = int(0.7 * total_samples)
expected_test = int(0.3 * total_samples)
assert len(X_train) == expected_train, f"Training sollte {expected_train} Samples haben, hat {len(X_train)}"
print("✅ Korrekt! 70/30 Split angewendet")

## Aufgabe 2: One-Hot Encoding
**Ziel:** Kategoriales Feature 'lieferant' (A, B, C) in Zahlen umwandeln

**Erklärung:** 
- `[['lieferant']]` erstellt ein DataFrame (zwei eckige Klammern!)
- Jede Kategorie bekommt eine eigene Spalte: A → [1,0,0], B → [0,1,0], C → [0,0,1]

In [None]:
# Aufgabe 2: One-Hot Encoding
# encoder = OneHotEncoder(drop='first')  # Alternative: vermeidet Multikollinearität
encoder = OneHotEncoder()

# WÄHLT DIE RICHTIGE OPTION - Entkommentiert eine:
# Option A:
#X_train_encoded = encoder.fit_transform(X_train[['lieferant']])
#X_test_encoded = encoder.fit_transform(X_test[['lieferant']])

# Option B:
# X_train_encoded = encoder.fit_transform(X_train[['lieferant']])
# X_test_encoded = encoder.transform(X_test[['lieferant']])

# Option C:
# X_train_encoded = encoder.transform(X_train[['lieferant']])
# X_test_encoded = encoder.transform(X_test[['lieferant']])

# EURE LÖSUNG (entkommentiert die richtige Option oben):


# Test
print(f"Original 'lieferant' unique values: {X_train['lieferant'].unique()}")
print(f"Encoded shape - Training: {X_train_encoded.shape}")
print(f"Encoded shape - Test: {X_test_encoded.shape}")
print(f"Feature names: {encoder.get_feature_names_out()}")

# Prüfung: Korrekte Dimensionen?
assert X_train_encoded.shape[1] == 3, f"Sollte 3 Features haben (A, B, C), hat {X_train_encoded.shape[1]}"

# Prüfung: Gleiche Kategorien in Training und Test?
# Encoder sollte nur auf Training-Kategorien trainiert werden
train_categories = set(X_train['lieferant'].unique())
encoder_categories = set(encoder.categories_[0])
assert train_categories == encoder_categories, f"Problem! Encoder kennt {encoder_categories}, sollte Training-Kategorien {train_categories} kennen"

print("✅ Korrekt! One-Hot Encoding erfolgreich")

## Aufgabe 3: Standardisierung
**Ziel:** Numerische Features standardisieren (Mittelwert=0, Standardabweichung=1)

**Wichtig:** fit nur auf Training - sonst kennt der Scaler Test-Werte!

In [None]:
# Aufgabe 3: Standardisierung
numeric_features = ['temperatur', 'druck']
scaler = StandardScaler()

# WÄHLT DIE RICHTIGE REIHENFOLGE - Entkommentiert eine:
# Option A:
#scaler.fit(X_test[numeric_features])
#X_train_scaled = scaler.transform(X_train[numeric_features])
#X_test_scaled = scaler.transform(X_test[numeric_features])

# Option B:
#X_train_scaled = scaler.fit_transform(X_train[numeric_features])
#X_test_scaled = scaler.fit_transform(X_test[numeric_features])

# Option C:
#X_train_scaled = scaler.fit_transform(X_train[numeric_features])
#X_test_scaled = scaler.transform(X_test[numeric_features])

# EURE LÖSUNG (entkommentiert die richtige Option oben):


# Test
print("Training - Mittelwerte:", X_train_scaled.mean(axis=0))
print("Training - Standardabweichungen:", X_train_scaled.std(axis=0))
print("Test - Mittelwerte:", X_test_scaled.mean(axis=0))

# Prüfung: Training-Daten korrekt standardisiert?
assert abs(X_train_scaled.mean()) < 0.01, "Training-Mittelwert sollte ~0 sein"
assert abs(X_train_scaled.std() - 1) < 0.01, "Training-Standardabweichung sollte ~1 sein"

# Prüfung: Scaler nur auf Training trainiert?
# Test-Mittelwerte sollten NICHT ~0 sein (das wäre verdächtig!)
test_mean_suspicious = abs(X_test_scaled.mean()) < 0.01
assert not test_mean_suspicious, "Problem! Test-Mittelwerte sind auch ~0 - wurde auf Test-Daten trainiert?"

print("✅ Korrekt! Standardisierung nur auf Training-Daten")

## Aufgabe 4: Feature Engineering
**Ziel:** Neues Feature erstellen: Temperatur-Abweichung (absolut) vom Idealwert (80°C)

In [None]:
# Aufgabe 4: Feature Engineering
def create_temp_deviation_feature(X_data):
    X_new = X_data.copy()
    
    # WÄHLT DIE RICHTIGE FORMEL - Entkommentiert eine Zeile:
    # Option A:
    # X_new['temp_abweichung'] = X_new['temperatur'] - 80
    
    # Option B:
    # X_new['temp_abweichung'] = abs(X_new['temperatur'] - 80)
    
    # Option C:
    # X_new['temp_abweichung'] = (X_new['temperatur'] - 80) ** 2
    
    # EURE LÖSUNG (entkommentiert die richtige Option oben):
    
    return X_new

# Anwenden
X_train_eng = create_temp_deviation_feature(X_train)
X_test_eng = create_temp_deviation_feature(X_test)

# Test
print("Training - Neue Feature-Werte:")
print(X_train_eng[['temperatur', 'temp_abweichung']])
print("\nTest - Neue Feature-Werte:")
print(X_test_eng[['temperatur', 'temp_abweichung']])

# Prüfung: Feature wurde erstellt?
assert 'temp_abweichung' in X_train_eng.columns, "Feature 'temp_abweichung' wurde nicht erstellt!"
assert 'temp_abweichung' in X_test_eng.columns, "Feature 'temp_abweichung' wurde nicht im Test-Set erstellt!"

# Prüfung: Keine negativen Werte (bei abs oder **2)?
has_negative_values = (X_train_eng['temp_abweichung'] < 0).any()
assert not has_negative_values, "Absolut-Abweichung sollte keine negativen Werte haben!"

print("✅ Korrekt! Feature Engineering sinnvoll implementiert")

## Bonus: Debugging Challenge
**Was ist hier falsch?** Findet den Fehler im Code!

In [None]:
# FEHLERHAFTER CODE - Was ist hier das Problem?
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
scaler.fit(df[['temperatur', 'druck']])  # Fit auf gesamten Datensatz!

X_train_wrong = scaler.transform(X_train[['temperatur', 'druck']])
X_test_wrong = scaler.transform(X_test[['temperatur', 'druck']])

# WÄHLT DIE RICHTIGE ANTWORT - Entkommentiert eine:
# Option A:
# print("StandardScaler sollte nicht auf numerische Features angewendet werden")

# Option B:
# print("fit() sollte nur auf Training-Daten angewendet werden, nicht auf den gesamten Datensatz")

# Option C:
# print("transform() sollte vor fit() aufgerufen werden")

# EURE LÖSUNG (entkommentiert die richtige Option oben):


## Reflexion: Was habt ihr gelernt?

**Key Learnings:**
- **train/test split:** immer einen Testdatensatz "abzwacken" 
- **fit nur auf Training:** Verhindert Data Leakage
- **transform auf beide:** Gleiche Transformation für Training und Test
- **Feature Engineering:** Domänenwissen in Zahlen übersetzen