# 🤖 Woche 2: Machine Learning in Streamlit - AMALEA modernisiert

**Aufbauend auf dem ursprünglichen AMALEA-Kurs: "Maschinelles Lernen und seine Anwendungen"**

## 📚 Was du heute lernst

- **ML-Grundlagen** aus dem ursprünglichen AMALEA-Kurs verstehen
- **Deskriptive vs. Prädiktive Statistik** (AMALEA-Konzept)
- **Training/Test/Validation** Datenaufteilung (AMALEA-Standard)
- **ML in Streamlit** integrieren
- **Iris-Datensatz** klassifizieren (AMALEA-Klassiker)
- **Interaktive ML-Apps** erstellen

---

## 🧠 ML-Grundlagen aus dem ursprünglichen AMALEA-Kurs

### Definition aus dem ursprünglichen Kurs:

> *"Machine Learning at its most basic is the practice of using algorithms to parse data, learn from it, and then make a determination or prediction about something in the world."* -- Nvidia

### Wichtige Konzepte:

**📊 Deskriptive Statistik** (Vergangenheit verstehen)
- Daten aus vergangenen Ereignissen analysieren
- Grundlegende Techniken: Anzahl, Summe, Durchschnitt, Min/Max
- **Ziel**: Was ist passiert?

**🔮 Prädiktive Statistik** (Zukunft vorhersagen)
- Basierend auf historischen Daten Vorhersagen treffen
- Verwendet Modelle und Algorithmen
- **Ziel**: Was wird passieren?

**🤖 Machine Learning**
- Automatisierter Ansatz für prädiktive Statistik
- Lernt Muster aus Daten statt explizite Regeln
- **Ziel**: Bessere Vorhersagen als regelbasierte Systeme

### Datenaufteilung (AMALEA-Standard):

| Datensatz | Zweck | Anteil |
|-----------|-------|--------|
| **Training** | Modell-Parameter optimieren | ~60-80% |
| **Validation** | Hyperparameter tuning | ~10-20% |
| **Test** | Finale Bewertung (nur einmal!) | ~10-20% |

> **Wichtig**: Teste nie mit den Trainingsdaten! Das wäre Betrug!

---

## Lernziele dieser Woche
- Einfache ML-Modelle in Streamlit integrieren
- Benutzer-Eingaben für Vorhersagen verwenden
- Model Training und Evaluation in der App
- Interaktive ML-Demos erstellen

## Von Datenanalyse zu Vorhersagen
Letzte Woche haben wir gelernt, Daten zu visualisieren. Diese Woche machen wir den nächsten Schritt: Wir lassen die App Vorhersagen treffen!

### 🧠 Was ist Machine Learning?
**Machine Learning (ML)** = Computer lernen Muster aus Daten und machen Vorhersagen

**Einfaches Beispiel:**
- **Daten:** Größe und Gewicht von 1000 Menschen
- **Muster:** Größere Menschen wiegen meist mehr
- **Vorhersage:** Bei neuer Person mit Größe 180cm → schätze Gewicht

**Haupttypen:**
- **Klassifikation:** Kategorie vorhersagen (z.B. Spam/Nicht-Spam)
- **Regression:** Zahlenwert vorhersagen (z.B. Hauspreise)

## 📦 Zusätzliche Pakete für ML

**Scikit-learn** = Die wichtigste ML-Bibliothek für Python

## 🎬 Video-Serie: Original AMALEA Machine Learning Grundlagen

**📼 Diese Video-Serie stammt aus dem Original AMALEA-Kurs (KIT 2021) und ist GOLDSTANDARD für ML-Grundlagen!**

---

### 🎥 Video 1: Maschinelles Lernen und seine Anwendungen
**📁 Datei:** `../Kurs-Videos/amalea-kit2021-w2v1 (1080p).mp4`  
**⏱️ Dauer:** ~25 Minuten  
**📚 Inhalte:**
- Was ist Machine Learning?
- Supervised vs. Unsupervised Learning
- Regression vs. Classification
- Real-World Anwendungen und Beispiele

**💡 Warum du dieses Video schauen solltest:** Perfekte Einführung in ML-Konzepte, die auch 2025 noch 100% relevant sind!

---

### 🎥 Video 2: 100% Genauigkeit - Das muss doch gut sein, oder?
**📁 Datei:** `../Kurs-Videos/amalea-kit2021-w2v2 (1080p).mp4`  
**⏱️ Dauer:** ~20 Minuten  
**📚 Inhalte:**
- Overfitting vs. Underfitting
- Training vs. Validation vs. Test Sets
- Warum 100% Accuracy oft schlecht ist
- Bias-Variance Tradeoff

**🎯 Learning Goal:** Verstehe, warum perfekte Modelle oft die schlechtesten sind!

---

### 🎥 Video 3: Oh sorry, das war ein Falsch-Positiv
**📁 Datei:** `../Kurs-Videos/amalea-kit2021-w2v3 (1080p).mp4`  
**⏱️ Dauer:** ~30 Minuten  
**📚 Inhalte:**
- Confusion Matrix verstehen
- Precision, Recall, F1-Score
- False Positives vs. False Negatives
- ROC Curves und AUC
- Wann welche Metrik verwenden?

**⚠️ Praxis-Relevanz:** Diese Konzepte sind ENTSCHEIDEND für echte ML-Projekte!

---

## 🎯 Empfohlene Reihenfolge:

1. **📹 Erst alle 3 Videos schauen** (ca. 1,5 Stunden)
2. **💻 Dann dieses Notebook durcharbeiten** 
3. **🔄 Videos bei Bedarf nochmal anschauen**

---

> 🏆 **Pro-Tipp:** Diese Original AMALEA Videos sind so gut, dass sie auch an der Stanford University verwendet werden könnten! 😉

---

## 🎬 Original AMALEA Videos: Machine Learning Fundamentals

**Diese drei Videos aus dem ursprünglichen AMALEA-Kurs sind GOLD! 💰 Schaut sie euch unbedingt an:**

### 📹 **Video 1: "Maschinelles Lernen und seine Anwendungen"**
- **Datei:** `../Kurs-Videos/amalea-kit2021-w2v1 (1080p).mp4`
- **Dauer:** ~20 Minuten
- **Inhalt:** Was ist ML? Supervised vs. Unsupervised Learning, Anwendungsbeispiele
- **Warum wichtig:** Perfekte Einführung in ML-Konzepte

### 📹 **Video 2: "100% Genauigkeit, das muss doch gut sein, oder?"**
- **Datei:** `../Kurs-Videos/amalea-kit2021-w2v2 (1080p).mp4`
- **Dauer:** ~15 Minuten  
- **Inhalt:** Overfitting, Underfitting, Bias-Variance Trade-off
- **Warum wichtig:** Versteht, warum perfekte Genauigkeit oft schlecht ist!

### 📹 **Video 3: "Oh sorry, das war ein Falsch-Positiv"**
- **Datei:** `../Kurs-Videos/amalea-kit2021-w2v3 (1080p).mp4`
- **Dauer:** ~18 Minuten
- **Inhalt:** Precision, Recall, F1-Score, Confusion Matrix
- **Warum wichtig:** ML-Evaluation wie ein Profi!

> **💡 Lerntipp:** Schaut die Videos → dann macht die praktischen Übungen unten. Die Theorie ist zeitlos und perfekt erklärt!

---

In [None]:
# Installiere ML-Bibliotheken
!pip install scikit-learn joblib

import streamlit as st
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LinearRegression
from sklearn.metrics import accuracy_score, mean_squared_error
import plotly.express as px
import joblib

print("✅ ML-Pakete erfolgreich installiert!")

# 🎯 ML-Grundlagen aus dem ursprünglichen AMALEA-Kurs
# Basiert auf "Maschinelles Lernen und seine Anwendungen"

import pandas as pd
import numpy as np
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, classification_report
import matplotlib.pyplot as plt

print("🤖 Machine Learning Grundlagen - AMALEA modernisiert")
print("=" * 60)

# 1️⃣ Iris-Datensatz laden (AMALEA-Klassiker)
print("1️⃣ Iris-Datensatz laden (bekannt aus dem ursprünglichen AMALEA-Kurs):")
iris = load_iris()
df = pd.DataFrame(iris.data, columns=iris.feature_names)
df['species'] = iris.target_names[iris.target]

print(f"📊 Datensatz-Info:")
print(f"- Samples (Zeilen): {df.shape[0]}")
print(f"- Features (Spalten): {df.shape[1]-1}")  # -1 für target
print(f"- Klassen: {list(iris.target_names)}")
print(f"\n📋 Erste 5 Zeilen:")
print(df.head())

# 2️⃣ Features vs. Target (AMALEA-Konzept)
print(f"\n2️⃣ Features vs. Target identifizieren (AMALEA-Konzept):")
X = iris.data  # Features (Input)
y = iris.target  # Target (Output)
feature_names = iris.feature_names
target_names = iris.target_names

print(f"Features (Input): {feature_names}")
print(f"Target (Output): Species {target_names}")

# 3️⃣ Datenaufteilung (AMALEA-Standard)
print(f"\n3️⃣ Datenaufteilung nach AMALEA-Standard:")
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42, stratify=y
)
print(f"Training: {X_train.shape[0]} Samples ({X_train.shape[0]/len(X)*100:.0f}%)")
print(f"Test: {X_test.shape[0]} Samples ({X_test.shape[0]/len(X)*100:.0f}%)")

# 4️⃣ ML-Algorithmus (Random Forest - war im ursprünglichen AMALEA erwähnt)
print(f"\n4️⃣ Random Forest Algorithmus (aus AMALEA-Kurs):")
model = RandomForestClassifier(n_estimators=100, random_state=42)
model.fit(X_train, y_train)

# 5️⃣ Vorhersagen treffen
print(f"\n5️⃣ Vorhersagen auf Testdaten:")
y_pred = model.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
print(f"Genauigkeit: {accuracy:.2%}")

# 6️⃣ Feature Importance (wichtig für Interpretierbarkeit)
print(f"\n6️⃣ Feature Importance (Welche Merkmale sind wichtig?):")
importance = model.feature_importances_
for name, imp in zip(feature_names, importance):
    print(f"- {name}: {imp:.3f}")

# 7️⃣ Verwirrungsmatrix verstehen (wichtig für Evaluation)
from sklearn.metrics import confusion_matrix
cm = confusion_matrix(y_test, y_pred)
print(f"\n7️⃣ Confusion Matrix:")
print(cm)

# 8️⃣ Demo: Neue Vorhersage
print(f"\n8️⃣ Demo - Neue Vorhersage:")
new_flower = [[5.1, 3.5, 1.4, 0.2]]  # Beispiel-Werte
prediction = model.predict(new_flower)
probability = model.predict_proba(new_flower)

print(f"Eingabe: {new_flower[0]}")
print(f"Vorhersage: {target_names[prediction[0]]}")
print(f"Wahrscheinlichkeiten:")
for name, prob in zip(target_names, probability[0]):
    print(f"  - {name}: {prob:.2%}")

print(f"\n✅ Das sind die ML-Grundlagen aus dem AMALEA-Kurs!")
print(f"🚀 Jetzt bauen wir daraus eine interaktive Streamlit-App...")

## 🎯 Demo 2.1: Iris Klassifikation mit ML

Wir erweitern unsere Iris-App um ML-Funktionalität:

### Was machen wir?
1. **Daten laden** (Iris-Dataset)
2. **Modell trainieren** (Random Forest)
3. **Benutzer-Eingaben** für neue Vorhersagen
4. **Performance anzeigen** (Genauigkeit, etc.)

In [None]:
%%writefile iris_ml_app.py

import streamlit as st
import pandas as pd
import numpy as np
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, classification_report
import plotly.express as px
import seaborn as sns

st.set_page_config(page_title="Iris ML Predictor", page_icon="🌸")

st.title("🌸🤖 Iris ML Vorhersage-App")
st.write("Trainiere ein ML-Modell und mache Vorhersagen!")

# === DATEN LADEN UND VORBEREITEN ===
@st.cache_data
def load_and_prepare_data():
    """Lädt Iris-Daten und bereitet sie für ML vor"""
    iris = sns.load_dataset('iris')
    
    # Features (X) und Target (y) trennen
    X = iris[['sepal_length', 'sepal_width', 'petal_length', 'petal_width']]
    y = iris['species']
    
    return X, y, iris

X, y, iris_data = load_and_prepare_data()

# === SIDEBAR FÜR MODELL-EINSTELLUNGEN ===
st.sidebar.header("🔧 Modell-Einstellungen")
test_size = st.sidebar.slider("Test-Datenanteil", 0.1, 0.5, 0.2)
random_state = st.sidebar.number_input("Random State", 0, 100, 42)

# === DATEN AUFTEILEN ===
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=test_size, random_state=random_state
)

# === MODELL TRAINIEREN ===
@st.cache_data
def train_model(test_size, random_state):
    """Trainiert das ML-Modell mit gegebenen Parametern"""
    X_train_cached, X_test_cached, y_train_cached, y_test_cached = train_test_split(
        X, y, test_size=test_size, random_state=random_state
    )
    
    # Random Forest Classifier erstellen und trainieren
    model = RandomForestClassifier(random_state=random_state, n_estimators=100)
    model.fit(X_train_cached, y_train_cached)
    
    # Performance berechnen
    train_accuracy = accuracy_score(y_train_cached, model.predict(X_train_cached))
    test_accuracy = accuracy_score(y_test_cached, model.predict(X_test_cached))
    
    return model, train_accuracy, test_accuracy

model, train_acc, test_acc = train_model(test_size, random_state)

# === HAUPTBEREICH IN TABS ===
tab1, tab2, tab3 = st.tabs(["🎯 Vorhersage", "📊 Modell-Performance", "📋 Daten-Explorer"])

# === TAB 1: VORHERSAGE ===
with tab1:
    st.header("🎯 Mache eine Vorhersage")
    st.write("Gib die Merkmale einer Iris-Blume ein und lass das Modell die Art vorhersagen:")
    
    # Eingabe-Widgets für Features
    col1, col2 = st.columns(2)
    
    with col1:
        sepal_length = st.number_input(
            "Kelchblatt Länge (cm)", 
            min_value=4.0, max_value=8.0, value=5.8, step=0.1
        )
        sepal_width = st.number_input(
            "Kelchblatt Breite (cm)", 
            min_value=2.0, max_value=4.5, value=3.0, step=0.1
        )
    
    with col2:
        petal_length = st.number_input(
            "Blütenblatt Länge (cm)", 
            min_value=1.0, max_value=7.0, value=4.3, step=0.1
        )
        petal_width = st.number_input(
            "Blütenblatt Breite (cm)", 
            min_value=0.1, max_value=2.5, value=1.3, step=0.1
        )
    
    # Vorhersage machen
    user_input = np.array([[sepal_length, sepal_width, petal_length, petal_width]])
    prediction = model.predict(user_input)[0]
    prediction_proba = model.predict_proba(user_input)[0]
    
    # Ergebnis anzeigen
    st.subheader("🔮 Vorhersage-Ergebnis:")
    st.success(f"Die Iris-Art ist wahrscheinlich: **{prediction}**")
    
    # Wahrscheinlichkeiten visualisieren
    prob_df = pd.DataFrame({
        'Art': model.classes_,
        'Wahrscheinlichkeit': prediction_proba
    })
    
    fig = px.bar(prob_df, x='Art', y='Wahrscheinlichkeit', 
                title="Vorhersage-Wahrscheinlichkeiten",
                color='Wahrscheinlichkeit',
                color_continuous_scale='viridis')
    st.plotly_chart(fig, use_container_width=True)
    
    # Interpretation
    confidence = max(prediction_proba)
    if confidence > 0.8:
        st.success(f"🎯 Sehr sicher! Confidence: {confidence:.1%}")
    elif confidence > 0.6:
        st.warning(f"⚠️ Mäßig sicher. Confidence: {confidence:.1%}")
    else:
        st.error(f"❌ Unsicher. Confidence: {confidence:.1%}")

# === TAB 2: MODELL-PERFORMANCE ===
with tab2:
    st.header("📊 Modell-Performance")
    
    # Key Metrics
    col1, col2, col3 = st.columns(3)
    with col1:
        st.metric("Training Genauigkeit", f"{train_acc:.1%}")
    with col2:
        st.metric("Test Genauigkeit", f"{test_acc:.1%}")
    with col3:
        overfitting = train_acc - test_acc
        st.metric("Overfitting", f"{overfitting:.1%}")
    
    # Overfitting-Warnung
    if overfitting > 0.1:
        st.warning("⚠️ Mögliches Overfitting! Modell könnte auf neuen Daten schlechter sein.")
    else:
        st.success("✅ Gute Generalisierung!")
    
    # Feature Importance
    st.subheader("🎯 Feature Wichtigkeit")
    importance_df = pd.DataFrame({
        'Feature': ['Kelchblatt Länge', 'Kelchblatt Breite', 'Blütenblatt Länge', 'Blütenblatt Breite'],
        'Wichtigkeit': model.feature_importances_
    }).sort_values('Wichtigkeit', ascending=True)
    
    fig_importance = px.bar(importance_df, x='Wichtigkeit', y='Feature', 
                           orientation='h', title="Welche Features sind am wichtigsten?",
                           color='Wichtigkeit', color_continuous_scale='blues')
    st.plotly_chart(fig_importance, use_container_width=True)
    
    # Erklärung
    most_important = importance_df.iloc[-1]['Feature']
    st.write(f"💡 **{most_important}** ist das wichtigste Merkmal für die Klassifikation!")
    
    # Confusion Matrix (vereinfacht)
    y_pred = model.predict(X_test)
    st.subheader("🔍 Detaillierte Performance")
    
    # Classification Report als DataFrame
    report = classification_report(y_test, y_pred, output_dict=True)
    report_df = pd.DataFrame(report).transpose()
    st.dataframe(report_df.round(3))

# === TAB 3: DATEN-EXPLORER ===
with tab3:
    st.header("📋 Daten-Explorer")
    
    # Trainings- vs Test-Daten
    st.subheader("📊 Datenaufteilung")
    col1, col2 = st.columns(2)
    with col1:
        st.metric("Trainings-Samples", len(X_train))
    with col2:
        st.metric("Test-Samples", len(X_test))
    
    # Originaledaten anzeigen
    st.subheader("🔍 Original-Dataset")
    st.dataframe(iris_data)
    
    # Korrelations-Heatmap
    st.subheader("🔗 Feature-Korrelationen")
    correlation_matrix = X.corr()
    fig_corr = px.imshow(correlation_matrix, text_auto=True, aspect="auto",
                        title="Wie hängen die Features zusammen?",
                        color_continuous_scale='RdBu')
    st.plotly_chart(fig_corr, use_container_width=True)
    
    # Scatter Plot Matrix
    st.subheader("📈 Feature-Beziehungen")
    fig_scatter = px.scatter_matrix(iris_data, 
                                   dimensions=['sepal_length', 'sepal_width', 'petal_length', 'petal_width'],
                                   color='species')
    st.plotly_chart(fig_scatter, use_container_width=True)

# === FOOTER ===
st.sidebar.markdown("---")
st.sidebar.write("💡 **ML-Tipp:** Je mehr gute Daten, desto besser das Modell!")
st.sidebar.write("🎯 **Nächster Schritt:** Probiere verschiedene Modell-Parameter aus!")

## 💡 ML-Konzepte erklärt

### Train-Test Split
**Warum teilen wir Daten auf?**
- **Training:** Modell lernt aus diesen Daten
- **Test:** Prüfen wie gut es bei unbekannten Daten ist
- **80/20 oder 70/30** sind typische Aufteilungen

### Random Forest
**Was ist das?**
- **Ensemble-Methode:** Kombiniert viele Entscheidungsbäume
- **Robust:** Funktioniert gut bei vielen Problemen
- **Feature Importance:** Zeigt, welche Variablen wichtig sind

### Overfitting
**Problem:** Modell lernt Trainingsdaten auswendig, kann aber nicht generalisieren
**Erkennung:** Training-Performance >> Test-Performance
**Lösung:** Mehr Daten, einfachere Modelle, Regularisierung

## 🎯 Aufgabe 2.1: Regression-App erstellen

Jetzt erstellen wir eine App für ein **Regressions-Problem** (Zahlenwerte vorhersagen):

In [None]:
%%writefile housing_regression_app.py

import streamlit as st
import pandas as pd
import numpy as np
from sklearn.linear_model import LinearRegression
from sklearn.ensemble import RandomForestRegressor
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error, r2_score, mean_absolute_error
import plotly.express as px

st.set_page_config(page_title="Housing Price Predictor", page_icon="🏠")

st.title("🏠💰 Immobilienpreis-Vorhersage")
st.write("Schätze Hauspreise basierend auf verschiedenen Merkmalen")

# === SIMULIERTE HOUSING-DATEN ERSTELLEN ===
@st.cache_data
def create_housing_data():
    """Erstellt realistische Beispiel-Immobiliendaten"""
    np.random.seed(42)
    n_samples = 500
    
    # Features erstellen
    rooms = np.random.normal(6, 1.5, n_samples)
    rooms = np.clip(rooms, 3, 10)  # Zwischen 3 und 10 Zimmer
    
    age = np.random.uniform(1, 100, n_samples)
    distance_to_city = np.random.uniform(1, 12, n_samples)
    crime_rate = np.random.exponential(3, n_samples)
    crime_rate = np.clip(crime_rate, 0, 15)  # Max 15
    
    # Target erstellen (mit realistischen Zusammenhängen)
    price = (
        rooms * 50000 +                    # Mehr Zimmer = teurer
        (100 - age) * 1000 +              # Neuer = teurer
        (12 - distance_to_city) * 5000 +  # Näher zur Stadt = teurer
        (-crime_rate * 2000) +            # Mehr Kriminalität = billiger
        np.random.normal(0, 20000, n_samples) +  # Zufälliges Rauschen
        200000                            # Basis-Preis
    )
    
    # Negative Preise vermeiden
    price = np.maximum(price, 50000)
    
    df = pd.DataFrame({
        'rooms': rooms,
        'age': age,
        'distance_to_city': distance_to_city,
        'crime_rate': crime_rate,
        'price': price
    })
    
    return df

# === DATEN LADEN ===
housing_data = create_housing_data()

# Features und Target trennen
feature_columns = ['rooms', 'age', 'distance_to_city', 'crime_rate']
X = housing_data[feature_columns]
y = housing_data['price']

# === SIDEBAR FÜR MODELL-AUSWAHL ===
st.sidebar.header("🔧 Modell-Konfiguration")
model_type = st.sidebar.selectbox(
    "Wähle Algorithmus:", 
    ["Linear Regression", "Random Forest"]
)
test_size = st.sidebar.slider("Test-Datenanteil", 0.1, 0.5, 0.2)

# === MODELL TRAINIEREN ===
@st.cache_data
def train_regression_model(model_type, test_size):
    """Trainiert Regressions-Modell"""
    X_train_cached, X_test_cached, y_train_cached, y_test_cached = train_test_split(
        X, y, test_size=test_size, random_state=42)
    
    if model_type == "Linear Regression":
        model = LinearRegression()
    else:
        model = RandomForestRegressor(random_state=42, n_estimators=100)
    
    model.fit(X_train_cached, y_train_cached)
    
    # Vorhersagen
    train_pred = model.predict(X_train_cached)
    test_pred = model.predict(X_test_cached)
    
    # Metriken berechnen
    train_r2 = r2_score(y_train_cached, train_pred)
    test_r2 = r2_score(y_test_cached, test_pred)
    train_rmse = np.sqrt(mean_squared_error(y_train_cached, train_pred))
    test_rmse = np.sqrt(mean_squared_error(y_test_cached, test_pred))
    
    return model, train_r2, test_r2, train_rmse, test_rmse, X_test_cached, y_test_cached

model, train_r2, test_r2, train_rmse, test_rmse, X_test, y_test = train_regression_model(model_type, test_size)

# === APP-LAYOUT ===
tab1, tab2, tab3 = st.tabs(["🏠 Preis-Vorhersage", "📈 Modell-Analyse", "📊 Daten-Übersicht"])

# === TAB 1: PREIS-VORHERSAGE ===
with tab1:
    st.header("🏠 Immobilienpreis schätzen")
    
    col1, col2 = st.columns(2)
    
    with col1:
        rooms = st.slider("Anzahl Zimmer", 3.0, 10.0, 6.0, 0.1)
        age = st.slider("Alter des Hauses (Jahre)", 1, 100, 30)
    
    with col2:
        distance = st.slider("Entfernung zur Stadt (km)", 1.0, 12.0, 5.0, 0.1)
        crime_rate = st.slider("Kriminalitätsrate", 0.0, 15.0, 3.0, 0.1)
    
    # Vorhersage
    user_input = np.array([[rooms, age, distance, crime_rate]])
    predicted_price = model.predict(user_input)[0]
    
    st.subheader("💰 Geschätzter Preis:")
    st.success(f"**${predicted_price:,.0f}**")
    
    # Preis-Kategorisierung
    if predicted_price < 300000:
        st.info("🏠 Günstiges Segment")
    elif predicted_price < 600000:
        st.warning("🏘️ Mittleres Segment")
    else:
        st.error("🏰 Luxus-Segment")
    
    # Vergleich mit ähnlichen Häusern
    st.subheader("📊 Vergleich mit ähnlichen Häusern")
    similar_houses = housing_data[
        (abs(housing_data['rooms'] - rooms) < 1) &
        (abs(housing_data['age'] - age) < 10)
    ]
    
    if len(similar_houses) > 0:
        avg_similar_price = similar_houses['price'].mean()
        difference = predicted_price - avg_similar_price
        
        col1, col2 = st.columns(2)
        with col1:
            st.metric("Durchschnitt ähnlicher Häuser", f"${avg_similar_price:,.0f}")
        with col2:
            st.metric("Unterschied", f"${difference:,.0f}")

# === TAB 2: MODELL-ANALYSE ===
with tab2:
    st.header("📈 Modell-Performance")
    
    # Performance Metriken
    col1, col2, col3, col4 = st.columns(4)
    with col1:
        st.metric("Train R²", f"{train_r2:.3f}")
    with col2:
        st.metric("Test R²", f"{test_r2:.3f}")
    with col3:
        st.metric("Train RMSE", f"${train_rmse:,.0f}")
    with col4:
        st.metric("Test RMSE", f"${test_rmse:,.0f}")
    
    # R² Erklärung
    st.write("**R² (R-Squared) Interpretation:**")
    if test_r2 > 0.8:
        st.success("🎯 Sehr gutes Modell!")
    elif test_r2 > 0.6:
        st.warning("⚠️ OK-es Modell")
    else:
        st.error("❌ Schwaches Modell")
    
    st.write(f"Das Modell erklärt {test_r2:.1%} der Preisvarianz.")
    
    # Vorhersage vs. Realität Plot
    y_pred = model.predict(X_test)
    pred_df = pd.DataFrame({
        'Echte Preise': y_test, 
        'Vorhergesagte Preise': y_pred
    })
    
    fig_pred = px.scatter(
        pred_df, 
        x='Echte Preise', 
        y='Vorhergesagte Preise',
        title="Vorhersage vs. Realität"
    )
    # Perfekte Linie hinzufügen
    min_price = min(pred_df['Echte Preise'].min(), pred_df['Vorhergesagte Preise'].min())
    max_price = max(pred_df['Echte Preise'].max(), pred_df['Vorhergesagte Preise'].max())
    fig_pred.add_shape(
        type="line", 
        x0=min_price, y0=min_price,
        x1=max_price, y1=max_price,
        line=dict(color="red", dash="dash")
    )
    st.plotly_chart(fig_pred, use_container_width=True)
    
    # Feature Importance (nur für Random Forest)
    if model_type == "Random Forest":
        st.subheader("🎯 Feature Wichtigkeit")
        feature_names = ['Zimmer', 'Alter', 'Entfernung zur Stadt', 'Kriminalitätsrate']
        importance_df = pd.DataFrame({
            'Feature': feature_names,
            'Wichtigkeit': model.feature_importances_
        }).sort_values('Wichtigkeit', ascending=True)
        
        fig_imp = px.bar(
            importance_df, 
            x='Wichtigkeit', 
            y='Feature',
            orientation='h',
            title="Welche Faktoren beeinflussen den Preis am meisten?"
        )
        st.plotly_chart(fig_imp, use_container_width=True)

# === TAB 3: DATEN-ÜBERSICHT ===
with tab3:
    st.header("📊 Datensatz-Übersicht")
    
    # Basis-Statistiken
    st.subheader("📋 Grundlegende Statistiken")
    st.dataframe(housing_data.describe(), use_container_width=True)
    
    # Rohdaten
    st.subheader("🔍 Rohdaten (Erste 20 Zeilen)")
    st.dataframe(housing_data.head(20))
    
    # Verteilungen der Features
    st.subheader("📈 Feature-Verteilungen")
    feature_to_plot = st.selectbox(
        "Feature für Histogramm:", 
        ['rooms', 'age', 'distance_to_city', 'crime_rate', 'price']
    )
    
    fig_hist = px.histogram(
        housing_data, 
        x=feature_to_plot, 
        title=f"Verteilung von {feature_to_plot}",
        nbins=30
    )
    st.plotly_chart(fig_hist, use_container_width=True)
    
    # Korrelations-Matrix
    st.subheader("🔗 Korrelationen")
    corr_matrix = housing_data.corr()
    fig_corr = px.imshow(
        corr_matrix,
        text_auto=True,
        aspect="auto",
        title="Korrelations-Matrix"
    )
    st.plotly_chart(fig_corr, use_container_width=True)

# === FOOTER ===
st.sidebar.markdown("---")
st.sidebar.write("💡 **Regression-Tipp:** R² näher bei 1 = besseres Modell")
st.sidebar.write("🎯 **Ausprobieren:** Verändere die Eingaben und beobachte die Auswirkungen!")

## 🏆 Lernziel-Check Woche 2

Am Ende dieser Woche solltest du:

- [ ] **ML-Grundlagen verstehen:** Klassifikation vs. Regression, Training vs. Test
- [ ] **ML-Modelle in Streamlit integrieren:** Scikit-learn + Streamlit
- [ ] **Benutzer-Eingaben für Vorhersagen nutzen:** Input-Widgets → Predictions
- [ ] **Modell-Performance bewerten:** Accuracy, R², Overfitting erkennen
- [ ] **Feature Importance interpretieren:** Welche Variablen sind wichtig?
- [ ] **Eine funktionsfähige ML-App entwickelt haben:** Vollständig und benutzerfreundlich

## 📝 Vorbereitung für die Fallstudie

**Denke bereits jetzt über dein Fallstudie-Projekt nach:**

### Projektideen für deine Fallstudie:
1. **Kunden-Segmentierung** (E-Commerce, Bank)
2. **Preis-Vorhersage** (Immobilien, Autos, Aktien)
3. **Klassifikation** (Spam-Erkennung, Sentiment-Analyse)
4. **Gesundheitsdaten** (Krankheits-Vorhersage, Fitness-Tracking)
5. **Sport-Analytics** (Spieler-Performance, Ergebnis-Vorhersagen)

### Fragen für dein Projekt:
1. **Welches Problem möchtest du lösen?**
2. **Welche Daten brauchst du?** (CSV, API, Web-Scraping?)
3. **Wer ist deine Zielgruppe?** (Manager, Endkunden, Experten?)
4. **Was ist das gewünschte Ergebnis?** (Klassifikation, Regression, Clustering?)

## 🔮 Ausblick auf Woche 3

Nächste Woche werden wir:
- **Apps online deployen** (Streamlit Cloud, Heroku)
- **Externe Datenquellen** einbinden (APIs, Datenbanken)
- **App-Performance optimieren** (Caching, Lazy Loading)
- **Professional Design** (Styling, UX/UI Verbesserungen)

**💡 Tipp:** Beginne bereits jetzt mit der Sammlung von Daten für deine Fallstudie!