# Day 2: Introduction to Data Science - SOLUTIONS

## Learning Objectives
- Understand what data science is and its three pillars (Dom√§nenwissen, Statistik/Mathematik, Informatik)
- Explore real-world applications of data science (AI ‚Üí Machine Learning ‚Üí Deep Learning ‚Üí GenAI)
- Learn about Big Data characteristics (Volume, Velocity, Variety, Veracity, Value)
- Identify and analyze different data sources (Open-Source, privat, kommerziell)
- Practice effective data visualization and storytelling
- Distinguish correlation from causation and identify confounding variables

---

## Part 1: Setting Up Our Environment (10 mins)

### Introduction to Python Libraries for Data Science

Before we start, let's install and import the key libraries we'll use:

#### **Pandas** (https://pandas.pydata.org/)
- Used for data manipulation and analysis
- Think of it as Excel on steroids!
- Alternatives: Polars, Dask

#### **NumPy** (https://numpy.org/)
- Fundamental package for numerical computing
- Provides powerful array operations
- Alternatives: JAX (for advanced users)

#### **Plotly** (https://plotly.com/python/)
- Interactive visualization library
- Creates beautiful, interactive charts
- Alternatives: Matplotlib, Seaborn, Altair

In [None]:
# Install required packages (run only once)
# Uncomment the line below if you need to install packages
# !pip install pandas numpy plotly seaborn

# Import libraries
import pandas as pd
import numpy as np
import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots

print("‚úì Libraries imported successfully!")

### Load the Titanic Dataset

The Titanic dataset contains information about passengers aboard the RMS Titanic. We'll use this throughout the course to learn data science concepts. (https://github.com/mwaskom/seaborn-data/blob/master/titanic.csv)

**Dataset Features:**
- PassengerId: Unique identifier
- Survived: Survival (0 = No, 1 = Yes)
- Pclass: Ticket class (1 = 1st, 2 = 2nd, 3 = 3rd)
- Name: Passenger name
- Sex: Gender
- Age: Age in years
- SibSp: Number of siblings/spouses aboard
- Parch: Number of parents/children aboard
- Ticket: Ticket number
- Fare: Passenger fare
- Cabin: Cabin number
- Embarked: Port of embarkation (C = Cherbourg, Q = Queenstown, S = Southampton)

In [None]:
# Load the Titanic dataset from seaborn's built-in datasets
# https://seaborn.pydata.org/generated/seaborn.load_dataset.html
import seaborn as sns
df = sns.load_dataset('titanic')

# Display first few rows
print("First 5 rows of the Titanic dataset:")
df.head()

In [None]:
# Get basic information about the dataset
print("Dataset shape (rows, columns):", df.shape)
print("\nColumn data types:")
df.info()

---
## Part 2: Die Drei S√§ulen von Data Science (10 mins)

### Was ist Data Science?

Data Science ist ein **interdisziplin√§res Feld**, das drei Bereiche verbindet:

1. **Dom√§nenwissen** - Verst√§ndnis des Problemkontexts
2. **Statistik/Mathematik** - Datenanalyse und -interpretation  
3. **Informatik** - Programmierung und Berechnung

### üéØ Vorlesungs√ºbung 2.1: Die Drei S√§ulen identifizieren (5 mins) - SOLUTION

**Aufgabe:** Ordne f√ºr den Titanic-Datensatz jeder S√§ule ein Beispiel zu:

**L√∂sungen:**
- **Dom√§nenwissen:** Wissen √ºber die Titanic-Katastrophe von 1912, "Frauen und Kinder zuerst"-Prinzip, Verst√§ndnis der Klassenstruktur
- **Statistik/Mathematik:** Berechnung von √úberlebensraten, Korrelationen zwischen Variablen, Wahrscheinlichkeitsverteilungen
- **Informatik:** Python-Programmierung mit Pandas, Datenmanipulation, Visualisierung mit Plotly

---
## Part 3: Big Data - Die 5 V's (10 mins)

### Die 5 Eigenschaften von Big Data

- **Volume:** Wie viel Daten? (Datenmenge)
- **Velocity:** Wie schnell entstehen Daten? (Geschwindigkeit)
- **Variety:** Welche Arten von Daten? (Vielfalt)
- **Veracity:** Wie vertrauensw√ºrdig sind die Daten? (Qualit√§t)
- **Value:** Welche Erkenntnisse k√∂nnen wir gewinnen? (Nutzen)

### üéØ Vorlesungs√ºbung 3.1: Die 5 V's am Titanic-Beispiel (5 mins) - SOLUTION

In [None]:
# SOLUTION: Analysiere das VOLUME unseres Datensatzes
num_rows, num_cols = df.shape
print(f"üìä Volume: {num_rows} Zeilen √ó {num_cols} Spalten = {num_rows * num_cols} Datenpunkte")
print(f"\n‚úÖ Antwort: Das ist NICHT 'Big Data' im modernen Sinne!")
print(f"üí° Mit {num_rows} Passagieren ist das ein kleiner Datensatz - perfekt zum Lernen!")
print(f"üìù Typisches Big Data: Millionen+ Zeilen, Terabytes+ Speicher")

In [None]:
# SOLUTION: Analysiere die VARIETY (Vielfalt) in unserem Datensatz
print("üìä Variety - Datentypen:")
print(df.dtypes)
print(f"\n‚úÖ Numerische Spalten: {len(df.select_dtypes(include=[np.number]).columns)}")
print(f"‚úÖ Kategorische Spalten: {len(df.select_dtypes(include=['object', 'category']).columns)}")
print(f"\nüí° Dieser Datensatz enth√§lt STRUKTURIERTE Daten (Tabelle)")
print(f"üìù Variety = Numerisch (Alter, Fahrpreis) + Kategorisch (Geschlecht, Klasse)")

In [None]:
# SOLUTION: Pr√ºfe VERACITY (Datenqualit√§t) durch fehlende Werte
print("üìä Veracity - Fehlende Daten:")
missing_values = df.isnull().sum()
print(missing_values[missing_values > 0])
print(f"\n‚ö†Ô∏è Gesamt fehlende Werte: {missing_values.sum()}")
print(f"\nüí° Die Daten haben hohe VERACITY (vertrauensw√ºrdig), aber mit L√ºcken:")
print(f"   - Alter: {missing_values['age']} fehlend (~20%)")
print(f"   - Deck/Kabine: Sehr viele fehlende Werte (>70%)")

---
## Part 4: Datenvisualisierung (20 mins)

### Visualisierungsprinzipien

Gute Visualisierungen nutzen:
- **L√§nge** - Balkendiagramme
- **Position** - Streudiagramme
- **Farbe** - Heatmaps, farbcodierte Kategorien
- **Gr√∂√üe** - Blasendiagramme
- **Form** - Verschiedene Marker

### üéØ Vorlesungs√ºbung 4.1: Balkendiagramm - √úberlebensrate (5 mins) - SOLUTION

In [None]:
# SOLUTION: Erstelle ein Balkendiagramm der √úberlebensverteilung
fig = px.histogram(df, x='survived', 
                   title='√úberlebensverteilung auf der Titanic',
                   labels={'survived': '√úberlebt (0=Nein, 1=Ja)', 'count': 'Anzahl Passagiere'},
                   color='survived',
                   category_orders={'survived': [0, 1]})
fig.update_layout(showlegend=False)
fig.show()

# Berechne Statistiken
total = len(df)
survived = df['survived'].sum()
died = total - survived
survival_rate = survived / total * 100

print(f"\nüìä Statistiken:")
print(f"   Gestorben: {died} Passagiere ({100-survival_rate:.1f}%)")
print(f"   √úberlebt: {survived} Passagiere ({survival_rate:.1f}%)")
print(f"\nüí° Interpretation: Die Mehrheit (~62%) hat NICHT √ºberlebt!")

**Diskussion - SOLUTION:** 
- Die Grafik zeigt, dass die √úberlebensrate deutlich unter 50% lag
- Von 891 Passagieren √ºberlebten nur etwa 342 (38%)
- Dies spiegelt die Trag√∂die der Titanic wider

### üéØ Vorlesungs√ºbung 4.2: Gruppiertes Balkendiagramm - Klasse & √úberleben (5 mins) - SOLUTION

# SOLUTION: Erstelle ein Diagramm: √úberleben nach Passagierklasse
fig = px.histogram(df, x='pclass', color='survived',
                   barmode='group',
                   title='√úberlebensrate nach Passagierklasse',
                   labels={'pclass': 'Klasse', 'count': 'Anzahl', 'survived': '√úberlebt'},
                   category_orders={'pclass': [1, 2, 3], 'survived': [0, 1]})
fig.show()

# Berechne √úberlebensraten pro Klasse
for pclass in [1, 2, 3]:
    class_df = df[df['pclass'] == pclass]
    rate = class_df['survived'].mean() * 100
    print(f"üìä Klasse {pclass}: {rate:.1f}% √úberlebensrate")

print(f"\nüí° Wichtige Erkenntnis: Passagiere der 1. Klasse hatten ~2x h√∂here √úberlebenschance als 3. Klasse!")

### üéØ Vorlesungs√ºbung 4.3: Streudiagramm - Alter vs. Fahrpreis (5 mins) - SOLUTION

In [None]:
# SOLUTION: Erstelle ein Streudiagramm: Alter vs. Fahrpreis, eingef√§rbt nach √úberleben
fig = px.scatter(df, x='age', y='fare', color='survived',
                 title='Zusammenhang zwischen Alter und Fahrpreis',
                 labels={'age': 'Alter (Jahre)', 'fare': 'Fahrpreis (¬£)', 'survived': '√úberlebt'},
                 opacity=0.6,
                 color_discrete_map={0: 'red', 1: 'green'})
fig.show()

print(f"\nüí° Interpretation:")
print(f"   - H√∂here Fahrpreise ‚Üí Tendenziell besseres √úberleben (gr√ºne Punkte oben)")
print(f"   - Kein klares Muster mit dem Alter")
print(f"   - Ausrei√üer: Einige zahlten sehr hohe Fahrpreise (>500¬£)")

---
## Part 5: Korrelation vs. Kausalit√§t (15 mins)

### ‚ö†Ô∏è WICHTIG: Korrelation ‚â† Kausalit√§t!

**Korrelation:** Eine statistische Beziehung zwischen zwei Variablen
- Beispiel: Eisverkauf und Ertrinkungsf√§lle sind korreliert

**Kausalit√§t:** Eine Sache verursacht direkt eine andere
- Beispiel: Rauchen verursacht Lungenkrebs

**St√∂rvariable (Confounding Variable):** Eine dritte Variable, die beide beeinflusst
- Beispiel: Hei√ües Wetter verursacht sowohl mehr Eisverkauf UND mehr Schwimmen (Ertrinkungen)

### üéØ Vorlesungs√ºbung 5.1: Korrelationsmatrix erstellen (5 mins) - SOLUTION

In [None]:
# SOLUTION: Berechne Korrelationen zwischen numerischen Variablen
correlation_matrix = df.select_dtypes(include=[np.number]).corr()
print("Korrelationsmatrix:")
print(correlation_matrix.round(2))

print(f"\nüí° Interpretation:")
print(f"   - Werte nahe +1: Starke positive Korrelation")
print(f"   - Werte nahe -1: Starke negative Korrelation")
print(f"   - Werte nahe 0: Keine Korrelation")

In [None]:
# SOLUTION: Visualisiere die Korrelationsmatrix als Heatmap
fig = px.imshow(correlation_matrix,
                text_auto='.2f',
                aspect='auto',
                title='Korrelations-Heatmap (Titanic Datensatz)',
                color_continuous_scale='RdBu_r',
                zmin=-1, zmax=1)
fig.show()

print(f"\nüìä Wichtige Korrelationen:")
print(f"   - pclass ‚Üî fare: {correlation_matrix.loc['pclass', 'fare']:.2f} (h√∂here Klasse = h√∂herer Preis)")
print(f"   - pclass ‚Üî survived: {correlation_matrix.loc['pclass', 'survived']:.2f} (niedrigere Klassennummer = besseres √úberleben)")
print(f"   - fare ‚Üî survived: {correlation_matrix.loc['fare', 'survived']:.2f} (h√∂herer Preis = besseres √úberleben)")

### üéØ Vorlesungs√ºbung 5.2: St√∂rvariablen erkennen (5 mins) - SOLUTION

Untersuche die Beziehung zwischen Fahrpreis und √úberleben:

In [None]:
# SOLUTION: Berechne Korrelation zwischen Fahrpreis und √úberleben
fare_survival_corr = df['fare'].corr(df['survived'])
print(f"üìä Korrelation Fahrpreis ‚Üî √úberleben: {fare_survival_corr:.3f}")
print(f"\nüí° Antwort: NEIN! Ein h√∂herer Fahrpreis verursacht NICHT besseres √úberleben.")
print(f"   Es gibt eine Korrelation, aber keine Kausalit√§t!")
print(f"   Die Passagierklasse ist die eigentliche Ursache (St√∂rvariable).")

In [None]:
# SOLUTION: Untersuche die Passagierklasse als St√∂rvariable
pclass_survival_corr = df['pclass'].corr(df['survived'])
pclass_fare_corr = df['pclass'].corr(df['fare'])

print(f"üìä Korrelation Klasse ‚Üî √úberleben: {pclass_survival_corr:.3f}")
print(f"üìä Korrelation Klasse ‚Üî Fahrpreis: {pclass_fare_corr:.3f}")
print(f"\nüí° Erkl√§rung:")
print(f"   Negative Korrelation bei pclass bedeutet: niedrigere Klassennummer (1. Klasse) = h√∂heres √úberleben")
print(f"\n‚úÖ Passagierklasse ist die ST√ñRVARIABLE (Confounder):")
print(f"   - H√∂here Klasse ‚Üí H√∂herer Fahrpreis")
print(f"   - H√∂here Klasse ‚Üí Besseres √úberleben (besserer Zugang zu Rettungsbooten)")

In [None]:
# SOLUTION: Visualisiere Fahrpreis vs. √úberleben mit Passagierklasse als St√∂rvariable
fig = px.scatter(df, x='fare', y='survived', color='pclass',
                 title='Fahrpreis vs. √úberleben: Klasse als St√∂rvariable',
                 labels={'pclass': 'Klasse', 'fare': 'Fahrpreis (¬£)', 'survived': '√úberlebt'},
                 category_orders={'pclass': [1, 2, 3]})
fig.show()

print("\nüí° Diskussion: Die Passagierklasse ist der eigentliche Faktor, nicht der Fahrpreis selbst!")
print("   - 1. Klasse (lila): H√∂chste Fahrpreise, beste √úberlebenschancen")
print("   - 3. Klasse (rot): Niedrigste Fahrpreise, schlechteste √úberlebenschancen")
print("   - Soziale Klasse bestimmte den Zugang zu Rettungsbooten!")

---
---
---

# üè† WIEDERHOLUNG & VERTIEFUNG (F√ºr zu Hause oder Nachbereitung)

Dieser Abschnitt hilft dir, die Konzepte zu vertiefen und dich auf das Abschlussprojekt vorzubereiten!

---
## Wiederholungsblock 1: AI-Hierarchie & Anwendungen (15 mins)

### Die AI-Hierarchie verstehen

```
Artificial Intelligence (AI)
    ‚Üì
Machine Learning (ML)
    ‚Üì
Deep Learning (DL)
    ‚Üì
Generative AI (GenAI) / LLMs
```

### üìù √úbung W1.1: Anwendungsf√§lle zuordnen - SOLUTION

Ordne jede Anwendung der richtigen Ebene zu:

In [None]:
# SOLUTION: Anwendungsf√§lle zuordnen
anwendungen = {
    "ChatGPT Text generieren": "GenAI/LLM",  
    "Titanic √úberlebensvorhersage": "Machine Learning",  
    "Bilderkennung mit CNN": "Deep Learning",  
    "Schachcomputer": "AI (kann auch ohne ML)",  
}

print("‚úÖ L√ñSUNGEN:")
for anwendung, kategorie in anwendungen.items():
    print(f"   {anwendung}: {kategorie}")

print("\nüí° Erkl√§rungen:")
print("   - ChatGPT = GenAI/LLM: Generiert neue Inhalte basierend auf Mustern")
print("   - Titanic = Machine Learning: Klassifikation (Supervised Learning)")
print("   - CNN (Convolutional Neural Network) = Deep Learning: Mehrschichtige neuronale Netze")
print("   - Schach = AI: Kann mit Regeln + Heuristiken arbeiten, nicht zwingend ML")

---
## Wiederholungsblock 2: Erweiterte Visualisierungen (25 mins)

### üìù √úbung W2.1: Altersverteilung - Histogramm - SOLUTION

In [None]:
# SOLUTION: Erstelle ein Histogramm der Altersverteilung
fig = px.histogram(df, x='age', nbins=30,
                   title='Altersverteilung der Titanic-Passagiere',
                   labels={'age': 'Alter (Jahre)', 'count': 'Anzahl Passagiere'},
                   color_discrete_sequence=['steelblue'])
fig.update_layout(yaxis_title='Anzahl Passagiere')
fig.show()

print(f"\nüìä Altersstatistiken:")
print(f"   Durchschnittsalter: {df['age'].mean():.1f} Jahre")
print(f"   Median: {df['age'].median():.1f} Jahre")
print(f"   J√ºngste Person: {df['age'].min():.1f} Jahre")
print(f"   √Ñlteste Person: {df['age'].max():.1f} Jahre")
print(f"\nüí° Die Verteilung zeigt viele junge Erwachsene (20-40 Jahre)")

### üìù √úbung W2.2: Box Plot - Fahrpreisverteilung nach Klasse - SOLUTION

In [None]:
# SOLUTION: Erstelle einen Box Plot der Fahrpreise pro Klasse
fig = px.box(df, x='pclass', y='fare',
             title='Fahrpreisverteilung nach Passagierklasse',
             labels={'pclass': 'Klasse', 'fare': 'Fahrpreis (¬£)'},
             category_orders={'pclass': [1, 2, 3]},
             color='pclass')
fig.show()

print(f"\nüìä Fahrpreis-Statistiken pro Klasse:")
for pclass in [1, 2, 3]:
    class_fares = df[df['pclass'] == pclass]['fare']
    print(f"   Klasse {pclass}: Median={class_fares.median():.2f}¬£, Mean={class_fares.mean():.2f}¬£, Max={class_fares.max():.2f}¬£")

print(f"\nüí° Interpretation:")
print(f"   - Klasse 1 hat deutlich h√∂here Fahrpreise und gr√∂√üere Varianz")
print(f"   - Viele Ausrei√üer in Klasse 1 (sehr teure Tickets)")
print(f"   - Klasse 3 hat die niedrigsten und konsistentesten Preise")

### üìù √úbung W2.3: Gruppiertes Balkendiagramm - Geschlecht, Klasse & √úberleben - SOLUTION

In [None]:
# SOLUTION: Erstelle ein Balkendiagramm der √úberlebensrate nach Geschlecht UND Klasse
# Schritt 1: Gruppiere die Daten
survival_by_sex_class = df.groupby(['sex', 'pclass'])['survived'].mean().reset_index()

# Schritt 2: Erstelle das Diagramm
fig = px.bar(survival_by_sex_class, x='pclass', y='survived', color='sex', barmode='group',
             title='√úberlebensrate nach Geschlecht und Klasse',
             labels={'pclass': 'Klasse', 'survived': '√úberlebensrate', 'sex': 'Geschlecht'},
             category_orders={'pclass': [1, 2, 3]})
fig.update_layout(yaxis_tickformat='.0%')
fig.show()

print(f"\nüìä Detaillierte √úberlebensraten:")
for sex in ['male', 'female']:
    for pclass in [1, 2, 3]:
        rate = df[(df['sex']==sex) & (df['pclass']==pclass)]['survived'].mean()
        print(f"   {sex.capitalize()} | Klasse {pclass}: {rate*100:.1f}%")

print(f"\nüí° Wichtige Erkenntnis: 'Frauen und Kinder zuerst' Prinzip ist deutlich sichtbar!")
print(f"   Frauen hatten in ALLEN Klassen dramatisch h√∂here √úberlebensraten")

**Wichtige Erkenntnis - SOLUTION:** 
- Das "Frauen und Kinder zuerst"-Prinzip wurde befolgt
- Frauen hatten in allen Klassen deutlich h√∂here √úberlebensraten (>70% in Klasse 1 & 2)
- M√§nner in Klasse 3 hatten die schlechtesten Chancen (~15%)
- Soziale Klasse UND Geschlecht waren entscheidende Faktoren

___________________________________

### üìù √úbung W2.4: Einschiffungshafen analysieren - SOLUTION

In [None]:
# SOLUTION: Berechne und visualisiere √úberlebensraten nach Einschiffungshafen
survival_by_port = df.groupby('embarked')['survived'].mean().reset_index()

fig = px.bar(survival_by_port, x='embarked', y='survived',
             title='√úberlebensrate nach Einschiffungshafen',
             labels={'embarked': 'Hafen', 'survived': '√úberlebensrate'},
             text='survived')
fig.update_traces(texttemplate='%{text:.1%}', textposition='outside')
fig.update_layout(yaxis_tickformat='.0%')
fig.show()

print(f"\nüìä √úberlebensraten nach Hafen:")
for port in ['C', 'Q', 'S']:
    port_df = df[df['embarked'] == port]
    rate = port_df['survived'].mean()
    count = len(port_df)
    port_name = {'C': 'Cherbourg', 'Q': 'Queenstown', 'S': 'Southampton'}[port]
    print(f"   {port} ({port_name}): {rate*100:.1f}% ({count} Passagiere)")

print(f"\nüí° Cherbourg (C) hatte die h√∂chste Rate - warum?")
print(f"   Vermutlich mehr wohlhabendere Passagiere (1. Klasse) in Cherbourg eingestiegen")

---
## Wiederholungsblock 3: Feature Engineering - Familiengr√∂√üe (20 mins)

**Wichtig f√ºrs Projekt!** Feature Engineering ist das Erstellen neuer Features aus bestehenden Daten.

### üìù √úbung W3.1: Family Size Feature erstellen - SOLUTION

In [None]:
# SOLUTION: Erstelle ein neues Feature 'family_size' 
# family_size = SibSp (Geschwister/Ehepartner) + Parch (Eltern/Kinder) + 1 (die Person selbst)

df['family_size'] = df['sibsp'] + df['parch'] + 1

print("‚úÖ Family Size Feature erstellt!")
print(f"Kleinste Familie: {df['family_size'].min()} (alleine reisend)")
print(f"Gr√∂√üte Familie: {df['family_size'].max()} Personen")
print(f"Durchschnittliche Familiengr√∂√üe: {df['family_size'].mean():.2f}")

# Zeige Verteilung
print(f"\nüìä Familiengr√∂√üen-Verteilung:")
print(df['family_size'].value_counts().sort_index())

### üìù √úbung W3.2: √úberlebensrate nach Familiengr√∂√üe - SOLUTION

In [None]:
# SOLUTION: Analysiere die √úberlebensrate nach Familiengr√∂√üe
survival_by_family = df.groupby('family_size')['survived'].mean().reset_index()

fig = px.bar(survival_by_family, x='family_size', y='survived',
             title='√úberlebensrate nach Familiengr√∂√üe',
             labels={'family_size': 'Familiengr√∂√üe', 'survived': '√úberlebensrate'},
             text='survived')
fig.update_traces(texttemplate='%{text:.1%}', textposition='outside')
fig.update_layout(yaxis_tickformat='.0%')
fig.show()

print(f"\nüìä Detaillierte Analyse:")
for size in sorted(df['family_size'].unique()):
    count = len(df[df['family_size'] == size])
    rate = df[df['family_size'] == size]['survived'].mean()
    print(f"   Familie Gr√∂√üe {size}: {rate*100:.1f}% ({count} Passagiere)")

print(f"\nüí° Antwort: Kleine Familien (2-4 Personen) hatten die BESTEN Chancen!")
print(f"   - Alleinreisende: Schlechtere Chancen (~30%)")
print(f"   - Mittlere Familien: Beste Chancen (50-70%)")
print(f"   - Gro√üe Familien (>4): Schwierig, alle zu retten")

---
## Wiederholungsblock 4: Schlechte Visualisierungen erkennen (15 mins)

### Was macht eine schlechte Visualisierung aus?

- Zu viele Kategorien (unleserlich)
- Falscher Diagrammtyp f√ºr die Daten
- Irref√ºhrende Skalen oder Achsen
- Schlechte Farbwahl
- Fehlende Beschriftungen

### üìù √úbung W4.1: Schlechtes vs. Gutes Beispiel - SOLUTION

In [None]:
# SCHLECHTES Beispiel: Pie Chart mit zu vielen Kategorien
age_groups = pd.cut(df['age'].dropna(), bins=20)
fig = px.pie(values=age_groups.value_counts().values, 
             names=age_groups.value_counts().index.astype(str),
             title='‚ùå SCHLECHTE Visualisierung - Zu viele Tortenst√ºcke!')
fig.show()

print("Was ist hier schlecht?")
print("1. Zu viele Kategorien (20 Altersgruppen)")
print("2. Pie Charts sind generell schwer zu lesen bei >5 Kategorien")
print("3. Keine klare Botschaft")
print("4. Unleserliche Legende")

In [None]:
# SOLUTION: Erstelle eine BESSERE Version mit einem Histogramm
fig = px.histogram(df, x='age', nbins=12,
                   title='‚úÖ BESSERE Visualisierung - Altersverteilung als Histogramm',
                   labels={'age': 'Alter (Jahre)', 'count': 'Anzahl Passagiere'},
                   color_discrete_sequence=['green'])
fig.show()

print("‚úÖ Viel besser! Warum?")
print("1. Histogramme sind ideal f√ºr kontinuierliche Verteilungen")
print("2. Klare, lesbare Darstellung")
print("3. Muster sind leicht erkennbar (viele 20-40 J√§hrige)")
print("4. Richtige Anzahl Bins (12 statt 20)")

---
## üéØ Zusammenfassung & Reflexion

### Haupterkenntnisse von Tag 2:

‚úÖ **Drei S√§ulen von Data Science:** Dom√§nenwissen, Statistik/Mathematik, Informatik  
‚úÖ **Die 5 V's von Big Data:** Volume, Velocity, Variety, Veracity, Value  
‚úÖ **Visualisierungstypen:** Balkendiagramme, Histogramme, Streudiagramme, Box Plots, Heatmaps  
‚úÖ **Korrelation ‚â† Kausalit√§t!** Achte auf St√∂rvariablen  
‚úÖ **Feature Engineering:** Neue Features aus bestehenden Daten erstellen

### Reflexionsfragen - BEISPIEL-ANTWORTEN:

1. **Welche Erkenntnis √ºber die Titanic-Daten hat dich am meisten √ºberrascht?**
   
   Die extremen Unterschiede in der √úberlebensrate zwischen Geschlechtern und Klassen. Frauen der 1. Klasse hatten >95% Chance, M√§nner der 3. Klasse nur ~15%.

2. **Welcher Visualisierungstyp war am n√ºtzlichsten f√ºr dich?**
   
   Gruppierte Balkendiagramme - sie zeigen Vergleiche zwischen Kategorien sehr klar (z.B. Geschlecht + Klasse).

3. **Nenne ein Beispiel aus dem echten Leben, wo Korrelation mit Kausalit√§t verwechselt wird:**
   
   "Menschen die ins Krankenhaus gehen, sterben h√§ufiger" - Krankenhaus verursacht nicht Tod, kranke Menschen gehen ins Krankenhaus (St√∂rvariable: Krankheit).

4. **Welche der drei S√§ulen (Dom√§ne, Statistik, Informatik) ist deine St√§rke? Welche ben√∂tigt mehr √úbung?**
   
   Informatik ist meine St√§rke (Programmierung), Statistik ben√∂tigt mehr √úbung (Korrelation, Signifikanz).

---
## üìö Ressourcen & Weiterf√ºhrendes Material

- **Pandas Dokumentation:** https://pandas.pydata.org/docs/
- **Plotly Gallery:** https://plotly.com/python/
- **Data Visualization Best Practices:** https://www.storytellingwithdata.com/
- **Correlation vs Causation:** https://www.tylervigen.com/spurious-correlations
- **Kaggle Datasets:** https://www.kaggle.com/datasets
- **WHO Open Data:** https://www.who.int/data

---
**N√§chste Session: Tag 4 - Data Preparation & Feature Engineering!**