# Day 2: Introduction to Data Science

**Duration:** 90 minutes  
**Dataset:** Titanic Passenger Data

## Learning Objectives
- Understand what data science is and its three pillars (Dom√§nenwissen, Statistik/Mathematik, Informatik)
- Explore real-world applications of data science (AI ‚Üí Machine Learning ‚Üí Deep Learning ‚Üí GenAI)
- Learn about Big Data characteristics (Volume, Velocity, Variety, Veracity, Value)
- Identify and analyze different data sources (Open-Source, privat, kommerziell)
- Practice effective data visualization and storytelling
- Distinguish correlation from causation and identify confounding variables

---

## Part 1: Setting Up Our Environment (10 mins)

### Introduction to Python Libraries for Data Science

Before we start, let's install and import the key libraries we'll use:

#### **Pandas** (https://pandas.pydata.org/)
- Used for data manipulation and analysis
- Think of it as Excel on steroids!
- Alternatives: Polars, Dask

#### **NumPy** (https://numpy.org/)
- Fundamental package for numerical computing
- Provides powerful array operations
- Alternatives: JAX (for advanced users)

#### **Plotly** (https://plotly.com/python/)
- Interactive visualization library
- Creates beautiful, interactive charts
- Alternatives: Matplotlib, Seaborn, Altair

In [None]:
# Install required packages (run only once)
# Uncomment the line below if you need to install packages
# !pip install pandas numpy plotly seaborn

# Import libraries
import pandas as pd
import statsmodels
import numpy as np
import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots

print("Libraries imported successfully!")

### Load the Titanic Dataset

The Titanic dataset contains information about passengers aboard the RMS Titanic. We'll use this throughout the course to learn data science concepts.

**Dataset Features:**
- PassengerId: Unique identifier
- Survived: Survival (0 = No, 1 = Yes)
- Pclass: Ticket class (1 = 1st, 2 = 2nd, 3 = 3rd)
- Name: Passenger name
- Sex: Gender
- Age: Age in years
- SibSp: Number of siblings/spouses aboard
- Parch: Number of parents/children aboard
- Ticket: Ticket number
- Fare: Passenger fare
- Cabin: Cabin number
- Embarked: Port of embarkation (C = Cherbourg, Q = Queenstown, S = Southampton)

In [None]:
# Load the Titanic dataset from seaborn's built-in datasets
import seaborn as sns
df = sns.load_dataset('titanic')

# Display first few rows
print("First 5 rows of the Titanic dataset:")
df.head()

In [None]:
# Get basic information about the dataset
print("Dataset shape (rows, columns):", df.shape)
print("\nColumn data types:")
df.info()

---
## Part 2: Die Drei S√§ulen von Data Science (10 mins)

### Was ist Data Science?

Data Science ist ein **interdisziplin√§res Feld**, das drei Bereiche verbindet:

1. **Dom√§nenwissen** - Verst√§ndnis des Problemkontexts
2. **Statistik/Mathematik** - Datenanalyse und -interpretation  
3. **Informatik** - Programmierung und Berechnung

### üéØ Vorlesungs√ºbung 2.1: Die Drei S√§ulen identifizieren (5 mins)

**Aufgabe:** Ordne f√ºr den Titanic-Datensatz jeder S√§ule ein Beispiel zu:

**Deine Antworten:**
- **Dom√§nenwissen:** ___ (z.B. Wissen √ºber die Titanic-Katastrophe, "Frauen und Kinder zuerst")
- **Statistik/Mathematik:** ___ (z.B. Berechnung von √úberlebensraten, Korrelationen)
- **Informatik:** ___ (z.B. Python-Programmierung, Datenbanken)

---
## Part 3: Big Data - Die 5 V's (10 mins)

### Die 5 Eigenschaften von Big Data

- **Volume:** Wie viel Daten? (Datenmenge)
- **Velocity:** Wie schnell entstehen Daten? (Geschwindigkeit)
- **Variety:** Welche Arten von Daten? (Vielfalt)
- **Veracity:** Wie vertrauensw√ºrdig sind die Daten? (Qualit√§t)
- **Value:** Welche Erkenntnisse k√∂nnen wir gewinnen? (Nutzen)

### üéØ Vorlesungs√ºbung 3.1: Die 5 V's am Titanic-Beispiel (5 mins)

In [None]:
# Analysiere das VOLUME unseres Datensatzes
num_rows, num_cols = df.shape
print(f"üìä Volume: {num_rows} Zeilen √ó {num_cols} Spalten = {num_rows * num_cols} Datenpunkte")
print(f"\n‚ùì Frage: Ist das 'Big Data'? Was denkst du?")

In [None]:
# Analysiere die VARIETY (Vielfalt) in unserem Datensatz
print("üìä Variety - Datentypen:")
print(df.dtypes)
print(f"\n‚úÖ Numerische Spalten: {len(df.select_dtypes(include=[np.number]).columns)}")
print(f"‚úÖ Kategorische Spalten: {len(df.select_dtypes(include=['object', 'category']).columns)}")

In [None]:
# Pr√ºfe VERACITY (Datenqualit√§t) durch fehlende Werte
print("üìä Veracity - Fehlende Daten:")
missing_values = df.isnull().sum()
print(missing_values[missing_values > 0])
print(f"\n‚ö†Ô∏è Gesamt fehlende Werte: {missing_values.sum()}")

---
## Part 4: Datenvisualisierung (20 mins)

### Visualisierungsprinzipien

Gute Visualisierungen nutzen:
- **L√§nge** - Balkendiagramme
- **Position** - Streudiagramme
- **Farbe** - Heatmaps, farbcodierte Kategorien
- **Gr√∂√üe** - Blasendiagramme
- **Form** - Verschiedene Marker

### üéØ Vorlesungs√ºbung 4.1: Balkendiagramm - √úberlebensrate (5 mins)

In [None]:
# TODO: Erstelle ein Balkendiagramm der √úberlebensverteilung
# Tipp: Verwende px.histogram() mit x='survived'

fig = px.histogram(df, x='survived', 
                   title='√úberlebensverteilung auf der Titanic',
                   labels={'survived': '√úberlebt (0=Nein, 1=Ja)', 'count': 'Anzahl Passagiere'})
fig.show()

**Diskussion:** Was sagt uns diese Grafik?

In [None]:
### üéØ Vorlesungs√ºbung 4.2: Gruppiertes Balkendiagramm - Klasse & √úberleben (5 mins)

# TODO: Erstelle ein Diagramm: √úberleben nach Passagierklasse
# Tipp: Verwende px.histogram() mit x='pclass' und color='survived'

fig = px.histogram(df, x='pclass', color='survived',
                   barmode='group',
                   title='√úberlebensrate nach Passagierklasse',
                   labels={'pclass': 'Klasse', 'count': 'Anzahl'})
fig.show()

### üéØ Vorlesungs√ºbung 4.3: Streudiagramm - Alter vs. Fahrpreis (5 mins)

In [None]:
# TODO: Erstelle ein Streudiagramm: Alter vs. Fahrpreis, eingef√§rbt nach √úberleben
# Tipp: Verwende px.scatter() mit x='age', y='fare', color='survived'

fig = px.scatter(df, x='age', y='fare', color='survived',
                 title='Zusammenhang zwischen Alter und Fahrpreis',
                 labels={'age': 'Alter (Jahre)', 'fare': 'Fahrpreis (¬£)', 'survived': '√úberlebt'})
fig.show()

---
## Part 5: Korrelation vs. Kausalit√§t (15 mins)

### ‚ö†Ô∏è WICHTIG: Korrelation ‚â† Kausalit√§t!

**Korrelation:** Eine statistische Beziehung zwischen zwei Variablen
- Beispiel: Eisverkauf und Ertrinkungsf√§lle sind korreliert

**Kausalit√§t:** Eine Sache verursacht direkt eine andere
- Beispiel: Rauchen verursacht Lungenkrebs

**St√∂rvariable (Confounding Variable):** Eine dritte Variable, die beide beeinflusst
- Beispiel: Hei√ües Wetter verursacht sowohl mehr Eisverkauf UND mehr Schwimmen (Ertrinkungen)

### üéØ Vorlesungs√ºbung 5.1: Korrelationsmatrix erstellen (5 mins)

In [None]:
# Berechne Korrelationen zwischen numerischen Variablen
correlation_matrix = df.select_dtypes(include=[np.number]).corr()
print("Korrelationsmatrix:")
print(correlation_matrix.round(2))

In [None]:
# Visualisiere die Korrelationsmatrix als Heatmap
fig = px.imshow(correlation_matrix,
                text_auto='.2f',
                aspect='auto',
                title='Korrelations-Heatmap',
                color_continuous_scale='RdBu_r',
                zmin=-1, zmax=1)
fig.show()

### üéØ Vorlesungs√ºbung 5.2: St√∂rvariablen erkennen (5 mins)

Untersuche die Beziehung zwischen Fahrpreis und √úberleben:

In [None]:
# Berechne Korrelation zwischen Fahrpreis und √úberleben
fare_survival_corr = df['fare'].corr(df['survived'])
print(f"üìä Korrelation Fahrpreis ‚Üî √úberleben: {fare_survival_corr:.3f}")
print(f"\n‚ùì Verursacht ein h√∂herer Fahrpreis besseres √úberleben?")

# Untersuche die Passagierklasse als St√∂rvariable
pclass_survival_corr = df['pclass'].corr(df['survived'])
pclass_fare_corr = df['pclass'].corr(df['fare'])

print(f"üìä Korrelation Klasse ‚Üî √úberleben: {pclass_survival_corr:.3f}")
print(f"üìä Korrelation Klasse ‚Üî Fahrpreis: {pclass_fare_corr:.3f}")
print(f"\nüí° Hinweis: Negative Korrelation bei pclass bedeutet: niedrigere Klassennummer (1. Klasse) = h√∂heres √úberleben")

In [None]:
# Visualisiere Fahrpreis vs. √úberleben mit Passagierklasse als St√∂rvariable
fig = px.scatter(df, x='fare', y='survived', color='pclass',
                 title='Fahrpreis vs. √úberleben: Klasse als St√∂rvariable',
                 labels={'pclass': 'Klasse', 'fare': 'Fahrpreis (¬£)', 'survived': '√úberlebt'})
fig.show()

print("\nüí° Diskussion: Die Passagierklasse ist der eigentliche Faktor, nicht der Fahrpreis selbst!")

---
---
---

# üè† WIEDERHOLUNG & VERTIEFUNG (F√ºr zu Hause oder Nachbereitung)

Dieser Abschnitt hilft dir, die Konzepte zu vertiefen und dich auf das Abschlussprojekt vorzubereiten!

---
## Wiederholungsblock 1: AI-Hierarchie & Anwendungen (15 mins)

### Die AI-Hierarchie verstehen

```
Artificial Intelligence (AI)
    ‚Üì
Machine Learning (ML)
    ‚Üì
Deep Learning (DL)
    ‚Üì
Generative AI (GenAI) / LLMs
```

### üìù √úbung W1.1: Anwendungsf√§lle zuordnen

Ordne jede Anwendung der richtigen Ebene zu:

In [None]:
# Beantworte diese Fragen:
anwendungen = {
    "ChatGPT Text generieren": "____",  # AI / ML / DL / GenAI?
    "Titanic √úberlebensvorhersage": "____",  # AI / ML / DL / GenAI?
    "Bilderkennung mit CNN": "____",  # AI / ML / DL / GenAI?
    "Schachcomputer": "____",  # AI / ML / DL / GenAI?
}

# L√∂sungen (zum Vergleichen):
# ChatGPT = GenAI/LLM
# Titanic = Machine Learning (Klassifikation)
# CNN = Deep Learning
# Schach = AI (kann auch ohne ML arbeiten)

---
## Wiederholungsblock 2: Erweiterte Visualisierungen (25 mins)

### üìù √úbung W2.1: Altersverteilung - Histogramm

In [None]:
# TODO: Erstelle ein Histogramm der Altersverteilung
# Tipp: Verwende px.histogram() mit x='age' und nbins=30

fig = # DEIN CODE HIER
# fig.update_layout(title='...', xaxis_title='...', yaxis_title='...')
# fig.show()

### üìù √úbung W2.2: Box Plot - Fahrpreisverteilung nach Klasse

# TODO: Erstelle einen Box Plot der Fahrpreise pro Klasse
# Tipp: Verwende px.box() mit x='pclass', y='fare'

fig = # DEIN CODE HIER
# fig.show()

In [None]:
**Interpretation:** Was zeigen dir die Boxplots √ºber die Fahrpreisunterschiede?

___________________________________

### üìù √úbung W2.3: Gruppiertes Balkendiagramm - Geschlecht, Klasse & √úberleben

# TODO: Erstelle ein Balkendiagramm der √úberlebensrate nach Geschlecht UND Klasse
# Schritt 1: Gruppiere die Daten
survival_by_sex_class = df.groupby(['sex', 'pclass'])['survived'].mean().reset_index()

# Schritt 2: Erstelle das Diagramm
# Tipp: Verwende px.bar() mit x='pclass', y='survived', color='sex', barmode='group'

fig = # DEIN CODE HIER
# fig.update_layout(yaxis_tickformat='.0%')
# fig.show()

In [None]:
**Wichtige Erkenntnis:** Welches Muster erkennst du? Warum k√∂nnten Frauen h√∂here √úberlebensraten haben?

___________________________________

### üìù √úbung W2.4: Einschiffungshafen analysieren

# TODO: Berechne und visualisiere √úberlebensraten nach Einschiffungshafen
# Tipp: 
# 1. Gruppiere nach 'embarked' und berechne mean() von 'survived'
# 2. Erstelle ein Balkendiagramm

survival_by_port = # DEIN CODE HIER (groupby)
# fig = px.bar(...)
# fig.show()

In [None]:
---
## Wiederholungsblock 3: Feature Engineering - Familiengr√∂√üe (20 mins)

**Wichtig f√ºrs Projekt!** Feature Engineering ist das Erstellen neuer Features aus bestehenden Daten.

### üìù √úbung W3.1: Family Size Feature erstellen

# TODO: Erstelle ein neues Feature 'family_size' 
# family_size = SibSp (Geschwister/Ehepartner) + Parch (Eltern/Kinder) + 1 (die Person selbst)

df['family_size'] = # DEIN CODE HIER

print("‚úÖ Family Size Feature erstellt!")
print(f"Kleinste Familie: {df['family_size'].min()}")
print(f"Gr√∂√üte Familie: {df['family_size'].max()}")

### üìù √úbung W3.2: √úberlebensrate nach Familiengr√∂√üe

In [None]:
# TODO: Analysiere die √úberlebensrate nach Familiengr√∂√üe
# Gruppiere nach 'family_size' und berechne die durchschnittliche √úberlebensrate

survival_by_family = # DEIN CODE HIER
# fig = px.line(...) oder px.bar(...)
# fig.show()

# Frage: Hatten kleine oder gro√üe Familien bessere √úberlebenschancen?

---
## Wiederholungsblock 4: Schlechte Visualisierungen erkennen (15 mins)

### Was macht eine schlechte Visualisierung aus?

- Zu viele Kategorien (unleserlich)
- Falscher Diagrammtyp f√ºr die Daten
- Irref√ºhrende Skalen oder Achsen
- Schlechte Farbwahl
- Fehlende Beschriftungen

### üìù √úbung W4.1: Schlechtes vs. Gutes Beispiel

In [None]:
# SCHLECHTES Beispiel: Pie Chart mit zu vielen Kategorien
age_groups = pd.cut(df['age'].dropna(), bins=20)
fig = px.pie(values=age_groups.value_counts().values, 
             names=age_groups.value_counts().index.astype(str),
             title='‚ùå SCHLECHTE Visualisierung - Zu viele Tortenst√ºcke!')
fig.show()

print("Was ist hier schlecht?")
print("1. Zu viele Kategorien")
print("2. Pie Charts sind generell schwer zu lesen")
print("3. Keine klare Botschaft")

In [None]:
# TODO: Erstelle eine BESSERE Version mit einem Histogramm
# Tipp: Verwende px.histogram() mit x='age' und nbins=10-15

fig = # DEIN CODE HIER
# fig.show()

print("‚úÖ Viel besser! Histogramme sind ideal f√ºr Verteilungen.")

---
## üéØ Zusammenfassung & Reflexion

### Haupterkenntnisse von Tag 2:

‚úÖ **Drei S√§ulen von Data Science:** Dom√§nenwissen, Statistik/Mathematik, Informatik  
‚úÖ **Die 5 V's von Big Data:** Volume, Velocity, Variety, Veracity, Value  
‚úÖ **Visualisierungstypen:** Balkendiagramme, Histogramme, Streudiagramme, Box Plots, Heatmaps  
‚úÖ **Korrelation ‚â† Kausalit√§t!** Achte auf St√∂rvariablen  
‚úÖ **Feature Engineering:** Neue Features aus bestehenden Daten erstellen

### Reflexionsfragen:

1. **Welche Erkenntnis √ºber die Titanic-Daten hat dich am meisten √ºberrascht?**
   
   ___________________________________

2. **Welcher Visualisierungstyp war am n√ºtzlichsten f√ºr dich?**
   
   ___________________________________

3. **Nenne ein Beispiel aus dem echten Leben, wo Korrelation mit Kausalit√§t verwechselt wird:**
   
   ___________________________________

4. **Welche der drei S√§ulen (Dom√§ne, Statistik, Informatik) ist deine St√§rke? Welche ben√∂tigt mehr √úbung?**
   
   ___________________________________

---
## üìö Ressourcen & Weiterf√ºhrendes Material

- **Pandas Dokumentation:** https://pandas.pydata.org/docs/
- **Plotly Gallery:** https://plotly.com/python/
- **Data Visualization Best Practices:** https://www.storytellingwithdata.com/
- **Correlation vs Causation:** https://www.tylervigen.com/spurious-correlations
- **Kaggle Datasets:** https://www.kaggle.com/datasets
- **WHO Open Data:** https://www.who.int/data

---
**N√§chste Session: Tag 4 - Data Preparation & Feature Engineering!**