# Klassifikation des Titanic-Datensatz 🚢⚓  

In dieser Aufgabe trainieren wir ein Machine-Learning-Modell, das vorhersagt, ob eine Person die Titanic-Katastrophe überlebt hat.  

#### 🔢 Der Datensatz
Der **Titanic-Datensatz** enthält Informationen zu den Passagieren, darunter:  
- **Alter**  
- **Geschlecht**  
- **Ticketklasse** (1., 2. oder 3. Klasse)  
- **Anzahl der Familienmitglieder an Bord**  

Außerdem gibt es die Zielvariable:  
- **Survived** (1 = überlebt, 0 = nicht überlebt)  

#### 🎯 Ziel  
Wir bauen ein Modell, das anhand der Passagiermerkmale vorhersagt, ob eine Person überlebt hat.  

#### 🛠 Schritte
0. **Bibliotheken installieren**: Wir verwenden pandas und sciki-learn.
1. **Daten laden**: Wir verwenden den Titanic-Datensatz.  
2. **Modell trainieren**: Wir nutzen einen **Decision Tree Classifier**.  
3. **Vorhersagen treffen**: Das Modell sagt die Blumenart basierend auf den Merkmalen voraus.  
4. **Genauigkeit prüfen**: Wir testen, wie gut unser Modell funktioniert.  

💡 **Frage zum Nachdenken:** Welche Merkmale sind besonders wichtig für die Klassifikation? 🤔  

Los geht’s! 🚀

## 📦 Installation der benötigten Bibliotheken  
Bevor wir mit der Datenanalyse starten, müssen wir sicherstellen, dass die notwendigen Python-Bibliotheken installiert sind.  

Die wichtigsten sind:  
- **pandas**: Zum Laden und Verarbeiten von Daten  
- **scikit-learn**: Für das Training des Machine-Learning-Modells

💡 Falls die Bibliotheken bereits installiert sind, kannst du diesen Schritt überspringen. 🚀

Installiere sie mit folgendem Befehl:  

In [None]:
!pip install pandas scikit-learn

## 📥 Laden der Bibliotheken  

Bevor wir mit der Analyse starten, importieren wir die benötigten Bibliotheken:  

- **pandas**: Zum Laden und Verarbeiten der Daten.  
- **scikit-learn**:  
  - `train_test_split`: Um die Daten in Trainings- und Testdaten aufzuteilen.  
  - `DecisionTreeClassifier`: Um ein Entscheidungsbaum-Modell zu erstellen.  
  - `accuracy_score`: Um die Genauigkeit des Modells zu messen.  

💡 Diese Bibliotheken helfen uns, die Daten vorzubereiten, das Modell zu trainieren und die Ergebnisse auszuwerten. 🚀

In [None]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score

## 📊 Laden des Titanic-Datensatzes  

Jetzt laden wir den **Titanic-Datensatz** direkt aus dem Internet.  

Dazu verwenden wir **pandas** und lesen die CSV-Datei von der angegebenen URL ein:  
- **`pd.read_csv(url)`** lädt die Daten als **DataFrame**, eine tabellenartige Struktur.  
- Die Daten enthalten Informationen über die Passagiere, wie Alter, Geschlecht und Ticketklasse.  

💡 Jetzt haben wir die Titanic-Daten bereit zur Analyse und Modellierung! 🚀

In [None]:
url = "https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv"
data = pd.read_csv(url)

## 🔍 Erste Erkundung der Daten  

Bevor wir unser Machine-Learning-Modell trainieren, sollten wir uns die Daten genauer ansehen. Dazu verwenden wir einige wichtige **pandas**-Funktionen:  
- **`head()`** hilft uns, die Struktur und ersten Werte des Datensatzes zu verstehen.  
- **`info()`** zeigt, welche Datentypen vorliegen und ob es fehlende Werte gibt.  
- **`value_counts()`** ist nützlich, um die Häufigkeit einzelner Werte oder Kategorien zu analysieren.  

💡 Diese Erkundung hilft uns, die Datenqualität zu bewerten und zu entscheiden, ob Vorverarbeitung nötig ist! 🚀

In [None]:
data.head()

Beschreibung der Daten:

In [None]:
data.info()

In [None]:
data['Survived'].value_counts()

## 🛠 Vorbereitung der Titanic-Daten  

Bevor wir unser Modell trainieren, wählen wir relevante Merkmale aus und bereiten die Daten vor.  

### 1️⃣ Wichtige Spalten auswählen
Wir konzentrieren uns auf folgende Merkmale, die die Überlebenswahrscheinlichkeit beeinflussen könnten:  
- **Pclass** (Ticketklasse: 1, 2 oder 3)  
- **Age** (Alter des Passagiers)  
- **SibSp** (Anzahl der Geschwister/Ehepartner an Bord)  
- **Parch** (Anzahl der Eltern/Kinder an Bord)  

Dazu wählen wir die Spalten aus und entfernen Zeilen mit fehlenden Werten in diesen Spalten:  

In [None]:
features = ['Pclass', 'Age', 'SibSp', 'Parch']
data = data.dropna(subset=features)  # Fehlende Werte entfernen
X = data[features]
y = data['Survived']

### 2️⃣ Fehlende Werte im Alter ersetzen
Da einige Passagiere kein angegebenes Alter haben, ersetzen wir fehlende Werte durch das Durchschnittsalter:  

In [None]:
X.loc[:, 'Age'] = X.loc[:, 'Age'].fillna(X['Age'].mean())

💡 Diese Vorverarbeitung sorgt dafür, dass unser Modell nur vollständige und bereinigte Daten erhält! 🚀

## 🔀 Aufteilen in Trainings- und Testdaten  

Damit unser Machine-Learning-Modell gut funktioniert, teilen wir die Daten in zwei Teile auf:  

1. **Trainingsdaten (80%)** – Das Modell lernt aus diesen Daten.  
2. **Testdaten (20%)** – Das Modell wird an neuen, unbekannten Daten getestet.  

Das machen wir mit **`train_test_split`** aus **scikit-learn**:

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

📌 **Warum machen wir das?**  
- Damit wir überprüfen können, wie gut das Modell auf **neuen Daten** funktioniert.  
- So vermeiden wir, dass das Modell einfach die Trainingsdaten „auswendig“ lernt (Overfitting).  
- Ein gut trainiertes Modell sollte auch auf unbekannte Daten verlässliche Vorhersagen treffen.  

💡 Jetzt sind unsere Daten bereit für das Training des Entscheidungsbaums! 🚀


## 🤖 Modell trainieren  

Nun trainieren wir unser Machine-Learning-Modell, einen **Decision Tree Classifier**, mit den **Trainingsdaten**.  

Der **DecisionTreeClassifier** ist ein Algorithmus, der eine Baumstruktur verwendet, um Entscheidungen basierend auf den Eingabemerkmalen zu treffen.  

Wir erstellen das Modell und trainieren es wie folgt:  
- **`random_state=42`** sorgt dafür, dass wir bei jeder Ausführung des Codes das gleiche Ergebnis erhalten (Reproduzierbarkeit).  
- **`fit(X_train, y_train)`** trainiert das Modell mit den Trainingsdaten: **X_train** (Merkmale) und **y_train** (Zielvariable, also Überlebt oder Nicht-Überlebt).  

💡 Nach dem Training kann unser Modell beginnen, Vorhersagen zu treffen! 🚀

In [None]:
model = DecisionTreeClassifier(random_state=42)
model.fit(X_train, y_train)

## 📊 Modell bewerten  

Nachdem unser Modell trainiert wurde, müssen wir seine Leistung auf den **Testdaten** überprüfen, die es noch nie gesehen hat. Das hilft uns, herauszufinden, wie gut das Modell auf **neuen, unbekannten Daten** arbeitet.  

Wir treffen Vorhersagen für die Testdaten und vergleichen diese mit den tatsächlichen Ergebnissen:  
- **`model.predict(X_test)`**: Macht Vorhersagen für die Testdaten.  
- **`accuracy_score(y_test, y_pred)`**: Berechnet die Genauigkeit des Modells, indem es die Vorhersagen mit den tatsächlichen Labels vergleicht.  
- **`print(f"...")`**: Gibt die Genauigkeit in Prozent aus.  

💡 Die Genauigkeit gibt uns eine gute Vorstellung davon, wie gut das Modell die Überlebenswahrscheinlichkeit vorhersagt! 🚀

In [None]:
y_pred = model.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
print(f"\nGenauigkeit des Modells: {accuracy * 100:.2f}%")

## 🔮 Beispielvorhersage  

Jetzt machen wir eine **Vorhersage** für neue Daten, die das Modell noch nicht gesehen hat. Wir erstellen einen neuen DataFrame mit fiktiven Passagierdaten und verwenden das bereits trainierte Modell, um die Überlebenswahrscheinlichkeit dieser Passagiere zu schätzen.  

1. **Neuen DataFrame erstellen**  
   Wir erstellen einen DataFrame mit den gleichen Merkmalen wie in unseren Trainingsdaten (z.B. **Pclass**, **Age**, **SibSp**, **Parch**).  

2. **Vorhersage treffen**  
   Nun verwenden wir `model.predict()`, um Vorhersagen zu machen, ob die Passagiere überlebt haben oder nicht.  

**`model.predict(new_data)`** gibt für jede Zeile im DataFrame eine Vorhersage zurück:  
  - **1** bedeutet, dass der Passagier überlebt hat.  
  - **0** bedeutet, dass der Passagier nicht überlebt hat.  

💡 Jetzt kannst du sehen, wie gut unser Modell für neue, unbekannte Passagiere funktioniert! 🚀

In [None]:
example = pd.DataFrame([[1, 22, 1, 0]], columns=features)  # Beispiel: 3. Klasse, 22 Jahre, 1 Geschwister, 0 Elternteil
prediction = model.predict(example)
print("\nBeispielvorhersage:")
print(f"Überlebt: {'Ja' if prediction[0] == 1 else 'Nein'}")

## 🚀 Weitere Übungsaufgaben

1. **📊 Alters-Median berechnen**  
   **Was zu tun ist**: Berechne das Medianalter der Passagiere mit `X['Age'].median()` und vergleiche es mit dem Durchschnittsalter, das du mit `X['Age'].mean()` berechnen kannst.  
   **Ziel**: Lerne den Unterschied zwischen dem Median und dem Durchschnitt und deren Relevanz für den Umgang mit Altersdaten.

2. **📈 Verteilung der Passagierklassen visualisieren**  
   **Was zu tun ist**: Verwende `X['Pclass'].value_counts()` und erstelle ein Diagramm (z.B. mit `matplotlib`), um die Verteilung der Passagierklassen zu visualisieren.  
   **Ziel**: Verstehe, wie man kategorische Daten visualisiert und welche Informationen man aus der Verteilung der Passagierklassen ziehen kann.

3. **🔄 Testgröße anpassen**  
   **Was zu tun ist**: Ändere den `test_size`-Parameter in `train_test_split` von 0.2 auf 0.3, sodass 30% der Daten für den Testdatensatz verwendet werden. Beobachte, wie sich dies auf die Modellgenauigkeit auswirkt.  
   **Ziel**: Experimentiere mit der Größe des Testdatensatzes und verstehe, wie die Verteilung von Trainings- und Testdaten das Modell beeinflusst.

4. **📊 Modell mit einer anderen Methode bewerten**  
   **Was zu tun ist**: Berechne zusätzlich zur Genauigkeit auch den **F1-Score** des Modells. Dies kannst du mit `f1_score(y_test, y_pred)` tun. Vergleiche die Ergebnisse und analysiere, welche Metrik für die Bewertung des Modells besser geeignet ist.  
   **Ziel**: Erkenne den Unterschied zwischen Genauigkeit und F1-Score und wann welche Metrik sinnvoller ist.

5. **🌳 Entscheidungsbaum visualisieren**  
   **Was zu tun ist**: Nutze `plot_tree(model)` aus `sklearn.tree`, um den trainierten Entscheidungsbaum zu visualisieren. So kannst du sehen, wie der Baum aufgebaut ist und welche Merkmale zu den Entscheidungen führen.  
   **Ziel**: Lerne, wie man den Entscheidungsbaum visualisiert und interpretiere, wie das Modell Entscheidungen trifft.

6. **⚙️ Hyperparameter des Modells anpassen**  
   **Was zu tun ist**: Teste das Modell mit unterschiedlichen Werten für den Parameter `max_depth` im `DecisionTreeClassifier`, z.B. 3, 5 und 10. Vergleiche die Modellgenauigkeit für diese Werte.  
   **Ziel**: Experimentiere mit dem Parameter `max_depth` und erkenne, wie die Tiefe des Entscheidungsbaums die Modellleistung beeinflusst.

7. **🔍 Modell für andere Merkmale trainieren**  
   **Was zu tun ist**: Trainiere ein Modell, das nur **Age** und **Pclass** als Merkmale verwendet, und vergleiche die Modellgenauigkeit mit dem Modell, das alle Merkmale nutzt. Verwende dazu `train_test_split` und das `DecisionTreeClassifier` wie bisher.  
   **Ziel**: Verstehe, wie die Wahl der Merkmale (Features) die Leistung des Modells beeinflusst, und experimentiere mit unterschiedlichen Kombinationen von Features.

8. **💡 Modell auf andere Klassifikationsalgorithmen anwenden**
**Was zu tun ist:** Wende andere Klassifikationsalgorithmen wie `RandomForestClassifier` oder `LogisticRegression` auf den Titanic-Datensatz an und vergleiche die Leistung mit dem Entscheidungsbaum.