# Tagesaufgabe  

In [None]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

# Titanic-Datensatz laden
titanic = sns.load_dataset('titanic')

# Überblick über den Datensatz
def overview_data(data):
    """Gibt einen Überblick über die ersten Zeilen und die Struktur des Datensatzes."""
    print(data.head())  # Zeigt die ersten 5 Zeilen des Datensatzes
    print(data.info())  # Zeigt Informationen über die Spalten und Datentypen

overview_data(titanic)

# Erstellen Sie eine Figur mit mehreren Untergrafiken
fig, axs = plt.subplots(3, 3, figsize=(18, 15))
fig.suptitle('Titanic-Datensatzanalyse', fontsize=20)

# 1. Durchschnittlicher Ticketpreis nach Personenklasse und Überlebensstatus
def klassen_analyse(ax):
    """Analysiert den durchschnittlichen Ticketpreis nach Personenklasse und Überlebensstatus."""
    class_summary = titanic.groupby(['pclass', 'survived'])['fare'].agg(['mean', 'count']).reset_index()
    sns.barplot(data=class_summary, x='pclass', y='mean', hue='survived', ax=ax)
    ax.set_title('Durchschnittlicher Ticketpreis nach Pclass')
    ax.set_xlabel('Personenklasse')
    ax.set_ylabel('Durchschnittlicher Ticketpreis')
    ax.grid(True)

klassen_analyse(axs[0, 0])

# 2. Durchschnittlicher Ticketpreis nach Geschlecht und Überlebensstatus
def geschlechts_analyse(ax):
    """Analysiert den durchschnittlichen Ticketpreis nach Geschlecht und Überlebensstatus."""
    sex_summary = titanic.groupby(['sex', 'survived'])['fare'].agg(['mean', 'count']).reset_index()
    sns.barplot(data=sex_summary, x='sex', y='mean', hue='survived', ax=ax)
    ax.set_title('Durchschnittlicher Ticketpreis nach Geschlecht')
    ax.set_xlabel('Geschlecht')
    ax.set_ylabel('Durchschnittlicher Ticketpreis')
    ax.grid(True)

geschlechts_analyse(axs[0, 1])

# 3. Verteilung des Alters nach Überlebensstatus
def alter_verteilung(ax):
    """Visualisiert die Altersverteilung nach Überlebensstatus."""
    sns.histplot(data=titanic, x='age', hue='survived', multiple='stack', kde=True, ax=ax)
    ax.set_title('Altersverteilung nach Überlebensstatus')
    ax.set_xlabel('Alter')
    ax.set_ylabel('Anzahl')
    ax.grid(True)

alter_verteilung(axs[0, 2])

# 4. Überlebensrate nach Geschlecht und Altersgruppe
def rate_alter_sex(ax):
    """Analysiert die Überlebensrate nach Geschlecht und Altersgruppe."""
    titanic['age_group'] = pd.cut(titanic['age'], bins=[0, 12, 18, 30, 50, 80], labels=['Kind', 'Teenager', 'Jung Erwachsener', 'Erwachsener', 'Senior'])
    sns.barplot(data=titanic, x='age_group', hue='sex', y='survived', estimator=sum, ax=ax)
    ax.set_title('Überlebensrate nach Geschlecht und Altersgruppe')
    ax.set_xlabel('Altersgruppe')
    ax.set_ylabel('Überlebende')
    ax.grid(True)

rate_alter_sex(axs[1, 0])

# 5. Überlebensrate nach Personenklasse und Geschlecht
def ueberleben_sex_hafen(ax):
    """Visualisiert die Überlebensrate nach Personenklasse und Geschlecht."""
    sns.countplot(data=titanic, x='pclass', hue='sex', ax=ax)
    ax.set_title('Überlebensrate nach Personenklasse und Geschlecht')
    ax.set_xlabel('Personenklasse')
    ax.set_ylabel('Anzahl')
    ax.grid(True)

ueberleben_sex_hafen(axs[1, 1])

# 6. Überlebensrate nach Abreisehafen und Geschlecht
def hafen_geschlecht(ax):
    """Visualisiert die Überlebensrate nach Abreisehafen und Geschlecht."""
    sns.countplot(data=titanic, x='embarked', hue='sex', ax=ax)
    ax.set_title('Überlebensrate nach Abreisehafen und Geschlecht')
    ax.set_xlabel('Abreisehafen')
    ax.set_ylabel('Anzahl')
    ax.grid(True)

hafen_geschlecht(axs[1, 2])

# 7. Überlebensrate nach Familiengröße
def family_size(ax):
    """Analysiert die Überlebensrate nach Familiengröße."""
    titanic['family_size'] = titanic['sibsp'] + titanic['parch'] + 1  # Familiengröße berechnen
    sns.barplot(data=titanic, x='family_size', y='survived', errorbar=None, ax=ax)
    ax.set_title('Überlebensrate nach Familiengröße')
    ax.set_xlabel('Familiengröße')
    ax.set_ylabel('Überlebensrate')
    ax.grid(True)

family_size(axs[2, 0])

# 8. Ticketpreis-Kategorien
def ticket_kat(ax):
    """Analysiert die Überlebensrate nach Ticketpreis-Kategorien."""
    titanic['fare_cat'] = pd.qcut(titanic['fare'], 4, labels=['Niedrig', 'Mittel', 'Hoch', 'Sehr Hoch'])
    sns.barplot(data=titanic, x='fare_cat', y='survived', errorbar=None, ax=ax)
    ax.set_title('Überlebensrate nach Ticketpreis-Kategorien')
    ax.set_xlabel('Ticketpreis-Kategorie')
    ax.set_ylabel('Überlebensrate')
    ax.grid(True)

ticket_kat(axs[2, 1])

# 9. Korrelation zwischen Alter und Ticketpreis
def alter_ticket(ax):
    """Visualisiert die Korrelation zwischen Alter und Ticketpreis."""
    sns.scatterplot(data=titanic, x='age', y='fare', hue='survived', ax=ax)
    ax.set_title('Korrelation zwischen Alter und Ticketpreis')
    ax.set_xlabel('Alter')
    ax.set_ylabel('Ticketpreis')
    ax.grid(True)

alter_ticket(axs[2, 2])

# Layout anpassen
plt.tight_layout(rect=[0, 0, 1, 0.96])  # Platz für den Titel schaffen
plt.show()
