# Wiederholung Titanic Visualisierung

In [None]:
import warnings

# Ignorieren aller Warnungen
warnings.filterwarnings('ignore')

### Aufgabe: Lade den Datensatz Titanic mit der Seaborn-Bibliothek

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

# Laden des Titanic-Datensatzes
df_titanic = sns.load_dataset('titanic')

display(df_titanic)

**Eine stichpunktartige Erläuterung jeder Spalte im Titanic-Datensatz:**

- survived: Gibt an, ob der Passagier überlebt hat (1) oder nicht (0).
- pclass: Die Ticketklasse als Proxy für den sozioökonomischen Status (1 = Erste Klasse, 2 = Zweite Klasse, 3 = Dritte Klasse).
- sex: Geschlecht des Passagiers (männlich, weiblich).
- age: Alter des Passagiers in Jahren.
- sibsp: Anzahl der Geschwister oder Ehepartner des Passagiers an Bord.
- parch: Anzahl der Eltern oder Kinder des Passagiers an Bord.
- fare: Tarif, den der Passagier bezahlt hat.
- embarked: Abkürzung des Hafens, an dem der Passagier an Bord gegangen ist (C = Cherbourg, Q = Queenstown, S = Southampton).
- class: Eine Kategorie, die die Ticketklasse darstellt (Erste, Zweite, Dritte).
- who: Kategorisiert den Passagier als Mann, Frau oder Kind.
- adult_male: Boolescher Wert, der angibt, ob der Passagier ein erwachsener Mann ist.
- deck: Das Schiffsdeck, auf dem sich die Kabine des Passagiers befand (kann fehlende Werte enthalten).
- embark_town: Der Name des Hafens, an dem der Passagier an Bord gegangen ist.
- alive: Gibt an, ob der Passagier überlebt hat (‘yes’) oder nicht (‘no’), ähnlich wie 'survived', aber in Textform.
- alone: Boolescher Wert, der angibt, ob der Passagier alleine gereist ist (keine Geschwister, Ehepartner, Eltern oder Kinder an Bord).

### Aufgabe: Überblick Daten, Data Cleaning & Prep 

- Gibt es fehlende Werte?
- Gibt es Dupplikate?
- Gibt es extreme Ausreißer?
- Hat jede Spalte den zu erwartenden Datentyp?

In [None]:
df_titanic.info()

In [None]:
df_titanic.describe().T.round(2)

In [None]:
import seaborn as sns
import pandas as pd

# Laden des Titanic-Datensatzes
titanic = sns.load_dataset('titanic')


print()
# 1. Fehlende Werte behandeln
# Anzeigen der Anzahl fehlender Werte in jeder Spalte
print("Fehlende Werte pro Spalte:\n", titanic.isnull().sum())
print()
print('------------------------------------------------------------')
print()

# Beispiel: Fehlende Werte in der 'age' Spalte durch den Median ersetzen
titanic['age'].fillna(titanic['age'].median(), inplace=True)

# 2. Duplikate überprüfen
# Anzeigen, ob es Duplikate gibt
print("Anzahl der Duplikate:", titanic.duplicated().sum())
print()
print('------------------------------------------------------------')
print()


# 3. Prüfen der Datentypen pro Spalte
print("Datentypen pro Spalte:\n", titanic.dtypes)
print()

In [None]:
# 1. Fehlende Werte behandeln
# Anzeigen der Anzahl fehlender Werte in jeder Spalte
print("Fehlende Werte pro Spalte:\n", titanic.isnull().sum())

Da die deck-Spalte nicht zentral für die Analyse ist, können wir einfach weiterarbeiten und diese Spalte bei der Analyse außer Acht lassen.

##### Es scheint viele Duplikate zu geben. Lasst uns einmal genauer darauf schauen: 

In [None]:
# Finden der Duplikate
duplicates = titanic[titanic.duplicated()]

# Anzeigen der Duplikate
display(duplicates)

1. Erselle einen DataFrame aus den Duplikaten. 

2. Erstelle ein Scatter-Plot für Fahrpreis und Alter

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

titanic = sns.load_dataset('titanic')
duplicates = titanic[titanic.duplicated()]

plt.scatter(titanic['age'], titanic['fare'], alpha=0.5, label='Alle Daten')
plt.scatter(duplicates['age'], duplicates['fare'], color='red', label='Duplikate')
plt.title('Scatter-Plot von Alter und Fahrpreis')
plt.xlabel('Alter')
plt.ylabel('Fahrpreis')
plt.legend()
plt.show()

2. Erstelle Säulendiagramme mit dem Datensatz der Duplikate, um die Aufteilung der Anzahl der Passagiere a ) nach Klasse b) nach Geschlecht und c) nach Überlebt/ nicht überlebt anzuzeigen. Dabei sollten die Duplikate von den Nicht-Duplikaten klar trennbar erkennbar sein.

In [None]:
df_titanic['sex'].value_counts()

In [None]:
for column in ['class', 'sex', 'survived']:
    plt.figure(figsize=(8, 4))
    
    # Zählen der Einträge für jede Kategorie in der Hauptdatenmenge und in den Duplikaten
    titanic_counts = titanic[column].value_counts().sort_index()
    duplicates_counts = duplicates[column].value_counts().sort_index()
    
    # Erstellen der Balken für die Hauptdatenmenge
    plt.bar(titanic_counts.index, titanic_counts.values, width=0.4, align='center', color='blue', alpha=0.6, label='Alle Daten')
    
    # Erstellen der Balken für die Duplikate, verschoben um die Breite der Balken
    plt.bar(duplicates_counts.index, duplicates_counts.values, width=0.4, align='edge', color='red', alpha=0.6, label='Duplikate')
    
    plt.title(f'Verteilung von {column.capitalize()}')
    plt.legend()
    plt.show()

In [None]:
import seaborn as sns

for column in ['class', 'sex', 'survived']:
    plt.figure(figsize=(8, 4))
    
    # Definieren der Reihenfolge für die Kategorien
    order = sorted(titanic[column].unique())
    
    sns.countplot(x=column, data=titanic, palette='Set2', order=order, label='Alle Daten')
    sns.countplot(x=column, data=duplicates, color='red', order=order, label='Duplikate')
    
    plt.title(f'Verteilung von {column.capitalize()}')
    plt.legend()
    plt.show()


3. Erstelle Säulendiagramme mit dem Datensatz der Duplikate, die den Anteil an Duplikaten nach Eintiegort zeigen.

In [None]:
df_titanic['embark_town'].value_counts()

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

# Laden des Titanic-Datensatzes
titanic = sns.load_dataset('titanic')
duplicates = titanic[titanic.duplicated()]

# Erstellen eines Diagramms zur Untersuchung des Zusammenhangs von Duplikaten und Einsteigort
plt.figure(figsize=(8, 4))
sns.countplot(x='embark_town', data=titanic, palette='Set2', label='Alle Daten')
sns.countplot(x='embark_town', data=duplicates, color='red', label='Duplikate')
plt.title('Verteilung des Einstiegorts (Embark Town) für Duplikate und Gesamtdaten')
plt.legend()
plt.show()

Unsere Auswertungen zeigen, dass der Großteil der Duplikate durch Passagiereinträge aus Southampton kommen und es sich im Wesentlichen dabei um Männer zwischen 18 und 30 Jahren aus der dritten Klasse handelt, die größtenteils nicht überlebt haben. Wir können ohne weitere Recherchen an dieser Stelle nur Mutmaßungen anstellen. 

Das Wissen um die Tatsache, dass das Schiff vollkommen ausverkauft war, legt nahe, das die Duplikate keine tatsächlich "nicht vorhandenen" Passagiere waren. Man kann aber durchaus vermuten, dass, aufgrund der großen Anzahl an Duplikaten in Southampton , z.B. aus Gründen wie "Faulheit", für unterschiedliche Passagiere einfach die gleichen Einträge vorgenommen wurden. Eine weitere Möglichkeit wäre auch, dass zufällig viele unterschiedliche Passagiere mit gleichen Angaben geboarded haben. 

Um eine klarere Aussage treffen zu können, benötigen wir mehr informationen wie bspw. die Namen. Da es unwahrscheinlich ist, dass es sich um komplett erfundene Passagiere handelt, die es in Wirklichkeit nicht gab, behalten wir die Duplikate in unserem Datensatz. 

#### Lasst uns einen Blick auf Ausreißer werfen

In [None]:
import pandas as pd
import seaborn as sns

# Laden des Titanic-Datensatzes
titanic = sns.load_dataset('titanic')

def count_outliers(column):
    Q1 = column.quantile(0.25)
    Q3 = column.quantile(0.75)
    IQR = Q3 - Q1
    outliers = ((column < (Q1 - 1.5 * IQR)) | (column > (Q3 + 1.5 * IQR))).sum()
    return outliers

# Anwenden der Funktion auf jede numerische Spalte im DataFrame
outlier_counts = titanic.select_dtypes(include=['float64', 'int64']).apply(count_outliers)
print(outlier_counts)

Haben die Ausreißer einen Einfluss auf unsere Analysen? In unserem Fall sind sie für unsere Analysen unwichtig oder haben in ihrer Anzahl keinen signifikanten Einfluss auf die Ergebnisse unserer Analysen. 

### Aufgabe 1: Erstellen Sie ein Balkendiagramm, das die Anzahl der Überlebenden und Nicht-Überlebenden zeigt

In [None]:
# Aufgabe 1: Erstellen des Balkendiagramms
survival_counts = titanic['survived'].value_counts()
plt.bar(survival_counts.index, survival_counts.values)
plt.title('Anzahl der Überlebenden und Nicht-Überlebenden')
plt.xlabel('Überlebt (1 = Ja, 0 = Nein)')
plt.ylabel('Anzahl der Passagiere')
plt.xticks([0, 1])  # Setzt die x-Achsen-Ticks auf 0 und 1
plt.show()

### Aufgabe 2: Erstellen Sie ein Kreisdiagramm, das die Anzahl der Überlebenden und Nicht-Überlebenden (in%) zeigt

In [None]:
# Aufgabe 2: Erstellen des Kreisdiagramms
survival_counts = titanic['survived'].value_counts()
plt.pie(survival_counts, labels=['Nicht überlebt', 'Überlebt'], autopct='%1.1f%%', startangle=90)
plt.title('Anzahl der Überlebenden und Nicht-Überlebenden')
plt.show()

### Aufgabe 3: Erstellen Sie ein Histogramm der Altersverteilung der Passagiere'

In [None]:
# Aufgabe 2: Erstellen des Histogramms der Altersverteilung
plt.hist(titanic['age'].dropna(), bins=20, edgecolor='black')
plt.title('Altersverteilung der Passagiere')
plt.xlabel('Alter')
plt.ylabel('Anzahl der Passagiere')
plt.show()

### Aufgabe 4: Erstellen Sie ein Kreisdiagramm, das den Anteil der Passagierklassen zeigt

In [None]:
# Aufgabe 3: Erstellen des Kreisdiagramms für Passagierklassen
class_counts = titanic['class'].value_counts()
plt.pie(class_counts, labels=class_counts.index, autopct='%1.1f%%')
plt.title('Anteil der Passagierklassen')
plt.show()

### Aufgabe 5: Erstellen Sie ein Balkendiagramm zur Darstellung des durchschnittlichen Alters nach Geschlecht

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

# Laden des Titanic-Datensatzes
titanic = sns.load_dataset('titanic')

# Berechnen des durchschnittlichen Alters nach Geschlecht
average_age_by_sex = titanic.groupby('sex')['age'].mean()

# Aufgabe 4: Erstellen des Balkendiagramms
average_age_by_sex.plot(kind='bar')
plt.title('Durchschnittliches Alter nach Geschlecht')
plt.xlabel('Geschlecht')
plt.ylabel('Durchschnittsalter')
plt.show()

### Aufgabe 6: Erstellen Sie ein gestapeltes Balkendiagramm zur Darstellung der Anzahl von Überlebenden und Nicht-Überlebenden in jeder Passagierklasse

### Aufgabe 7: Erstelle das Balkendiagramm aus Aufgabe 6 und verwende dafür die Farben rot (nicht überlebt) und grün(überlebt) 

### Aufgabe 8: Erläutere, ob und wenn ja, warum du die Diagramme aus Aufgabe 6 und Aufgabe 7 unterschiedlich wahrnimmst. 