# Celem laboratorium jest weryfikacja Państwa umiejętności z zakresu tworzenia wizualizacji danych.

In [4]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from matplotlib.backends.backend_pdf import PdfPages

# Wczytanie danych z pliku
df = pd.read_csv('data/titanic.txt')

# Konwersja kolumn na kategorie
df['Pclass'] = df['Pclass'].astype(str)

# Tworzenie pliku PDF
with PdfPages("Wizualizacja Titanic.pdf") as pdf:
    # Wizualizacja przeżywalności według klasy i płci
    plt.figure(figsize=(10, 5))
    sns.barplot(x="Pclass", y="Survived", hue="Sex", data=df, errorbar=None)
    plt.title("Szansa przeżycia w zależności od klasy i płci")
    plt.xlabel("Klasa pasażera")
    plt.ylabel("Prawdopodobieństwo przeżycia")
    pdf.savefig()
    plt.close()

    # Wizualizacja przeżywalności w zależności od wieku
    plt.figure(figsize=(10, 5))
    sns.histplot(df[df['Survived'] == 1]['Age'], bins=10, kde=True, color='green', label='Przeżyli')
    sns.histplot(df[df['Survived'] == 0]['Age'], bins=10, kde=True, color='red', label='Nie przeżyli', alpha=0.5)
    plt.title("Rozkład wieku pasażerów w zależności od przeżycia")
    plt.xlabel("Wiek")
    plt.ylabel("Liczba pasażerów")
    plt.legend()
    pdf.savefig()
    plt.close()

    # Wizualizacja wpływu ceny biletu na przeżycie
    plt.figure(figsize=(10, 5))
    sns.boxplot(x="Survived", y="Fare", data=df)
    plt.title("Cena biletu a przeżycie")
    plt.xlabel("Przeżycie")
    plt.ylabel("Cena biletu")
    plt.xticks(ticks=[0, 1], labels=['Nie przeżyli', 'Przeżyli'])
    pdf.savefig()
    plt.close()

    # Liczba rodzeństwa/małżonków a przeżycie
    plt.figure(figsize=(10, 5))
    sns.barplot(x="SibSp", y="Survived", data=df, errorbar=None)
    plt.title("Wpływ liczby rodzeństwa/małżonków na przeżycie")
    plt.xlabel("Liczba rodzeństwa/małżonków")
    plt.ylabel("Prawdopodobieństwo przeżycia")
    pdf.savefig()
    plt.close()

    # Liczba rodziców/dzieci a przeżycie
    plt.figure(figsize=(10, 5))
    sns.barplot(x="Parch", y="Survived", data=df, errorbar=None)
    plt.title("Wpływ liczby rodziców/dzieci na przeżycie")
    plt.xlabel("Liczba rodziców/dzieci")
    plt.ylabel("Prawdopodobieństwo przeżycia")
    pdf.savefig()
    plt.close()

    # Miejsce zaokrętowania a przeżycie
    plt.figure(figsize=(10, 5))
    sns.barplot(x="Embarked", y="Survived", data=df, errorbar=None)
    plt.title("Wpływ miejsca zaokrętowania na przeżycie")
    plt.xlabel("Miejsce zaokrętowania")
    plt.ylabel("Prawdopodobieństwo przeżycia")
    pdf.savefig()
    plt.close()

    # Heatmapa klasy i płci na przeżycie
    plt.figure(figsize=(10, 5))
    pivot_table = df.pivot_table(values="Survived", index="Pclass", columns="Sex")
    sns.heatmap(pivot_table, annot=True, cmap="coolwarm")
    plt.title("Przeżywalność według klasy i płci")
    plt.xlabel("Płeć")
    plt.ylabel("Klasa")
    pdf.savefig()
    plt.close()
