# Analisis Dataset Titanic

Notebook ini berisi eksplorasi data Titanic untuk memahami pola dan insight dari data tersebut.

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Konfigurasi visualisasi
sns.set_style('whitegrid')
plt.rcParams['figure.figsize'] = (10, 6)

## 1. Memuat Dataset

In [None]:
df = sns.load_dataset('titanic')
df.head()

## 2. Eksplorasi Data Awal

In [None]:
df.info()

df.describe()

df.isnull().sum()

## 3. Visualisasi Data

In [None]:
sns.histplot(df['age'], bins=30, kde=True)
plt.title('Distribusi Usia Penumpang Titanic')
plt.show()

In [None]:
sns.countplot(x='survived', data=df, palette='coolwarm')
plt.title('Jumlah Penumpang yang Selamat vs Tidak Selamat')
plt.xticks(ticks=[0,1], labels=['Tidak Selamat', 'Selamat'])
plt.show()

In [None]:
sns.heatmap(df.corr(), annot=True, cmap='coolwarm', fmt='.2f')
plt.title('Korelasi Antar Fitur Numerik')
plt.show()

In [None]:
sns.barplot(x='class', y='survived', data=df, palette='viridis')
plt.title('Tingkat Keselamatan Berdasarkan Kelas Tiket')
plt.show()

## 4. Insight dari Data

In [None]:
insight = """
1. Distribusi usia menunjukkan mayoritas penumpang berusia antara 20-40 tahun.
2. Lebih banyak penumpang yang tidak selamat dibandingkan yang selamat.
3. Ada korelasi negatif antara tarif tiket dan kelangsungan hidup (Semakin mahal tiket, semakin besar peluang selamat).
4. Penumpang kelas 1 memiliki tingkat keselamatan tertinggi dibandingkan kelas 2 dan 3.
"""
print(insight)