
# Praktikum 1 — Exploratory Data Analysis (EDA) — Titanic

Notebook ini disiapkan untuk dijalankan **langsung di VS Code** (Cara 1: Jupyter Notebook).  
Letakkan file **`Titanic-Dataset.csv`** di **folder yang sama** dengan notebook ini, lalu jalankan cell dari atas ke bawah.

> Tip: Jika belum memasang library, jalankan cell "Instalasi (opsional)".


In [None]:

# Instalasi (opsional) — jalankan jika perlu
# Hapus komentar (!) di bawah jika Anda butuh menginstal package
# !pip install -q pandas numpy matplotlib


In [None]:

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

# Konfigurasi tampilan DataFrame agar lebih ringkas
pd.set_option('display.max_columns', 50)
pd.set_option('display.width', 120)


## Langkah 1 — Memuat Data

In [None]:

# Pastikan file 'Titanic-Dataset.csv' berada di folder yang sama dengan notebook ini
df = pd.read_csv('Titanic-Dataset.csv')
df.head()


## Langkah 2 — Inspeksi Data

In [None]:

# Pengecekan dimensi
print("Dimensi data (baris, kolom):", df.shape)


In [None]:

# Pengecekan tipe data dan non-null count
df.info()


In [None]:

# Jumlah data hilang di tiap kolom
df.isnull().sum()


In [None]:

# Ringkasan statistik deskriptif (numerik)
df.describe()


## Langkah 3 — Inspeksi Visual
### Histogram — Distribusi Age & Fare

In [None]:

# Histogram untuk Age
plt.figure()
plt.hist(df['Age'].dropna(), bins=30)
plt.title('Distribusi Age')
plt.xlabel('Age'); plt.ylabel('Frekuensi')
plt.show()

# Histogram untuk Fare
plt.figure()
plt.hist(df['Fare'].dropna(), bins=30)
plt.title('Distribusi Fare')
plt.xlabel('Fare'); plt.ylabel('Frekuensi')
plt.show()


### Boxplot — Outlier pada Fare

In [None]:

plt.figure()
plt.boxplot(df['Fare'].dropna(), vert=True)
plt.title('Boxplot Fare')
plt.ylabel('Fare')
plt.show()


### Komposisi Variabel Kualitatif — Bar Chart

In [None]:

# Daftar kolom kategorikal untuk dicek
cat_cols = ['Survived', 'Pclass', 'Sex', 'Embarked']

for col in cat_cols:
    counts = df[col].fillna('NaN').value_counts(dropna=False)
    plt.figure()
    plt.bar(counts.index.astype(str), counts.values)
    plt.title(f'Distribusi {col}')
    plt.xlabel(col); plt.ylabel('Jumlah')
    plt.tight_layout()
    plt.show()


### Korelasi — Heatmap (numerik, hanya matplotlib)

In [None]:

# Ambil kolom numerik saja
num_only = df.select_dtypes(include=[np.number])

# Korelasi
corr = num_only.corr(numeric_only=True)

# Heatmap dengan matplotlib (tanpa seaborn)
plt.figure(figsize=(8, 6))
im = plt.imshow(corr, vmin=-1, vmax=1)
plt.colorbar(im, fraction=0.046, pad=0.04)
plt.title('Heatmap Korelasi (numerik)')

# Ticks dan label
plt.xticks(range(len(corr.columns)), corr.columns, rotation=45, ha='right')
plt.yticks(range(len(corr.index)), corr.index)

# Tambahkan anotasi nilai korelasi
for i in range(len(corr.index)):
    for j in range(len(corr.columns)):
        val = corr.iloc[i, j]
        plt.text(j, i, f"{val:.2f}", ha='center', va='center')

plt.tight_layout()
plt.show()


In [None]:

# Urutan korelasi variabel lain terhadap 'Survived' (jika ada)
if 'Survived' in corr.columns:
    corr['Survived'].sort_values(ascending=False)
else:
    print("Kolom 'Survived' tidak ditemukan di korelasi numerik.")


### Scatter Plot — Age vs Fare

In [None]:

plt.figure()
plt.scatter(df['Age'], df['Fare'], alpha=0.7)
plt.xlabel('Age'); plt.ylabel('Fare')
plt.title('Scatter Age vs Fare')
plt.show()
