# **1. Perkenalan Dataset**
Tahap pertama, Anda harus mencari dan menggunakan dataset dengan ketentuan sebagai berikut:

**Sumber Dataset**:
Dataset ini adalah dataset Titanic yang diperoleh dari Kaggle (atau public repository lainnya). Dataset ini digunakan untuk memprediksi apakah seorang penumpang selamat atau tidak berdasarkan fitur-fitur seperti kelas tiket, jenis kelamin, usia, dan lainnya.

# **2. Import Library**
Pada tahap ini, Anda perlu mengimpor beberapa pustaka (library) Python yang dibutuhkan untuk analisis data dan pembangunan model machine learning atau deep learning.

In [None]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

%matplotlib inline

# **3. Memuat Dataset**
Pada tahap ini, Anda perlu memuat dataset ke dalam notebook. Jika dataset dalam format CSV, Anda bisa menggunakan pustaka pandas untuk membacanya. Pastikan untuk mengecek beberapa baris awal dataset untuk memahami strukturnya dan memastikan data telah dimuat dengan benar.

In [None]:
# Memuat dataset
df = pd.read_csv('../titanic_raw/train.csv')

# Menampilkan 5 baris pertama
df.head()

# **4. Exploratory Data Analysis (EDA)**
Pada tahap ini, Anda akan melakukan **Exploratory Data Analysis (EDA)** untuk memahami karakteristik dataset.

Tujuan dari EDA adalah untuk memperoleh wawasan awal yang mendalam mengenai data dan menentukan langkah selanjutnya dalam analisis atau pemodelan.

In [None]:
# Melihat informasi dataset
df.info()

In [None]:
# Statistik deskriptif
df.describe()

In [None]:
# Cek missing values
df.isnull().sum()

In [None]:
# Visualisasi distribusi target (Survived)
sns.countplot(x='Survived', data=df)
plt.title('Distribution of Survived')
plt.show()

# **5. Data Preprocessing**
Pada tahap ini, data preprocessing adalah langkah penting untuk memastikan kualitas data sebelum digunakan dalam model machine learning.

Berikut adalah tahapan-tahapan yang bisa dilakukan, tetapi **tidak terbatas** pada:
1. Menghapus atau Menangani Data Kosong (Missing Values)
2. Menghapus Data Duplikat
3. Normalisasi atau Standarisasi Fitur
4. Deteksi dan Penanganan Outlier
5. Encoding Data Kategorikal
6. Binning (Pengelompokan Data)

In [None]:
# Menghapus kolom yang tidak diperlukan
df_clean = df.drop(['PassengerId', 'Name', 'Ticket', 'Cabin'], axis=1)
df_clean.head()

In [None]:
# Handling Missing Values
# Age: isi dengan median
df_clean['Age'] = df_clean['Age'].fillna(df_clean['Age'].median())

# Embarked: isi dengan modus
mode_embarked = df_clean['Embarked'].mode()[0]
df_clean['Embarked'] = df_clean['Embarked'].fillna(mode_embarked)

# Cek kembali missing values
df_clean.isnull().sum()

In [None]:
# Encoding Categorical Variables
# Sex: Label Encoding (male=0, female=1)
if 'Sex' in df_clean.columns:
    df_clean['Sex'] = df_clean['Sex'].map({'male': 0, 'female': 1})

# Embarked: One-Hot Encoding
df_clean = pd.get_dummies(df_clean, columns=['Embarked'], drop_first=True)

df_clean.head()

In [None]:
# Menyimpan data hasil preprocessing
df_clean.to_csv('train_processed.csv', index=False)
print("Data preprocessing selesai dan disimpan ke train_processed.csv")