# **1. Perkenalan Dataset**


Tahap pertama, Anda harus mencari dan menggunakan dataset dengan ketentuan sebagai berikut:

1. **Sumber Dataset**:  
   Dataset dapat diperoleh dari berbagai sumber, seperti public repositories (*Kaggle*, *UCI ML Repository*, *Open Data*) atau data primer yang Anda kumpulkan sendiri.

**Dataset yang digunakan:** Heart Disease Prediction Dataset
- Sumber: UCI ML Repository / Kaggle
- Jumlah data: 270 baris
- Jumlah fitur: 14 kolom (13 fitur + 1 target)
- Target: Heart Disease (Presence/Absence)

# **2. Import Library**

Pada tahap ini, Anda perlu mengimpor beberapa pustaka (library) Python yang dibutuhkan untuk analisis data dan pembangunan model machine learning atau deep learning.

In [None]:
# Import library yang diperlukan
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.preprocessing import StandardScaler, LabelEncoder
from sklearn.model_selection import train_test_split
import os
import warnings

# Konfigurasi
warnings.filterwarnings('ignore')
plt.style.use('seaborn-v0_8-whitegrid')
sns.set_palette("husl")

print("Library berhasil diimport!")

# **3. Memuat Dataset**

Pada tahap ini, Anda perlu memuat dataset ke dalam notebook. Jika dataset dalam format CSV, Anda bisa menggunakan pustaka pandas untuk membacanya. Pastikan untuk mengecek beberapa baris awal dataset untuk memahami strukturnya dan memastikan data telah dimuat dengan benar.

Jika dataset berada di Google Drive, pastikan Anda menghubungkan Google Drive ke Colab terlebih dahulu. Setelah dataset berhasil dimuat, langkah berikutnya adalah memeriksa kesesuaian data dan siap untuk dianalisis lebih lanjut.

Jika dataset berupa unstructured data, silakan sesuaikan dengan format seperti kelas Machine Learning Pengembangan atau Machine Learning Terapan

In [None]:
# Memuat dataset
df = pd.read_csv('../dataset_raw/Heart_Disease_Prediction.csv')

# Menampilkan informasi dasar dataset
print("="*60)
print("INFORMASI DATASET")
print("="*60)
print(f"\nShape dataset: {df.shape}")
print(f"Jumlah baris: {df.shape[0]}")
print(f"Jumlah kolom: {df.shape[1]}")

# Menampilkan 5 baris pertama
print("\n" + "="*60)
print("5 BARIS PERTAMA DATASET")
print("="*60)
df.head()

In [None]:
# Menampilkan 5 baris terakhir dan info tipe data
print("5 BARIS TERAKHIR DATASET")
display(df.tail())

print("\nINFORMASI TIPE DATA")
df.info()

# **4. Exploratory Data Analysis (EDA)**

Pada tahap ini, Anda akan melakukan **Exploratory Data Analysis (EDA)** untuk memahami karakteristik dataset.

Tujuan dari EDA adalah untuk memperoleh wawasan awal yang mendalam mengenai data dan menentukan langkah selanjutnya dalam analisis atau pemodelan.

In [None]:
# 4.1 Statistik Deskriptif
print("="*60)
print("4.1 STATISTIK DESKRIPTIF")
print("="*60)
df.describe()

In [None]:
# 4.2 Analisis Missing Values & Duplikat
print("="*60)
print("4.2 ANALISIS MISSING VALUES")
print("="*60)
missing_values = df.isnull().sum()
print(f"Total missing values: {missing_values.sum()}")
print(missing_values[missing_values > 0] if missing_values.sum() > 0 else "Tidak ada missing values")

print("\n" + "="*60)
print("4.3 ANALISIS DATA DUPLIKAT")
print("="*60)
print(f"Jumlah baris duplikat: {df.duplicated().sum()}")

In [None]:
# 4.4 Distribusi Target Variable
print("="*60)
print("4.4 DISTRIBUSI TARGET VARIABLE")
print("="*60)
print(df['Heart Disease'].value_counts())
print(f"\nPersentase:")
print(df['Heart Disease'].value_counts(normalize=True) * 100)

# Visualisasi
fig, axes = plt.subplots(1, 2, figsize=(12, 5))
colors = ['#66b3ff', '#ff6666']
df['Heart Disease'].value_counts().plot(kind='pie', autopct='%1.1f%%', ax=axes[0], colors=colors)
axes[0].set_title('Distribusi Heart Disease')
df['Heart Disease'].value_counts().plot(kind='bar', ax=axes[1], color=colors, edgecolor='black')
axes[1].set_title('Frekuensi Heart Disease')
plt.tight_layout()
plt.show()

In [None]:
# 4.5 Histogram Fitur Numerik
numeric_cols = df.select_dtypes(include=[np.number]).columns.tolist()
n_cols, n_rows = 4, (len(numeric_cols) + 3) // 4

fig, axes = plt.subplots(n_rows, n_cols, figsize=(16, 4 * n_rows))
axes = axes.flatten()
for i, col in enumerate(numeric_cols):
    df[col].hist(bins=20, ax=axes[i], color='steelblue', edgecolor='black')
    axes[i].set_title(f'Distribusi {col}')
for j in range(i + 1, len(axes)):
    axes[j].set_visible(False)
plt.tight_layout()
plt.show()

In [None]:
# 4.6 Correlation Matrix
df_encoded = df.copy()
le = LabelEncoder()
df_encoded['Heart Disease'] = le.fit_transform(df['Heart Disease'])

plt.figure(figsize=(14, 10))
sns.heatmap(df_encoded.corr(), annot=True, cmap='coolwarm', center=0, fmt='.2f', linewidths=0.5)
plt.title('Correlation Matrix')
plt.tight_layout()
plt.show()

In [None]:
# 4.7 Boxplot Deteksi Outlier
fig, axes = plt.subplots(n_rows, n_cols, figsize=(16, 4 * n_rows))
axes = axes.flatten()
for i, col in enumerate(numeric_cols):
    sns.boxplot(data=df, y=col, ax=axes[i], color='steelblue')
    axes[i].set_title(f'Boxplot {col}')
for j in range(i + 1, len(axes)):
    axes[j].set_visible(False)
plt.tight_layout()
plt.show()

# **5. Data Preprocessing**

Pada tahap ini, data preprocessing adalah langkah penting untuk memastikan kualitas data sebelum digunakan dalam model machine learning.

Jika Anda menggunakan data teks, data mentah sering kali mengandung nilai kosong, duplikasi, atau rentang nilai yang tidak konsisten, yang dapat memengaruhi kinerja model. Oleh karena itu, proses ini bertujuan untuk membersihkan dan mempersiapkan data agar analisis berjalan optimal.

Berikut adalah tahapan-tahapan yang bisa dilakukan, tetapi **tidak terbatas** pada:
1. Menghapus atau Menangani Data Kosong (Missing Values)
2. Menghapus Data Duplikat
3. Normalisasi atau Standarisasi Fitur
4. Deteksi dan Penanganan Outlier
5. Encoding Data Kategorikal
6. Binning (Pengelompokan Data)

Cukup sesuaikan dengan karakteristik data yang kamu gunakan yah. Khususnya ketika kami menggunakan data tidak terstruktur.

In [None]:
# 5.1 Menangani Missing Values
print("="*60)
print("5.1 MENANGANI MISSING VALUES")
print("="*60)

if df.isnull().sum().sum() > 0:
    for col in numeric_cols:
        if df[col].isnull().sum() > 0:
            df[col].fillna(df[col].median(), inplace=True)
    print("Missing values ditangani dengan median.")
else:
    print("Tidak ada missing values.")

# 5.2 Menghapus Duplikat
print("\n" + "="*60)
print("5.2 MENGHAPUS DUPLIKAT")
print("="*60)

dup_count = df.duplicated().sum()
if dup_count > 0:
    df.drop_duplicates(inplace=True)
    df.reset_index(drop=True, inplace=True)
    print(f"Menghapus {dup_count} baris duplikat.")
else:
    print("Tidak ada duplikat.")

In [None]:
# 5.3 Penanganan Outlier (IQR Capping)
print("="*60)
print("5.3 PENANGANAN OUTLIER (IQR Capping)")
print("="*60)

def handle_outliers_iqr(data, column):
    Q1 = data[column].quantile(0.25)
    Q3 = data[column].quantile(0.75)
    IQR = Q3 - Q1
    lower, upper = Q1 - 1.5 * IQR, Q3 + 1.5 * IQR
    outliers = ((data[column] < lower) | (data[column] > upper)).sum()
    if outliers > 0:
        data[column] = np.clip(data[column], lower, upper)
        print(f"  - {column}: {outliers} outliers di-capping")
    return data

for col in numeric_cols:
    df = handle_outliers_iqr(df, col)

In [None]:
# 5.4 Encoding Kategorikal
print("="*60)
print("5.4 ENCODING KATEGORIKAL")
print("="*60)

le_target = LabelEncoder()
df['Heart Disease'] = le_target.fit_transform(df['Heart Disease'])
print(f"Heart Disease encoded: {dict(zip(le_target.classes_, [0, 1]))}")

In [None]:
# 5.5 Normalisasi (StandardScaler)
print("="*60)
print("5.5 NORMALISASI (StandardScaler)")
print("="*60)

X = df.drop('Heart Disease', axis=1)
y = df['Heart Disease']

scaler = StandardScaler()
X_scaled = pd.DataFrame(scaler.fit_transform(X), columns=X.columns)

print(f"Shape X: {X_scaled.shape}")
print(f"Shape y: {y.shape}")
print("\nStatistik setelah scaling (mean ~ 0, std ~ 1):")
print(X_scaled.describe().loc[['mean', 'std']])

In [None]:
# 5.6 Train-Test Split
print("="*60)
print("5.6 TRAIN-TEST SPLIT")
print("="*60)

X_train, X_test, y_train, y_test = train_test_split(
    X_scaled, y, test_size=0.2, random_state=42, stratify=y
)

print(f"Training set: {X_train.shape[0]} samples ({X_train.shape[0]/len(X)*100:.0f}%)")
print(f"Test set: {X_test.shape[0]} samples ({X_test.shape[0]/len(X)*100:.0f}%)")
print(f"\nDistribusi target - Train: {dict(pd.Series(y_train).value_counts())}")
print(f"Distribusi target - Test: {dict(pd.Series(y_test).value_counts())}")

In [None]:
# 5.7 Simpan Data Siap Latih
print("="*60)
print("5.7 SIMPAN DATA SIAP LATIH")
print("="*60)

output_dir = 'dataset_preprocessing'
os.makedirs(output_dir, exist_ok=True)

# Gabungkan X dan y untuk disimpan
train_data = X_train.copy()
train_data['Heart Disease'] = y_train.values

test_data = X_test.copy()
test_data['Heart Disease'] = y_test.values

# Simpan ke CSV
train_data.to_csv(f'{output_dir}/train_data.csv', index=False)
test_data.to_csv(f'{output_dir}/test_data.csv', index=False)

print(f"✅ train_data.csv disimpan ({train_data.shape[0]} baris)")
print(f"✅ test_data.csv disimpan ({test_data.shape[0]} baris)")
print(f"\nLokasi: {output_dir}/")
print("\n" + "="*60)
print("PREPROCESSING SELESAI!")
print("="*60)