### BAGIAN 1: PERSIAPAN & PEMBERSIHAN DATA 🚀
Bagian ini menguraikan tahapan krusial dalam pra-pemrosesan data. Proses diawali dengan akuisisi dan penggabungan data mentah dari berbagai file sumber menjadi satu dataset komprehensif. Selanjutnya, dilakukan inspeksi awal untuk memahami struktur data dan mengidentifikasi keberadaan nilai-nilai yang hilang (missing values). Sesuai dengan metodologi yang telah ditetapkan, langkah pembersihan data melibatkan penghapusan baris yang memiliki nilai tidak lengkap (incomplete rows) untuk memastikan kualitas dan kelengkapan data sebelum pemodelan.

In [None]:
import pandas as pd
import numpy as np
import os

#--- [SETUP AWAL] Definisikan nama kolom sesuai dokumentasi dataset ---
# Ini penting biar DataFrame kita punya header yang jelas.
column_names = [
    'age', 'sex', 'cp', 'trestbps', 'chol', 'fbs', 'restecg', 
    'thalach', 'exang', 'oldpeak', 'slope', 'ca', 'thal', 'num'
]

#--- [PENGUMPULAN DATA] Fungsi untuk memuat data dari satu file ---
def load_data(file_path):
    """Fungsi ini memuat satu file CSV, ngasih nama kolom,
    dan otomatis ngenalin '?' sebagai nilai NaN (Not a Number)."""
    try:
        return pd.read_csv(file_path, header=None, names=column_names, na_values='?')
    except FileNotFoundError:
        print(f"⚠️ File {file_path} tidak ditemukan. Melewati...")
        return None

# --- [PENGGABUNGAN DATA] Muat dan gabungkan semua dataset ---
data_path = 'data/heart+disease/' 
df_cleveland = load_data(os.path.join(data_path, 'processed.cleveland.data'))
df_hungarian = load_data(os.path.join(data_path, 'processed.hungarian.data'))
df_switzerland = load_data(os.path.join(data_path, 'processed.switzerland.data'))
df_va = load_data(os.path.join(data_path, 'processed.va.data'))

# Gabungkan semua DataFrame yang berhasil dimuat
list_of_dfs = [df for df in [df_cleveland, df_hungarian, df_switzerland, df_va] if df is not None]
if not list_of_dfs:
    raise ValueError("Tidak ada dataset yang berhasil dimuat. Periksa kembali path folder data Anda.")
    
df_full = pd.concat(list_of_dfs, ignore_index=True)

print(f"✅ Total data mentah yang berhasil digabungkan: {df_full.shape[0]} baris dan {df_full.shape[1]} kolom.")
print("\n--- Analisis Data Mentah (Sebelum Cleaning) ---")

# Cek jumlah & persentase missing values, persis kayak di laporan (Gambar 3)
print("\nJumlah Missing Values di Setiap Kolom:")
print(df_full.isnull().sum())
print("\nPersentase Missing Values di Setiap Kolom (%):")
print(round((df_full.isnull().sum() / len(df_full)) * 100, 2))

# Ekspor data mentah (sebelum dibersihkan) untuk arsip
output_filename_non_clean = 'dataset_prediksi_jantung_non_clean.csv'
df_full.to_csv(output_filename_non_clean, index=False)
print(f"\n✅ Data mentah telah berhasil diekspor ke '{output_filename_non_clean}'.")

#--- [PEMBERSIHAN DATA] ---
print("\n--- Memulai Proses Pembersihan Data ---")

# Sesuai laporan, kita pakai metode drop untuk menangani missing value
df_cleaned = df_full.dropna().copy() # .copy() untuk menghindari SettingWithCopyWarning
print(f"Jumlah baris setelah menghapus missing values: {df_cleaned.shape[0]}")

# Verifikasi ulang, mastiin udah nggak ada missing value (seperti di Gambar 4)
print("\nJumlah missing values setelah pembersihan:")
print(df_cleaned.isnull().sum())
if df_cleaned.isnull().sum().sum() == 0:
    print("✅ Konfirmasi: Tidak ada lagi missing values dalam data.")

# Ekspor data yang sudah bersih dan siap untuk pemodelan
output_filename_clean = 'dataset_prediksi_jantung_clean.csv'
df_cleaned.to_csv(output_filename_clean, index=False)
print(f"\n✅ Data bersih telah berhasil diekspor ke '{output_filename_clean}'. Selesai untuk Bagian 1!")