In [2]:
# Mengimport pandas dan tabulate(agar outputnya menggunakan tabel)
import pandas as pd
from tabulate import tabulate

# Mengaktifkan opsi Pandas untuk mengikuti perilaku mendatang
pd.set_option('future.no_silent_downcasting', True)

In [3]:
# Mengimport dataset
df = pd.read_csv('C:\\Dataset\\archive\\heart_disease_uci.csv')

In [4]:
# Mengecek missing value sebelum preprocessing dan menampilkannya dalam bentuk tabel
missing_before = df.isnull().sum()
missing_table_before = pd.DataFrame({
    'Column': missing_before.index,
    'Missing Values': missing_before.values
})
print("Missing value sebelum preprocessing:")
print(tabulate(missing_table_before, headers='keys', tablefmt='fancy_grid'))

Missing value sebelum preprocessing:
╒════╤══════════╤══════════════════╕
│    │ Column   │   Missing Values │
╞════╪══════════╪══════════════════╡
│  0 │ id       │                0 │
├────┼──────────┼──────────────────┤
│  1 │ age      │                0 │
├────┼──────────┼──────────────────┤
│  2 │ sex      │                0 │
├────┼──────────┼──────────────────┤
│  3 │ dataset  │                0 │
├────┼──────────┼──────────────────┤
│  4 │ cp       │                0 │
├────┼──────────┼──────────────────┤
│  5 │ trestbps │               59 │
├────┼──────────┼──────────────────┤
│  6 │ chol     │               30 │
├────┼──────────┼──────────────────┤
│  7 │ fbs      │               90 │
├────┼──────────┼──────────────────┤
│  8 │ restecg  │                2 │
├────┼──────────┼──────────────────┤
│  9 │ thalch   │               55 │
├────┼──────────┼──────────────────┤
│ 10 │ exang    │               55 │
├────┼──────────┼──────────────────┤
│ 11 │ oldpeak  │               62 │
├

In [5]:
# Mengatasi missing value, jika missing value numerik, diisi dengan median. Jika missing value kategorikal, diisi dengan modus
numeric_cols = df.select_dtypes(include=['float64', 'int64']).columns
df[numeric_cols] = df[numeric_cols].fillna(df[numeric_cols].median())

categorical_cols = df.select_dtypes(include=['object']).columns
df[categorical_cols] = df[categorical_cols].fillna(df[categorical_cols].mode().iloc[0])

# Mengecek ulang missing value setelah preprocessing dan menapilkannya dalam bentuk tabel
missing_after = df.isnull().sum()
missing_table_after = pd.DataFrame({
    'Column': missing_after.index,
    'Missing Values': missing_after.values
})
print("\nMissing value setelah preprocessing:")
print(tabulate(missing_table_after, headers='keys', tablefmt='fancy_grid'))


Missing value setelah preprocessing:
╒════╤══════════╤══════════════════╕
│    │ Column   │   Missing Values │
╞════╪══════════╪══════════════════╡
│  0 │ id       │                0 │
├────┼──────────┼──────────────────┤
│  1 │ age      │                0 │
├────┼──────────┼──────────────────┤
│  2 │ sex      │                0 │
├────┼──────────┼──────────────────┤
│  3 │ dataset  │                0 │
├────┼──────────┼──────────────────┤
│  4 │ cp       │                0 │
├────┼──────────┼──────────────────┤
│  5 │ trestbps │                0 │
├────┼──────────┼──────────────────┤
│  6 │ chol     │                0 │
├────┼──────────┼──────────────────┤
│  7 │ fbs      │                0 │
├────┼──────────┼──────────────────┤
│  8 │ restecg  │                0 │
├────┼──────────┼──────────────────┤
│  9 │ thalch   │                0 │
├────┼──────────┼──────────────────┤
│ 10 │ exang    │                0 │
├────┼──────────┼──────────────────┤
│ 11 │ oldpeak  │                0 │


In [6]:
# Menyimpan dataset yang sudah diproses
df.to_csv('processed_dataset.csv', index=False)