# Nama : Muhammad Iqbal Fadiatama
# NIM : 2309106077

Posttest 3

In [3]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

from sklearn.preprocessing import StandardScaler, LabelEncoder
from sklearn.model_selection import train_test_split

In [2]:
df = pd.read_csv("Medicaldataset.csv")

Digunakan untuk membaca file csv.

In [4]:
df_original = df.copy()

Buat salinan dataset sebelum dilakukan modifikasi.

# 1. Data Cleaning
Handling missing value (jika ada),
Handling duplicate value (jika ada),
Handling outlier (jika ada),

In [5]:
# Cek missing value
print("\n=== Missing Value ===")
print(df.isnull().sum())


=== Missing Value ===
Age                         0
Gender                      0
Heart rate                  0
Systolic blood pressure     0
Diastolic blood pressure    0
Blood sugar                 0
CK-MB                       0
Troponin                    0
Result                      0
dtype: int64


In [6]:
# Cek duplikat
print("\nJumlah duplikat:", df.duplicated().sum())


Jumlah duplikat: 0


In [7]:
# Handling outlier dengan metode IQR
Q1 = df.quantile(0.25, numeric_only=True)
Q3 = df.quantile(0.75, numeric_only=True)
IQR = Q3 - Q1

numeric_cols = df.select_dtypes(include='number').columns

In [8]:
# Buang data di luar batas (1.5 * IQR)
df = df[~((df[numeric_cols] < (Q1 - 1.5 * IQR)) |
          (df[numeric_cols] > (Q3 + 1.5 * IQR))).any(axis=1)]

print("\n=== Shape setelah cleaning ===", df.shape)
print("Jumlah data awal :", len(df_original))
print("Jumlah data setelah buang outlier :", len(df))


=== Shape setelah cleaning === (789, 9)
Jumlah data awal : 1319
Jumlah data setelah buang outlier : 789


proses data cleaning diatas menunjukkan bahwa dataset yang digunakan sudah sangat bersih. Pertama, pemeriksaan missing value dan duplikat menunjukkan bahwa tidak ada data yang hilang atau baris yang terduplikasi. Selanjutnya, penanganan outlier menggunakan metode IQR (Interquartile Range) juga tidak mendeteksi adanya data di luar batas normal, yang dibuktikan dengan jumlah baris data yang tetap 789 sebelum dan sesudah penghapusan outlier. Secara keseluruhan, hasil analisis ini menunjukkan bahwa dataset sudah siap untuk tahap analisis atau pemodelan lebih lanjut tanpa perlu pembersihan data tambahan.

# 2. Normalisasi/standarisasi kolom numerik

In [9]:
scaler = StandardScaler()
numeric_cols = df.select_dtypes(include="number").columns.drop("Gender")  # drop kalau Gender numerik tapi kategorikal
df[numeric_cols] = scaler.fit_transform(df[numeric_cols])

print("\n=== Contoh data setelah normalisasi ===")
display(df[numeric_cols].head())


=== Contoh data setelah normalisasi ===


Unnamed: 0,Age,Heart rate,Systolic blood pressure,Diastolic blood pressure,Blood sugar,CK-MB,Troponin
0,0.612197,-0.649126,1.468106,0.834169,0.626753,-0.612101,-0.317941
2,-0.043986,-0.793743,1.468106,0.386492,2.931732,-0.523843,-0.572732
5,0.174742,-1.010668,-0.579856,-1.03115,-0.902915,-0.598166,-0.544422
6,-1.720897,-2.529144,2.278758,-0.285023,-0.5886,-1.118426,-0.572732
8,-0.845987,-1.082976,1.212111,0.684943,0.102894,-0.356616,-0.544422


 Proses normalisasi telah mengubah skala semua kolom numerik menggunakan StandardScaler. Metode ini menstandarisasi data dengan mengubahnya agar memiliki rata-rata nol dan standar deviasi satu. Hasilnya, nilai-nilai asli dari kolom seperti Age dan Heart rate kini diwakili oleh angka-angka baru yang sebagian besar berada di sekitar nol, baik positif maupun negatif. Tujuannya adalah untuk menyamakan bobot semua fitur, sehingga tidak ada satu kolom pun yang mendominasi dalam model machine learning yang sensitif terhadap skala, seperti regresi atau algoritma berbasis jarak.

# 3. Encoding kolom kategorikal

In [10]:
encoder = LabelEncoder()
for col in df.select_dtypes(include="object").columns:
    df[col] = encoder.fit_transform(df[col])

print("\n=== Contoh data setelah encoding ===")
display(df.head(10))


=== Contoh data setelah encoding ===


Unnamed: 0,Age,Gender,Heart rate,Systolic blood pressure,Diastolic blood pressure,Blood sugar,CK-MB,Troponin,Result
0,0.612197,1,-0.649126,1.468106,0.834169,0.626753,-0.612101,-0.317941,0
2,-0.043986,1,-0.793743,1.468106,0.386492,2.931732,-0.523843,-0.572732,0
5,0.174742,0,-1.010668,-0.579856,-1.03115,-0.902915,-0.598166,-0.544422,0
6,-1.720897,0,-2.529144,2.278758,-0.285023,-0.5886,-1.118426,-0.572732,0
8,-0.845987,0,-1.082976,1.212111,0.684943,0.102894,-0.356616,-0.544422,0
9,0.830925,1,-1.010668,1.468106,1.729522,-0.630508,-0.129002,-0.346251,0
10,-0.845987,0,-1.082976,1.724101,1.356458,-0.5886,-0.338036,-0.487802,0
11,0.539288,0,-1.082976,1.041447,0.834169,1.423019,-0.338036,-0.289631,0
13,-0.116895,0,1.375509,-0.153197,-0.359635,-0.693371,-0.788618,-0.317941,0
15,0.393469,1,0.4355,-0.32386,-0.434248,0.08194,-0.756102,-0.176391,1


Proses encoding kolom kategorikal telah berhasil dilakukan menggunakan LabelEncoder. Sebelum proses ini, kolom Gender dan Result memiliki data kategorikal (non-numerik). Setelah proses LabelEncoder diterapkan, nilai-nilai pada kolom ini diubah menjadi angka. Misalnya, pada kolom Gender, nilai 'Laki-laki' dan 'Perempuan' mungkin diubah menjadi 0 dan 1. Begitu pula pada kolom Result, nilai-nilai kategorikalnya diubah menjadi representasi numerik, seperti yang terlihat pada kolom terakhir di mana nilai-nilai 0 dan 1 sekarang muncul. Hal ini penting karena sebagian besar algoritma machine learning hanya dapat memproses data numerik, sehingga mengubah data kategorikal menjadi angka merupakan langkah krusial dalam pra-pemrosesan data.

# 4. Feature engineering (minimal 1 feature baru)

In [11]:
# Tambahkan fitur baru: Pulse Pressure = Systolic - Diastolic
df["Pulse_Pressure"] = (
    df["Systolic blood pressure"] - df["Diastolic blood pressure"]
)

print("\n=== Contoh data setelah feature engineering ===")
display(df[["Systolic blood pressure", "Diastolic blood pressure", "Pulse_Pressure"]].head())


=== Contoh data setelah feature engineering ===


Unnamed: 0,Systolic blood pressure,Diastolic blood pressure,Pulse_Pressure
0,1.468106,0.834169,0.633938
2,1.468106,0.386492,1.081614
5,-0.579856,-1.03115,0.451294
6,2.278758,-0.285023,2.56378
8,1.212111,0.684943,0.527168


Proses feature engineering telah berhasil menambahkan satu fitur baru bernama Pulse_Pressure ke dalam dataset. Fitur ini diciptakan dengan mengurangi nilai Diastolic blood pressure dari Systolic blood pressure, sebuah metode umum dalam bidang medis. Hasilnya, dataset kini memiliki kolom baru yang memuat selisih antara kedua tekanan darah tersebut, seperti yang terlihat pada output, di mana nilai Pulse_Pressure untuk baris pertama (77) adalah hasil dari 160 (Systolic) dikurangi 83 (Diastolic). Penambahan fitur baru ini berpotensi memberikan informasi tambahan yang lebih relevan bagi model machine learning, yang mungkin tidak dapat ditangkap oleh kedua fitur aslinya secara terpisah, sehingga dapat meningkatkan performa model.

# 5. Splitting data ke dalam data training & data testing

In [12]:
X = df.drop("Result", axis=1)   # fitur
y = df["Result"]                # target

X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42, stratify=y
)

print("\n=== Shape data training & testing ===")
print("X_train:", X_train.shape, "X_test:", X_test.shape)
print("y_train:", y_train.shape, "y_test:", y_test.shape)


=== Shape data training & testing ===
X_train: (631, 9) X_test: (158, 9)
y_train: (631,) y_test: (158,)


proses splitting data berhasil memisahkan dataset menjadi data pelatihan (training data) dan data pengujian (testing data). Kolom Result diidentifikasi sebagai variabel target (y), sementara semua kolom lainnya yang tersisa setelah Result dihapus dianggap sebagai fitur (x). Proses pemisahan menggunakan fungsi train_test_split dengan rasio test_size=0.2, yang berarti 20% dari total data dialokasikan untuk pengujian. Hal ini menghasilkan: data pelatihan sebanyak 631 baris dan data pengujian sebanyak 158 baris. Pemisahan ini merupakan langkah krusial dalam pembangunan model machine learning untuk memastikan model diuji pada data yang belum pernah dilihat sebelumnya, sehingga dapat dievaluasi kinerjanya secara objektif.