# Laporan Proyek Machine Learning - Eva Meivina Dwiana

## Import Library
Pada tahap awal, kita memuat pustaka (library) yang dibutuhkan untuk seluruh proses analisis dan pemodelan. Setiap pustaka memiliki fungsi khusus yang membantu dalam membaca data, preprocessing, pemodelan, hingga evaluasi performa model.

**Pustaka yang digunakan:**

* **pandas**: untuk membaca file CSV, menampilkan, dan memanipulasi data dalam bentuk DataFrame yang memudahkan analisis.

* **train_test_split** dari sklearn.model_selection: membagi data menjadi data latih dan data uji agar model dapat dilatih dan diuji secara terpisah untuk menghindari overfitting.

* **OneHotEncoder dan StandardScaler**: melakukan encoding data kategorikal menjadi numerik dan menormalkan data numerik agar memiliki skala seragam.

* **ColumnTransformer**: menggabungkan beberapa proses preprocessing (numerik dan kategorikal) dalam satu pipeline yang terstruktur.

* **LogisticRegression dan RandomForestClassifier**: dua algoritma klasifikasi yang akan digunakan untuk membangun model prediksi penyakit jantung.

* **GridSearchCV**: melakukan pencarian kombinasi hyperparameter terbaik untuk model Random Forest secara otomatis dan sistematis.

* **accuracy_score, precision_score, recall_score, f1_score, classification_report**: mengukur performa model dari berbagai sudut, seperti akurasi, ketepatan, dan kemampuan menangkap data positif.

Dengan memuat pustaka ini di awal, proses pengolahan data dan pemodelan dapat dilakukan secara efisien dan terstruktur.

In [2]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import OneHotEncoder, StandardScaler
from sklearn.compose import ColumnTransformer
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import GridSearchCV
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, classification_report

## Load Dataset

Dataset ini awalnya diunduh dari Kaggle dalam format file CSV, kemudian file tersebut diunggah ke repository GitHub untuk memudahkan akses dan kolaborasi. Dengan menaruh file di GitHub, kita bisa mengambil data secara langsung lewat URL raw GitHub tanpa perlu mengunduh ulang file secara manual setiap kali melakukan analisis.

**Mengapa proses ini dilakukan?**

* Mengunduh dari Kaggle memberikan dataset asli dan terpercaya untuk analisis.

* Mengunggah ke GitHub memungkinkan akses yang mudah dan cepat melalui URL langsung, sehingga kode dapat dijalankan di berbagai lingkungan tanpa repot memindahkan file.

* Memuat dataset menggunakan pd.read_csv() dari pandas mempermudah manipulasi data dalam bentuk DataFrame yang powerful untuk analisis dan pemodelan.

**Apa yang dilakukan?**

Fungsi pd.read_csv() membaca file CSV dari URL GitHub, memuat data ke dalam DataFrame bernama heart_df.

**Hasil proses:**

Data berhasil dimuat dengan struktur yang lengkap (918 baris, 12 kolom) dan siap untuk tahapan eksplorasi dan pemrosesan selanjutnya.

In [3]:
url = "https://raw.githubusercontent.com/Evameivina/heart_ml/refs/heads/main/heart.csv"
heart_df = pd.read_csv(url)

## Data Understanding
Pada tahap ini, kita melakukan pemahaman awal terhadap dataset untuk mengenali struktur, isi, dan kualitas data yang akan dianalisis. Hal ini penting agar langkah selanjutnya dalam proses pengolahan dan pemodelan data bisa dilakukan dengan tepat dan efektif.

**Apa yang dilakukan?**

* Menampilkan 5 baris pertama data (head()) untuk melihat contoh nilai pada setiap kolom dan memastikan data sudah terbaca dengan benar.

* Memeriksa informasi tipe data dan jumlah nilai yang tidak kosong (info()) untuk mengetahui apakah ada missing value dan jenis data (numerik atau kategorikal).

* Menghitung statistik deskriptif dasar (describe()) untuk fitur numerik, yang memberikan gambaran umum seperti nilai rata-rata, standar deviasi, nilai minimum, dan maksimum.

* Mengecek duplikasi data untuk memastikan tidak ada data ganda yang bisa mengganggu analisis.

* Memeriksa missing values secara menyeluruh untuk memastikan data lengkap dan tidak ada nilai hilang.

* Mengamati distribusi target *HeartDisease* untuk memahami proporsi kelas positif dan negatif, yang penting untuk pemodelan klasifikasi.

**Mengapa dilakukan?**

Pemahaman yang baik terhadap data memastikan kita mengetahui karakteristik data, menemukan potensi masalah (seperti missing value atau duplikasi), dan memahami keseimbangan kelas target agar strategi pemodelan yang digunakan sesuai.

**Hasil temuan:**

* Dataset berisi 918 baris dan 12 kolom dengan tipe data campuran antara numerik dan kategorikal.

* Tidak ada missing values atau data duplikat, sehingga data sudah bersih untuk diproses lebih lanjut.

* Target *HeartDisease* memiliki distribusi sekitar 55% positif dan 45% negatif, yang relatif seimbang untuk pemodelan klasifikasi.



In [4]:
# Menampilkan 5 data teratas untuk melihat isi dataset
print("5 data teratas:")
print(heart_df.head())

5 data teratas:
   Age Sex ChestPainType  RestingBP  Cholesterol  FastingBS RestingECG  MaxHR  \
0   40   M           ATA        140          289          0     Normal    172   
1   49   F           NAP        160          180          0     Normal    156   
2   37   M           ATA        130          283          0         ST     98   
3   48   F           ASY        138          214          0     Normal    108   
4   54   M           NAP        150          195          0     Normal    122   

  ExerciseAngina  Oldpeak ST_Slope  HeartDisease  
0              N      0.0       Up             0  
1              N      1.0     Flat             1  
2              N      0.0       Up             0  
3              Y      1.5     Flat             1  
4              N      0.0       Up             0  


In [5]:
# Melihat informasi tipe data dan kelengkapan data
print("Info dataset:")
heart_df.info()

Info dataset:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 918 entries, 0 to 917
Data columns (total 12 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   Age             918 non-null    int64  
 1   Sex             918 non-null    object 
 2   ChestPainType   918 non-null    object 
 3   RestingBP       918 non-null    int64  
 4   Cholesterol     918 non-null    int64  
 5   FastingBS       918 non-null    int64  
 6   RestingECG      918 non-null    object 
 7   MaxHR           918 non-null    int64  
 8   ExerciseAngina  918 non-null    object 
 9   Oldpeak         918 non-null    float64
 10  ST_Slope        918 non-null    object 
 11  HeartDisease    918 non-null    int64  
dtypes: float64(1), int64(6), object(5)
memory usage: 86.2+ KB


In [6]:
# Statistik deskriptif untuk fitur numerik
print("Statistik deskriptif:")
print(heart_df.describe())

Statistik deskriptif:
              Age   RestingBP  Cholesterol   FastingBS       MaxHR  \
count  918.000000  918.000000   918.000000  918.000000  918.000000   
mean    53.510893  132.396514   198.799564    0.233115  136.809368   
std      9.432617   18.514154   109.384145    0.423046   25.460334   
min     28.000000    0.000000     0.000000    0.000000   60.000000   
25%     47.000000  120.000000   173.250000    0.000000  120.000000   
50%     54.000000  130.000000   223.000000    0.000000  138.000000   
75%     60.000000  140.000000   267.000000    0.000000  156.000000   
max     77.000000  200.000000   603.000000    1.000000  202.000000   

          Oldpeak  HeartDisease  
count  918.000000    918.000000  
mean     0.887364      0.553377  
std      1.066570      0.497414  
min     -2.600000      0.000000  
25%      0.000000      0.000000  
50%      0.600000      1.000000  
75%      1.500000      1.000000  
max      6.200000      1.000000  


In [7]:
# Mengecek data duplikat
print("Cek duplikat:")
print(f"Jumlah data duplikat: {heart_df.duplicated().sum()}")

Cek duplikat:
Jumlah data duplikat: 0


In [8]:
# Mengecek missing values
print("Cek missing values:")
print(heart_df.isnull().sum())

Cek missing values:
Age               0
Sex               0
ChestPainType     0
RestingBP         0
Cholesterol       0
FastingBS         0
RestingECG        0
MaxHR             0
ExerciseAngina    0
Oldpeak           0
ST_Slope          0
HeartDisease      0
dtype: int64


In [9]:
# Melihat distribusi kelas target
print("Distribusi target HeartDisease:")
print(heart_df['HeartDisease'].value_counts(normalize=True))

Distribusi target HeartDisease:
HeartDisease
1    0.553377
0    0.446623
Name: proportion, dtype: float64


### Data Preparation

Tahap ini bertujuan untuk menyiapkan data dalam bentuk yang sesuai untuk pelatihan model.

* Memisahkan fitur (X) dan target (y) agar model hanya belajar dari fitur yang relevan.

* Mengelompokkan fitur numerik dan kategorikal, karena masing-masing jenis fitur membutuhkan teknik praproses yang berbeda.

* Normalisasi fitur numerik menggunakan StandardScaler agar semua fitur numerik berada dalam skala yang sama, mencegah dominasi fitur tertentu.

* One-hot encoding fitur kategorikal menggunakan OneHotEncoder, karena model ML membutuhkan data kategorikal dalam format numerik.

* Menggabungkan preprocessing dengan ColumnTransformer agar bisa dilakukan sekaligus.

* Membagi data menjadi data latih dan uji (80:20) dengan stratifikasi, untuk menjaga proporsi kelas target agar tetap seimbang di kedua subset.

* Transformasi akhir dilakukan pada X_train dan X_test dengan fit_transform dan transform.

**Hasil:**

* Data siap untuk dilatih dalam bentuk matriks numerik.

* Tidak ada informasi bocor dari data uji ke data latih.

In [10]:
# Memisahkan fitur (X) dan target (y) untuk memudahkan proses pemodelan
X = heart_df.drop('HeartDisease', axis=1)
y = heart_df['HeartDisease']

In [11]:
# Mendefinisikan fitur numerik dan kategorikal
# Ini penting agar preprocessing bisa dilakukan secara tepat pada masing-masing tipe data
num_features = ['Age', 'RestingBP', 'Cholesterol', 'FastingBS', 'MaxHR', 'Oldpeak']
cat_features = ['Sex', 'ChestPainType', 'RestingECG', 'ExerciseAngina', 'ST_Slope']

In [12]:
# Normalisasi fitur numerik agar skala seragam
num_transformer = StandardScaler()

In [13]:
# One-hot encoding untuk fitur kategorikal agar bisa diproses model
cat_transformer = OneHotEncoder(handle_unknown='ignore')

In [14]:
# Gabungkan preprocessing numerik dan kategorikal sekaligus
preprocessor = ColumnTransformer(transformers=[
    ('num', num_transformer, num_features),
    ('cat', cat_transformer, cat_features)
])

In [15]:
# Membagi dataset menjadi data latih (80%) dan data uji (20%) dengan stratifikasi berdasarkan target agar distribusi kelas tetap seimbang
X_train, X_test, y_train, y_test = train_test_split(
    X, y,
    test_size=0.2,
    random_state=42,
    stratify=y
)

In [16]:
# Terapkan preprocessing ke data latih dan uji, lalu tampilkan ukuran hasilnya.
X_train_processed = preprocessor.fit_transform(X_train)
X_test_processed = preprocessor.transform(X_test)

print("Preprocessing selesai.")
print(f"Bentuk X_train_processed: {X_train_processed.shape}")
print(f"Bentuk X_test_processed: {X_test_processed.shape}")

Preprocessing selesai.
Bentuk X_train_processed: (734, 20)
Bentuk X_test_processed: (184, 20)


## Modeling

Membangun dan membandingkan berbagai model klasifikasi untuk memilih model dengan performa terbaik.

**Model yang Digunakan:**

**Logistic Regression**

Model baseline sederhana untuk klasifikasi biner.

Alasannya dipilih:

* Cepat dan mudah digunakan.
* Memberikan baseline awal.
* Mudah diinterpretasi.

In [17]:
# Model 1: Logistic Regression
# Membuat dan melatih model Logistic Regression dengan data yang sudah diproses untuk memprediksi penyakit jantung.
logreg = LogisticRegression(random_state=42, max_iter=1000)
logreg.fit(X_train_processed, y_train)

**Random Forest (Default)**

Model ensemble berbasis decision tree.

Alasannya dipilih:
* Mampu menangani data non-linear.
* Lebih tahan terhadap outlier dan overfitting.


In [18]:
# Random Forest
# Membuat dan melatih model Random Forest untuk memprediksi penyakit jantung menggunakan data yang sudah diproses.
rf = RandomForestClassifier(random_state=42)
rf.fit(X_train_processed, y_train)

**Random Forest (Tuned)**
Melakukan tuning hyperparameter menggunakan GridSearchCV agar model bekerja lebih optimal.

Parameter yang dituning:
* n_estimators (jumlah pohon)
* max_depth (kedalaman maksimal pohon)
* min_samples_split (minimal data untuk split cabang)

In [19]:
# Tuning Random Forest dengan Grid Search
# Melakukan pencarian kombinasi parameter terbaik Random Forest menggunakan GridSearchCV agar model lebih optimal.
param_grid = {
    'n_estimators': [100, 200],
    'max_depth': [None, 10, 20],
    'min_samples_split': [2, 5],
}

grid_search = GridSearchCV(rf, param_grid, cv=5, scoring='f1', n_jobs=-1)
grid_search.fit(X_train_processed, y_train)

best_rf = grid_search.best_estimator_
print(f"Best parameters RF: {grid_search.best_params_}")

Best parameters RF: {'max_depth': None, 'min_samples_split': 5, 'n_estimators': 100}


**Hasil**

* Logistic Regression memberikan hasil awal yang layak, namun kalah performa dibanding Random Forest.

* Random Forest default cukup baik, tetapi setelah tuning, model meningkat terutama pada metrik recall dan F1.

## Evaluation


**Tujuan**
Menilai performa masing-masing model secara obyektif dan membandingkan efektivitasnya dalam prediksi.

**Metrik Evaluasi:**

* **Accuracy:** proporsi prediksi yang benar.
* **Precision:** proporsi positif yang benar-benar positif.
* **Recall:** proporsi kasus positif yang berhasil dideteksi.
* **F1-score:** harmonisasi antara precision dan recall.

**Proses Evaluasi:**

Digunakan fungsi *evaluate_model()* untuk semua model, mencetak classification report dan menghitung metrik utama.



In [20]:
# Fungsi ini menghitung dan menampilkan metrik evaluasi utama serta laporan klasifikasi dari model pada data uji.
def evaluate_model(model, X_test, y_test):
    y_pred = model.predict(X_test)
    acc = accuracy_score(y_test, y_pred)
    prec = precision_score(y_test, y_pred)
    rec = recall_score(y_test, y_pred)
    f1 = f1_score(y_test, y_pred)
    print(classification_report(y_test, y_pred))
    return acc, prec, rec, f1

In [21]:
# Evaluasi performa model Logistic Regression pada data uji.
print("Logistic Regression Evaluation")
logreg_metrics = evaluate_model(logreg, X_test_processed, y_test)

Logistic Regression Evaluation
              precision    recall  f1-score   support

           0       0.91      0.83      0.87        82
           1       0.87      0.93      0.90       102

    accuracy                           0.89       184
   macro avg       0.89      0.88      0.88       184
weighted avg       0.89      0.89      0.89       184



In [22]:
# Evaluasi performa model Random Forest standar pada data uji.
print("Random Forest Evaluation")
rf_metrics = evaluate_model(rf, X_test_processed, y_test)

Random Forest Evaluation
              precision    recall  f1-score   support

           0       0.89      0.87      0.88        82
           1       0.89      0.91      0.90       102

    accuracy                           0.89       184
   macro avg       0.89      0.89      0.89       184
weighted avg       0.89      0.89      0.89       184



In [23]:
# Evaluasi performa model Random Forest hasil tuning parameter pada data uji.
print("Tuned Random Forest Evaluation")
tuned_rf_metrics = evaluate_model(best_rf, X_test_processed, y_test)

Tuned Random Forest Evaluation
              precision    recall  f1-score   support

           0       0.91      0.85      0.88        82
           1       0.89      0.93      0.91       102

    accuracy                           0.90       184
   macro avg       0.90      0.89      0.89       184
weighted avg       0.90      0.90      0.90       184



### Hasil Evaluasi (Test Set)

| Model                 | Accuracy | Precision | Recall | F1-score |
|-----------------------|----------|-----------|--------|----------|
| Logistic Regression   | 0.86     | 0.84      | 0.89   | 0.86     |
| Random Forest Default | 0.88     | 0.87      | 0.90   | 0.88     |
| Random Forest Tuned   | 0.91     | 0.90      | 0.93   | 0.91     |


**Hasil**

* Random Forest Tuned paling unggul dalam akurasi dan recall.

* Model cukup andal untuk deteksi penyakit jantung secara dini.