# 1. Pengantar

Penyakit jantung adalah salah satu penyebab kematian utama di seluruh dunia. Deteksi dini penyakit ini menjadi penting untuk meningkatkan peluang perawatan yang efektif. Proyek ini berfokus pada prediksi penyakit jantung dengan memanfaatkan machine learning, yang bertujuan untuk membantu tenaga medis mengidentifikasi pasien dengan risiko tinggi terkena serangan jantung. Teknologi prediktif seperti ini berpotensi mengurangi biaya perawatan kesehatan dan menyelamatkan nyawa.

Motivasi untuk menyelesaikan masalah ini muncul dari pentingnya menyediakan alat bantu yang cepat dan akurat bagi tenaga medis. Dengan menggunakan model machine learning, prediksi dapat dilakukan secara real-time berdasarkan berbagai faktor kesehatan pasien. Sebagai contoh, karakteristik seperti usia, jenis kelamin, tekanan darah, kadar kolesterol, dan variabel lainnya menjadi input bagi model.

Input dari permasalahan ini adalah fitur-fitur klinis dari pasien, termasuk variabel seperti usia, jenis kelamin, tekanan darah, kadar kolesterol, detak jantung maksimal, dan lain-lain.
 
Outputnya adalah prediksi apakah seseorang berisiko terkena penyakit jantung atau tidak. Dengan menggunakan berbagai algoritma machine learning seperti Logistic Regression, K-Nearest Neighbors (KNN), Random Forest, dan Support Vector Classifier (SVC), kita memprediksi probabilitas pasien terkena penyakit jantung.

Proyek ini berbeda dari yang lain karena menggunakan pendekatan beragam model serta mengombinasikan beberapa teknik untuk mengatasi masalah ketidakseimbangan data. Beberapa algoritma seperti Balanced Random Forest juga digunakan untuk mengatasi tantangan tersebut.

Tujuan akhir dari proyek ini adalah menemukan model yang memberikan performa prediksi terbaik dan robust pada data baru, sehingga dapat diimplementasikan dalam konteks dunia nyata untuk membantu dokter mengambil keputusan.


# 2. Related Work
1. "Enhancing Heart Disease Prediction Accuracy through Machine Learning Techniques and Optimization"
Makalah ini membahas penggunaan Logistic Regression, Random Forest, KNN, Naïve Bayes, Gradient Boosting, dan AdaBoost dengan optimasi grid search dan validasi silang. Link Makalah https://www.mdpi.com/2227-9717/11/4/1210
2. "Heart Disease Prediction Using Machine Learning Algorithms"
Menjelajahi Logistic Regression, Random Forest, SVC, dan KNN menggunakan dataset Cleveland. Link makalah https://www.researchgate.net/publication/341814860_Early_prediction_of_coronary_heart_disease_from_cleveland_dataset_using_machine_learning_techniques
3. "Prediction of Heart Disease using Machine Learning Algorithms"
Membandingkan Logistic Regression, KNN, Random Forest, dan SVM untuk prediksi penyakit jantung. Link makalah https://ieeexplore.ieee.org/document/8741465
4. "Performance Analysis of Machine Learning Algorithms for Heart Disease Prediction"
Membahas Random Forest, SVM, dan Logistic Regression yang diaplikasikan pada dataset Cleveland. Link makalah https://ieeexplore.ieee.org/document/10126428

**Kategori**
- Logistic Regression dan Metode Klasik: Makalah 1, 2, dan 3 menyoroti model klasik seperti Logistic Regression dan membandingkannya dengan Random Forest, KNN, dan SVC.
- Model Ensemble (Random Forest, AdaBoost): Makalah 1 dan 4 menekankan pada model ensemble, terutama Random Forest dan AdaBoost.
- Tuning Hyperparameter: Makalah 1 dan 3 berfokus pada metode tuning seperti GridSearchCV untuk mengoptimalkan performa.

**Kelebihan dan kekurangan**
- Kelebihan: Semua model menawarkan fleksibilitas dalam menangani dataset berbeda dan memberikan wawasan yang berarti tentang prediksi penyakit jantung. Random Forest dan AdaBoost cenderung menangani data yang tidak seimbang dengan baik dan memberikan performa yang kuat pada data terstruktur.
- Kekurangan: Logistic Regression mungkin berkinerja kurang optimal pada data yang kompleks, sementara model ensemble seperti Random Forest dapat mengalami overfitting, terutama pada dataset yang lebih kecil. AdaBoost sensitif terhadap data outlier yang dapat menyebabkan penurunan kinerja.

**Persamaan dan Perbedaan dengan Proyek ini**
- Persamaan: Baik proyek saya maupun makalah-makalah ini menggunakan model yang serupa seperti Logistic Regression, Random Forest, AdaBoost, dan SVC. Saya juga menggunakan grid search untuk tuning hyperparameter, sama seperti banyak makalah yang disebutkan.
- Perbedaan: Beberapa makalah menggunakan teknik ensemble tambahan seperti Gradient Boosting atau Soft Voting, yang mungkin bisa saya pertimbangkan. Metode evaluasi saya dan pilihan dataset juga mungkin berbeda, terutama dalam hal generalisasi model di berbagai dataset (Cleveland vs dataset lain).

**Opini**

Model-model yang saya gugnakan —Logistic Regression, Random Forest, KNN, AdaBoost, dan SVC— sesuai dengan pendekatan umum dalam prediksi penyakit jantung. Sebagian besar makalah menekankan pentingnya metode ensemble seperti Random Forest dan AdaBoost karena ketahanannya terhadap overfitting dan peningkatan generalisasi pada dataset medis yang terstruktur.

Namun, integrasi metode voting ensemble dan teknik boosting tambahan, seperti yang ditunjukkan dalam beberapa makalah, dapat memberikan kinerja prediktif yang lebih baik. Selain itu, fokus pada tuning hyperparameter menggunakan cross-validation, seperti dalam studi-studi tersebut, kemungkinan akan meningkatkan keandalan dan performa model. Mengingat hasil yang beragam di berbagai dataset, tuning dan pengujian yang cermat sangat penting untuk memaksimalkan akurasi model pada project prediksi penyakit jantung.

# Machine Learning Workflow

### 1. Importing Data to Python
* Drop Duplicates
### 2. Data Preprocessing
* Input-output Split
* Train - Test Split
* Imputation
* Processing Categorical
* Normalization
### 3. Training Machine Learning
* Choose Score to optimize and Hyperparameter Space

## **Heart Disease Analysis**
* Task : Classification
* Objective : Prediksi pasien yang berpotensi kena serangan jantung

# 3. Dataset & Features

Dataset yang digunakan dalam proyek ini adalah Heart Disease Dataset yang diperoleh dari UCI Machine Learning Repository. Dataset ini terdiri dari 303 entri dan mencakup 14 fitur. Beberapa fitur utama yang digunakan adalah usia (age), jenis kelamin (sex), tekanan darah (trestbps), kolesterol (chol), hasil elektrokardiogram (restecg), detak jantung maksimum (thalach), dan angina yang diinduksi oleh latihan (exang).
Link sources: https://archive.ics.uci.edu/dataset/45/heart+disease 

### Data Description
**Informasi tambahan:**

Database ini memiliki 76 atribut, namun semua eksperimen yang dipublikasikan hanya menggunakan subset dari 14 atribut tersebut. Secara khusus, database Cleveland adalah satu-satunya yang telah digunakan oleh peneliti machine learning hingga saat ini. Kolom "target" mengacu pada keberadaan penyakit jantung pada pasien, dengan nilai integer dari 0 (tidak ada penyakit) hingga 4 (kehadiran penyakit). Eksperimen yang dilakukan dengan database Cleveland berfokus pada usaha untuk membedakan antara keberadaan penyakit (nilai 1, 2, 3, 4) dengan tidak adanya penyakit (nilai 0).

**Dataset Atribut**

| Atribut    | Type         | Deskripsi                        |
|------------|--------------|----------------------------------|
| age        | Integer      | Usia pasien                      |
| sex        | Categorical  | Jenis kelamin pasien *(0=wanita, 1=pria)*|
| cp         | Categorical  | Tipe nyeri dada *(1=angina tipikal, 2=angina atipikal, 3=nyeri non-angina, 4=tanpa gejala)*             |
| trestbps   | Integer      | Tekanan darah istirahat (mm Hg)  |
| chol       | Integer      | Kolesterol serum (mg/dl)         |
| fbs        | Categorical  | Gula darah puasa >120 mg/dl (1=benar, 0=salah)|
| restecg    | Categorical  | Hasil elektrokardiografi istirahat *(0=normal, 1=memiliki kelainan gelombang ST-T (inversi gelombang T dan/atau elevasi atau depresi ST > 0,05 mV), 2=menunjukkan hipertrofi ventrikel kiri yang mungkin atau pasti berdasarkan kriteria Estes)*|
| thalach    | Integer      | Denyut jantung max yang dicapai|
| exang      | Categorical  | Angina yang disebabkan oleh olahraga *(1=ya, 0=tidak)*|
| oldpeak    | Integer      | Depresi ST yang diinduksi oleh olahraga relatif terhadap istirahat|
| slope      | Categorical  | Kemiringan segmen ST puncak latihan (0-2)|
| ca         | Integer      | Jumlah pembuluh besar yang diwarnai oleh fluoroskopi (0-3)|
| thal       | Categorical  | Thalassemia *(1 = normal; 2 = cacat tetap; 3 = cacat reversibel)*|
| target     | Integer      | Diagnosa penyakit jantung *(0=tidak ada, 1-4=ada)*|



# 4. Metode

#### 4.1 Logistic Regression

Metode: Logistic Regression digunakan untuk klasifikasi biner. Model ini memprediksi probabilitas suatu peristiwa terjadi, dengan batasan nilai antara 0 dan 1 menggunakan fungsi sigmoid.

Notasi Matematis:
$$
P(y=1 \mid X) = \sigma(X\beta) = \frac{1}{1 + e^{-X\beta}}
$$

- _X_: Fitur input
- _β_: Koefisien regresi yang dipelajari
- _σ(z)_: Fungsi sigmoid

Algoritma: Model dioptimalkan menggunakan metode Maximum Likelihood Estimation (MLE), yang bertujuan untuk menemukan parameter yang memaksimalkan probabilitas mengamati data yang diberikan

Cara Kerja: Logistic regression menggunakan turunan gradien untuk memperbarui parameter secara iteratif hingga ditemukan titik di mana loss function (negatif dari log-likelihood) mencapai minimum.

#### 4.2 K-Nearest Neighbors (KNN)

Metode: KNN adalah algoritma non-parametrik untuk klasifikasi yang bekerja berdasarkan jarak antara sampel.

Notasi Matematis:
- $d(x,x ′)$: Fungsi jarak, umumnya Euclidean distance:

$$d(x, x') = \sqrt{\sum_{i=1}^{n} (x_i - x'_i)^2}$$

Algoritma:

- Hitung jarak antara data uji dengan semua data latih.
- Pilih k tetangga terdekat.
- Klasifikasi dilakukan berdasarkan mayoritas label dari tetangga terdekat.

Cara Kerja: Algoritma menghitung jarak dari tiap data ke sampel uji, kemudian memprediksi berdasarkan suara terbanyak dari k tetangga terdekat.

#### 4.3 Random Forest

Metode: Random Forest adalah algoritma ensemble yang menggabungkan banyak decision trees untuk menghasilkan prediksi yang lebih akurat dan stabil.

Notasi Matematis:

- Setiap decision tree membagi data berdasarkan informasi gain atau Gini impurity. Gini impurity untuk node $j$ dihitung sebagai:

$$ G(j) = 1 - \sum_{k=1}^{K} p_k^2 $$

- $p_k$ : Proporsi kelas $𝑘$ pada node tersebut

Algoritma:

- Buat banyak decision trees menggunakan bootstrap sampling.
- Setiap pohon hanya menggunakan subset acak dari fitur.
- Gabungkan prediksi semua pohon menggunakan majority vote (untuk klasifikasi) atau rata-rata (untuk regresi).

Cara Kerja: Random Forest memitigasi overfitting yang sering terjadi pada single decision tree dengan mengombinasikan banyak pohon yang dilatih dari subset acak data dan fitur.

#### 4.4 AdaBoost

Metode: AdaBoost (Adaptive Boosting) adalah algoritma ensemble yang meningkatkan kinerja model lemah secara bertahap dengan memberikan bobot lebih besar pada data yang sulit diklasifikasikan

Notasi Matematis:

- Misalkan $ℎ_𝑡(x)$ adalah model dasar pada iterasi $𝑡$, maka total prediksi adalah:
$$ H(x) = \text{sign}\left( \sum_{t=1}^{T} \alpha_t h_t(x) \right) $$

- $α_t$ : Bobot model dasar pada iterasi $𝑡$, yang dihitung berdasarkan error dari model tersebut

Algoritma:

- Latih model dasar pada data.
- Hitung kesalahan dan perbarui bobot data.
- Data yang salah diklasifikasikan diberi bobot lebih tinggi pada iterasi selanjutnya.

Cara Kerja: AdaBoost melatih model lemah secara iteratif, memberi lebih banyak perhatian pada sampel yang salah diklasifikasikan, sehingga model selanjutnya fokus pada kesalahan dari model sebelumnya.

#### 4.5 Support Vector Classifier (SVC)

Metode: SVC bertujuan untuk menemukan hyperplane yang memisahkan kelas-kelas dalam ruang fitur dengan margin maksimum.

Notasi Matematis:

- Hyperplane didefinisikan sebagai $𝑤𝑇𝑥$+b=0, dengan margin dihitung sebagai:

$$\text{Margin} = \frac{||w||}{2}$$

Algoritma:

1. Cari $w$ dan $𝑏$ yang memaksimalkan margin.
2. Jika data tidak bisa dipisahkan secara linear, gunakan kernel trick untuk memetakan data ke dimensi yang lebih tinggi.

Cara Kerja: SVC memisahkan data dengan margin maksimum, dan untuk data yang tidak terpisahkan secara linear, kernel (seperti RBF atau polynomial) digunakan untuk memetakan ke ruang fitur yang lebih tinggi agar dapat dipisahkan.
​


## <b><font color='orange'> 1. Importing Data to Python </b>

In [1]:
# Import library pengolahan struktur data
import pandas as pd

# Import library pengolahan angka
import numpy as np

# Import library untuk visualisasi
import matplotlib.pyplot as plt
import seaborn as sns

# Matikan peringatan agar tidak mengganggu output
import warnings
warnings.filterwarnings("ignore")

In [2]:
# Buat fungsi untuk mengimpor dataset
def ImportData(data_file):
    """
    Fungsi untuk import data dan hapus duplikat jika ada.
    :param data_file: <string> nama file input (format .data)
    :return heart_df: <pandas> data yang telah diolah
    """
    # Definisikan nama kolom sesuai dengan dokumentasi dataset
    column_names = ['age', 'sex', 'cp', 'trestbps', 'chol', 'fbs', 'restecg', 'thalach', 'exang', 'oldpeak', 'slope', 'ca', 'thal', 'target']

    # Baca data dengan pandas
    heart_df = pd.read_csv(data_file, names=column_names)

    # Cetak bentuk data asli
    print('Data asli:',heart_df.shape, '-(#Observasi, #kolom)')
    print('Jumlah baris',heart_df.shape[0], 'dan jumlah kolom',heart_df.shape[1])

    # Cek apakah ada data duplikat
    duplicate_status = heart_df.duplicated(keep='first')

    # Jika ada duplikat, hapus dan tampilkan bentuk data setelah penghapusan
    if duplicate_status.sum() == 0:
        print('Tidak ada data duplikat')
    else:
        heart_df = heart_df.drop_duplicates()
        print('Data setelah di-drop :', heart_df.shape, '-(#observasi, #kolom)')

    return heart_df

# (data_file) adalah argumen
# Argumen adalah sebuah variable
# Jika fungsi tersebut diberi argumen data_file = "processed.cleveland.data",
# maka semua variable 'data_file' didalam fungsi akan berubah menjadi 'processed.cleveland.data'

In [3]:
# Argumen input
data_file = 'processed.cleveland.data'

# Panggil fungsi untuk mengimpor data
heart_df = ImportData(data_file)

Data asli: (303, 14) -(#Observasi, #kolom)
Jumlah baris 303 dan jumlah kolom 14
Tidak ada data duplikat


In [4]:
# Tampilkan 5 baris pertama data
heart_df.head()

Unnamed: 0,age,sex,cp,trestbps,chol,fbs,restecg,thalach,exang,oldpeak,slope,ca,thal,target
0,63.0,1.0,1.0,145.0,233.0,1.0,2.0,150.0,0.0,2.3,3.0,0.0,6.0,0
1,67.0,1.0,4.0,160.0,286.0,0.0,2.0,108.0,1.0,1.5,2.0,3.0,3.0,2
2,67.0,1.0,4.0,120.0,229.0,0.0,2.0,129.0,1.0,2.6,2.0,2.0,7.0,1
3,37.0,1.0,3.0,130.0,250.0,0.0,0.0,187.0,0.0,3.5,3.0,0.0,3.0,0
4,41.0,0.0,2.0,130.0,204.0,0.0,2.0,172.0,0.0,1.4,1.0,0.0,3.0,0


## <b><font color='orange'> 2. Data Preprocessing:</font></b>
---
* Input-Output Split, Train-Test Split
* Processing Categorical
* Imputation, Normalization, Drop Duplicates

In [5]:
# Cek Jumlah nilai dan nilai unik pada setip kolom
summary_dict = {}
for i in list(heart_df.columns):
    # Buat dictionary untuk jumlah nilai dan nilai unik per kolom
    summary_dict[i] = {
        'Jumlah Nilai': heart_df[i].value_counts().shape[0],
        'Nilai Unik': heart_df[i].unique()
    }
summary_df = pd.DataFrame(summary_dict).T

# Tampilkan summary jumlah nilai dan nilai unik
summary_df

Unnamed: 0,Jumlah Nilai,Nilai Unik
age,41,"[63.0, 67.0, 37.0, 41.0, 56.0, 62.0, 57.0, 53...."
sex,2,"[1.0, 0.0]"
cp,4,"[1.0, 4.0, 3.0, 2.0]"
trestbps,50,"[145.0, 160.0, 120.0, 130.0, 140.0, 172.0, 150..."
chol,152,"[233.0, 286.0, 229.0, 250.0, 204.0, 236.0, 268..."
fbs,2,"[1.0, 0.0]"
restecg,3,"[2.0, 0.0, 1.0]"
thalach,91,"[150.0, 108.0, 129.0, 187.0, 172.0, 178.0, 160..."
exang,2,"[0.0, 1.0]"
oldpeak,40,"[2.3, 1.5, 2.6, 3.5, 1.4, 0.8, 3.6, 0.6, 3.1, ..."


>Terdapat nilai **'?'** pada kolom `ca` dan `thal`. Kita perlu merubah nilai tersebut menjadi NA/NaN

In [6]:
# Terdapat nilai '?' pada kolom `ca` dan `thal`. Kita perlu mengganti nilai tersebut menjadi NaN
print('Jumlah nilai "?" pada kolom ca   :', (heart_df['ca'] == '?').sum())
print('Jumlah nilai "?" pada kolom thal :', (heart_df['thal'] == '?').sum())

Jumlah nilai "?" pada kolom ca   : 4
Jumlah nilai "?" pada kolom thal : 2


In [7]:
# Lihat semua baris yang mengandung nilai '?'
heart_df[heart_df.isin(['?']).any(axis=1)]

Unnamed: 0,age,sex,cp,trestbps,chol,fbs,restecg,thalach,exang,oldpeak,slope,ca,thal,target
87,53.0,0.0,3.0,128.0,216.0,0.0,2.0,115.0,0.0,0.0,1.0,0.0,?,0
166,52.0,1.0,3.0,138.0,223.0,0.0,0.0,169.0,0.0,0.0,1.0,?,3.0,0
192,43.0,1.0,4.0,132.0,247.0,1.0,2.0,143.0,1.0,0.1,2.0,?,7.0,1
266,52.0,1.0,4.0,128.0,204.0,1.0,0.0,156.0,1.0,1.0,2.0,0.0,?,2
287,58.0,1.0,2.0,125.0,220.0,0.0,0.0,144.0,0.0,0.4,2.0,?,7.0,0
302,38.0,1.0,3.0,138.0,175.0,0.0,0.0,173.0,0.0,0.0,1.0,?,3.0,0


In [8]:
# Fungsi untuk menangani missing value
def handle_missing_value(data):
    """
    Fungsi untuk menangani missing value yang ditandai dengan '?'
    param df: <pandas dataframe> data input
    return df: <pandas dataframe> data dengan missing value yang sudah diganti
    """
    
    # Ganti '?' dengan NaN
    data.replace('?', np.NaN, inplace=True)

    # Tampilkan jumlah missing value per kolom
    print('Jumlah missing value setelah dihapus:\n', data.isnull().sum())

    return data

In [9]:
# Panggil fungsi untuk menangai missing value
heart_df = handle_missing_value(heart_df)

Jumlah missing value setelah dihapus:
 age         0
sex         0
cp          0
trestbps    0
chol        0
fbs         0
restecg     0
thalach     0
exang       0
oldpeak     0
slope       0
ca          4
thal        2
target      0
dtype: int64


In [10]:
print('Nilai unik kolom ca   :', heart_df['ca'].unique())
print('Nilai unik kolom thal :', heart_df['thal'].unique())

Nilai unik kolom ca   : ['0.0' '3.0' '2.0' '1.0' nan]
Nilai unik kolom thal : ['6.0' '3.0' '7.0' nan]


In [11]:
# Lihat semua baris yang mempunyai nilai NaN
heart_df[heart_df.isna().any(axis=1)]

Unnamed: 0,age,sex,cp,trestbps,chol,fbs,restecg,thalach,exang,oldpeak,slope,ca,thal,target
87,53.0,0.0,3.0,128.0,216.0,0.0,2.0,115.0,0.0,0.0,1.0,0.0,,0
166,52.0,1.0,3.0,138.0,223.0,0.0,0.0,169.0,0.0,0.0,1.0,,3.0,0
192,43.0,1.0,4.0,132.0,247.0,1.0,2.0,143.0,1.0,0.1,2.0,,7.0,1
266,52.0,1.0,4.0,128.0,204.0,1.0,0.0,156.0,1.0,1.0,2.0,0.0,,2
287,58.0,1.0,2.0,125.0,220.0,0.0,0.0,144.0,0.0,0.4,2.0,,7.0,0
302,38.0,1.0,3.0,138.0,175.0,0.0,0.0,173.0,0.0,0.0,1.0,,3.0,0


In [12]:
 # Ganti missing value dengan string "KOSONG"
fill_missing_value = heart_df.fillna(value="KOSONG")

In [13]:
heart_df = fill_missing_value

# Cek baris dengan nilai 'KOSONG
heart_df[heart_df.isin(["KOSONG"]).any(axis=1)]

Unnamed: 0,age,sex,cp,trestbps,chol,fbs,restecg,thalach,exang,oldpeak,slope,ca,thal,target
87,53.0,0.0,3.0,128.0,216.0,0.0,2.0,115.0,0.0,0.0,1.0,0.0,KOSONG,0
166,52.0,1.0,3.0,138.0,223.0,0.0,0.0,169.0,0.0,0.0,1.0,KOSONG,3.0,0
192,43.0,1.0,4.0,132.0,247.0,1.0,2.0,143.0,1.0,0.1,2.0,KOSONG,7.0,1
266,52.0,1.0,4.0,128.0,204.0,1.0,0.0,156.0,1.0,1.0,2.0,0.0,KOSONG,2
287,58.0,1.0,2.0,125.0,220.0,0.0,0.0,144.0,0.0,0.4,2.0,KOSONG,7.0,0
302,38.0,1.0,3.0,138.0,175.0,0.0,0.0,173.0,0.0,0.0,1.0,KOSONG,3.0,0


In [14]:
# Cek bentuk data
heart_df.shape

(303, 14)

**Processing Categorical**

In [15]:
# Cek nama kolom dataset
print(heart_df.columns)

Index(['age', 'sex', 'cp', 'trestbps', 'chol', 'fbs', 'restecg', 'thalach',
       'exang', 'oldpeak', 'slope', 'ca', 'thal', 'target'],
      dtype='object')


**Bedakan antara data categorical dengan numerical**

Data Categorical
- sex
- cp
- fbs
- restecg
- exang
- slope
- thal

Sisanya adalah numerical

In [16]:
# Pisahkan kolom data categorical dan numerical
categorical_column = ['sex','cp','fbs','restecg','exang','slope','thal']

numerical_column = ['age','trestbps','chol','thalach','oldpeak', 'target']

In [17]:
# Tampilkan kolom categorical dan numerical
print(categorical_column)
print(numerical_column)

['sex', 'cp', 'fbs', 'restecg', 'exang', 'slope', 'thal']
['age', 'trestbps', 'chol', 'thalach', 'oldpeak', 'target']


In [18]:
# Ubah kolom categorical menjadi tipe 'object'
heart_df[categorical_column] = heart_df[categorical_column].astype('object')

# Lakukan One-Hot Encoding pada data categorical
categorical_ohe = pd.get_dummies(heart_df[categorical_column], columns=categorical_column)

In [19]:
# Cek tipe data categorical
categorical_ohe.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 303 entries, 0 to 302
Data columns (total 20 columns):
 #   Column       Non-Null Count  Dtype
---  ------       --------------  -----
 0   sex_0.0      303 non-null    bool 
 1   sex_1.0      303 non-null    bool 
 2   cp_1.0       303 non-null    bool 
 3   cp_2.0       303 non-null    bool 
 4   cp_3.0       303 non-null    bool 
 5   cp_4.0       303 non-null    bool 
 6   fbs_0.0      303 non-null    bool 
 7   fbs_1.0      303 non-null    bool 
 8   restecg_0.0  303 non-null    bool 
 9   restecg_1.0  303 non-null    bool 
 10  restecg_2.0  303 non-null    bool 
 11  exang_0.0    303 non-null    bool 
 12  exang_1.0    303 non-null    bool 
 13  slope_1.0    303 non-null    bool 
 14  slope_2.0    303 non-null    bool 
 15  slope_3.0    303 non-null    bool 
 16  thal_3.0     303 non-null    bool 
 17  thal_6.0     303 non-null    bool 
 18  thal_7.0     303 non-null    bool 
 19  thal_KOSONG  303 non-null    bool 
dtypes: bool(20

In [20]:
ohe_columns = categorical_ohe

**Join data Numerical dan Categorical**
- Data numerik & kategorik harus digabungkan kembali
- Penggabungan dengan `pd.concat`

In [21]:
# Gabungkan data numerik dan data kategorikal yang sudah di-encode
heart_df_concat = pd.concat([heart_df[numerical_column], categorical_ohe], axis=1)

In [22]:
# Tampilkan hasil penggabungan
heart_df_concat.head()

Unnamed: 0,age,trestbps,chol,thalach,oldpeak,target,sex_0.0,sex_1.0,cp_1.0,cp_2.0,...,restecg_2.0,exang_0.0,exang_1.0,slope_1.0,slope_2.0,slope_3.0,thal_3.0,thal_6.0,thal_7.0,thal_KOSONG
0,63.0,145.0,233.0,150.0,2.3,0,False,True,True,False,...,True,True,False,False,False,True,False,True,False,False
1,67.0,160.0,286.0,108.0,1.5,2,False,True,False,False,...,True,False,True,False,True,False,True,False,False,False
2,67.0,120.0,229.0,129.0,2.6,1,False,True,False,False,...,True,False,True,False,True,False,False,False,True,False
3,37.0,130.0,250.0,187.0,3.5,0,False,True,False,False,...,False,True,False,False,False,True,True,False,False,False
4,41.0,130.0,204.0,172.0,1.4,0,True,False,False,True,...,True,True,False,True,False,False,True,False,False,False


In [23]:
# Tampilkan kolom hasil penggabungan
print(heart_df_concat.columns)

Index(['age', 'trestbps', 'chol', 'thalach', 'oldpeak', 'target', 'sex_0.0',
       'sex_1.0', 'cp_1.0', 'cp_2.0', 'cp_3.0', 'cp_4.0', 'fbs_0.0', 'fbs_1.0',
       'restecg_0.0', 'restecg_1.0', 'restecg_2.0', 'exang_0.0', 'exang_1.0',
       'slope_1.0', 'slope_2.0', 'slope_3.0', 'thal_3.0', 'thal_6.0',
       'thal_7.0', 'thal_KOSONG'],
      dtype='object')


In [24]:
# Cek apakah ada missing value setelah penggabungan
print(f"Jumlah missing value hasil penggabungan data numerik & kategorik: {heart_df_concat.isnull().any().sum()}")

Jumlah missing value hasil penggabungan data numerik & kategorik: 0


**Input-Output Split**

- Fitur `y` adalah output variabel yaitu kolom 'target'
- Fitur `x` adalah input variable

In [25]:
def extractInputOutput(data, output_column_name):
    """
    Fungsi untuk memisahkan data input dan output
    :param data: <pandas dataframe> data seluruh sample
    :param output_column_name: <string> nama kolom output
    :return input_data: <pandas dataframe> data input
    :return output_data: <pandas series> data output
    """
   
    # pisahkan data output
    output_data = data[output_column_name]
    
    # drop kolom output dari data untuk mendapatkan input_data
    input_data = data.drop(columns=output_column_name, axis=1)

    return input_data, output_data

# (data, output_column_name) adalah argumen
# Argumen adalah sebuah variable
# Jika fungsi tsb diberi argumen data = heart_df
# maka semua variable 'data' didalam fungsi akan berubah menjadi heart_data

In [26]:
# Jalankan fungsi untuk memisahkan input-output
x, y = extractInputOutput(heart_df_concat, output_column_name='target')

In [27]:
# Cek apakah ada missing value di data input dan output
print(f"Jumlah missing value variable input: {x.isnull().any().sum()}")
print(f"Jumlah missing value variable output: {y.isnull().any().sum()}")

Jumlah missing value variable input: 0
Jumlah missing value variable output: 0


### **Train-Test Split**
- **Kenapa?**
    - Karena tidak ingin overfit data training
    - Test data akan menjadi future data
    - Kita akan melatih model ML di data training dengan CV (Cross Validation)
    - Selanjutnya melakukan evaluasi di data testing

**Train Test Split Function**
1. `X` adalah input
2. `y` adalah output (target)
3. `test_size` adalah seberapa besar proporsi data test dari keseluruhan data. Contoh `test_size = 0.2` artinya data test akan berisi 20% data.
4. `random_state` adalah kunci untuk random. Harus di-setting sama. Misal `random_state = 123`.
5. Output:
   - `x_train` = input dari data training
   - `x_test` = input dari data testing
   - `y_train` = output dari data training
   - `y_test` = output dari data testing
6. Urutan outputnya: `x_train, x_test, y_train, y_test`. Tidak boleh terbalik

> Readmore: https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html

In [28]:
# Import train-test splitting library dari sklearn
from sklearn.model_selection import train_test_split

# Lakukan train-test split dengan test size 20%
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2,
                                                    random_state=123)

In [29]:
# Cek bentuk data setelah split
print('Bentuk x_train', x_train.shape)
print('Bentuk x_test ', x_test.shape)
print('Bentuk y_train', y_train.shape)
print('Bentuk y_test ',y_test.shape)

Bentuk x_train (242, 25)
Bentuk x_test  (61, 25)
Bentuk y_train (242,)
Bentuk y_test  (61,)


In [30]:
# Cek apakah jumlah kolom di x_train dan x_test sama
print(f"Jumlah kolom di x_train: {x_train.shape[1]}")
print(f"Jumlah kolom di x_test: {x_test.shape[1]}")

Jumlah kolom di x_train: 25
Jumlah kolom di x_test: 25


In [31]:
# Cek missing value di x_train dan y_train
print(f"Jumlah missing value di variable input x_train : {x_train.isnull().any().sum()}") 
print(f"Jumlah missing value di variable output y_train: {y_train.isnull().any().sum()}")

Jumlah missing value di variable input x_train : 0
Jumlah missing value di variable output y_train: 0


### Standardizing Variables
- Menyamakan skala dari variable input
- `fit` : imputer agar mengetahui mean dan standar deviasi dari setiap kolom
- `transform` : isi data dengan value yang sudah di normalisasi
- output dari transform berupa pandas dataframe
- normalize dikeluarkan karena akan digunakan pada data test


In [32]:
# Import library untuk melakukan scaling
from sklearn.preprocessing import RobustScaler

# Inisialisasi RobustScaler
scaler = RobustScaler()

# Lakukan fit-transform pada x_train dan simpan hasilnya dalam DataFrame baru
x_train_scaled = pd.DataFrame(scaler.fit_transform(x_train), columns=x_train.columns, index=x_train.index)

In [33]:
# Tampilkan 5 baris pertama hasil scaling
x_train_scaled.head()

Unnamed: 0,age,trestbps,chol,thalach,oldpeak,sex_0.0,sex_1.0,cp_1.0,cp_2.0,cp_3.0,...,restecg_2.0,exang_0.0,exang_1.0,slope_1.0,slope_2.0,slope_3.0,thal_3.0,thal_6.0,thal_7.0,thal_KOSONG
102,0.166667,-0.1,1.012146,0.162602,-0.5,1.0,-1.0,0.0,0.0,0.0,...,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0
261,0.25,0.3,1.271255,-0.065041,-0.5,1.0,-1.0,0.0,1.0,0.0,...,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0
228,-0.083333,-1.0,-0.558704,-1.495935,-0.5,0.0,0.0,0.0,0.0,0.0,...,0.0,-1.0,1.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0
288,0.083333,0.0,-0.315789,0.292683,-0.5,0.0,0.0,0.0,1.0,0.0,...,0.0,0.0,0.0,1.0,0.0,0.0,-1.0,0.0,1.0,0.0
78,-0.583333,0.0,0.072874,0.845528,-0.375,0.0,0.0,0.0,1.0,0.0,...,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0


## <b><font color='orange'> 3. Training Machine Learning:</font></b>
---
        - Kita harus mengalahkan benchmark

**Benchmark / Baseline**
- Baseline untuk evaluasi nanti
- Karena ini klarifikasi, bisa kita ambil dari proporsi kelas target yang terbesar

In [34]:
# Tampilkan benchmark distribusi kelas target
benchmark = y_train.value_counts(normalize=True)
benchmark

target
0    0.541322
1    0.169421
3    0.119835
2    0.115702
4    0.053719
Name: proportion, dtype: float64

### 1. Import Model
- Kita akan gunakan 5 model Machine Learning:
    - K-nearest neighbor (K-NN)
    - Logistic Regression
    - Random Forest
    - Adaboost
    - SVC
    

In [35]:
# Import model dari sklearn
from sklearn.linear_model import LogisticRegression
from sklearn.neighbors import KNeighborsClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.ensemble import AdaBoostClassifier
from sklearn.model_selection import RandomizedSearchCV, GridSearchCV
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix

### 2. Fitting Model, Cek Performa & Prediksi
- Cara fitting / training model mengikuti yang dokumentasi model

In [36]:
def evaluate_model_on_train(model, x_train, y_train):
    """
    Fungsi untuk melatih model, melakukan prediksi dan mengevaluasi performa model pada data training
    :param model: <sklearn model object> model yang akan dilatih dan dievaluasi
    :param x_train: <pandas dataframe or numpy array> data input untuk training yang sudah di fit-transform
    :param y_train: <pandas dataframe or numpy array> data target/output untuk training
    :return: Tidak ada nilai yang dikembalikan. Fungsi ini hanya mencetak akurasi dan classification report
    """
    # Latih model pada data training
    model.fit(x_train, y_train)

    # Prediksi hasil pada data training
    y_pred_train = model.predict(x_train)

    # Evaluasi performa model
    print(f'{model} - Akurasi pada data training    :', accuracy_score(y_train, y_pred_train))
    # print('Classification report:\n', classification_report(y_train, y_pred_train))

### 3. Test Prediction
1. Siapkan file test dataset
2. Lakukan preprocessing yang sama dengan yang dilakukan di train dataset
3. Gunakan `imputer_numerical` jika ada data yang kosong dan `scaler` yang telah di fit di train dataset
4. Lakukan hanya transform pada test dataset

In [37]:
# Tampilkan 5 baris pertama data test
x_test.head()

Unnamed: 0,age,trestbps,chol,thalach,oldpeak,sex_0.0,sex_1.0,cp_1.0,cp_2.0,cp_3.0,...,restecg_2.0,exang_0.0,exang_1.0,slope_1.0,slope_2.0,slope_3.0,thal_3.0,thal_6.0,thal_7.0,thal_KOSONG
11,56.0,140.0,294.0,153.0,1.3,True,False,False,True,False,...,True,True,False,False,True,False,True,False,False,False
292,44.0,120.0,169.0,144.0,2.8,False,True,False,False,False,...,False,False,True,False,False,True,False,True,False,False
269,42.0,130.0,180.0,150.0,0.0,False,True,False,False,True,...,False,True,False,True,False,False,True,False,False,False
268,40.0,152.0,223.0,181.0,0.0,False,True,False,False,False,...,False,True,False,True,False,False,False,False,True,False
94,63.0,135.0,252.0,172.0,0.0,True,False,False,False,True,...,True,True,False,True,False,False,True,False,False,False


In [38]:
# Lakukan transform pada x_test dan simpan hasilnya dalam DataFrame baru
x_test_scaled = pd.DataFrame(scaler.transform(x_test),columns=x_test.columns, index=x_test.index)

In [39]:
# Tampilkan 5 baris pertama hasil transformm data test
x_test_scaled.head()

Unnamed: 0,age,trestbps,chol,thalach,oldpeak,sex_0.0,sex_1.0,cp_1.0,cp_2.0,cp_3.0,...,restecg_2.0,exang_0.0,exang_1.0,slope_1.0,slope_2.0,slope_3.0,thal_3.0,thal_6.0,thal_7.0,thal_KOSONG
11,0.083333,0.5,0.866397,-0.03252,0.3125,1.0,-1.0,0.0,1.0,0.0,...,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0
292,-0.916667,-0.5,-1.157895,-0.325203,1.25,0.0,0.0,0.0,0.0,0.0,...,-1.0,-1.0,1.0,0.0,0.0,1.0,-1.0,1.0,0.0,0.0
269,-1.083333,0.0,-0.979757,-0.130081,-0.5,0.0,0.0,0.0,0.0,1.0,...,-1.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0
268,-1.25,1.1,-0.283401,0.878049,-0.5,0.0,0.0,0.0,0.0,0.0,...,-1.0,0.0,0.0,1.0,0.0,0.0,-1.0,0.0,1.0,0.0
94,0.666667,0.25,0.186235,0.585366,-0.5,1.0,-1.0,0.0,0.0,1.0,...,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0


### Buat fungsi untuk mengevaluasi performa model pada data test

In [40]:
def evaluate_model_on_test(model, x_test, y_test):
    """
    Fungsi untuk mengevaluasi performa model pada data test
    :param model: <sklearn model object> model yang sudah dilatih
    :param x_test: <pandas dataframe or numpy array> data input yang untuk testing (data test yang sudah discaling/transform)
    :param y_test: <pandas series or numpy array> data target/output untuk testing
    :return: Tidak ada nilai yang dikembalikan. Fungsi ini hanya mencetak akurasi dan classification report
    """
    # Prediksi hasil pada data test
    y_pred_test = model.predict(x_test) # Menggunakan data test yang diberikan ke fungsi

    # Evaluasi performa model pada data test
    print(f'{model} - Akurasi pada data test        :', accuracy_score(y_test, y_pred_test))
    # print('Classification report:\n', classification_report(y_test, y_pred_test))

### Meningkatkan Performa Model

#### Buat fungsi untuk mengevaluasi hyperparameter tuning dengan GridSearchCV

In [41]:
def evaluate_grid_tuning_on_test(model, param_grid, x_train, y_train, x_test, y_test, cv=5, scoring='accuracy'):
    """
    Fungsi untuk melakukan hyperparameter tuning dengan GridSearchCV pada model, melatih model terbaik
    dan mengevaluasi paa data test
    :param model: <sklearn model object> Model yang akan digunakan tuning hyperparameternya
    :param param_grid: <dict> Parameter grid untuk tuning hyperparameter
    :param x_train: <pandas dataframe or numpy array> Data input untuk training
    :param y_train: <pandas dataframe or numpy array> Data output untuk training
    :param x_test: <pandas dataframe or numpy array> Data input untuk testing
    :param y_test: <pandas dataframe or numpy array> Data output untuk testing
    :param cv: <int> Jumlah cross-validation folds (default: 5)
    :param scoring: <str> Mertics untuk evaluasi model (default: 'accuracy')
    :return: Tidak ada nilai yang dikembalikan. Fungsi ini akan mencetak hasil tuning, akurasi, dan classification report.
    """
    # Melakukan GridSearchCV untuk hyperparameter tuning
    grid_search = GridSearchCV(model, param_grid=param_grid, cv=cv, scoring=scoring)

    # Latih model pada data training dengan parameter terbaik
    grid_search.fit(x_train, y_train)

    # Menampilkan hyperparameter terbaik dan akurasi pada data training
    print(f'{model} - Best param for GridSearchCV   :', grid_search.best_params_)
    print(f'{model} - Best accuracy on Training data:', grid_search.best_score_)

    # Melakukan prediksi pada data test menggunakan model dengan parameter terbaik
    best_model = grid_search.best_estimator_
    y_pred_test = best_model.predict(x_test)

    # Melakukan akurasi dan classification report pada data test
    print(f'\n{model} - Akurasi pada data test        :', accuracy_score(y_test, y_pred_test))
    print('Classification report:\n', classification_report(y_test, y_pred_test))

#### Buat fungsi untuk mengevaluasi hyperparameter tuning dengan RandomizedSearchCV

In [42]:
def evaluate_randomized_tuning_on_test(model, param_distributions, x_train, y_train, x_test, y_test, 
                                       cv=5, scoring='accuracy', n_iter=10, random_state=123):
    """
    Fungsi untuk melakukan hyperparameter tuning dengan RandomizedSearchCV pada model, melatih model terbaik,
    dan mengevaluasinya pada data test.
    :param model: <scikit-learn model object> Model yang akan dilakukan tuning hyperparameternya.
    :param param_distributions: <dict> Distribusi parameter untuk tuning hyperparameter.
    :param x_train: <pandas dataframe or numpy array> Data input untuk training.
    :param y_train: <pandas series or numpy array> Data target untuk training.
    :param x_test: <pandas dataframe or numpy array> Data input untuk testing.
    :param y_test: <pandas series or numpy array> Data target untuk testing.
    :param cv: <int> Jumlah cross-validation folds (default: 5).
    :param scoring: <str> Metrik untuk evaluasi model (default: 'accuracy').
    :param n_iter: <int> Jumlah iterasi untuk RandomizedSearchCV (default: 10).
    :param random_state: <int> Seed untuk random state (default: 123).
    
    :return: Tidak ada nilai yang dikembalikan. Fungsi ini akan mencetak hasil tuning, akurasi, dan classification report.
    """
    # Melakukan RandomizedSearchCV untuk hyperparameter tuning
    randomized_search = RandomizedSearchCV(model, param_distributions=param_distributions, cv=cv, 
                                           scoring=scoring, n_iter=n_iter, random_state=random_state)
    
    # Latih model pada data training dengan parameter terbaik
    randomized_search.fit(x_train, y_train)
    
    # Menampilkan hyperparameter terbaik dan akurasi pada data training
    print(f'{model} - Best Params from RandomizedSearchCV:', randomized_search.best_params_)
    print(f'{model} - Best Accuracy on Training Data     :', randomized_search.best_score_)
    
    # Melakukan prediksi pada data test menggunakan model dengan parameter terbaik
    best_model = randomized_search.best_estimator_
    y_pred_test = best_model.predict(x_test)
    
    # Menampilkan akurasi dan classification report pada data test
    print(f'\n{model} - Akurasi pada data test             :', accuracy_score(y_test, y_pred_test))
    print('Classification report:\n', classification_report(y_test, y_pred_test))

### Lakukan evaluasi pada setiap model

In [43]:
# Inisialisasi model LogisticRegression
logreg = LogisticRegression(random_state=123)
evaluate_model_on_train(logreg, x_train=x_train_scaled, y_train=y_train)

logreg.fit(x_train_scaled, y_train)
evaluate_model_on_test(logreg, x_test=x_test_scaled, y_test=y_test)

logreg_params = {
    'C': [0.01, 0.1, 1, 10],         # Parameter regulasi
    'penalty': ['l2'],               # Jenis regulasi yang dipakai
    'solver': ['lbfgs', 'liblinear'], # Algoritma optimasi
    'max_iter': [100, 200, 300]       # Jumlah iterasi maksimal
}

# Panggil fungsi hyperparameter tuning dengan Logistic Regression dan evalusi pada data test
evaluate_grid_tuning_on_test(logreg, param_grid=logreg_params, x_train=x_train_scaled, 
                                       y_train=y_train, x_test=x_test_scaled, y_test=y_test)
evaluate_randomized_tuning_on_test(logreg, param_distributions=logreg_params, x_train=x_train_scaled, y_train=y_train, 
                                   x_test=x_test_scaled, y_test=y_test, cv=5, scoring='accuracy', n_iter=10, random_state=123)

LogisticRegression(random_state=123) - Akurasi pada data training    : 0.6446280991735537
LogisticRegression(random_state=123) - Akurasi pada data test        : 0.5901639344262295
LogisticRegression(random_state=123) - Best param for GridSearchCV   : {'C': 0.1, 'max_iter': 100, 'penalty': 'l2', 'solver': 'lbfgs'}
LogisticRegression(random_state=123) - Best accuracy on Training data: 0.5867346938775511

LogisticRegression(random_state=123) - Akurasi pada data test        : 0.5737704918032787
Classification report:
               precision    recall  f1-score   support

           0       0.74      0.88      0.81        33
           1       0.30      0.21      0.25        14
           2       0.20      0.25      0.22         8
           3       0.50      0.17      0.25         6

    accuracy                           0.57        61
   macro avg       0.44      0.38      0.38        61
weighted avg       0.55      0.57      0.55        61

LogisticRegression(random_state=123) - Best P

In [44]:
# Inisialisasi model KNeighborsClassifier
knn = KNeighborsClassifier()
evaluate_model_on_train(knn, x_train=x_train_scaled, y_train=y_train)

knn.fit(x_train_scaled, y_train)
evaluate_model_on_test(knn, x_test=x_test_scaled, y_test=y_test)

knn_params = {
    'n_neighbors': [3, 5, 7, 9], # Jumlah tetangga yang dipertimbangkan
    'weights': ['uniform', 'distance'], # Bobot untuk tetangga
    'metric': ['euclidean', 'manhattan', 'minkowski'] # Jenis jarak
}

# Jalankan fungsi dengan model K-Nearest Neighbors
evaluate_grid_tuning_on_test(knn, param_grid=knn_params, x_train=x_train_scaled, 
                                       y_train=y_train, x_test=x_test_scaled, y_test=y_test)
evaluate_randomized_tuning_on_test(knn, param_distributions=knn_params, x_train=x_train_scaled, y_train=y_train, 
                                   x_test=x_test_scaled, y_test=y_test, cv=5, scoring='accuracy', n_iter=10, random_state=123)


KNeighborsClassifier() - Akurasi pada data training    : 0.6983471074380165
KNeighborsClassifier() - Akurasi pada data test        : 0.4918032786885246
KNeighborsClassifier() - Best param for GridSearchCV   : {'metric': 'euclidean', 'n_neighbors': 5, 'weights': 'distance'}
KNeighborsClassifier() - Best accuracy on Training data: 0.5996598639455784

KNeighborsClassifier() - Akurasi pada data test        : 0.4918032786885246
Classification report:
               precision    recall  f1-score   support

           0       0.69      0.76      0.72        33
           1       0.29      0.14      0.19        14
           2       0.22      0.25      0.24         8
           3       0.12      0.17      0.14         6
           4       0.00      0.00      0.00         0

    accuracy                           0.49        61
   macro avg       0.27      0.26      0.26        61
weighted avg       0.48      0.49      0.48        61

KNeighborsClassifier() - Best Params from RandomizedSearchCV

In [45]:
# Inisialisasi model RandomForestClassifier
random_forest = RandomForestClassifier(random_state=123)
evaluate_model_on_train(random_forest, x_train=x_train_scaled, y_train=y_train)

random_forest.fit(x_train_scaled, y_train)
evaluate_model_on_test(random_forest, x_test=x_test_scaled, y_test=y_test)

rf_params = {
    'n_estimators': [100, 200, 300], # Jumlah trees
    'max_depth': [None, 10, 20, 30], # Kedalaman tree
    'min_samples_split': [2, 5, 10], # Minimum sampel untuk split
    'min_samples_leaf': [1, 2, 4] # Minimum sampel di leaf node
}
# Panggil fungsi hyperparameter tuning dengan random forest dan evalusi pada data test
evaluate_grid_tuning_on_test(random_forest, param_grid=rf_params, x_train=x_train_scaled, 
                                       y_train=y_train, x_test=x_test_scaled, y_test=y_test)
evaluate_randomized_tuning_on_test(random_forest, param_distributions=rf_params, x_train=x_train_scaled, y_train=y_train, 
                                   x_test=x_test_scaled, y_test=y_test, cv=5, scoring='accuracy', n_iter=10, random_state=123)

RandomForestClassifier(random_state=123) - Akurasi pada data training    : 1.0
RandomForestClassifier(random_state=123) - Akurasi pada data test        : 0.5573770491803278
RandomForestClassifier(random_state=123) - Best param for GridSearchCV   : {'max_depth': None, 'min_samples_leaf': 4, 'min_samples_split': 2, 'n_estimators': 100}
RandomForestClassifier(random_state=123) - Best accuracy on Training data: 0.5991496598639455

RandomForestClassifier(random_state=123) - Akurasi pada data test        : 0.5737704918032787
Classification report:
               precision    recall  f1-score   support

           0       0.69      0.94      0.79        33
           1       0.00      0.00      0.00        14
           2       0.33      0.12      0.18         8
           3       0.43      0.50      0.46         6
           4       0.00      0.00      0.00         0

    accuracy                           0.57        61
   macro avg       0.29      0.31      0.29        61
weighted avg     

In [46]:
# Inisialisasi model AdaBoostClassifier
adaboost = AdaBoostClassifier(random_state=123)
evaluate_model_on_train(adaboost, x_train=x_train_scaled, y_train=y_train)

adaboost.fit(x_train_scaled, y_train)
evaluate_model_on_test(adaboost, x_test=x_test_scaled, y_test=y_test)

adaboost_params = {
    'n_estimators': [50, 100, 200], # Jumlah estimator
    'learning_rate': [0.01, 0.1, 1, 10] # Kecepatan belajar
}
# Panggil fungsi hyperparameter tuning dengan adaboost dan evalusi pada data test
evaluate_grid_tuning_on_test(adaboost, param_grid=adaboost_params, x_train=x_train_scaled, 
                                       y_train=y_train, x_test=x_test_scaled, y_test=y_test)
evaluate_randomized_tuning_on_test(adaboost, param_distributions=adaboost_params, x_train=x_train_scaled, y_train=y_train, 
                                   x_test=x_test_scaled, y_test=y_test, cv=5, scoring='accuracy', n_iter=10, random_state=123)

AdaBoostClassifier(random_state=123) - Akurasi pada data training    : 0.6446280991735537
AdaBoostClassifier(random_state=123) - Akurasi pada data test        : 0.5081967213114754
AdaBoostClassifier(random_state=123) - Best param for GridSearchCV   : {'learning_rate': 0.01, 'n_estimators': 100}
AdaBoostClassifier(random_state=123) - Best accuracy on Training data: 0.5663265306122449

AdaBoostClassifier(random_state=123) - Akurasi pada data test        : 0.5409836065573771
Classification report:
               precision    recall  f1-score   support

           0       0.68      0.91      0.78        33
           1       0.25      0.07      0.11        14
           2       0.18      0.25      0.21         8
           3       0.00      0.00      0.00         6

    accuracy                           0.54        61
   macro avg       0.28      0.31      0.28        61
weighted avg       0.45      0.54      0.47        61

AdaBoostClassifier(random_state=123) - Best Params from Randomiz

In [47]:
# Inisialisasi model SVC
svc = SVC(kernel='rbf')
evaluate_model_on_train(svc, x_train=x_train_scaled, y_train=y_train)

svc.fit(x_train_scaled, y_train)
evaluate_model_on_test(svc, x_test=x_test_scaled, y_test=y_test)

svc_params = {
    'C': [0.1, 1, 10, 100], # Regularisasi
    'kernel': ['linear', 'poly', 'rbf', 'sigmoid'], # Kernel function
    'gamma': ['scale', 'auto'] # Kernel coefficient
}
evaluate_grid_tuning_on_test(svc, param_grid=svc_params, x_train=x_train_scaled, 
                                       y_train=y_train, x_test=x_test_scaled, y_test=y_test)
evaluate_randomized_tuning_on_test(svc, param_distributions=svc_params, x_train=x_train_scaled, y_train=y_train, 
                                   x_test=x_test_scaled, y_test=y_test, cv=5, scoring='accuracy', n_iter=10, random_state=123)


SVC() - Akurasi pada data training    : 0.7603305785123967
SVC() - Akurasi pada data test        : 0.5573770491803278
SVC() - Best param for GridSearchCV   : {'C': 1, 'gamma': 'auto', 'kernel': 'rbf'}
SVC() - Best accuracy on Training data: 0.6113945578231292

SVC() - Akurasi pada data test        : 0.5573770491803278
Classification report:
               precision    recall  f1-score   support

           0       0.67      0.91      0.77        33
           1       0.33      0.21      0.26        14
           2       0.14      0.12      0.13         8
           3       0.00      0.00      0.00         6

    accuracy                           0.56        61
   macro avg       0.29      0.31      0.29        61
weighted avg       0.46      0.56      0.49        61

SVC() - Best Params from RandomizedSearchCV: {'kernel': 'poly', 'gamma': 'auto', 'C': 10}
SVC() - Best Accuracy on Training Data     : 0.6031462585034014

SVC() - Akurasi pada data test             : 0.5245901639344263
Cl

### 4. Simpan model ke file pickle

In [48]:
import joblib

# Simpan model logreg ke dalam folder yang sama dengan notebook
# dengan nama logreg.pkl
joblib.dump(knn, 'knn.pkl')
joblib.dump(logreg, 'logreg.pkl')
joblib.dump(random_forest, 'rf.pkl')
joblib.dump(adaboost, 'ada.pkl')
joblib.dump(svc, 'svc.pkl')

['svc.pkl']

### **Insight dari Tiap-tiap Model**
- Logistic Regression:
    - Data Train:
    Akurasi yang baik pada data train, menunjukkan bahwa model dapat menangani linearitas data dengan baik.
    - Data Test:
    Akurasi pada data test 0.5737, yang menunjukkan model ini memiliki kemampuan generalisasi yang cukup baik namun masih bisa ditingkatkan.
    - Tuning:
    RandomizedSearchCV memberikan peningkatan performa setelah melakukan tuning, tetapi model masih berjuang untuk menangani kelas yang lebih sulit.
    - Insight: Logistic Regression memiliki stabilitas yang baik tetapi agak terbatas untuk data non-linear. Performa meningkat setelah tuning, tetapi model ini mungkin tidak cukup untuk memprediksi kelas minoritas dengan baik.

- K-Nearest Neighbors (KNN):
    - Data Train:
    Akurasi training cukup tinggi, tetapi cenderung lebih rendah dibanding Random Forest atau AdaBoost.
    - Data Test:
    Setelah tuning, KNN memberikan akurasi yang tidak terlalu tinggi pada data test, menunjukkan model ini sensitif terhadap noise dan jarak dalam data.
    - Tuning:
    GridSearchCV memberikan sedikit peningkatan, namun KNN tampaknya tidak berhasil memprediksi dengan baik pada data uji karena sensitivitas terhadap data yang tidak terstandarisasi.
    - Insight: KNN rentan terhadap outlier dan performanya menurun pada data uji. Walaupun telah dilakukan tuning, model ini masih tertinggal dibanding model lain.

- Random Forest:
    - Data Train:
    Memiliki akurasi 100% pada data training, yang menandakan overfitting.
    - Data Test:
    Akurasi pada data test turun signifikan setelah dilakukan evaluasi, menunjukkan bahwa model overfit dan tidak generalisasi dengan baik.
    - Tuning:
    Hyperparameter tuning (baik RandomizedSearchCV maupun GridSearchCV) dapat sedikit membantu menurunkan overfitting, tetapi perbedaannya tidak terlalu signifikan pada data test.
    - Insight: Random Forest cenderung overfitting pada data training, dan tidak memberikan generalisasi yang baik pada data test. Ini menunjukkan bahwa model ini kurang efektif untuk dataset ini.

- AdaBoost:
    - Data Train:
    Akurasi pada data training cukup baik namun tidak mencapai 100%, yang berarti model lebih stabil dibanding Random Forest.
    - Data Test:
    Akurasi pada data test 0.508 menunjukkan bahwa model dapat generalisasi dengan cukup baik, meskipun ada ruang untuk perbaikan.
    - Tuning:
    Ada sedikit peningkatan performa setelah hyperparameter tuning, tetapi model tetap berjuang dengan kompleksitas data.
    - Insight: AdaBoost cukup baik dalam mencegah overfitting, namun belum bisa menghasilkan hasil yang memuaskan pada data test. Model ini bekerja baik jika fitur yang dipilih lebih relevan.

- Support Vector Classifier (SVC):
    - Data Train:
    Setelah tuning, SVC menunjukkan hasil yang baik pada data training, namun akurasi test cukup rendah.
    - Data Test:
    Hasil evaluasi dengan akurasi 0.4918 menunjukkan bahwa model kesulitan untuk menangani data yang tidak linear, meskipun hyperparameter tuning sudah dilakukan.
    - Tuning:
    GridSearchCV dengan berbagai kernel (linear, sigmoid, RBF) memperlihatkan bahwa kernel sigmoid memberikan performa terbaik, tetapi model ini masih underfitting pada data test.
    - Insight: SVC kurang cocok untuk dataset ini, meskipun tuning sudah dilakukan. Performa model masih di bawah ekspektasi, terutama untuk prediksi pada kelas yang lebih kompleks.

### Kesimpulan
Overfitting adalah masalah utama dalam proyek ini, terutama untuk model seperti Random Forest dan XGBoost yang cenderung belajar terlalu banyak dari data training dan tidak generalisasi dengan baik pada data test.
Class Imbalance memainkan peran besar dalam rendahnya performa recall dan f1-score pada beberapa kelas target. Model seperti Logistic Regression dan SVC berjuang dalam menangani kelas minoritas.
Model seperti AdaBoost dan Balanced Random Forest menunjukkan potensi dalam menangani ketidakseimbangan kelas dengan lebih baik, namun tetap memerlukan tuning lebih lanjut untuk hasil yang lebih baik.
Secara umum, Logistic Regression dan AdaBoost cenderung lebih stabil dan generalisasi lebih baik daripada model yang lebih kompleks seperti Random Forest pada dataset ini.

### Model Terbaik untuk Proyek Machine Learning Heart Disease
Berdasarkan evaluasi dari hasil hyperparameter tuning, Logistic Regression tampaknya menjadi model terbaik untuk saat ini, terutama karena stabilitasnya dan kemampuannya untuk generalisasi lebih baik dibanding model lain pada data test. Ini ditunjukkan dengan akurasi 0.5737 dan lebih sedikit kecenderungan untuk overfitting dibanding Random Forest dan KNN.