## <b><font color='orange'> 1. Importing Data to Python </b>

In [1]:
# Import library pengolahan struktur data
import pandas as pd

# Import library pengolahan angka
import numpy as np

# Import library untuk visualisasi
import matplotlib.pyplot as plt
import seaborn as sns

import warnings
warnings.filterwarnings("ignore")

In [2]:
# Buat fungsi untuk mengimpor dataset
def ImportData(data_file):
    """
    Fungsi untuk import data & hapus duplikat
    :param data_file: <string> nama file input (format .data)
    :return heart_df: <pandas> sample data
    """
    # Definisikan nama kolom sesuai dengan dokumentasi dataset
    column_names = ['age', 'sex', 'cp', 'trestbps', 'chol', 'fbs', 'restecg', 'thalach', 'exang', 'oldpeak', 'slope', 'ca', 'thal', 'target']

    # baca data
    heart_df = pd.read_csv(data_file, names=column_names)

    # cetak bentuk data
    print('Data asli:',heart_df.shape, '-(#Observasi, #kolom)')
    print('Jumlah baris',heart_df.shape[0], 'dan jumlah kolom',heart_df.shape[1])

    # Cek data duplikat
    duplicate_status = heart_df.duplicated(keep='first')

    if duplicate_status.sum() == 0:
        print('Tidak ada data duplikat')
    else:
        heart_df = heart_df.drop_duplicates()
        print('Data setelah di-drop :', heart_df.shape, '-(#observasi, #kolom)')

    return heart_df

# (data_file) adalah argumen
# Argumen adalah sebuah variable
# Jika fungsi tersebut diberi argumen data_file = "processed.cleveland.data",
# maka semua variable 'data_file' didalam fungsi akan berubah menjadi 'processed.cleveland.data'

In [3]:
# Input argumen
data_file = 'processed.cleveland.data'

# Panggil fungsi
heart_df = ImportData(data_file)

Data asli: (303, 14) -(#Observasi, #kolom)
Jumlah baris 303 dan jumlah kolom 14
Tidak ada data duplikat


In [4]:
heart_df.head()

Unnamed: 0,age,sex,cp,trestbps,chol,fbs,restecg,thalach,exang,oldpeak,slope,ca,thal,target
0,63.0,1.0,1.0,145.0,233.0,1.0,2.0,150.0,0.0,2.3,3.0,0.0,6.0,0
1,67.0,1.0,4.0,160.0,286.0,0.0,2.0,108.0,1.0,1.5,2.0,3.0,3.0,2
2,67.0,1.0,4.0,120.0,229.0,0.0,2.0,129.0,1.0,2.6,2.0,2.0,7.0,1
3,37.0,1.0,3.0,130.0,250.0,0.0,0.0,187.0,0.0,3.5,3.0,0.0,3.0,0
4,41.0,0.0,2.0,130.0,204.0,0.0,2.0,172.0,0.0,1.4,1.0,0.0,3.0,0


## <b><font color='orange'> 2. Data Preprocessing:</font></b>
---
* Input-Output Split, Train-Test Split
* Processing Categorical
* Imputation, Normalization, Drop Duplicates

In [5]:
# Cek Jumlah nilai dan nilai unik pada setip kolom
summary_dict = {}
for i in list(heart_df.columns):
    summary_dict[i] = {
        'Jumlah Nilai': heart_df[i].value_counts().shape[0],
        'Nilai Unik': heart_df[i].unique()
    }
summary_df = pd.DataFrame(summary_dict).T

summary_df

Unnamed: 0,Jumlah Nilai,Nilai Unik
age,41,"[63.0, 67.0, 37.0, 41.0, 56.0, 62.0, 57.0, 53...."
sex,2,"[1.0, 0.0]"
cp,4,"[1.0, 4.0, 3.0, 2.0]"
trestbps,50,"[145.0, 160.0, 120.0, 130.0, 140.0, 172.0, 150..."
chol,152,"[233.0, 286.0, 229.0, 250.0, 204.0, 236.0, 268..."
fbs,2,"[1.0, 0.0]"
restecg,3,"[2.0, 0.0, 1.0]"
thalach,91,"[150.0, 108.0, 129.0, 187.0, 172.0, 178.0, 160..."
exang,2,"[0.0, 1.0]"
oldpeak,40,"[2.3, 1.5, 2.6, 3.5, 1.4, 0.8, 3.6, 0.6, 3.1, ..."


>Terdapat nilai **'?'** pada kolom `ca` dan `thal`. Kita perlu merubah nilai tersebut menjadi NA/NaN

In [6]:
print('Jumlah nilai "?" pada kolom ca   :', (heart_df['ca'] == '?').sum())
print('Jumlah nilai "?" pada kolom thal :', (heart_df['thal'] == '?').sum())

Jumlah nilai "?" pada kolom ca   : 4
Jumlah nilai "?" pada kolom thal : 2


In [7]:
# Lihat semua baris yang mengandung nilai '?'
heart_df[heart_df.isin(['?']).any(axis=1)]

Unnamed: 0,age,sex,cp,trestbps,chol,fbs,restecg,thalach,exang,oldpeak,slope,ca,thal,target
87,53.0,0.0,3.0,128.0,216.0,0.0,2.0,115.0,0.0,0.0,1.0,0.0,?,0
166,52.0,1.0,3.0,138.0,223.0,0.0,0.0,169.0,0.0,0.0,1.0,?,3.0,0
192,43.0,1.0,4.0,132.0,247.0,1.0,2.0,143.0,1.0,0.1,2.0,?,7.0,1
266,52.0,1.0,4.0,128.0,204.0,1.0,0.0,156.0,1.0,1.0,2.0,0.0,?,2
287,58.0,1.0,2.0,125.0,220.0,0.0,0.0,144.0,0.0,0.4,2.0,?,7.0,0
302,38.0,1.0,3.0,138.0,175.0,0.0,0.0,173.0,0.0,0.0,1.0,?,3.0,0


In [8]:
# Penganganan missing value
def handle_missing_value(data):
    """
    Fungsi untuk menangani missing value yang ditandai dengan '?'
    param df: <pandas dataframe> data input
    return df: <pandas dataframe> data dengan missing value yang sudah diganti
    """
    # Hapus baris dengan nilai'?'
    # data = data[data != '?'].dropna()

    # Ganti '?' dengan NaN
    data.replace('?', np.NaN, inplace=True)

    # Tampilkan jumlah missing value per kolom
    print('Jumlah missing value setelah dihapus:\n', data.isnull().sum())

    return data

In [9]:
# Panggil fungsi untuk menangai missing value
heart_df = handle_missing_value(heart_df)

Jumlah missing value setelah dihapus:
 age         0
sex         0
cp          0
trestbps    0
chol        0
fbs         0
restecg     0
thalach     0
exang       0
oldpeak     0
slope       0
ca          4
thal        2
target      0
dtype: int64


In [10]:
print('Nilai unik kolom ca   :', heart_df['ca'].unique())
print('Nilai unik kolom thal :', heart_df['thal'].unique())

Nilai unik kolom ca   : ['0.0' '3.0' '2.0' '1.0' nan]
Nilai unik kolom thal : ['6.0' '3.0' '7.0' nan]


In [11]:
# Lihat semua baris yang mempunyai nilai NaN
heart_df[heart_df.isna().any(axis=1)]

Unnamed: 0,age,sex,cp,trestbps,chol,fbs,restecg,thalach,exang,oldpeak,slope,ca,thal,target
87,53.0,0.0,3.0,128.0,216.0,0.0,2.0,115.0,0.0,0.0,1.0,0.0,,0
166,52.0,1.0,3.0,138.0,223.0,0.0,0.0,169.0,0.0,0.0,1.0,,3.0,0
192,43.0,1.0,4.0,132.0,247.0,1.0,2.0,143.0,1.0,0.1,2.0,,7.0,1
266,52.0,1.0,4.0,128.0,204.0,1.0,0.0,156.0,1.0,1.0,2.0,0.0,,2
287,58.0,1.0,2.0,125.0,220.0,0.0,0.0,144.0,0.0,0.4,2.0,,7.0,0
302,38.0,1.0,3.0,138.0,175.0,0.0,0.0,173.0,0.0,0.0,1.0,,3.0,0


In [12]:
fill_missing_value = heart_df.fillna(value="KOSONG")

In [13]:
heart_df = fill_missing_value

heart_df[heart_df.isin(["KOSONG"]).any(axis=1)]

Unnamed: 0,age,sex,cp,trestbps,chol,fbs,restecg,thalach,exang,oldpeak,slope,ca,thal,target
87,53.0,0.0,3.0,128.0,216.0,0.0,2.0,115.0,0.0,0.0,1.0,0.0,KOSONG,0
166,52.0,1.0,3.0,138.0,223.0,0.0,0.0,169.0,0.0,0.0,1.0,KOSONG,3.0,0
192,43.0,1.0,4.0,132.0,247.0,1.0,2.0,143.0,1.0,0.1,2.0,KOSONG,7.0,1
266,52.0,1.0,4.0,128.0,204.0,1.0,0.0,156.0,1.0,1.0,2.0,0.0,KOSONG,2
287,58.0,1.0,2.0,125.0,220.0,0.0,0.0,144.0,0.0,0.4,2.0,KOSONG,7.0,0
302,38.0,1.0,3.0,138.0,175.0,0.0,0.0,173.0,0.0,0.0,1.0,KOSONG,3.0,0


In [14]:
heart_df.shape

(303, 14)

**Processing Categorical**

In [15]:
# Cek nama kolom dataset
print(heart_df.columns)

Index(['age', 'sex', 'cp', 'trestbps', 'chol', 'fbs', 'restecg', 'thalach',
       'exang', 'oldpeak', 'slope', 'ca', 'thal', 'target'],
      dtype='object')


**Bedakan antara data categorical dengan numerical**

Data Categorical
- sex
- cp
- fbs
- restecg
- exang
- slope
- thal

Sisanya adalah numerical

In [16]:
# Buat kolom numerical dan categorical
categorical_column = ['sex','cp','fbs','restecg','exang','slope','thal']

numerical_column = ['age','trestbps','chol','thalach','oldpeak', 'target']

In [17]:
# Lihat hasil pengkategorian
print(categorical_column)
print(numerical_column)

['sex', 'cp', 'fbs', 'restecg', 'exang', 'slope', 'thal']
['age', 'trestbps', 'chol', 'thalach', 'oldpeak', 'target']


In [18]:
heart_df[categorical_column] = heart_df[categorical_column].astype('object')

categorical_ohe = pd.get_dummies(heart_df[categorical_column], columns=categorical_column)

In [19]:
categorical_ohe.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 303 entries, 0 to 302
Data columns (total 20 columns):
 #   Column       Non-Null Count  Dtype
---  ------       --------------  -----
 0   sex_0.0      303 non-null    bool 
 1   sex_1.0      303 non-null    bool 
 2   cp_1.0       303 non-null    bool 
 3   cp_2.0       303 non-null    bool 
 4   cp_3.0       303 non-null    bool 
 5   cp_4.0       303 non-null    bool 
 6   fbs_0.0      303 non-null    bool 
 7   fbs_1.0      303 non-null    bool 
 8   restecg_0.0  303 non-null    bool 
 9   restecg_1.0  303 non-null    bool 
 10  restecg_2.0  303 non-null    bool 
 11  exang_0.0    303 non-null    bool 
 12  exang_1.0    303 non-null    bool 
 13  slope_1.0    303 non-null    bool 
 14  slope_2.0    303 non-null    bool 
 15  slope_3.0    303 non-null    bool 
 16  thal_3.0     303 non-null    bool 
 17  thal_6.0     303 non-null    bool 
 18  thal_7.0     303 non-null    bool 
 19  thal_KOSONG  303 non-null    bool 
dtypes: bool(20

In [20]:
ohe_columns = categorical_ohe

**Join data Numerical dan Categorical**
- Data numerik & kategorik harus digabungkan kembali
- Penggabungan dengan `pd.concat`

In [21]:
# Lakukan penggabungan data numerik dan data kategorik yang sudah di encoded
heart_df_concat = pd.concat([heart_df[numerical_column], categorical_ohe], axis=1)

In [22]:
# Cek hasil penggabungan
heart_df_concat.head()

Unnamed: 0,age,trestbps,chol,thalach,oldpeak,target,sex_0.0,sex_1.0,cp_1.0,cp_2.0,...,restecg_2.0,exang_0.0,exang_1.0,slope_1.0,slope_2.0,slope_3.0,thal_3.0,thal_6.0,thal_7.0,thal_KOSONG
0,63.0,145.0,233.0,150.0,2.3,0,False,True,True,False,...,True,True,False,False,False,True,False,True,False,False
1,67.0,160.0,286.0,108.0,1.5,2,False,True,False,False,...,True,False,True,False,True,False,True,False,False,False
2,67.0,120.0,229.0,129.0,2.6,1,False,True,False,False,...,True,False,True,False,True,False,False,False,True,False
3,37.0,130.0,250.0,187.0,3.5,0,False,True,False,False,...,False,True,False,False,False,True,True,False,False,False
4,41.0,130.0,204.0,172.0,1.4,0,True,False,False,True,...,True,True,False,True,False,False,True,False,False,False


In [23]:
print(heart_df_concat.columns)

Index(['age', 'trestbps', 'chol', 'thalach', 'oldpeak', 'target', 'sex_0.0',
       'sex_1.0', 'cp_1.0', 'cp_2.0', 'cp_3.0', 'cp_4.0', 'fbs_0.0', 'fbs_1.0',
       'restecg_0.0', 'restecg_1.0', 'restecg_2.0', 'exang_0.0', 'exang_1.0',
       'slope_1.0', 'slope_2.0', 'slope_3.0', 'thal_3.0', 'thal_6.0',
       'thal_7.0', 'thal_KOSONG'],
      dtype='object')


In [24]:
# Cek nilai kosong hasil penggabungan
print(f"Jumlah missing value hasil penggabungan data numerik & kategorik: {heart_df_concat.isnull().any().sum()}")

Jumlah missing value hasil penggabungan data numerik & kategorik: 0


**Input-Output Split**

- Fitur `y` adalah output variabel yaitu kolom 'target'
- Fitur `x` adalah input variable

In [25]:
# def extractInputOutput(data, output_column_name, column_to_drop=None):
def extractInputOutput(data, output_column_name):
    """
    Fungsi untuk memisahkan data input dan output
    :param data: <pandas dataframe> data seluruh sample
    :param output_column_name: <string> nama kolom output
    :param column_to_drop: daftar nama kolom yang ingin dihapus sebelum memisahkan
    :return input_data: <pandas dataframe> data input, <pandas series> data output
    """
    # drop data yang tidak diperlukan jika ada
    # if column_to_drop:
    #     data = data.drop(columns=column_to_drop)

    # pisahkan data output
    output_data = data[output_column_name]
    
    # drop kolom output dari data untuk mendapatkan input_data
    input_data = data.drop(columns=output_column_name, axis=1)

    return input_data, output_data

# (data, output_column_name) adalah argumen
# Argumen adalah sebuah variable
# Jika fungsi tsb diberi argumen data = heart_df
# maka semua variable 'data' didalam fungsi akan berubah menjadi heart_data

In [26]:
# Jalankan fungsi ekstak input output
x, y = extractInputOutput(heart_df_concat, output_column_name='target')

In [27]:
print(f"Jumlah missing value variable input: {x.isnull().any().sum()}")
print(f"Jumlah missing value variable output: {y.isnull().any().sum()}")

Jumlah missing value variable input: 0
Jumlah missing value variable output: 0


### **Train-Test Split**
- **Kenapa?**
    - Karena tidak ingin overfit data training
    - Test data akan menjadi future data
    - Kita akan melatih model ML di data training dengan CV (Cross Validation)
    - Selanjutnya melakukan evaluasi di data testing

**Train Test Split Function**
1. `X` adalah input
2. `y` adalah output (target)
3. `test_size` adalah seberapa besar proporsi data test dari keseluruhan data. Contoh `test_size = 0.2` artinya data test akan berisi 20% data.
4. `random_state` adalah kunci untuk random. Harus di-setting sama. Misal `random_state = 42`.
5. Output:
   - `x_train` = input dari data training
   - `x_test` = input dari data testing
   - `y_train` = output dari data training
   - `y_test` = output dari data testing
6. Urutan outputnya: `x_train, x_test, y_train, y_test`. Tidak boleh terbalik

> Readmore: https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html

In [28]:
# Import train-test splitting library dari sklearn
from sklearn.model_selection import train_test_split

# Train Test Split
# Test size 0.20 atau 20%
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2,
                                                    random_state=42)

In [29]:
# Sanity chect hasil splitting
print('Bentuk x_train', x_train.shape)
print('Bentuk x_test ', x_test.shape)
print('Bentuk y_train', y_train.shape)
print('Bentuk y_test ',y_test.shape)

Bentuk x_train (242, 25)
Bentuk x_test  (61, 25)
Bentuk y_train (242,)
Bentuk y_test  (61,)


In [30]:
# Cek apakah jumlah kolom sama
print(f"Jumlah kolom di x_train: {x_train.shape[1]}")
print(f"Jumlah kolom di x_test: {x_test.shape[1]}")

Jumlah kolom di x_train: 25
Jumlah kolom di x_test: 25


In [31]:
print(f"Jumlah missing value di variable input x_train : {x_train.isnull().any().sum()}") 
print(f"Jumlah missing value di variable output y_train: {y_train.isnull().any().sum()}")

Jumlah missing value di variable input x_train : 0
Jumlah missing value di variable output y_train: 0


### Standardizing Variables
- Menyamakan skala dari variable input
- `fit` : imputer agar mengetahui mean dan standar deviasi dari setiap kolom
- `transform` : isi data dngan value yang sudah di normalisasi
- output dari transform berupa pandas dataframe
- normalize dikeluarkan karena akan digunakan pada data test


In [32]:
from sklearn.preprocessing import StandardScaler
# from sklearn.preprocessing import StandardScaler

data_columns = x_train.columns
data_index = x_train.index


scaler = StandardScaler()
x_train_scaled = scaler.fit_transform(x_train)
x_train_scaled = pd.DataFrame(x_train_scaled)
x_train_scaled.columns = data_columns
x_train_scaled.index = data_index
# x_train_scaled.shape

In [33]:
x_train_scaled.head()

Unnamed: 0,age,trestbps,chol,thalach,oldpeak,sex_0.0,sex_1.0,cp_1.0,cp_2.0,cp_3.0,...,restecg_2.0,exang_0.0,exang_1.0,slope_1.0,slope_2.0,slope_3.0,thal_3.0,thal_6.0,thal_7.0,thal_KOSONG
132,-2.838504,-0.125982,-0.864142,2.31447,-0.873573,-0.722504,0.722504,-0.316228,2.182179,-0.637947,...,1.016668,0.715891,-0.715891,1.05088,-0.912871,-0.274874,0.890277,-0.257059,-0.769484,-0.091287
202,0.241352,0.974653,-2.483637,1.021242,-0.704854,-0.722504,0.722504,-0.316228,-0.458258,1.567528,...,-0.983605,0.715891,-0.715891,1.05088,-0.912871,-0.274874,-1.123246,-0.257059,1.299573,-0.091287
196,1.561291,1.52497,-0.24126,-0.85171,-0.789214,-0.722504,0.722504,3.162278,-0.458258,-0.637947,...,1.016668,0.715891,-0.715891,-0.951584,1.095445,-0.274874,0.890277,-0.257059,-0.769484,-0.091287
75,1.121311,1.52497,2.374848,0.040172,-0.198698,1.384075,-1.384075,-0.316228,-0.458258,1.567528,...,1.016668,0.715891,-0.715891,1.05088,-0.912871,-0.274874,0.890277,-0.257059,-0.769484,-0.091287
176,-0.308622,-1.33668,-0.262023,-0.138205,-0.789214,-0.722504,0.722504,-0.316228,-0.458258,-0.637947,...,-0.983605,0.715891,-0.715891,1.05088,-0.912871,-0.274874,-1.123246,-0.257059,1.299573,-0.091287


## <b><font color='orange'> 3. Training Machine Learning:</font></b>
---
        - Kita harus mengalahkan benchmark

**Benchmark / Baseline**
- Baseline untuk evaluasi nanti
- Karena ini klarifikasi, bisa kita ambil dari proporsi kelas target yang terbesar

In [34]:
benchmark = y_train.value_counts(normalize=True)
benchmark

target
0    0.557851
1    0.177686
3    0.115702
2    0.111570
4    0.037190
Name: proportion, dtype: float64

### 1. Import Model
- Kita akan gunakan 3 model ML untuk klarifikasi:
    - K-nearest neighbor (K-NN)
    - Logistic Regression
    - Random Forest
    - Adaboost
    - SVC
    

In [35]:
from sklearn.linear_model import LogisticRegression
from sklearn.neighbors import KNeighborsClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.ensemble import AdaBoostClassifier
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score, classification_report,confusion_matrix


### 2. Fitting Model, Cek Performa & Prediksi
- Cara fitting / training model mengikuti yang dokumentasi model

In [36]:
# Model Logistic Regression
logreg = LogisticRegression(random_state=123)
logreg.fit(x_train_scaled, y_train) # Latih model menggunakan data yang sudah di-scalling

y_pred_logreg = logreg.predict(x_train_scaled)
print('Akurasi pada data training :',accuracy_score(y_train, y_pred_logreg))
print('Classification report      :\n',classification_report(y_train, y_pred_logreg))

Akurasi pada data training : 0.6611570247933884
Classification report      :
               precision    recall  f1-score   support

           0       0.80      0.91      0.85       135
           1       0.37      0.33      0.35        43
           2       0.35      0.30      0.32        27
           3       0.56      0.50      0.53        28
           4       0.33      0.11      0.17         9

    accuracy                           0.66       242
   macro avg       0.48      0.43      0.44       242
weighted avg       0.63      0.66      0.64       242



**Insight**

Logistic Regression:
- Akurasi: 66.1%
- Model ini tidak dapat memprediksi kelas yang lebih kecil dengan baik (misalnya, kelas 1, 2, dan 4). Kelas 0 mendominasi, dan performa untuk kelas lainnya cukup buruk.
- Kesimpulan: Logistic Regression tidak bekerja dengan baik pada dataset ini, terutama pada kelas yang kurang terwakili.

In [37]:
# Model K-nearst neighbor (KNN)
knn = KNeighborsClassifier()
knn.fit(x_train_scaled, y_train)

y_pred_knn = knn.predict(x_train_scaled)
print('Akurasi pada data training :',accuracy_score(y_train, y_pred_knn))
print('Classification report      :\n',classification_report(y_train, y_pred_knn))

Akurasi pada data training : 0.71900826446281
Classification report      :
               precision    recall  f1-score   support

           0       0.78      0.96      0.86       135
           1       0.64      0.53      0.58        43
           2       0.48      0.37      0.42        27
           3       0.56      0.36      0.43        28
           4       1.00      0.11      0.20         9

    accuracy                           0.72       242
   macro avg       0.69      0.47      0.50       242
weighted avg       0.70      0.72      0.69       242



**Insight**

K-Nearest Neighbors (KNN):
- Akurasi: 71.9%
- Model cukup baik dalam memprediksi kelas dominan (kelas 0). Namun, kinerja untuk kelas lainnya tetap terbatas.
- Kesimpulan: KNN bisa menangani dataset ini dengan lebih baik dari Logistic Regression, tapi masih sensitif terhadap outlier dan kelas yang tidak seimbang.

In [38]:
# Model Random Forest
random_forest = RandomForestClassifier(random_state=123)
random_forest.fit(x_train_scaled, y_train)

y_pred_rf = random_forest.predict(x_train_scaled)
print('Akurasi pada data training :',accuracy_score(y_train, y_pred_rf))
print('Classification report      :\n',classification_report(y_train, y_pred_rf))


Akurasi pada data training : 1.0
Classification report      :
               precision    recall  f1-score   support

           0       1.00      1.00      1.00       135
           1       1.00      1.00      1.00        43
           2       1.00      1.00      1.00        27
           3       1.00      1.00      1.00        28
           4       1.00      1.00      1.00         9

    accuracy                           1.00       242
   macro avg       1.00      1.00      1.00       242
weighted avg       1.00      1.00      1.00       242



**Insight**

Random Forest:

- Akurasi: 100%
- Model ini overfitting pada data training. Semua kelas diprediksi dengan sempurna pada data training.
- Kesimpulan: Random Forest mempelajari data training dengan sangat baik, tetapi kemungkinan besar tidak akan generalisasi dengan baik pada data uji.

In [39]:
# Model AdaBosst
adaboost = AdaBoostClassifier(random_state=123)
adaboost.fit(x_train_scaled, y_train)

y_pred_ada = adaboost.predict(x_train_scaled)
print('Akurasi pada data training :',accuracy_score(y_train, y_pred_ada))
print('Classification report      :\n',classification_report(y_train, y_pred_ada))

Akurasi pada data training : 0.6652892561983471
Classification report      :
               precision    recall  f1-score   support

           0       0.83      0.81      0.82       135
           1       0.43      0.51      0.47        43
           2       0.38      0.30      0.33        27
           3       0.48      0.54      0.51        28
           4       0.86      0.67      0.75         9

    accuracy                           0.67       242
   macro avg       0.60      0.57      0.58       242
weighted avg       0.67      0.67      0.67       242



**Insight**

AdaBoost:

- Akurasi: 66.5%
- Performa cukup merata di semua kelas, meskipun kelas minoritas tetap tidak diprediksi dengan baik.
- Kesimpulan: AdaBoost tampaknya memberikan hasil yang lebih seimbang dibanding model lainnya, meskipun akurasi keseluruhannya tidak terlalu tinggi.

In [40]:
# Model Support Vector Classification
svc = SVC(kernel='poly')
svc.fit(x_train_scaled, y_train)

y_pred_svc = svc.predict(x_train_scaled)
print('Akurasi pada data training :',accuracy_score(y_train, y_pred_svc))
print('Classification report      :\n',classification_report(y_train, y_pred_svc))

Akurasi pada data training : 0.756198347107438
Classification report      :
               precision    recall  f1-score   support

           0       0.75      0.99      0.86       135
           1       0.56      0.44      0.49        43
           2       1.00      0.44      0.62        27
           3       1.00      0.54      0.70        28
           4       1.00      0.33      0.50         9

    accuracy                           0.76       242
   macro avg       0.86      0.55      0.63       242
weighted avg       0.78      0.76      0.73       242



**Insight**

Support Vector Classification (SVC):

- Akurasi: 75.2%
- Model ini memiliki kinerja terbaik dari segi akurasi. Namun, seperti model lain, performa pada kelas minoritas (kelas 1, 2, dan 4) masih terbatas.
- Kesimpulan: SVC memberikan hasil yang paling baik di antara model-model lain, namun masih membutuhkan perbaikan dalam hal penanganan kelas minoritas.

### 3. Simpan model ke file pickle

In [41]:
import joblib

# Simpan model logreg ke dalam folder yang sama dengan notebook
# dengan nama logreg.pkl
joblib.dump(knn, 'knn.pkl')
joblib.dump(logreg, 'logreg.pkl')
joblib.dump(random_forest, 'rf.pkl')
joblib.dump(adaboost, 'ada.pkl')
joblib.dump(svc, 'svc.pkl')

['svc.pkl']

### 4. Test Prediction
1. Siapkan file test dataset
2. Lakukan preprocessing yang sama dengan yang dilakukan di train dataset
3. Gunakan `imputer_numerical` jika ada data yang kosong dan `scaler` yang telah di fit di train dataset

In [42]:
x_test.head()

Unnamed: 0,age,trestbps,chol,thalach,oldpeak,sex_0.0,sex_1.0,cp_1.0,cp_2.0,cp_3.0,...,restecg_2.0,exang_0.0,exang_1.0,slope_1.0,slope_2.0,slope_3.0,thal_3.0,thal_6.0,thal_7.0,thal_KOSONG
179,53.0,130.0,246.0,173.0,0.0,False,True,False,False,True,...,True,True,False,True,False,False,True,False,False,False
228,54.0,110.0,206.0,108.0,0.0,False,True,False,False,False,...,True,False,True,False,True,False,True,False,False,False
111,56.0,125.0,249.0,144.0,1.2,False,True,False,False,False,...,True,False,True,False,True,False,True,False,False,False
246,58.0,100.0,234.0,156.0,0.1,False,True,False,False,False,...,False,True,False,True,False,False,False,False,True,False
60,51.0,130.0,305.0,142.0,1.2,True,False,False,False,False,...,False,False,True,False,True,False,False,False,True,False


In [43]:
x_test_scaled = pd.DataFrame(scaler.transform(x_test),columns=x_test.columns)

In [44]:
x_test_scaled.head()

Unnamed: 0,age,trestbps,chol,thalach,oldpeak,sex_0.0,sex_1.0,cp_1.0,cp_2.0,cp_3.0,...,restecg_2.0,exang_0.0,exang_1.0,slope_1.0,slope_2.0,slope_3.0,thal_3.0,thal_6.0,thal_7.0,thal_KOSONG
0,-0.198627,-0.125982,0.007893,1.021242,-0.873573,-0.722504,0.722504,-0.316228,-0.458258,1.567528,...,1.016668,0.715891,-0.715891,1.05088,-0.912871,-0.274874,0.890277,-0.257059,-0.769484,-0.091287
1,-0.088632,-1.226617,-0.822617,-1.877375,-0.873573,-0.722504,0.722504,-0.316228,-0.458258,-0.637947,...,1.016668,-1.396861,1.396861,-0.951584,1.095445,-0.274874,0.890277,-0.257059,-0.769484,-0.091287
2,0.131357,-0.40114,0.070182,-0.271987,0.13874,-0.722504,0.722504,-0.316228,-0.458258,-0.637947,...,1.016668,-1.396861,1.396861,-0.951584,1.095445,-0.274874,0.890277,-0.257059,-0.769484,-0.091287
3,0.351347,-1.776934,-0.24126,0.263142,-0.789214,-0.722504,0.722504,-0.316228,-0.458258,-0.637947,...,-0.983605,0.715891,-0.715891,1.05088,-0.912871,-0.274874,-1.123246,-0.257059,1.299573,-0.091287
4,-0.418617,-0.125982,1.232896,-0.361175,0.13874,1.384075,-1.384075,-0.316228,-0.458258,-0.637947,...,-0.983605,-1.396861,1.396861,-0.951584,1.095445,-0.274874,-1.123246,-0.257059,1.299573,-0.091287


In [45]:
# Model Logistic Regression
logreg = LogisticRegression(random_state=123)
logreg.fit(x_train_scaled, y_train) # Latih model menggunakan data yang sudah di-scalling

y_pred_test_logreg = logreg.predict(x_test_scaled)
print('Akurasi pada data test :',accuracy_score(y_test, y_pred_test_logreg))
print('Classification report  :\n',classification_report(y_test, y_pred_test_logreg))

# Confusion matrix
# print('Confusion matrix :\n', confusion_matrix(y_test, y_pred_test_logreg))

Akurasi pada data test : 0.4262295081967213
Classification report  :
               precision    recall  f1-score   support

           0       0.73      0.83      0.77        29
           1       0.00      0.00      0.00        12
           2       0.00      0.00      0.00         9
           3       0.13      0.29      0.18         7
           4       0.00      0.00      0.00         4

    accuracy                           0.43        61
   macro avg       0.17      0.22      0.19        61
weighted avg       0.36      0.43      0.39        61



**Insight**
- Akurasi: 42.6%
- Kelas yang lebih kecil hampir tidak diprediksi sama sekali (precision, recall, dan f1-score untuk kelas 1, 2, dan 4 sangat buruk).
- Kesimpulan: Logistic Regression tampak tidak bekerja dengan baik untuk dataset ini. Overfitting tidak terjadi, tetapi model tidak mampu mempelajari pola dari data yang kompleks.

In [46]:
# Model K-nearst neighbor (KNN)
knn = KNeighborsClassifier()
knn.fit(x_train_scaled, y_train)

y_pred_test_knn = knn.predict(x_test_scaled)
print('Akurasi pada data test :',accuracy_score(y_test, y_pred_test_knn))
print('Classification report  :\n',classification_report(y_test, y_pred_test_knn))

# Confusion matrix
# print('Confusion matrix :\n', confusion_matrix(y_test, y_pred_test_knn))

Akurasi pada data test : 0.5081967213114754
Classification report  :
               precision    recall  f1-score   support

           0       0.71      0.86      0.78        29
           1       0.25      0.25      0.25        12
           2       0.17      0.11      0.13         9
           3       0.25      0.29      0.27         7
           4       0.00      0.00      0.00         4

    accuracy                           0.51        61
   macro avg       0.28      0.30      0.29        61
weighted avg       0.44      0.51      0.47        61



**Insight**
- Akurasi: 50.8%
- Menunjukkan penurunan kinerja, tetapi sedikit lebih baik dibanding Logistic Regression. Precision, recall, dan f1-score untuk kelas 1 dan kelas minoritas tetap rendah.
- Kesimpulan: KNN memiliki performa yang lebih baik dibanding Logistic Regression, tetapi masih menunjukkan kelemahan dalam menangani kelas minoritas.

In [47]:
# Model Random Forest
random_forest = RandomForestClassifier(random_state=123)
random_forest.fit(x_train_scaled, y_train)

y_pred_test_rf = random_forest.predict(x_test_scaled)
print('Akurasi pada data test :',accuracy_score(y_test, y_pred_test_rf))
print('Classification report  :\n',classification_report(y_test, y_pred_test_rf))

# Confusion matrix
# print('Confusion matrix :\n', confusion_matrix(y_test, y_pred_test_rf))


Akurasi pada data test : 0.5081967213114754
Classification report  :
               precision    recall  f1-score   support

           0       0.77      0.93      0.84        29
           1       0.11      0.08      0.10        12
           2       0.20      0.22      0.21         9
           3       0.14      0.14      0.14         7
           4       0.00      0.00      0.00         4

    accuracy                           0.51        61
   macro avg       0.25      0.28      0.26        61
weighted avg       0.43      0.51      0.47        61



**Insight**
- Akurasi: 50.8%
- Meskipun lebih tinggi daripada Logistic Regression, performanya masih tidak ideal pada kelas minoritas, terutama pada kelas 1 dan 4.
- Kesimpulan: Random Forest overfitting pada data training. Meski lebih baik dari Logistic Regression dan KNN pada data test, model ini tidak generalisasi dengan baik.

In [48]:
# Model AdaBosst
adaboost = AdaBoostClassifier(random_state=123)
adaboost.fit(x_train_scaled, y_train)

y_pred_test_ada = adaboost.predict(x_test_scaled)
print('Akurasi pada data test :',accuracy_score(y_test, y_pred_test_ada))
print('Classification report  :\n',classification_report(y_test, y_pred_test_ada))

# Confusion matrix
# print('Confusion matrix :\n', confusion_matrix(y_test, y_pred_test_ada))

Akurasi pada data test : 0.5245901639344263
Classification report  :
               precision    recall  f1-score   support

           0       0.74      0.86      0.79        29
           1       0.29      0.17      0.21        12
           2       0.30      0.33      0.32         9
           3       0.20      0.29      0.24         7
           4       0.00      0.00      0.00         4

    accuracy                           0.52        61
   macro avg       0.30      0.33      0.31        61
weighted avg       0.47      0.52      0.49        61



**Insight**
- Akurasi: 52.4%
- Kinerja pada kelas minoritas (kelas 1, 2, dan 4) lebih baik dibandingkan model lainnya, tetapi masih kurang optimal.
- Kesimpulan: AdaBoost tampaknya memberikan hasil yang lebih seimbang dibanding model lainnya, meskipun akurasi keseluruhannya tidak terlalu tinggi.

In [49]:
# Model Support Vector Classification
svc = SVC(kernel='rbf')
svc.fit(x_train_scaled, y_train)

y_pred_test_svc = svc.predict(x_test_scaled)
print('Akurasi pada data test :',accuracy_score(y_test, y_pred_test_svc))
print('Classification report  :\n',classification_report(y_test, y_pred_test_svc))

# Confusion matrix
# print('Confusion matrix :\n', confusion_matrix(y_test, y_pred_test_svc))

Akurasi pada data test : 0.47540983606557374
Classification report  :
               precision    recall  f1-score   support

           0       0.62      0.90      0.73        29
           1       0.12      0.08      0.10        12
           2       0.50      0.11      0.18         9
           3       0.11      0.14      0.12         7
           4       0.00      0.00      0.00         4

    accuracy                           0.48        61
   macro avg       0.27      0.25      0.23        61
weighted avg       0.41      0.48      0.41        61



**Insight**
- Akurasi: 47.5%
- Meskipun sedikit lebih tinggi dibanding Logistic Regression, performa untuk kelas minoritas tetap kurang memadai.
- Kesimpulan: SVC menunjukkan performa yang lebih baik pada kelas dominan, tetapi tidak menangani kelas minoritas dengan baik.

**Kesimpulan Utama**
- Overfitting menjadi masalah utama pada Random Forest, sedangkan model lain seperti Logistic Regression dan SVC mengalami kesulitan dalam menangani kelas minoritas.
- AdaBoost menunjukkan performa yang lebih seimbang dibanding model lain, dengan akurasi yang lebih baik pada kelas minoritas, meskipun tidak spektakuler.
- KNN dan SVC sedikit lebih baik dalam menangani data test dibanding Logistic Regression, tetapi masih belum optimal.

**Model Terbaik**
- Dari hasil ini, AdaBoost tampaknya menjadi model terbaik karena memberikan hasil yang paling seimbang antara data training dan data test, meskipun akurasi keseluruhannya tidak terlalu tinggi.

**Resampling Data dengan SMOTE** 

In [52]:
from imblearn.over_sampling import SMOTE
from sklearn.ensemble import AdaBoostClassifier
from sklearn.metrics import classification_report, accuracy_score

# SMOTE untuk menangani ketidakseimbangan data
smote = SMOTE(random_state=42)
x_train_resampled, y_train_resampled = smote.fit_resample(x_train_scaled, y_train)

# AdaBoost model training
ada = AdaBoostClassifier(n_estimators=100, random_state=42)
ada.fit(x_train_resampled, y_train_resampled)

# Prediksi pada data test
y_pred_test_ada = ada.predict(x_test_scaled)

# Evaluasi performa
print('Akurasi pada data test :', accuracy_score(y_test, y_pred_test_ada))
print('Classification report  :\n', classification_report(y_test, y_pred_test_ada))
print('Confusion matrix       :\n', confusion_matrix(y_test, y_pred_test_ada))


Akurasi pada data test : 0.4426229508196721
Classification report  :
               precision    recall  f1-score   support

           0       0.71      0.76      0.73        29
           1       0.10      0.08      0.09        12
           2       0.20      0.22      0.21         9
           3       0.22      0.29      0.25         7
           4       0.00      0.00      0.00         4

    accuracy                           0.44        61
   macro avg       0.25      0.27      0.26        61
weighted avg       0.41      0.44      0.43        61

Confusion matrix       :
 [[22  5  2  0  0]
 [ 5  1  2  4  0]
 [ 3  1  2  2  1]
 [ 1  2  2  2  0]
 [ 0  1  2  1  0]]


Akurasi:
- AdaBoost tanpa SMOTE: 52.46%
- AdaBoost dengan SMOTE: 44.26%

    Ada sedikit penurunan akurasi pada data test setelah menggunakan SMOTE. Ini bisa jadi karena penanganan ketidakseimbangan data dengan oversampling menyebabkan model belajar lebih banyak tentang kelas minoritas, yang membuat performanya pada kelas mayoritas (seperti kelas 0) sedikit menurun.

Precision, Recall, dan F1-Score:

- Kelas 0: Precision dan recall pada kelas 0 menurun sedikit setelah menggunakan SMOTE (dari 0.74/0.86 menjadi 0.71/0.76). Ini menunjukkan bahwa model sekarang tidak lagi terlalu mengutamakan kelas mayoritas.
- Kelas minoritas (1, 2, 3, dan 4): Ada sedikit peningkatan pada beberapa kelas minoritas, terutama kelas 2 dan 3. Misalnya, recall untuk kelas 3 meningkat dari 0.17 menjadi 0.29, dan untuk kelas 2 meningkat dari 0.30 menjadi 0.22.

    Namun, performa secara keseluruhan pada kelas minoritas masih rendah, karena f1-score untuk kelas 1, 2, 3, dan 4 tetap rendah. SMOTE membantu dengan memperbaiki recall untuk beberapa kelas, tetapi precision dan akurasi keseluruhan tetap belum optimal.

**Insight:**
- SMOTE: Meskipun SMOTE membantu menyeimbangkan distribusi data dengan menambahkan sampel dari kelas minoritas, hasilnya menunjukkan bahwa masalah ketidakseimbangan data bukan satu-satunya penyebab performa yang buruk. Model masih kesulitan mengenali kelas minoritas dengan baik, meskipun SMOTE telah meningkatkan representasi data.
- AdaBoost: Algoritma AdaBoost sensitif terhadap outlier, dan ketika SMOTE menambahkan sampel sintetis, hal ini bisa mengganggu proses boosting. Ini mungkin salah satu alasan mengapa akurasi menurun setelah SMOTE diterapkan.

In [54]:
# Install library yang diperlukan
# !pip install imbalanced-learn

from imblearn.ensemble import BalancedRandomForestClassifier
from sklearn.metrics import classification_report, accuracy_score, confusion_matrix

# Inisiasi BalancedRandomForestClassifier
brf = BalancedRandomForestClassifier(n_estimators=100, random_state=42)

# Training pada data yang sudah discale tanpa SMOTE (BalancedRandomForest mengatasi ketidakseimbangan data)
brf.fit(x_train_scaled, y_train)

# Prediksi pada data test
y_pred_test_brf = brf.predict(x_test_scaled)

# Evaluasi performa
print('Balanced Random Forest - Akurasi pada data test:', accuracy_score(y_test, y_pred_test_brf))
print('Classification report:\n', classification_report(y_test, y_pred_test_brf))
print('Confusion matrix:\n', confusion_matrix(y_test, y_pred_test_brf))


Balanced Random Forest - Akurasi pada data test: 0.5081967213114754
Classification report:
               precision    recall  f1-score   support

           0       0.92      0.76      0.83        29
           1       0.42      0.42      0.42        12
           2       0.09      0.11      0.10         9
           3       0.22      0.29      0.25         7
           4       0.20      0.25      0.22         4

    accuracy                           0.51        61
   macro avg       0.37      0.36      0.36        61
weighted avg       0.57      0.51      0.53        61

Confusion matrix:
 [[22  4  3  0  0]
 [ 1  5  2  2  2]
 [ 0  2  1  4  2]
 [ 1  0  4  2  0]
 [ 0  1  1  1  1]]


In [55]:
!pip install xgboost

Collecting xgboost
  Downloading xgboost-2.1.1-py3-none-win_amd64.whl (124.9 MB)
Installing collected packages: xgboost
Successfully installed xgboost-2.1.1


In [58]:
# Install library XGBoost
# !pip install xgboost

from xgboost import XGBClassifier
from sklearn.metrics import classification_report, accuracy_score, confusion_matrix

# Inisiasi XGBoostClassifier
xgb = XGBClassifier(n_estimators=100, random_state=42, use_label_encoder=False, eval_metric='mlogloss')

# Training pada data yang sudah discale
xgb.fit(x_train_scaled, y_train)

# Prediksi pada data test
y_pred_test_xgb = xgb.predict(x_test_scaled)

# Evaluasi performa
print('XGBoost - Akurasi pada data test:', accuracy_score(y_test, y_pred_test_xgb))
print('Classification report:\n', classification_report(y_test, y_pred_test_xgb))
print('Confusion matrix:\n', confusion_matrix(y_test, y_pred_test_xgb))


XGBoost - Akurasi pada data test: 0.47540983606557374
Classification report:
               precision    recall  f1-score   support

           0       0.74      0.86      0.79        29
           1       0.00      0.00      0.00        12
           2       0.33      0.33      0.33         9
           3       0.09      0.14      0.11         7
           4       0.00      0.00      0.00         4

    accuracy                           0.48        61
   macro avg       0.23      0.27      0.25        61
weighted avg       0.41      0.48      0.44        61

Confusion matrix:
 [[25  2  2  0  0]
 [ 6  0  1  5  0]
 [ 1  1  3  4  0]
 [ 2  2  2  1  0]
 [ 0  2  1  1  0]]
