## 1. Import Libraries for Classifying Data with Algorithms and Load Dataset

In [29]:
"""
Meng-import beberapa library dari bahasa pemrograman python yang bertujuan untuk melakukan
tahap pembagian data menjadi training dan testing, normalisasi data serta pemodelan dengan beberapa Algoritma Machine Learning
"""
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
plt.style.use("fast")
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split, GridSearchCV, RandomizedSearchCV
from sklearn import tree
from sklearn.tree import DecisionTreeClassifier
from sklearn.preprocessing import StandardScaler, MinMaxScaler
from sklearn.svm import SVC
from sklearn import svm
from sklearn.neighbors import KNeighborsClassifier
from sklearn.naive_bayes import GaussianNB
from sklearn.metrics import accuracy_score, recall_score, precision_score, f1_score, confusion_matrix, classification_report

In [30]:
# Memanggil file dataset yang telah dilakukan proses preprocessing dan disimpan di dalam variabel DataFrame baru
data_modelling = pd.read_csv("../Dataset/Patient Treatment Data after Preprocessed.csv")

data_modelling.head(13)

Unnamed: 0,Hematocrit,Hemoglobin,Erythrocyte,Leucocyte,Thrombocyte,Mch,Mchc,Mcv,Age,Sex,Status
0,35.1,11.8,4.65,6.3,310,25.4,33.6,75.5,1,0,1
1,43.5,14.8,5.39,12.7,334,27.5,34.0,80.7,1,0,1
2,33.5,11.3,4.74,13.2,305,23.8,33.7,70.7,1,0,1
3,39.1,13.7,4.98,10.5,366,27.5,35.0,78.5,1,0,1
4,30.9,9.9,4.23,22.1,333,23.4,32.0,73.0,1,1,1
5,34.3,11.6,4.53,6.6,185,25.6,33.8,75.7,1,1,1
6,31.1,8.7,5.06,11.1,416,17.2,28.0,61.5,1,0,1
7,40.3,13.3,4.73,8.1,257,28.1,33.0,85.2,1,0,1
8,33.6,11.5,4.54,11.4,262,25.3,34.2,74.0,1,0,1
9,35.4,11.4,4.8,2.6,183,23.8,32.2,73.8,1,0,1


## 2. Split the Data into Training and Testing then Create Normalization Data

Sebelum melakukan pemodelan dengan beberapa Algoritma Machine Learning (Regresi Logistik, Decision Tree, SVM, KNN, Naive Bayes, Ensemble Stacking dan Ensemble Vote), saya akan melakukan sedikit data pre-processing yaitu mlakukan penyeleksian kolom data yang akan dijadikan sebagai variabel independen/variabel x dan variabel dependen/variabel y serta melakukan tahap split validation yang dimana nantinya keutuhan data di dalam variabel DataFrame data_modelling akan terbagi menjadi 2 jenis data yaitu data training dan data testing yang kemudian data-data tersebut akan dinormalisasikan/diskalakan dengan salah satu teknik feature scaling yaitu StandardScaler.

Kolom-kolom yang akan menjadi variabel independen/variabel x adalah kolom "Hematocrit", "Hemoglobin", "Erythrocyte", "Leucocyte", "Thrombocyte", "Mch", "Mchc", "Mcv", "Age" dan "Sex". Sedangkan kolom yang akan menjadi variabel dependen/variabel y adalah kolom "Status" yang merupakan kolom label output dengan 2 data unik yaitu 0 (pasien rawat inap) dan 1 (pasien rawat jalan).

In [31]:
# Melakukan penyeleksian kolom data dari variabel DataFrame data_modelling menjadi variabel x dan variabel y
x = data_modelling.drop(["Status"], axis=1)

y = data_modelling["Status"]

In [32]:
# Menampilkan data-data yang ada di dalam variabel independen/variabel x sebanyak 7 data teratas
x.head(7)

Unnamed: 0,Hematocrit,Hemoglobin,Erythrocyte,Leucocyte,Thrombocyte,Mch,Mchc,Mcv,Age,Sex
0,35.1,11.8,4.65,6.3,310,25.4,33.6,75.5,1,0
1,43.5,14.8,5.39,12.7,334,27.5,34.0,80.7,1,0
2,33.5,11.3,4.74,13.2,305,23.8,33.7,70.7,1,0
3,39.1,13.7,4.98,10.5,366,27.5,35.0,78.5,1,0
4,30.9,9.9,4.23,22.1,333,23.4,32.0,73.0,1,1
5,34.3,11.6,4.53,6.6,185,25.6,33.8,75.7,1,1
6,31.1,8.7,5.06,11.1,416,17.2,28.0,61.5,1,0


In [33]:
# Menampilkan jumlah data yang dimiliki oleh variabel independen (x) sebelum dilakukan proses split
print("Jumlah Data yang ada Didalam Variabel Independen (Variabel X) adalah", len(x))

Jumlah Data yang ada Didalam Variabel Independen (Variabel X) adalah 4412


In [34]:
# Menampilkan data-data yang ada di dalam variabel dependen/variabel y sebanyak 53 data terbawah
y.tail(53)

4359    0
4360    0
4361    0
4362    1
4363    1
4364    1
4365    1
4366    1
4367    0
4368    0
4369    0
4370    0
4371    0
4372    0
4373    1
4374    1
4375    0
4376    0
4377    0
4378    0
4379    0
4380    0
4381    0
4382    1
4383    1
4384    0
4385    0
4386    0
4387    0
4388    0
4389    0
4390    0
4391    0
4392    0
4393    0
4394    1
4395    1
4396    0
4397    1
4398    0
4399    1
4400    1
4401    1
4402    1
4403    0
4404    0
4405    0
4406    0
4407    0
4408    0
4409    1
4410    0
4411    1
Name: Status, dtype: int64

In [35]:
# Menampilkan jumlah data yang dimiliki oleh variabel dependen (x) sebelum dilakukan proses split
print("Jumlah Data yang ada Didalam Variabel Dependen (Variabel Y) adalah", len(y))

Jumlah Data yang ada Didalam Variabel Dependen (Variabel Y) adalah 4412


Walaupun keutuhan data dari variabel DataFrame data_modelling telah terkelompok menjadi 2 bagian yang dimana 10 kolom ada di dalam variabel independen (variabel x) dan 1 kolom ada di dalam variabel dependen (variabel y), tetapi jumlah data yang dimiliki tetaplah sama yaitu 4.412. Jumlah data tersebut tidak mengalami penurunan/penambahan sebab pada saat di tahapan data preprocessing, saya tidak mengurangi jumlah data ataupun menambahnya.

Selain itu, jumlah data tersebut (4.412) akan terbagi ke dalam 4 kategori variabel yaitu variabel independen (x) yang bertugas untuk melatih (training) Algoritma Machine Learning, variabel independen (x) tetapi bertugas untuk menguji (testing) algoritma. Lalu juga terdapat variabel dependen (y) yang bertujuan untuk melatih (training) Algoritma Machine Learning dengan data-data yang nantinya akan dikenali dan variabel dependen (y) yang bertujuan untuk menguji (testing) algoritma yang sebelumnya sudah dilatih dengan diberikan data-data baru yang belum dikenali.

In [36]:
"""
Membagi variabel independen dan dependen menjadi 2 jenis data yaitu data training (train) dan data testing (test). Proses
membagi data di kedua variabel ini memanfaatkan teknik split data dengan metode Split Validation.
Split validation merupakan salah satu teknik validasi yang membagi dataset menjadi 2 bagian data yaitu data training
dan data testing dengan nilai proporsi yang ditentukan seperti 30 untuk data testing dan 70 untuk data training,
20 untuk data testing dan 80 untuk data training, atau 40 untuk data testing dan 60 untuk data training.
"""

x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.3, random_state=38)

Berikut adalah penjelasan dari proses split validation:

1. x: Merupakan sebuah variabel independen atau variabel yang mempengaruhi/menjadi sebab utama dalam perubahan dari variabel dependen. Dalam pengujian kali ini, kolom-kolom yang mempengaruhi variabel y/variabel dependen adalah kolom "Hematocrit", "Hemoglobin", "Erythrocyte", "Leucocyte", "Thrombocyte", "Mch", "Mchc", "Mcv", "Age" dan "Sex".
2. y: Merupakan sebuah variabel dependen atau variabel yang dipengaruhi variabel independen/variabel x. Berubahnya data yang ada di dalam variabel dependen adalah disebabkan karena berubahnya data di variabel independen/variabel x. Variabel y juga biasa dikenal sebagai label prediksi/label output jika permasalahannya adalah mengklasifikasikan data. Dalam pengujian ini, label outputnya adalah kolom "Status".
3. test_size: Nilai presentase atau nilai proporsi dalam pembagian data menjadi data training dan data testing. Dalam pengujian ini saya memakai nilai presentase test_size sebesar 0.3 yang dimana ukuran dari data test mencapai 20% dan data train mencapai 80%.
4. random_state: Fungsi ini berfungsi untuk menetapkan nilai supaya ketika setiap kali codingan dijalankan maka nilai yang ada di data training dan data testing akan selalu tetap dan nilainya dan tidak berubah-ubah sedangkan jika di proses split validation ini tidak menetapkan nilai random_state maka setiap codingan dijalankan maka nilai baru akan teracak kembali di data training dan data testing sehingga akan memiliki nilai yang berbeda-beda setiap saat codingan dijalankan. Dalam menetapkan nilai random_state tidak ada ketentuan nilai yang pasti (bebas menentukan nilai bilangan bulat) namun dalam pengujian ini saya menetapkan nilai 38 di random_state.


Selain keempat penjelasan tersebut terdapat juga variabel baru seperti x_train, x_test, y_train, dan y_test. Berikut adalah penjelasannya:

1. x_train: Merupakan data training/data yang akan melatih menggunakan model machine learning. Variabel x_train terdiri dari variabel independen (variabel x).
2. x_test: Merupakan data testing atau data yang akan mengetahui performa model yang telah dilatih dengan data training. Variabel x_test terdiri dari variabel independen (variabel x).
3. y_train: Merupakan data training atau data yang akan melatih menggunakan model machine learning. Perbedaan dengan x_train yaitu variabel y_train terdiri dari variabel dependen (variabel y).
4. y_test: Merupakan data testing atau data yang akan mengetahui performa model yang telah dilatih dengan data training. Sama seperti pada variabel y_train, variabel y_test sudah pasti berbeda dengan variabel x_test karena variabel ini, variabel y_test, terdiri dari variabel dependen (variabel y).

In [37]:
"""
Melihat ukuran jumlah data dan kolom yang dimiliki oleh data training
(baik data training dari variabel independen atau variabel dependen)
serta data testing (baik data testing dari variabel independen ataupun variabel dependen)
"""
print("Jumlah Data dan Kolom di Data Training setelah Dilakukan Proses Split Validation: ", x_train.shape, y_train.shape)
print("Jumlah Data dan Kolom di Data Testing setelah Dilakukan Proses Split Validation: ", x_test.shape, y_test.shape)

Jumlah Data dan Kolom di Data Training setelah Dilakukan Proses Split Validation:  (3088, 10) (3088,)
Jumlah Data dan Kolom di Data Testing setelah Dilakukan Proses Split Validation:  (1324, 10) (1324,)


Penjelasan dari hasil diatas:

- Total data yang ada di dalam variabel DataFrame data_modelling ataupun variabel independen & dependen sebanyak 4.412 data.

- Sedangkan nilai persentase saat melakukan proses split data menjadi data training dan data testing adalah sebesar 30% => 0.3.

Jadi nilai yang diberikan ke data testing didapatkan dari perhitungan dari: 4.412 - 30% = 1.323.6 yang jika dibulatkan menjadi nilai 1.324.

Sedangkan nilai yang diberikan ke data training adalah hasil dari pengurangan antara total data yang ada di dalam data_modelling yaitu 3.088 dengan jumlah data yang ada di dalam data testing sebanyak 1.324 data yang nantinya bertugas untuk menguji algoritma yang sudah mempelajari data-data dari data training.

Jadi jika dikurangkan antara total data yang ada di dalam variabel DataFrame data_modelling (4.412) dengan jumlah data yang saat ini dimiliki oleh data testing (1.324), maka hasilnya adalah 3.088. Jumlah tersebut (3.088) akan digunakan oleh data training untuk melatih/mengajari beberapa Algoritma Machine Learning yang digunakan di dalam eksperimen ini.