## 1. Import some Libraries, Read Dataset and Exploratory Dataset using Pandas

In [1]:
"""
Meng-import beberapa library dari bahasa pemrograman python yang bertujuan
untuk eksplorasi, membersihkan/mentransformasikan data serta pembuatan grafik visualisasi untuk di analisis
"""
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
plt.style.use("fast")
from sklearn.preprocessing import LabelEncoder

In [2]:
# Melakukan proses pembacaan dataset dari sub-folder "Dataset" serta menampilkan 17 data teratas
data_patient_treatment = pd.read_csv("../Dataset/patient_treatment_classification_dataset.csv")

data_patient_treatment.head(17)

Unnamed: 0,HAEMATOCRIT,HAEMOGLOBINS,ERYTHROCYTE,LEUCOCYTE,THROMBOCYTE,MCH,MCHC,MCV,AGE,SEX,SOURCE
0,35.1,11.8,4.65,6.3,310,25.4,33.6,75.5,1,F,out
1,43.5,14.8,5.39,12.7,334,27.5,34.0,80.7,1,F,out
2,33.5,11.3,4.74,13.2,305,23.8,33.7,70.7,1,F,out
3,39.1,13.7,4.98,10.5,366,27.5,35.0,78.5,1,F,out
4,30.9,9.9,4.23,22.1,333,23.4,32.0,73.0,1,M,out
5,34.3,11.6,4.53,6.6,185,25.6,33.8,75.7,1,M,out
6,31.1,8.7,5.06,11.1,416,17.2,28.0,61.5,1,F,out
7,40.3,13.3,4.73,8.1,257,28.1,33.0,85.2,1,F,out
8,33.6,11.5,4.54,11.4,262,25.3,34.2,74.0,1,F,out
9,35.4,11.4,4.8,2.6,183,23.8,32.2,73.8,1,F,out


Berikut adalah informasi atas penjelasan lengkap mengenai 11 kolom data yang ada di dalam variabel DataFrame yang bernama "data_patient_treatment" diantaranya adalah sebagai berikut:

1. HAEMATOCRIT: Kolom yang berisikan data terkait hasil uji laboratorium mengenai hematokrit pasien. Kolom data ini menunjukkan bagian dari pemeriksaan darah untuk mendeteksi apakah pasien tersebut mengalami anemia/kekurangan sel darah merah atau tidak.
2. HEMOGLOBINS: Kolom yang berisikan data terkait hasil uji laboratorium mengenai hemoglobin atau sel darah merah milik masing-masing pasien.
3. ERYTHROCYTE: Kolom yang berisikan data terkait hasil uji laboratorium mengenai eritrosit atau sel darah putih milik masing-masing pasien.
4. LEUCOCYTE: Kolom yang berisikan data terkait hasil uji laboratorium mengenai leukosit milik masing-masing pasien.
5. THROMBOCYTE: Kolom yang berisikan data terkait hasil uji laboratorium mengenai trombosit pada masing-masing pasien.
6. MCH: Kolom yang berisikan data terkait hasil uji laboratorium terhadap masing-masing pasien mengenai MCH atau Mean Corpuscular Hemoglobin). MCH merupakan jumlah rata-rata hemoglobin di dalam sel darah merah milik pasien.
7. MCHC: Kolom yang berisikan data terkait hasil uji lab pasien mengenai MCHC atau Mean Corpuscular Hemoglobin Concentration. MCHC merupakan perhitungan rata-rata terhadap konsentrasi hemoglobin di dalam eritrosit pasien.
8. MCV: Kolom yang berisikan data terkait hasil uji lab pasien mengenai MCV atau Mean Corpuscular Volume. MCV merupakan ukuran rata-rata dari sel darah merah milik pasien.
9. AGE: Kolom yang berisikan data mengenai umur dari setiap pasien.
10. SEX: Kolom yang berisikan data mengenai jenis kelamin pasien yang ditandai dengan nilai F (female/perempuan) dan M (male/laki-laki).
11. SOURCE: Terakhir adalah kolom yang berisikan data dari masing-masing status pasien apakah pasien tersebut merupakan pasien rawat inap (ditandai dengan data "in") atau pasien rawat jalan (ditulis/ditandai dengan data "out"). Kolom ini juga merupakan kolom target yang akan dijadikan sebagai label klasifikasi pada tahap pemodelan machine learning.

Selain informasi atas 11 kolom yang ada di dalam "data_patient_treatment" yang sudah dijelaskan di atas, kalian dapat mengunjungi sumber dataset dari Kaggle melalui link di bawah ini:

https://www.kaggle.com/datasets/saurabhshahane/patient-treatment-classification

In [3]:
# Menampilkan jumlah baris dan kolom yang dimiliki oleh "data_patient_treatment"
data_patient_treatment.shape

(4412, 11)

In [4]:
# Menampilkan daftar nama kolom yang ada di dalam variabel "data_patient_treatment"
data_patient_treatment.columns

Index(['HAEMATOCRIT', 'HAEMOGLOBINS', 'ERYTHROCYTE', 'LEUCOCYTE',
       'THROMBOCYTE', 'MCH', 'MCHC', 'MCV', 'AGE', 'SEX', 'SOURCE'],
      dtype='object')

Berdasarkan hasil diatas dapat diketahui jika variabel DataFrame "data_patient_treatment" memiliki 4.412 data yang tersebar ke dalam 11 kolom berbeda. Kesebelas kolom tersebut adalah HAEMATOCRIT, HAEMOGLOBINS, ERYTHROCYTE, LEUCOCYTE, THROMBOCYTE, MCH, MCHC, MCV, AGE, SEX dan SOURCE.

Namun jika diperhatikan penamaan kolom tersebut masih belum tepat serta ditulis menggunakan huruf kapital sehingga harus di-update menjadi format penamaan kolom yang sesuai. Proses transformasi terhadap penamaan kolom akan dilakukan pada bagian selanjutnya tepatnya pada bagian Data Preprocessing.

In [5]:
# Menampilkan tipe data apa saja yang dimiliki oleh variabel DataFrame "data_patient_treatment"
data_patient_treatment.dtypes

HAEMATOCRIT     float64
HAEMOGLOBINS    float64
ERYTHROCYTE     float64
LEUCOCYTE       float64
THROMBOCYTE       int64
MCH             float64
MCHC            float64
MCV             float64
AGE               int64
SEX              object
SOURCE           object
dtype: object

Berdasarkan hasil eksplorasi diatas menggunakan fungsi dtypes dari pandas, dapat diketahui bahwa setidaknya ada 3 tipe data yang berbeda yaitu float, int dan object. Tipe data float merupakan tipe data yang menunjukkan/identitas dari data berupa bilangan numerik pecahan. Tipe data int atau integer merupakan tipe data yang menjadi indetitas dari data numerik bilangan bulat. Sedangkan tipe data object merupakan tipe data yang menunjukkan identitas dari data kategorik atau data string seperti huruf, simbol karakter atau gabungan antara bilangan numerik (pecahan/bulat) dengan huruf/angka. 