# Latihan Praktikum IF3270 2023/2024

Pembuatan model Machine Learning pada umumnya terdiri atas 5 bagian, yaitu:

1. Pengumpulan data
2. Pemahaman dan pemrosesan data
3. Pembuatan model
4. Evaluasi dan tuning model
5. Model final


Pada notebook ini, diharapkan dapat mengimplementasikan sebagian dari tahapan tersebut sebagai latihan.

Dataset yang digunakan adalah [Stroke Prediction Dataset](https://www.kaggle.com/datasets/fedesoriano/stroke-prediction-dataset). Berikut adalah deskripsi setiap kolom dari dataset (diperoleh dari sumber).

1) **id**: unique identifier
2) **gender**: "Male", "Female" or "Other"
3) **age**: age of the patient
4) **hypertension**: 0 if the patient doesn't have hypertension, 1 if the patient has hypertension
5) **heart_disease**: 0 if the patient doesn't have any heart diseases, 1 if the patient has a heart disease
6) **ever_married**: "No" or "Yes"
7) **work_type**: "children", "Govt_jov", "Never_worked", "Private" or "Self-employed"
8) **Residence_type**: "Rural" or "Urban"
9) **avg_glucose_level**: average glucose level in blood
10) **bmi**: body mass index
11) **smoking_status**: "formerly smoked", "never smoked", "smokes" or "Unknown"*
12) **stroke**: 1 if the patient had a stroke or 0 if not
*Note: "Unknown" in smoking_status means that the information is unavailable for this patient

In [None]:
# Import library di sini
import pandas as pd

In [None]:
df = pd.read_csv("healthcare-dataset-stroke-data.csv")

## A. Pemahaman dan Pemrosesan Data

Tahap ini bertujuan untuk memahami ciri dataset serta setiap fitur yang ada pada dataset. Secara garis besar, hal yang dicari pada tahap ini adalah

1. Ukuran data
2. Statistik setiap fitur
3. Data pencilan (outlier)
4. Korelasi
5. Penanganan data

### A.1. Ukuran Data

Tentukan ukuran data secara baris dan kolom

### A.2. Statistik setiap fitur

Dibantu penggunaan library Pandas, jawab pertanyaan berikut:
1. Kolom apa saja yang merupakan fitur kategorikal?
2. Kolom apa saja yang merupakan fitur nonkategorikal?

- Untuk setiap kolom kategorikal, tentukan jumlah dari masing-masing kategori pada kolom tersebut
- Untuk setiap kolom nonkategorikal, cari nilai minimum, maksimum, median, dan rata-ratanya

### A.3. Data Pencilan

1. Tentukan jika ada missing value dari setiap fitur
2. Tentukan outlier dari setiap fitur

### A.4. Korelasi

Buatlah heatmap dari dataset. Fitur apa yang paling berkorelasi?

### A.5. Penanganan Data

Pada A.1 hingga A.4, kamu telah melakukan pencarian insight pada data. Apabila diperlukan, lakukan analisis mandiri lebih lanjut.

Berikutnya, lakukan pemrosesan sebelum dataset dapat digunakan untuk training model. Kamu dapat melakukan berbagai macam pemrosesan, berikut adalah beberapa contohnya.
1) Menangani nilai yang hilang: Buang fitur atau ganti nilai yang hilang dengan strategi tertentu.
2) Transformasi fitur kategorikal: Ubah menjadi representasi angka seperti penggunaan one-hot encoding atau label encoding
3) Scaling: Dapat menggunakan MinMaxScaler, StandardScaler, atau scaler lainnya.
4) Membuang fitur yang sekiranya tidak diperlukan.
5) Menambah fitur dari fitur yang sudah ada (feature engineering).

## B. Design of Experiment
Tentukanlah metrik yang akan digunakan pada eksperimen kali ini. Metrik yang dapat lebih dari satu jenis.

Metrik utama yang akan digunakan dalam eksperimen adalah F1-score. F1-score adalah hasil rata-rata harmonis dari nilai _precision_ dan _recall_. F1-score mempertimbangkan nilai _precision_ dan _recall_ dan menghasilkan sebuah metrik yang seimbang, sehingga apabila salah satu nilai _precision_ atau _recall_ lebih rendah, salah satu nilai akan menyeimbangkan mettrik lainnya.

Nilai F1 yang tinggi melambangkan nilai _precision_ dan _recall_ yang tinggi, dan memberikan hasil yang baik pada permasalahan klasifikasi data yang imbalanced. Akan tetapi, nilai F1 yang rendah sulit memberikan informasi mengenai metrik yang bernilai rendah.

Ada beberapa alasan untuk menggunakan F1-score:
- F1-score memberikan _measure_ yang lebih baik untuk persoalan dataset yang tidak seimbang. Dalam kasus dataset ini, _instance_ dengan nilai positif lebih banyak dibandingkan _instance_ dengan nilai negatif, sehingga akurasi dapat menjadi metrik yang tidak tepat, sehingga lebih baik menggunakan F1-score yang mempertimbangkan nilai _precision_ dan _recall_
- F1-score sudah menggambarkan kemampuan model untuk memprediksi dan mengidentifikasi kelas data positif dan negatif dalam klasifikasi biner
- Pada eksperimen ini, akan dilakukan beberapa perbandingan model (_Logistic Regression_, _XGBoost_, hasil hiperparameter, hasil _oversampling / undersampling_, hasil _voting_), dan nilai F1-score cocok digunakan untuk membandingkan kemampuan antar model.


Selain F1, metrik lain yang dapat digunakan adalah akurasi, yang menggambarkan seberapa tepat sebuah model dapat melakukan klasifikasi. Nilai akurasi dapat digunakan untuk membandingkan ketepatan klasifikasi dua buah model apabila nilai F1-nya sama.

### B.1. Dataset Split

Lakukan pemisahan antara data training (80%) dan data validasi (20%). Kolom `stroke` adalah target pada dataset ini.

### B.2. Baseline Training

Lakukan training dengan menggunakan `LogisticRegression`. Evaluasi hasilnya dengan confusion matrix dan deskripsikan dengan singkat hal yang terjadi pada model tersebut.

### B.3. Hyperparameter Tuning

Lakukan pengaturan hyperparameter pada model Logistic Regression dan training kembali. Apakah hasilnya berubah?

### B.4. Training Model Lain

Kamu dapat melakukan training dengan model-model lain seperti Random Forest, Decision Tree, dan KNN serta atur hyperparameter-nya. Bandingkan hasilnya dengan baseline Logistic Regression.

[Referensi](https://scikit-learn.org/stable/supervised_learning.html)

## C. Improvement

Dataset imbalance merupakan kasus yang umum terjadi saat pembuatan model machine learning. Kasus ini dapat diatasi dengan melakukan oversampling pada target minoritas ataupun undersampling pada dataset mayoritas.

[Referensi](https://machinelearningmastery.com/smote-oversampling-for-imbalanced-classification/)

### C.1. Oversampling

Lakukan strategi oversampling pada dataset mayoritas. Training kembali model baseline dan lakukan evaluasi dengan confusion matrix.

### C.2. Undersampling
Lakukan strategi undersampling pada dataset minoritas. Training kembali model dan lakukan evaluasi dengan confusion matrix.

### C.3. Model Ensembling

Sebagai tambahan dari strategi oversampling dan undersampling, kinerja prediksi dapat ditingkatkan dengan membuat beberapa model berbeda menjadi satu model utuh. Contohnya adalah penggabungan Logistic Regression dan Random Forest.

Dari scikit-learn, terdapat dua jenis ensembling paling umum yaitu Voting Classifier dan Stacking Classifier. Gunakan kedua strategi ini pada jenis-jenis model yang berbeda, lakukan training pada oversampled atau undersampled data dan bandingkan hasilnya dengan baseline Logistic Regression.

[Referensi](https://scikit-learn.org/stable/modules/classes.html#module-sklearn.ensemble)

## D. Model Final
Tentukan model yang memiliki kinerja terbaik serta berikan alasannya.