# NOMOR 3: Analisis Klasifikasi Komprehensif
# **Narasi**
**PDM Paylater** adalah perusahaan fiktif penyedia layanan Buy Now Pay Later (BNPL) yang utamanya mendapatkan pendapatan dengan memberikan pinjaman uang. Salah satu risiko utama dalam praktik ini adalah kemungkinan peminjam gagal membayar pinjamannya, dengan menghentikan pembayaran sesuai kesepakatan. Hal ini akan menyebabkan kerugian keuangan bagi perusahaan.

Untuk mengurangi kerugian tersebut, sangat penting bagi PDM Paylater untuk membuat keputusan yang terinformasi (berbasiskan data) tentang kepada siapa memberikan pinjaman. Pada dasarnya, mereka perlu menilai risiko yang terkait dengan setiap peminjam dan membuat keputusan pemberian pinjaman berdasarkan hal itu.

**Tugas Anda** adalah membantu PDM Paylater dalam mengatasi tantangan ini. Anda akan melakukannya dengan mengevaluasi kemampuan setiap calon peminjam untuk melakukan pembayaran yang akan memungkinkan pengambilan keputusan pemberian pinjaman yang terinformasi dengan baik. `Model ini akan membantu menentukan calon peminjam mana yang layak mendapatkan pinjaman`.

# **Dataset**
Dataset yang digunakan dapat diakses melalui link berikut: [Dataset Nomor 3](https://drive.google.com/drive/folders/1roJV3ojRGFNpo87cytYjvj_U_FCAIt6W?usp=drive_link)
- **variabel_description.csv**: metadata
- **train.csv**: Dataset utama yang digunakan dalam pembentukan model klasifikasi, berisi informasi setiap aktivitas pengajuan pinjaman (aplikasi) oleh seorang calon peminjaman. Label target yang digunakan adalah `FLAG`, menunjukan apakah seorang calon peminjam akan diberikan pinjaman (1) atau tidak (0). Hal ini didasarkan pada prediksi apakah seorang calon peminjam akan sanggup dalam memenuhi kewajibannya melunasi pinjaman dengan tepat waktu atau tidak.
- **test.csv**: Digunakan dalam uji performa (evaluasi) model terbaik yang dibentuk menggunakan dataset train.csv. Berisi informasi setiap aktivitas pengajuan pinjaman oleh seorang calon peminjam. Label target yang digunakan adalah `FLAG`.
- **previous_application.csv**: Berisi informasi tentang data pengajuan pinjaman (aplikasi) sebelumnya. Terhubung dengan data train.csv dan test.csv berdasarkan fitur `U_ID`.
- **payment_history.csv**: Data pembayaran yang lalu untuk setiap pinjaman sebelumnya. Terhubung dengan data train.csv dan test.csv berdasarkan fitur `U_ID`, serta terhubung dengan data previous_application.csv berdasarkan fitur `SK_ID_PREV`.

# **Tugas**
Peserta dibebaskan menggunakan semua dataset, dengan 2 dataset utama yang wajib digunakan adalah train.csv (untuk pemodelan) dan test.csv (untuk evaluasi).
1. Jelaskan langkah-langkah pra-pemrosesan data (**Preprocessing**) yang Anda lakukan secara detail dan sejelas mungkin.
  - Pada Notebook ini tahapan preprocessing terbagi menjadi 3 bagian
    - **Bagian 1**: Dilakukan data cleaning dengan tujuan memperbaiki atau menghapus kesalahan, ketidakkonsistenan, dan ketidakakuratan dalam kumpulan data. Identifikasi hal ini cukup dilakukan pada dataset train.csv dan test.csv (karena yang wajib digunakan dalam analisis) serta dilakukan secara general berdasarkan eksplorasi awal.
    - **Bagian 2**: Pada bagian ini dilakukan pra-pemrosesan data dan feature engineering melanjutkan proses data cleaning sebelumnya untuk digunakan dalam proses pemodelan berdasarkan insight yang diperoleh pada bagian EDA.
    - **Bagian 3**: Beberapa tahapan preprocessing data menggunakan operator `pipeline` pada scikit-learn agar lebih mudah digunakan dan menghindari kemungkinan terjadinya kebocoran (leakage) data tes saat pemodelan.
  - Peserta diwajibkan membuat **setidaknya 3 fitur baru**, dengan mengekstrak nilai fitur dari dataset train.csv, test.csv, previous_application.csv dan payment_history.csv. Transformasi data dengan mengubah satuan (seperti hari menjadi tahun) tidak dihitung sebagai pembentukan fitur baru. Dataset utama dalam analisis ini adalah train.csv dan test.csv sehingga hasil fitur baru digabungkan dengan setiap dataset ini (tidak boleh salah satu).
  - Peserta diwajibkan menggunakan **setidaknya 3 metode preprocessing data berbeda** pada tahapan preprocessing bagian 3 (`pipeline`). Jika dilakukan imputasi missing value menggunakan modus untuk data kategorik dan mean untuk data numerik akan dihitung sebagai 1 metode preprocessing yang sama.
2. Lakukanlah tahapan Exploratory Data Analysis (EDA) untuk mendapatkan insight yang bermanfaat dari data. Pada tahapan ini anda harus **membuat setidaknya 5 pertanyaan** yang akan dijawab berdasarkan hasil eksplorasi dan visualisasi serta wajib menjawab 3 pertanyaan berikut:
  - Bagaimana sebaran proporsi pada label target (`FLAG`)?
  - Bagaimana pola jumlah pinjaman yang disetujui (`APPROVED_CREDIT`) dan karakteristiknya berdasarkan jenis kontrak (`CONTRACT_TYPE`)?
  - Terdapat korelasi yang kuat antara 3 fitur, yaitu `Product Price`, `Loan Annuity` dan `Approved Credit` (tunjukan dengan heatmap correlation). **Dalam hal ini, pemodelan klasifikasi nantinya hanya akan menggunakan fitur `Product Price`**. Kenapa demikian? (**Hint**: pertimbangkan ketersediaan data pada saat calon peminjam baru mengajukan pinjaman)
  - Tambahkan 5 pertanyaan lainnya dan jawab berdasarkan hasil eksplorasi dan visualisasi data.
3. Pilihlah metrik evaluasi yang Anda gunakan untuk menilai performa model (tahapan pemodelan serta pemilihan model terbaik) dan berikan penjelasan menyeluruh tentang alasan Anda memilih metrik tersebut. Pada bagian evaluasi akhir (uji performa menggunakan data test.csv) anda wajib menginterpretasikan setidaknya menggunakan 3 metrik evaluasi yang berbeda.
4. Pilihlah model terbaik dengan membandingkan beberapa model klasifikasi (**minimal 7 model yang berbeda**) dan berikan penjelasan mengapa model tersebut dipilih sebagai yang terbaik.
5. Lakukanlah uji performa pada data test.csv dengan menggunakan **setidaknya 3 metrik evaluasi yang berbeda** dan berikan interpretasi.
6. Berikan penjelasan tentang fitur-fitur yang paling penting pada model terbaik yang dipilih dan jelaskan bagaimana dan mengapa fitur-fitur tersebut sangat penting.
7. Berikan juga rekomendasi & kesimpulan menyeluruh terhadap bisnis PDM Paylater berdasarkan hasil analisis yang telah dilakukan.

# **Hint**
- Contoh pembuatan fitur baru: Dibentuk fitur `PRE_LATE`
  - Nilainya berupa 1: Pernah telat bayar, 0: Tidak pernah telat bayar
  - Diperoleh dari dataset payment_history dengan membandingkan fitur nilai pada `Ints days` (waktu jatuh jempo) dan `Pays Days` (waktu dibayar sebenarnya) yang kemudian di aggregate jumlahnya berdasarkan fitur `U_ID`, sehingga diperoleh insight apakah seorang calon peminjam pernah telat dalam membayar pada peminjaman sebelumnya (jumlah telat > 1 diubah nilainya menjadi 1)
  - Hasilnya digabungkan ke dataset train dan test berdasarkan fitur `U_ID` dengan metode penggabungan yang mempertahankan seluruh baris observasi pada kedua dataset ini (train dan test).
  - Jika terdapat nilai NA pada fitur `PRE_LATE` (yang telah digabungkan ke data train dan test), maka diimputasi dengan nilai 0. Artinya belum ada riwayat peminjaman sebelumnya oleh calon peminjam tersebut.
- Referensi operator pipeline pada scikit learn
  - [scikit-learn.org](https://scikit-learn.org/stable/modules/generated/sklearn.pipeline.Pipeline.html)
  - [Kaggle Tutorial](https://www.kaggle.com/code/alexisbcook/pipelines)
  - [Kaggle - Modelling using the pipeline (Titanic Dataset)](https://www.kaggle.com/code/nnjjpp/pipelines-for-preprocessing-a-tutorial#9.-Named-transformer-output)
  - [Youtube - 1](https://www.youtube.com/watch?v=q96A6LwIgDU&pp=ygUtcGlwZWxpbmUgbW9kZWwgY2xhc3NpZmljYXRpb24gaW5kb25lc2lhIEpDT1Ag)
  - [Youtube - 2](https://youtu.be/mPnR2bufHZI?feature=shared)
- Referensi Feature Importance
  - [Kaggle Tutorial](https://www.kaggle.com/code/dansbecker/permutation-importance)
- Referensi SHAP values
  - [Kaggle Tutorial](https://www.kaggle.com/code/dansbecker/advanced-uses-of-shap-values)
  - [Kaggle Lainnya](https://www.kaggle.com/code/bextuychiev/model-explainability-with-shap-only-guide-u-need#What-is-SHAP-and-Shapley-values?)
  - [lainnya](https://www.datacamp.com/tutorial/introduction-to-shap-values-machine-learning-interpretability)
- Referensi SHAP values individual/SHAP Force Plot
  - [Kaggle Tutorial](https://www.kaggle.com/code/dansbecker/shap-values)
  - [lainnya](https://shap.readthedocs.io/en/latest/example_notebooks/tabular_examples/tree_based_models/Force%20Plot%20Colors.html)

# **Perhatikan!!!**
- **Tahapan pemodelan dan EDA** hanya menggunakan data train.csv. **Tahapan evaluasi akhir** menggunakan data test.csv. Dataset lainnya digunakan dalam feature engineering dengan membuat fitur baru pada dataset train.csv dan test.csv (wajib keduanya).
- Hati-hati pada saat penggabungan fitur baru dengan dataset train.csv dan test.csv
- Peserta diizinkan **melewatkan operator pipeline** pada preprocessing bagian 3, tetapi akan **mendapatkan pengurangan nilai**.
- Gunakan alur seperti yang ditunjukan pada **Outline** dibawah untuk mempermudah analisis, detailnya dapat disesuaikan dengan preferensi masing-masing.
- Peserta **dilarang melakukan optimalisasi model menggunakan metode hyperparameter tunning dan sejenisnya**. Oleh karena itu, peserta dilarang mengatur parameter setiap model selain random_state dan verbose. **Contoh yang benar**:
  - RidgeClassifier(random_state=0)
  - RandomForestClassifier(random_state=0)
  - CatBoostClassifier(random_state=0, verbose=0)
  <br><br>
Dilarang seperti berikut:
  - XGBClassifier(random_state=0, n_estimators =  500, learning_rate= 0.01, max_depth =  5)

- Hasil splitting pada data train.csv akan disebut sebagai data train dan data validasi. Peserta bebas dalam pengaturan proporsi dan penggunaan random_state pada splitting data. **Data latih (train) sekurang-kurangnya 60% dari train.csv**
- Peserta diizinkan untuk dengan/tidak menggunakan berbagai metode penanganan data tidak seimbang dengan memperhatikan data leakage.
- **Peserta dilarang menambah dan/atau menghapus observasi (baris) pada dataset test.csv**
- Untuk mempermudah interpretasi pada tahapan **Post Analysis**, peserta diharapkan tidak menggunakan metode encoding dengan One Hot Encoding atau dummy. Disarankan menggunakan metode Label Encoder atau Ordinal Encoder.
- Bagian **Post Analysis** cukup dilakukan dengan menjalankan syntax yang disediakan dan memberikan interpretasi output (Feature Importance)

# **Bonus Point**
- Peserta membuat metrik evaluasi sendiri secara logis menggunakan fungsi `make_scorer` pada scikit learn
- Membuat fungsi perulangan yang menggabungkan operator `pipeline` dan kandidat model serta menghasilkan output performa masing-masing model.
- Terdapat fitur baru yang dibentuk yang masuk kedalam 5 fitur terbaik pada plot **Feature Importance**
- Melanjutkan tahapan Post Analysis menggunakan konsep **SHAP values** untuk mengetahui bagaimana pola pengaruh fitur terhadap label target (`FLAG`) dan SHAP Force Plot / SHAP values individual** dengan 2 sampel (individu) data pengajuan pinjaman.

# **Outline**
- [ 0 - Intro](#0)
- [ 1 - Preprocessing Data (1)](#1)
- [ 2 - Exploratory Data Analysis (EDA)](#2)
- [ 3 - Preprocessing Data (2)](#3)
- [ 4 - Modelling](#4)
  - [Preprocessing Data (3) - Pipeline](#ex4.1)
  - [Pemodelan](#ex4.2)
  - [Model Terbaik](#ex4.3)
- [ 5 - Evaluation](#5)
- [ 6 - Post Analysis](#6)
  - [Feature Importance](#ex6.1)
  - [Opsional -- SHAP values](#ex6.2)
  - [Opsional -- SHAP values individual / SHAP Force Plot](#ex6.3)
- [ 7 - Conclusion & Recommendation](#7)

<a name="0"></a>
## 0 - Intro
### Library

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# add other

### Metadata

In [9]:
## Jika menggunakan google colab dan dataset pada google drive, jalankan 2 baris syntax berikut
# from google.colab import drive
# drive.mount('/content/drive')

df_var = pd.read_csv('/content/drive/MyDrive/SEMESTER 6 WAW/Asprak Datmin/Laprak UTS/Dataset Nomor 3/variable_description.csv')
pd.set_option('display.max_colwidth', None)
display(df_var)

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


Unnamed: 0,Table,Columns,Description
0,loanapptrain.csv / loanapptest.csv,U_ID,Loan ID
1,loanapptrain.csv / loanapptest.csv,FLAG,"Target variable (1 - client with late payment more than X days, 0 - all other cases)"
2,loanapptrain.csv / loanapptest.csv,CONTRACT_TYPE,Identification if loan is cash or revolving
3,loanapptrain.csv / loanapptest.csv,GENDER,Gender of the client
4,loanapptrain.csv / loanapptest.csv,NUM_OF_CHILDREN,Number of children the client has
5,loanapptrain.csv / loanapptest.csv,INCOME,Monthly income of the client
6,loanapptrain.csv / loanapptest.csv,APPROVED_CREDIT,Approved credit amount of the loan
7,loanapptrain.csv / loanapptest.csv,LOAN_ANNUITY,Loan annuity (amount that must be paid monthly)
8,loanapptrain.csv / loanapptest.csv,PRODUCT_PRICE,For consumer loans it is the price of the goods for which the loan is given
9,loanapptrain.csv / loanapptest.csv,INCOME_CATEGORY,"Clients income type (businessman, working, maternity leave,…)"


### Dataset

In [11]:
df_tr = pd.read_csv('/content/drive/MyDrive/SEMESTER 6 WAW/Asprak Datmin/Laprak UTS/Dataset Nomor 3/train.csv')
df_te = pd.read_csv('/content/drive/MyDrive/SEMESTER 6 WAW/Asprak Datmin/Laprak UTS/Dataset Nomor 3/test.csv')
df_pre = pd.read_csv('/content/drive/MyDrive/SEMESTER 6 WAW/Asprak Datmin/Laprak UTS/Dataset Nomor 3/previous_applications.csv')
df_his = pd.read_csv('/content/drive/MyDrive/SEMESTER 6 WAW/Asprak Datmin/Laprak UTS/Dataset Nomor 3/payment_history.csv')

In [12]:
display(df_tr.head(), df_te.head())

Unnamed: 0,U_ID,FLAG,CONTRACT_TYPE,GENDER,NUM_OF_CHILDREN,INCOME,APPROVED_CREDIT,LOAN_ANNUITY,PRODUCT_PRICE,INCOME_CATEGORY,...,DAYS_AGE,DAYS_WORK,DAYS_REGISTRATION,DAYS_SINCE_ID_CHANGE,APPLY_DAYS,APPLY_HOUR,ORGANIZATION_CATEGORY,EXTERNAL_SCORE_1,EXTERNAL_SCORE_2,EXTERNAL_SCORE_3
0,333538,0,Revolving loans,F,1,67500.0,202500.0,10125.0,202500.0,Working,...,-11539,-921,-119.0,-2757,TUESDAY,18,Business Entity Type 3,0.572805,0.608276,
1,406644,0,Cash loans,F,1,202500.0,976711.5,49869.0,873000.0,Commercial associate,...,-15743,-4482,-1797.0,-2455,TUESDAY,14,Other,0.6556,0.684298,
2,259130,0,Cash loans,F,0,180000.0,407520.0,25060.5,360000.0,Pensioner,...,-20775,365243,-8737.0,-4312,THURSDAY,14,NA1,,0.580687,0.749022
3,411997,0,Cash loans,M,0,225000.0,808650.0,26086.5,675000.0,State servant,...,-20659,-10455,-4998.0,-4010,WEDNESDAY,10,Culture,,0.62374,0.710674
4,241559,0,Revolving loans,M,0,135000.0,180000.0,9000.0,180000.0,Commercial associate,...,-9013,-1190,-3524.0,-1644,SUNDAY,11,Construction,0.175511,0.492994,0.085595


Unnamed: 0,U_ID,FLAG,CONTRACT_TYPE,GENDER,NUM_OF_CHILDREN,INCOME,APPROVED_CREDIT,LOAN_ANNUITY,PRODUCT_PRICE,INCOME_CATEGORY,...,DAYS_AGE,DAYS_WORK,DAYS_REGISTRATION,DAYS_SINCE_ID_CHANGE,APPLY_DAYS,APPLY_HOUR,ORGANIZATION_CATEGORY,EXTERNAL_SCORE_1,EXTERNAL_SCORE_2,EXTERNAL_SCORE_3
0,219092,0,Cash loans,M,3,135000.0,871029.0,44604.0,765000.0,Working,...,-17598,-2650,-1411.0,-1131,SATURDAY,7,Business Entity Type 3,,0.145475,0.65126
1,141577,0,Cash loans,F,0,144000.0,485640.0,34537.5,450000.0,Working,...,-14097,-7408,-7908.0,-4872,MONDAY,14,Kindergarten,,0.682675,
2,180205,0,Cash loans,F,1,90000.0,247500.0,8887.5,247500.0,Working,...,-18384,-2826,-8226.0,-1930,SATURDAY,12,Self-employed,0.8147,0.686312,0.758393
3,357381,0,Cash loans,M,2,112500.0,506889.0,24781.5,418500.0,Working,...,-12170,-926,-916.0,-4048,THURSDAY,13,Other,0.399219,0.26652,0.058826
4,271229,0,Cash loans,M,0,216000.0,450000.0,21888.0,450000.0,Working,...,-10790,-577,-4640.0,-2035,MONDAY,14,Business Entity Type 3,0.368452,0.610483,0.392774


In [13]:
display(df_pre.head(), df_his.head())

Unnamed: 0,SK_ID_PREV,U_ID,CONTRACT_TYPE,LOAN_ANNUITY,APPLICATION,APPROVED_CREDIT,AMT_DOWN_PAYMENT,PRODUCT_PRICE,APPLY_DAYS,APPLY_HOUR,CONTRACT_STATUS,DAYS_DECISION,TERM_PAYMENT,YIELD_GROUP,FIRST_DRAW,FIRST_DUE,TERMINATION,NFLAG_INSURED_ON_APPROVAL
0,2030495,271877,Consumer loans,1730.43,17145.0,17145.0,0.0,17145.0,SATURDAY,15,Approved,-73,12.0,middle,365243.0,-42.0,-37.0,0.0
1,2819243,176158,Cash loans,47041.335,450000.0,470790.0,,450000.0,MONDAY,7,Approved,-512,12.0,middle,365243.0,-482.0,-177.0,1.0
2,1383531,199383,Cash loans,23703.93,315000.0,340573.5,,315000.0,SATURDAY,8,Approved,-684,18.0,low_normal,365243.0,-654.0,-137.0,1.0
3,2315218,175704,Cash loans,,0.0,0.0,,,TUESDAY,11,Canceled,-14,,NA1,,,,
4,1715995,447712,Cash loans,11368.62,270000.0,335754.0,,270000.0,FRIDAY,7,Approved,-735,54.0,low_normal,365243.0,-705.0,-334.0,1.0


Unnamed: 0,SK_ID_PREV,U_ID,INST_NUMBER,INST_DAYS,PAY_DAYS,AMT_INST,AMT_PAY
0,1137312,164489,12,-1384.0,-1417.0,5970.375,5970.375
1,2723183,112102,14,-197.0,-197.0,70.74,70.74
2,2558880,154793,8,-1262.0,-1269.0,15031.08,15031.08
3,1410565,197687,1,-1037.0,-1048.0,12514.05,12510.45
4,2391610,183431,20,-1680.0,-1693.0,7875.0,7875.0


<a name="1"></a>
## 1 - Preprocessing Data (1)
Dilakukan data cleaning dengan tujuan memperbaiki atau menghapus kesalahan, ketidakkonsistenan, dan ketidakakuratan dalam kumpulan data. Identifikasi hal ini cukup dilakukan pada dataset train.csv dan test.csv (karena yang wajib digunakan dalam analisis) serta dilakukan secara general berdasarkan eksplorasi awal. Jelaskan setiap bagian preprocessing yang dilakukan!

<a name="2"></a>
## 2 - Exploratory Data Analysis (EDA)
Tahapan ini dilakukan untuk mendapatkan insight yang bermanfaat dari data. Pada tahapan ini anda harus membuat setidaknya 5 pertanyaan tambahan yang akan dijawab berdasarkan hasil eksplorasi dan visualisasi selain 3 pertanyaan wajib

#### 2.1 - Bagaimana sebaran proporsi pada label target (`FLAG`)?


**JAWAB:**<br>

#### 2.2 - Bagaimana pola jumlah pinjaman yang disetujui (`APPROVED_CREDIT`) dan karakteristiknya berdasarkan jenis kontrak (`CONTRACT_TYPE`)?

**JAWAB:**<br>

#### 2.3 - Bagaimana korelasi antar fitur? Fitur apa yang berkorelasi kuat serta bagaimana tindakannya? (merujuk pada penjelasan **TUGAS**)


**JAWAB:**<br>
Terdapat korelasi yang kuat antara 3 fitur, yaitu Product Price, Loan Annuity dan Approved Credit. Dalam hal ini, pemodelan klasifikasi nantinya hanya akan menggunakan fitur **Product Price**. Karena ...


#### 2.4 - Tambahkan 5 pertanyaan lainnya

#### 2.5 -

<a name="3"></a>
## 3 - Preprocessing Data (2)
- Pada bagian ini dilakukan pra-pemrosesan data dan feature engineering melanjutkan proses data cleaning sebelumnya untuk digunakan dalam proses pemodelan berdasarkan insight yang diperoleh pada bagian EDA.
- Peserta diwajibkan membuat **setidaknya 3 fitur baru**, dengan mengekstrak nilai fitur dari dataset train.csv, test.csv, previous_application.csv dan payment_history.csv. Transformasi data dengan mengubah satuan (seperti hari menjadi tahun) tidak dihitung sebagai pembentukan fitur baru. Dataset utama dalam analisis ini adalah train.csv dan test.csv sehingga hasil fitur baru digabungkan dengan setiap dataset ini (tidak boleh salah satu).

<a name="4"></a>
## 4 - Modelling
**Hanya menggunakan dataset train.csv**
### Splitting Data
- Peserta bebas dalam pengaturan proporsi dan penggunaan random_state pada splitting data. Data latih (train) sekurang-kurangnya 60% dari train.csv
- Agar mempermudah analisis, train.csv dibagi menjadi 2 bagian, yaitu data train dan data validasi (bukan tes).

In [None]:
X = None
y = None

X_train, X_val, y_train, y_val = (train_test_split(X, y, test_size = None, stratify = None, random_state = None))

<a name="ex4.1"></a>
### Preprocessing Data (3) - Pipeline
- Beberapa tahapan preprocessing data menggunakan operator `pipeline` pada scikit-learn agar lebih mudah digunakan dan menghindari kemungkinan terjadinya kebocoran (leakage) data tes saat pemodelan.
- Peserta diwajibkan menggunakan **setidaknya 3 metode preprocessing data berbeda** pada tahapan preprocessing bagian 3 (`pipeline`). Jika dilakukan imputasi missing value menggunakan modus untuk data kategorik dan mean untuk data numerik akan dihitung sebagai 1 metode preprocessing yang sama.

<a name="ex4.2"></a>
### Pemodelan
- Pilihlah metrik evaluasi yang Anda gunakan untuk menilai performa model (tahapan pemodelan serta pemilihan model terbaik) dan berikan penjelasan menyeluruh tentang alasan Anda memilih metrik tersebut.
- Pilihlah model terbaik dengan membandingkan beberapa model klasifikasi (**minimal 7 model yang berbeda**) dan berikan penjelasan mengapa model tersebut dipilih sebagai yang terbaik.

**Metrik evaluasi** yang digunakan:
<br>
karena ....

<a name="ex4.3"></a>
### Model Terbaik

In [None]:
best = None # model terbaik
best.fit(X_train, y_train) # fitting model terbaik menggunakan data latih

<a name="5"></a>
## 5 - Evaluation
Lakukanlah uji performa model terbaik di atas dengan memprediksi data test.csv menggunakan **setidaknya 3 metrik evaluasi yang berbeda** dan berikan interpretasi.


In [None]:
X_test = None
y_test = None

# Predict the test set
Y_pred = best.predict(X_test)

# Check the classification report
print(classification_report(y_test, Y_pred))

# add other

**Interpretasi**

<a name="6"></a>
## 6 - Post Analysis
- Berikan penjelasan tentang fitur-fitur yang paling penting pada model terbaik yang dipilih dan jelaskan bagaimana dan mengapa fitur-fitur tersebut sangat penting serta bagaimana pola pengaruhnya terhadap label target (`FLAG`)
- Jalankan syntax berikut tanpa mengubah apapun. Tugas anda adalah memberikan interpretasi pada masing-masing output


<a name="ex6.1"></a>
### Feature Importance

In [None]:
from sklearn.inspection import permutation_importance
import shap

In [None]:
def plot_fi(model, X = X_val, y = y_val, rep = 10):
    perm = permutation_importance(model, X, y, n_repeats=10, random_state=0, n_jobs=-1)

    perm2 = pd.DataFrame({'feature': X.columns.tolist()*rep, 'importance': perm["importances"].transpose().reshape(-1)})
    perm2["importance"] = perm2.importance/perm2.importance.sum()*rep
    urut = perm2.groupby("feature").mean().sort_values("importance", ascending=False)

    plt.figure(figsize=(8, 6))
    fig, axs = plt.subplots(1, 2, figsize=(25, 15))

    sns.barplot(x='importance', y='feature', data=perm2, order=urut.index, ax=axs[0])
    sns.stripplot(x='importance', y='feature', data=perm2, order = urut.index, s=5, ax=axs[1])
    plt.show()

    return urut

In [None]:
plot_fi(model = best, X = X_val, y = y_val)

<a name="ex6.2"></a>
### Opsional -- SHAP values

<a name="ex6.3"></a>
### Opsional -- SHAP values individual / SHAP Force Plot

<a name="7"></a>
## 7 - Conclusion & Recommendation
Berikan rekomendasi & kesimpulan menyeluruh terhadap bisnis PDM Paylater berdasarkan hasil analisis yang telah dilakukan.

**KESIMPULAN:**

<br>

**REKOMENDASI:**