# **xi. Model Inference**

Model yang sudah dilatih akan dicoba pada data yang bukan termasuk ke dalam train-set ataupun test-set.

## A. Import Libraries for Model Inference

Bagian ini untuk mengimport library yang akan digunakan

In [1]:
# Import Library
import pickle
import ast
import pandas as pd
import numpy as np
import random

## B. Loading Pickle

Bagian ini untuk loading file pickle yang sudah disimpan sebelumnya saat model saving

In [2]:
# Load Files
with open('model_scaler.pkl', 'rb') as file_1:
  model_scaler = pickle.load(file_1)

with open('knn_model.pkl', 'rb') as file_2:
  knn_model = pickle.load(file_2)


## C. Create Data Inference

Bagian ini untuk membuat tabel data inference

In [3]:
# Set the seed for reproducibility
seed_value = 29
random.seed(seed_value)
np.random.seed(seed_value)

# Number of data points to generate
n = 15

# Generate data for the limit_balance column
limit_balance = np.round(np.random.uniform(10000, 800000, n), 2)

# Generate data for the pay_1 until pay_6 columns
pay_1 = [-2.0, -1.0, 0.0, 1.0, 2.0, 3.0, 4.0, 5.0, 6.0, 7.0, 8.0]
pay_1 = random.choices(pay_1, k=n)

pay_2 = [-2.0, -1.0, 0.0, 1.0, 2.0, 3.0, 4.0, 5.0, 6.0, 7.0]
pay_2 = random.choices(pay_2, k=n)

pay_3 = [-2.0, -1.0, 0.0, 2.0, 3.0, 4.0, 5.0, 6.0, 7.0]
pay_3 = random.choices(pay_3, k=n)

pay_4 = [-2.0, -1.0, 0.0, 2.0, 3.0, 4.0, 5.0, 6.0, 7.0, 8.0]
pay_4 = random.choices(pay_4, k=n)

pay_5 = [-2.0, -1.0, 0.0, 2.0, 3.0, 4.0, 5.0, 6.0, 7.0]
pay_5 = random.choices(pay_5, k=n)

pay_6 = [-2.0, -1.0, 0.0, 2.0, 3.0, 4.0, 6.0, 7.0]
pay_6 = random.choices(pay_6, k=n)


Data inference dibuat secara acak menggunakan library random

In [4]:
# Create a dataframe
data_inf = pd.DataFrame({
    'limit_balance': limit_balance,
    'pay_1': pay_1,
    'pay_2': pay_2,
    'pay_3': pay_3,
    'pay_4': pay_4,
    'pay_5': pay_5,
    'pay_6': pay_6,
})

# Show dataframe
data_inf

Unnamed: 0,limit_balance,pay_1,pay_2,pay_3,pay_4,pay_5,pay_6
0,692370.39,4.0,2.0,3.0,2.0,-2.0,3.0
1,235075.71,1.0,5.0,5.0,3.0,7.0,-2.0
2,67872.55,7.0,2.0,5.0,5.0,7.0,-1.0
3,612957.39,1.0,-1.0,4.0,3.0,-1.0,2.0
4,367648.06,3.0,2.0,4.0,8.0,-1.0,-1.0
5,438414.53,1.0,2.0,2.0,5.0,7.0,-2.0
6,584042.27,2.0,5.0,4.0,2.0,7.0,-1.0
7,680635.04,8.0,3.0,5.0,7.0,6.0,2.0
8,616877.98,-1.0,-1.0,-2.0,5.0,5.0,-1.0
9,589183.54,2.0,4.0,7.0,8.0,5.0,-2.0


Membuat dataframe dari data_inf yang sudah di inisialisasi diatas

## D. Split Data for Model Inference

Bagian ini untuk membagi data menjadi numerical dan categorical, sama seperti saat membuat model pada notebook sebelumnya.

In [5]:
# Select the limit_balance column and create a new dataframe for data_inf_num
data_inf_num = data_inf[['limit_balance']]

# Create a new dataframe from the selected column
data_inf_num = pd.DataFrame(data_inf_num)

# Show dataframe
data_inf_num


Unnamed: 0,limit_balance
0,692370.39
1,235075.71
2,67872.55
3,612957.39
4,367648.06
5,438414.53
6,584042.27
7,680635.04
8,616877.98
9,589183.54


Memasukkan kolom limit_balance ke kolom numerical

In [6]:
# Select the categorical columns 'pay_1', 'pay_2', 'pay_3', 'pay_4', 'pay_5', and 'pay_6' and create a new dataframe for data_inf_cat
data_inf_cat= data_inf[['pay_1', 'pay_2', 'pay_3', 'pay_4','pay_5','pay_6']]

# Create a new dataframe from the selected categorical columns
data_inf_cat = pd.DataFrame(data_inf_cat)

# Show dataframe
data_inf_cat

Unnamed: 0,pay_1,pay_2,pay_3,pay_4,pay_5,pay_6
0,4.0,2.0,3.0,2.0,-2.0,3.0
1,1.0,5.0,5.0,3.0,7.0,-2.0
2,7.0,2.0,5.0,5.0,7.0,-1.0
3,1.0,-1.0,4.0,3.0,-1.0,2.0
4,3.0,2.0,4.0,8.0,-1.0,-1.0
5,1.0,2.0,2.0,5.0,7.0,-2.0
6,2.0,5.0,4.0,2.0,7.0,-1.0
7,8.0,3.0,5.0,7.0,6.0,2.0
8,-1.0,-1.0,-2.0,5.0,5.0,-1.0
9,2.0,4.0,7.0,8.0,5.0,-2.0


Memasukkan kolom pay_1, pay_2, pay_3, pay_4, pay_5 dan pay_6 ke kolom categorical

## E. Feature Engineering for Model Inference

Bagian ini dilakukan untuk mempersiapkan data input yang akan digunakan oleh model agar sesuai dengan format yang dibutuhkan oleh model

### Scaling

Langkah ini merupakan proses mengubah rentang nilai dari fitur-fitur dalam dataset sehingga mereka memiliki skala yang serupa atau terstandarisasi.

In [7]:
# Scale the numerical data using the previously fitted scaler 'model_scaler'
data_inf_num_scaled = model_scaler.transform(data_inf_num)

# Create a new dataframe from the scaled numerical data
data_inf_num_scaled = pd.DataFrame(data_inf_num_scaled)

# Show dataframe
data_inf_num_scaled


Unnamed: 0,0
0,0.988943
1,0.326197
2,0.083873
3,0.873851
4,0.518331
5,0.620891
6,0.831945
7,0.971935
8,0.879533
9,0.839396


Scaling sudah selesai dilakukan dan telah dijadikan sebuah dataframe

### Encoding

Encoding tidak perlu dilakukan karena category column sudah berbentuk angka, jadi tidak perlu diskala ulang

## F. Concatenate Column for Model Inference

Langkah ini dilakukan untuk menggabungkan data_inf_num yang sudah di scaling dan data_inf_cat

In [8]:
# Concatenate the scaled numerical data and the categorical data
data_inf_final = np.concatenate([data_inf_num_scaled, data_inf_cat], axis=1)

# Create a new dataframe from the concatenated data
data_inf_final = pd.DataFrame(data_inf_final)

# Show dataframe
data_inf_final


Unnamed: 0,0,1,2,3,4,5,6
0,0.988943,4.0,2.0,3.0,2.0,-2.0,3.0
1,0.326197,1.0,5.0,5.0,3.0,7.0,-2.0
2,0.083873,7.0,2.0,5.0,5.0,7.0,-1.0
3,0.873851,1.0,-1.0,4.0,3.0,-1.0,2.0
4,0.518331,3.0,2.0,4.0,8.0,-1.0,-1.0
5,0.620891,1.0,2.0,2.0,5.0,7.0,-2.0
6,0.831945,2.0,5.0,4.0,2.0,7.0,-1.0
7,0.971935,8.0,3.0,5.0,7.0,6.0,2.0
8,0.879533,-1.0,-1.0,-2.0,5.0,5.0,-1.0
9,0.839396,2.0,4.0,7.0,8.0,5.0,-2.0


Sudah dilakukan penggabungan kolom kembali menjadi satu dataframe dan siap untuk diprediksi

## G. Predict Model Inference

Langkah ini digunakan untuk melakukan prediksi berdasarkan model yang telah dipilih

In [9]:
# Use knn_model to make predictions on the data_inf_final dataset
y_pred_inf = knn_model.predict(data_inf_final)


Membuat variabel y_pred_inf untuk memprediksi data_inf_final

In [10]:
# Create a dataframe 'y_pred_data_inf' to store the predictions and name the column as 'Price - Prediction'
y_pred_data_inf = pd.DataFrame(y_pred_inf, columns=['Price - Prediction'])

# Show dataframe
y_pred_data_inf

Unnamed: 0,Price - Prediction
0,1
1,1
2,1
3,0
4,1
5,1
6,1
7,1
8,0
9,1


Membuat dataframe untuk hasil prediksi

In [11]:
# Concatenate the original 'data_inf' dataframe with the predictions dataframe 'y_pred_data_inf' along axis 1
tabel_inference = pd.concat([data_inf, y_pred_data_inf], axis=1)

# Show dataframe
tabel_inference


Unnamed: 0,limit_balance,pay_1,pay_2,pay_3,pay_4,pay_5,pay_6,Price - Prediction
0,692370.39,4.0,2.0,3.0,2.0,-2.0,3.0,1
1,235075.71,1.0,5.0,5.0,3.0,7.0,-2.0,1
2,67872.55,7.0,2.0,5.0,5.0,7.0,-1.0,1
3,612957.39,1.0,-1.0,4.0,3.0,-1.0,2.0,0
4,367648.06,3.0,2.0,4.0,8.0,-1.0,-1.0,1
5,438414.53,1.0,2.0,2.0,5.0,7.0,-2.0,1
6,584042.27,2.0,5.0,4.0,2.0,7.0,-1.0,1
7,680635.04,8.0,3.0,5.0,7.0,6.0,2.0,1
8,616877.98,-1.0,-1.0,-2.0,5.0,5.0,-1.0,0
9,589183.54,2.0,4.0,7.0,8.0,5.0,-2.0,1


Menggabungkan tabel y_pred_data_inf dengan tabel data_inf

# **xii. Kesimpulan**

##### Kesimpulan default model :
1. Logistic Regression

- Saya menggunakan Logistic Regression karena model ini digunakan untuk probabilitas biner (0 atau 1). Dalam kasus ini, model Logistic Regression cocok karena hanya ada 2 output prediksi yaitu bisa bayar / gagal bayar. 
- Classification report untuk Logistic Regression X_train adalah pada kelas 1 : precision 69%%, recall 68%, f1-score 68% dan accuracy 69%.
Classification report untuk Logistic Regression X_test adalah pada kelas 1 : precision 37%%, recall 69%, f1-score 48% dan accuracy 69%.
- Saya menggunakan parameter CV=7 untuk membuat 7 partisi dalam proses Cross-Validation nya serta scoring menggunakan f1 score karena menurut saya kelas 0 dan 1 sama-sama penting jadi harus diminimalisir False Negative(FN) dan False Positive(FP) nya. Untuk hasil range test nya berkisar antara 0.66-0.69 atau 66% sampai 69%, yang bisa dikatakan bahwa model ini memiliki akurasi 66-69% dalam memprediksi data baru.
- Mean Cross Validation untuk Logistic Regression default model adalah 0.6, mendekati angka 1, artinya model ini cukup optimal untuk digunakan. Sedangkan standar deviasi 0.01, semakin mendekati angka 0 maka model ini semakin bisa dikatakan best fit atau tidak mengalami over fitting.
- Kesimpulan akhir untuk model ini adalah model ini cukup konsisten atau bisa dikatakan best fit, namun akurasi nya masih jauh dari angka yang diharapkan. Maka dari itu, mungkin model ini membutuhkan data latih yang lebih banyak agar semakin akurat kedepannya.

2. KNN

- Saya menggunakan KNN karena model KNN adalah model yang mudah dipahami dan diimplementasikan untuk klasifikasi.
- Classification report untuk Logistic Regression X_train adalah pada kelas 1 : precision 85%%, recall 72%, f1-score 78% dan accuracy 80%.
Classification report untuk Logistic Regression X_test adalah pada kelas 1 : precision 41%%, recall 61%, f1-score 49% dan accuracy 73%.
- Saya menggunakan parameter CV=7 untuk membuat 7 partisi dalam proses Cross-Validation nya serta scoring menggunakan f1 score karena menurut saya kelas 0 dan 1 sama-sama penting jadi harus diminimalisir False Negative(FN) dan False Positive(FP) nya. Untuk hasil range test nya berkisar antara 0.69-0.77 atau 69% sampai 77%, yang bisa dikatakan bahwa model ini memiliki akurasi 69-77% dalam memprediksi data baru.
- Mean KNN Cross Validation yaitu 0.7 mendekati angka 1, artinya model ini cukup optimal untuk digunakan. Sedangkan standar deviasi 0.03 yang mendekati angka 0 menandakan model ini bisa dikatakan best fit atau tidak mengalami over fitting
- Kesimpulan akhir untuk model ini adalah model ini memiliki nilai range test tertinggi dibanding dua model lainnya setelah dilakukan cross validation. Maka, model ini akan digunakan sebagai model baseline yang akan masuk kedalam proses hyperparameter tuning nantinya.

3. SVM
- Saya menggunakan model SVM karena model ini dapat bekerja dengan baik dalam ruang yang berdimensi tinggi, artinya model ini baik digunakan untuk data yang mempunyai banyak kolom dan baris.
- Classification report untuk Logistic Regression X_train adalah pada kelas 1 : precision 82%%, recall 59%, f1-score 69% dan accuracy 73%.
Classification report untuk Logistic Regression X_test adalah pada kelas 1 : precision 45%%, recall 61%, f1-score 52% dan accuracy 76%.
- Berdasarkan nilai accuracy pada classification report, ditemukan bahwa model SVM adalah model terbaik. Namun, pada test cross validation, KNN lah model yang paling baik.
- Saya menggunakan parameter CV=7 untuk membuat 7 partisi dalam proses Cross-Validation nya serta scoring menggunakan f1 score karena menurut saya kelas 0 dan 1 sama-sama penting jadi harus diminimalisir False Negative(FN) dan False Positive(FP) nya. Untuk hasil range test nya berkisar antara 0.65-0.70 atau 65% sampai 70%, yang bisa dikatakan bahwa model ini memiliki akurasi 65-70% dalam memprediksi data baru .
- Kesimpulan akhir untuk model ini adalah model ini merupakan model yang terbaik pada nilai accuracy di classification report, namun pada test cross validation performa model ini menurun pada test set dari 76% turun menjadi 70%

4. Kesimpulan dari 3 model
- Saya sudah mencoba Grid Search CV sebelum mencoba Randomized Search Cross Validation, namun Grid Search CV membutuhkan waktu yang sangat lama dalam proses nya. Maka dari itu, untuk efisiensi waktu saya memilih Randomized Search Cross Validation untuk menguji ketiga model.
- Berdasarkan cross-validation yang telah dilakukan, ternyata model KNN merupakan model terbaik yang bisa digunakan untuk memprediksi data. Model KNN lah yang nantinya diproses kedalam hyperparameter tuning
- Model KNN mempunyai akurasi 69% sampai 77%


##### Kesimpulan model hyperparameter tuning:
1. Setelah mencoba beberapa parameter dalam proses hyperparameter tuning, perhitungan mean pada model tersebut mendapatkan nilai 0.74. Perhitungan mean tersebut menandakan bahwa model setelah dituning mencapai akurasi 74%. Sedangkan standar deviasi adalah 0.01 yang menandakan model ini konsisten atau bisa dikatakan bestfit
2. Pada train set, nilai F1-score mencapai 90% serta akurasi 91%. Ini menandakan hal yang baik untuk hasi pengujiannya. Untuk hasil precision 97% dan recall 84%. Angka-angka tersebut menandakan bahwa model ini sangat baik dalam data pelatihan. Hal ini dibuktikan pada confusion matrix, data pada False Negative (FN) dan False Positive (FP) yang sedikit dibandingkan prediksi data pada kelas True Positive(TP) dan True Negative(TN). Saya memilih scoring menggunakan F1-score karena menurut saya kelas TP dan TN sama-sama penting dan kelas FP dan FN harus diminimalisir.
3. Pada test set, KNN setelah di tuning memiliki hasil yang kurang baik pada F1 score yaitu 45% dan accuracy 68%. Hal ini juga dibuktikan pada confusion matrix, 1 untuk kelas True Positive (TP) berisi 79 data, 0 untuk kelas True Negative (TN) berisi 322 data, False Positive (FP) berisi 48 data dan False Negative (FN) berisi 144 data. Kelas FN dan FP masih tinggi untuk test set dan ini mengkhawatirkan apabila model ini dipakai untuk memprediksi data yang belum pernah dilihat karena berpotensi salah prediksi. Karena itu, saya akan melakukan model evaluation untuk membandingkan performa antara KNN default model atau KNN sebelum tuning dengan KNN tuning model atau KNN setelah di tuning. Saya memilih scoring menggunakan F1-score karena menurut saya kelas TP dan TN sama-sama penting dan kelas FP dan FN harus diminimalisir.
4. Kesimpulan akhir adalah model KNN ini mengalami performa yang menurun pada test-set. Maka dari itu, saya akan melakukan pengujian/perbandingan akhir terhadap model sebelum tuning (default model) dengan model setelah tuning.

##### Kesimpulan model evaluation:

1. Saya membuat report untuk model default dan menghasilkan score accuracy 72%, dan F1 score 48% lalu saya bandingkan dengan model KNN setelah dituning dan hasilnya adalah accuracy 67% dan F1-score 45%
2. Maka dari itu, saya mengambil KNN default model untuk disimpan ke model saving dan dilakukan prediksi nantinya menggunakan model tersebut karena KNN default model memiliki nilai persentase yang lebih tinggi dibandingkan KNN setelah dituning

##### Kelebihan KNN default model:
1. Model ini sudah melalui banyak pengujian dan matrics evaluasi, baik terhadap model lain ataupun model KNN yang dilakukan hyperparameter tuning. Namun, dari hasil pengujian-pengujian tersebut dapat disimpulkan bahwa KNN default model menghasilkan skor tertinggi dibandingkan model pengujian lainnya.


##### Kekurangan KNN default model:
1. Model ini bisa dikatakan bestfit atau konsisten, namun model ini kurang baik dalam memprediksi data baru karena hasil pengujian akurasi masih dibawah standard. Maka dari itu, model ini membutuhkan banyak improvement kedepannya, termasuk memberikan banyak data latih agar model tersebut dapat melihat berbagai pola yang mungkin bisa dipelajari agar mungkin bisa meningkatkan hasil akurasi model.

##### Kesimpulan Data Visualization:

1. Terlihat bahwa gender perempuan lebih banyak yang gagal bayar dibandingkan dengan laki-laki. Namun, kemampuan bayar pada gender perempuan tetap lebih tinggi dibandingkan laki-laki. Ini berarti gender perempuan merupakan gender mayoritas yang ada di data nasabah.
2. Terlihat bahwa pada kelas University pada Education Level merupakan kelas nasabah yang paling banyak terlibat kasus gagal bayar.
3. Terlihat bahwa pada kelas University pada Education Level merupakan kelas nasabah yang paling banyak terlibat kasus gagal bayar.
4. Nasabah yang belum menikah merupakan nasabah yang banyak mengalami kasus gagal bayar.
5. Nasabah yang belum menikah merupakan nasabah yang banyak mengalami kasus gagal bayar

Ciri-ciri nasabah dengan kasus gagal bayar adalah memiliki gender female/wanita, memiliki education level University, berumur 25-30 tahun dan belum menikah
