# **Model Inference**

## Import Libraries

In [15]:
import pandas as pd
import numpy as np
from sklearn.metrics import pairwise_distances
import pickle as pkl

Insight : Melakukan import `libraries` guna model `inference` pada `unsupervised learning` data `numerikal`.

## Load Models

In [16]:
with open('scaler.pkl', 'rb') as file_1:
  scaler=pkl.load(file_1)
with open('pca.pkl', 'rb') as file_2:
  pca=pkl.load(file_2)
with open('kmeans.pkl', 'rb') as file_3:
  kmeans=pkl.load(file_3)
with open('dbscan.pkl', 'rb') as file_4:
  dbscan=pkl.load(file_4)
with open('best_dbscan.pkl', 'rb') as file_5:
  best_dbscan=pkl.load(file_5)

Insight : Melakukan `load model` menggunakan `pickle load`.

## Create New Dataframe

In [17]:
# Create an instance

data_inf = {
    'CUST_ID': 'New Cust Id',
    'BALANCE': 655.922353,
    'BALANCE_FREQUENCY': 1.000,
    'PURCHASES': 380.00,
    'ONEOFF_PURCHASES': 145.90,
    'INSTALLMENTS_PURCHASES': 0.0,
    'CASH_ADVANCE': 455.467534,
    'PURCHASES_FREQUENCY': 0.250000,
    'ONEOFF_PURCHASES_FREQUENCY': 0.250000,
    'PURCHASES_INSTALLMENTS_FREQUENCY': 0.0,
    'CASH_ADVANCE_FREQUENCY': 0.545455,
    'CASH_ADVANCE_TRX': 8,
    'PURCHASES_TRX': 5,
    'CREDIT_LIMIT': 4377.900000,
    'PAYMENTS': 689.677457,
    'MINIMUM_PAYMENTS': 109.455422,
    'PRC_FULL_PAYMENT': 0.0,
    'TENURE': 10,
}

data_inf = pd.DataFrame([data_inf])
data_inf

Unnamed: 0,CUST_ID,BALANCE,BALANCE_FREQUENCY,PURCHASES,ONEOFF_PURCHASES,INSTALLMENTS_PURCHASES,CASH_ADVANCE,PURCHASES_FREQUENCY,ONEOFF_PURCHASES_FREQUENCY,PURCHASES_INSTALLMENTS_FREQUENCY,CASH_ADVANCE_FREQUENCY,CASH_ADVANCE_TRX,PURCHASES_TRX,CREDIT_LIMIT,PAYMENTS,MINIMUM_PAYMENTS,PRC_FULL_PAYMENT,TENURE
0,New Cust Id,655.922353,1.0,380.0,145.9,0.0,455.467534,0.25,0.25,0.0,0.545455,8,5,4377.9,689.677457,109.455422,0.0,10


Insight : Membuat `dataframe` baru untuk bahan `prediksi model`.

## Preprocessing

In [18]:
# Preprocessing

## Drop column `CUST_ID`
data_inf = data_inf.drop('CUST_ID', axis=1)

## Feature Scaling
data_inf_scaled = scaler.transform(data_inf)

## Dimensionality reduction using PCA
data_inf_scaled_pca = pca.transform(data_inf_scaled)
data_inf_scaled_pca

array([[-1.35594561,  1.18374282,  0.0562152 , -0.83844355, -0.88482105]])

Insight : Melakukan `preprocessing` pada `dataframe` yang baru dibuat menggunakan `scaler` dan juga `pca` yang sudah `disimpan` sebelumnya pada file `pickle`.

## K-Means Prediction

In [19]:
# Cluster prediction
kmeans_pred = kmeans.predict(data_inf_scaled_pca)
print(kmeans_pred)

[1]


Insight : `Prediksi` pada `K-Means` menggunakan `kmeans.predict` yang mana `kmeans` ini merupakan `model` yang suda `disimpan` sebelumnya. Hasilnya terlihat bahwa `K-Means` mempunyai `label terbaik` di `cluster 4` yaitu pada `label 1`.

## DBSCAN Prediction

In [20]:
# Create a function to get nearest clusters

def predict_cluster(model, X_new):
    # Calculate pairwise distances between new samples and all samples in the training set
    distances = pairwise_distances(X_new, model.components_, metric=model.metric)

    # Find the index of the closest sample within eps distance
    closest_sample_indices = np.argmin(distances, axis=1)

    # Get the cluster labels of the closest samples
    closest_sample_labels = dbscan.labels_[closest_sample_indices]

    return closest_sample_labels

Insight : Mencari `cluster terdekat` dengan menggunakan function `pairwise_distances`. `Method` pada `predict_cluster` yang dibuat guna `menghitung` `model DBSCAN` yang telah disimpan sebelumnya dan kolaborasi dengan perhitungan `distances` yang nantinya digunakan pada `prediksi label`. Maka, hasil `cluster terdekat` ini akan dilakukan `prediksi` pada `labelnya`. 

In [21]:
# Cluster prediction
best_dbscan_pred = predict_cluster(best_dbscan, data_inf_scaled_pca)

print(best_dbscan_pred)

[0]


Insight : Pada prediksi `DBSCAN` terbaik, dipanggil kembali `predict_cluster` untuk dilakukan prediksi label pada `DBSCAN` terbaik. Maka pada prediksi `DBSCAN` terbaik, didapatkan `label 0` yang artinya label ini mempunyai tingkat `kepadatan` yang `signifikan` pada `cluster`. Dan dapat dikatakan `label 0` ini merupakan `label terbaik` pada `DBSCAN` model. 