# XII. Model Inference

In [65]:
# Import Library
import pandas as pd
import numpy as np
import joblib
import sklearn.preprocessing

In [66]:
# Read all file
with open('model_logreg.pkl','rb') as file_1:
  model_logreg = joblib.load(file_1)

with open('model_svc.pkl','rb') as file_2:
  model_svc = joblib.load(file_2)

with open('model_minmaxscaler.pkl','rb') as file_3:
  model_minmaxscaler = joblib.load(file_3)

with open('model_ohencoder.pkl','rb') as file_4:
  model_ohencoder = joblib.load(file_4)

In [67]:
# Membuat DataFrame baru
df_inf = pd.DataFrame({
    'age':[25,33,72,59,60],
    'education_num':[4,6,9,3,2],
    'occupation':[' Other-service', ' Priv-house-serv', ' Protective-serv', ' Sales', ' Craft-repair'],
    'hours_per_week':[40,24,36,55,39]
})
df_inf

Unnamed: 0,age,education_num,occupation,hours_per_week
0,25,4,Other-service,40
1,33,6,Priv-house-serv,24
2,72,9,Protective-serv,36
3,59,3,Sales,55
4,60,2,Craft-repair,39


In [68]:
# Feature Encoding
df_inf_ohe = model_ohencoder.transform(df_inf[['occupation']])

In [69]:
# Feature Scaling 
df_inf_scaler = model_minmaxscaler.transform(df_inf[['age','hours_per_week']])

In [70]:
# Concate columns
df_inf_final = np.concatenate([df_inf['education_num'].values.reshape(5,1),df_inf_ohe,df_inf_scaler],axis=1)
df_inf_final

array([[4.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.        , 1.        , 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.        ,
        0.12121212, 0.5       ],
       [6.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.        , 1.        ,
        0.        , 0.        , 0.        , 0.        , 0.        ,
        0.24242424, 0.28947368],
       [9.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 1.        , 0.        , 0.        , 0.        ,
        0.83333333, 0.44736842],
       [3.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        , 1.        , 0.        , 0.        ,
        0.63636364, 0.69736842],
       [2.        , 0.        , 0.        , 1.      

In [71]:
# Predict the model Logistic Regression
df_inf_predict = model_logreg.predict(df_inf_final)
df_inf_predict

array([' <=50K', ' <=50K', ' <=50K', ' <=50K', ' <=50K'], dtype=object)

In [72]:
# Predict the model SVC
df_inf_predict2 = model_svc.predict(df_inf_final)
df_inf_predict2

array([' <=50K', ' <=50K', ' <=50K', ' <=50K', ' <=50K'], dtype=object)

In [73]:
pred_df = pd.DataFrame(df_inf_predict, columns=['income_bracket'])
pred_df

Unnamed: 0,income_bracket
0,<=50K
1,<=50K
2,<=50K
3,<=50K
4,<=50K


In [74]:
df_combined = pd.concat([df_inf,pred_df], axis=1)
df_combined 

Unnamed: 0,age,education_num,occupation,hours_per_week,income_bracket
0,25,4,Other-service,40,<=50K
1,33,6,Priv-house-serv,24,<=50K
2,72,9,Protective-serv,36,<=50K
3,59,3,Sales,55,<=50K
4,60,2,Craft-repair,39,<=50K


- Dapat disimpulkan bahwa untuk setiap baris data pada df_inf, model memprediksi bahwa pendapatan rumah tangga berada di bawah 50 ribu dolar (<=50K) baik menggunaakan model Logistic Regression ataupun SVC. Namun, perlu diperhatikan bahwa model hanya menggunakan kolom age, education_num, occupation, dan hours_per_week untuk melakukan prediksi, sehingga hasil prediksi tersebut dapat dipertanyakan keakuratannya apabila tidak semua faktor yang mempengaruhi pendapatan rumah tangga telah dipertimbangkan dalam dataset dan pemodelan.
- Kelima data yang diuji memiliki kemungkinan pendapatan kurang dari atau sama dengan 50 ribu dolar per tahun. Oleh karena itu, bisnis dapat menggunakan model ini untuk memperkirakan apakah seseorang memiliki pendapatan yang rendah dan menentukan strategi pemasaran yang tepat untuk menjangkau target pasar yang tepat. Namun, perlu diingat bahwa hasil prediksi ini hanya bersifat probabilitas dan bukan kepastian, sehingga perlu dilakukan evaluasi dan pengujian model yang lebih komprehensif sebelum diterapkan secara luas dalam bisnis.