# Algoritma *Naive Bayes*

## Mari berkenalan dengan Algoritma Naive Bayes

Algoritma Naive Bayes merupakan algoritma *machine learning* yang berbasis pada probabilitas. Algoritma ini umumnya digunakan untuk melakukan klasifikasi. Naive Bayes bekerja dengan menentukan nilai probabilitas sebuah *sample* termasuk suatu label/kategori berdasarkan data yang diberikan. Perhitungan probabilitas ini menggunakan konsep *conditional probability*.

*Conditional probability* adalah peluang terjadinya suatu kejadian apabila diketahui kejadian lain sudah berlangsung. Contohnya, peluang mendapatkan kartu ratu jika diketahui kartu tersebut adalah ratu padung sebesar 1/13, bukan 1/52 (jumlah kartu dalam dek lengkap). Peluang terjadinya A jika diketahui B terjadi dinotasikan sebagai P(A|B) dan bisa dihitung dengan rumus 
$$P(A|B) = \frac{P(A ∩ B)}{P(B)}$$
 Rumus tersebut disebut sebagai Aturan Bayes.

Naive Bayes menggunakan Aturan Bayes sebagai berikut (misalkan X merupakan data dan Y merupakan label) :
$$P(X | Y) = \frac{P(X ∩ Y)}{P(Y)}$$
$$P(X ∩ Y) = P(X | Y) * P(Y)$$
$$P(Y | X) = \frac{P(X ∩ Y)} {P(X)} = \frac{P(X | Y) * P(Y)}{P(X)}$$

Umunya X terdiri dari lebih dari satu atribut data. Aturan Bayes biasa untuk kasus dengan lebih dari satu atribut data adalah : 
$$P((a,z)∣b)=\frac{P(a,z,b)}{P(b)}=\frac{P(z,b) * P(a∣(z,b))}{P(b)}=\frac{P(b) * P(z∣b) * P(a∣(z,b))}{P(b)}=P(z∣b) * P(a∣(z,b))=P(a∣(z,b)) * P(z∣b)$$

Untuk menyederhanakan perhitungan, Naive Bayes mengasumsikan masing-masing atribut data dalam X tidak saling memengaruhi (independen), sehingga perhitungannya berubah menjadi

$$P(Y | X1, X2, ...Xn) = \frac{P(X1 | Y) * P(X2 | Y) * ... * P(Xn | Y) * P(Y)}{P(X1) * P(X2) * ... * P(Xn)}$$

P(Y | X1, X2, ...Xn) merupakan probabilitas *sample* termasuk ke dalam label Y, disebut juga *posterior probability*. P(Y) adalah peluang munculnya sebuah kategori Y dalam data, disebut juga *prior probability*. P(X1 | Y) * P(X2 | Y) * ... * P(Xn | Y) adalah perkalian seluruh probabilitas nilai data untuk label Y, disebut juga *probability of likelihood of evidence*. Pembagi merupakan hasil perkalian probabilitas masing-masing data atau disebut juga *probability of evidence*. Tujuan Naive Bayes adalah membandingkan probabilitas setiap kategori/label Y. Karena *probability of evidence* sama untuk setiap nilai Y yang mungkin, pembagi bisa diabaikan. Rumus akhir untuk perhitungan Naive Bayes adalah 
$$P(Y | X1, X2, ...Xn) = P(X1 | Y) * P(X2 | Y) * ... * P(Xn | Y) * P(Y)$$

P(Xi | Y) biasanya berupa perbandingan banyak nilai X tersebut dibanding banyak seluruh nilai atribut yang bersesuaian untuk label Y. Oleh karena itu, Naive Bayes biasanya digunakan untuk klasifikasi dengan data diskrit. Tetapi, Naive Bayes masih bisa digunakan untuk data kontinu. Peluang nilai kontinu bisa dilakukan dengan diskritisasi data (misal membagi menjadi 4 range data) maupun dengan menggunakan fungsi densitas distribusi tertentu. Dalam implementasi kali ini akan digunakan fungsi densitas Gaussian sehingga algoritma menjadi *Gaussian Naive Bayes*. Fungsi Gaussian ini mengasumsikan data berdistribusi normal. Rumus ini digunakan walau data tidak berdistribusi normal karena dari hasil percobaan memiliki hasil yang paling bagus. Rumus densitas distribusi Gaussian adalah 
$$f(x) = \frac{1}{σ*\sqrt{2π}} * e ^ {-0.5 *(\frac{x-μ}{σ}) ^ 2}$$

Secara umum, langkah dalam algoritma Naive Bayes adalah sebagai berikut :
1. **Hitung *prior probabilities* :** Hitung frekuensi kemunculan tiap label/kategori.
2. **Hitung probabilitas P(Xi|Y) :** Hitung frekuensi kemunculan nilai pada masing-masing atribut untuk tiap label/kategori.
3. **Hitung *posterior probability* :** Hitung probabilitas *sample* termasuk sebuah kategori menggunakan rumus Naive Bayes.
4. **Pilih label dengan probabilitas tertinggi sebagai hasil prediksi**

Algoritma Naive Bayes bersifat parametrik, yang berarti algoritma ini memroses data latih menjadi parameter-parameter yang akan dimasukkan ke dalam sebuah fungsi (dalam hal ini persamaan Naive Bayes dan komponen-komponennya). Kelebihan algoritma Naive Bayes di antaranya adalah mudah diimplementasikan, cepat, *scalable*, dan tidak memerlukan data latih sebanyak algoritma-algoritma lain.

Kekurangan algoritma Naive Bayes di antaranya adalah mengasumsikan setiap atribut independen (yang seringkali tidak benar), kurang fleksibel untuk data kompleks, sensitif terhada *outliers*, dan kurang cocok untuk data kontinu.

## Mengimpor Pustaka

Pada bagian ini akan diimpor beberapa pustaka yang akan digunakan untuk menyimulasikan Algoritma *Naive Bayes*.

In [1]:
import pandas as pd
import numpy as np

Selain itu, akan dipanggil juga modul Naive Bayes yang telah dibangun *from scratch*

In [2]:
from algorithm.naiveBayes import NaiveBayes

## Mengimpor *Dataset*

Pada bagian ini akan diimpor *dataset* yang sebelumnya telah terbagi menjadi `data_train.csv` dan `data_validation.csv`.

In [3]:
# Mengambil data train dan data validation
df_train = pd.read_csv("../data/data_train.csv")
df_validation = pd.read_csv("../data/data_validation.csv")

# *Pre-processing* Data

Tahap yang dilakukan meliputi pemisahan kolom target hingga melakukan standarisasi terhadap data sebelum dilakukan pemrosesan dengan Algoritma Naive Bayes.

In [4]:
# Melakukan pemisahan kolom target
# Pada bagian ini, dipilih fitur dengan nilai korelasi diatas 0.1 melalui hasil EDA
columns_to_include = ["ram", "battery_power", "px_width", "px_height"]
x_train = df_train[columns_to_include]
y_train = df_train["price_range"]

x_test = df_validation[columns_to_include]
y_test = df_validation["price_range"]

x_train

Unnamed: 0,ram,battery_power,px_width,px_height
0,2027,804,818,709
1,2826,1042,1018,68
2,2635,1481,522,249
3,1229,1104,1413,653
4,565,652,781,464
...,...,...,...,...
1395,1211,536,705,547
1396,2219,1097,1352,1277
1397,340,1179,1451,85
1398,3990,719,1727,431


In [5]:
# Dilakukan standarisasi dengan scaler yang dibuat mandiri
from utils.scaler import Scaler

scaler = Scaler()
x_train = scaler.fit_transform(x_train)
x_test = scaler.transform(x_test)

x_train

Unnamed: 0,ram,battery_power,px_width,px_height
0,0.473276,0.202405,0.212283,0.361735
1,0.686799,0.361389,0.345794,0.034694
2,0.635756,0.654643,0.014686,0.127041
3,0.260021,0.402806,0.609479,0.333163
4,0.082576,0.100868,0.187583,0.236735
...,...,...,...,...
1395,0.255211,0.023380,0.136849,0.279082
1396,0.524586,0.398130,0.568758,0.651531
1397,0.022448,0.452906,0.634846,0.043367
1398,0.997862,0.145625,0.819092,0.219898


## Hasil Pemrosesan Algoritma Naive Bayes yang Dibangun

Berikut adalah hasil pemrosesan Algoritma Naive Bayes yang dibangun *from scratch*.

In [6]:
# Gunakan model KNN yang sebelumnya dibangun
nb_scratch = NaiveBayes() 

# Lakukan fit model
nb_scratch.fit(x_train, y_train)

# Lakukan prediksi dengan data validation
y_pred_scratch = nb_scratch.predict(x_test, 1e-9)

In [7]:
# Pengujian kualitas model dengan metrik
from sklearn.metrics import accuracy_score, classification_report

print(classification_report(y_test, y_pred_scratch))
print("Akurasi : ", 100 * np.round(accuracy_score(y_test, y_pred_scratch), 5), "%")

              precision    recall  f1-score   support

           0       0.88      0.89      0.88       142
           1       0.67      0.65      0.66       144
           2       0.68      0.72      0.70       155
           3       0.91      0.88      0.89       159

    accuracy                           0.79       600
   macro avg       0.79      0.78      0.78       600
weighted avg       0.79      0.79      0.79       600

Akurasi :  78.5 %


## Hasil Pemrosesan Algoritma Naive Bayes Pembanding

Hasil pemrosesan diatas akan dibandingkan dengan hasil yang diperoleh dari *library* scikit-learn

In [8]:
# Pemanggilan model KNN dari scikit-learn
from sklearn.naive_bayes import GaussianNB

gnb = GaussianNB()
y_pred = gnb.fit(x_train, y_train)
y_pred_scikit = gnb.predict(x_test)


In [9]:
# Pengujian kualitas model dengan metrik
print(classification_report(y_test, y_pred_scikit))
print("Akurasi : ", 100 * np.round(accuracy_score(y_test, y_pred_scikit), 5), "%")

              precision    recall  f1-score   support

           0       0.88      0.89      0.88       142
           1       0.67      0.65      0.66       144
           2       0.68      0.72      0.70       155
           3       0.91      0.88      0.89       159

    accuracy                           0.79       600
   macro avg       0.79      0.78      0.78       600
weighted avg       0.79      0.79      0.79       600

Akurasi :  78.5 %


## Hasil yang diperoleh

Berdasarkan kedua hasil tersebut, diperoleh **hasil yang sama** antara nilai prediksi yang dihasilkan oleh model Naive Bayes yang dibangun *from scratch* dengan model yang dimiliki scikit-learn.

In [10]:
# Pengujian kualitas model dengan metrik
print(classification_report(y_pred_scratch, y_pred_scikit))

              precision    recall  f1-score   support

           0       1.00      1.00      1.00       143
           1       1.00      1.00      1.00       140
           2       1.00      1.00      1.00       163
           3       1.00      1.00      1.00       154

    accuracy                           1.00       600
   macro avg       1.00      1.00      1.00       600
weighted avg       1.00      1.00      1.00       600



## Apakah sudah merupakan model yang terbaik?

Belum tentu! Perhitungan distribusi Gaussian memerlukan nilai variansi masing-masing atribut, namun ada kemungkinan nilai variansi tersebut 0. Nilai variansi 0 akan menyebabkan fungsi distribusi Gaussian tidak bisa digunakan (ada pembagian dengan 0). Apabila jumlah data cukup banyak, variansi setiap data bisa ditambah dengan sebuah nilai yang relatif kecil sehingga tidak ada variansi yang bernilai 0. Jumlah data yang banyak berarti penambahan tersebut tidak akan membuat hasil bias secara signifikan. Oleh karena itu, fungsi *Gaussian Naive Bayes* dalam *library* scikit-learn memiliki parameter var_smoothing. Nilai var_smoothing ini akan dikali dengan variansi maksimum dari atribut data training untuk mendapat epsilon. Nilai epsilon ini yang kemudian ditambahkan ke variansi masing-masing atribut data.

Selain mencegah nilai 0, *variance smoothing* ini bisa meningkatkan akurasi hasil algoritma *Gaussian Naive Bayes* jika nilainya optimal. Oleh karena itu, diperlukan nilai var_smoothing yang optimal.

## Memperkenalkan *Cross-validation*

Menemukan nilai terbaik untuk hyperparameter 'var_smoothing' di *Gaussian Naive Bayes* melibatkan proses yang disebut *hyperparameter tuning*. Pendekatan *hyperparameter tuning* ini memang umumnya tidak digunakan dalam algoritma *Naive Bayes* karena *hyperparameter* yang diperlukan terbatas. Namun, untuk *Gaussian Naive Bayes* terdapat 'var_smoothing' yang bisa dicari nilai optimalnya. Salah satu pendekatan yang umum untuk *hyperparameter tuning* adalah dengan menggunakan *cross-validation*.
Berikut adalah detail prosedurnya
1. **Pemilihan Jumlah Subset (*Fold*)**<br/> 
*Dataset* dibagi menjadi beberapa subset yang disebut "fold." Misalnya, dalam *5-fold cross-validation*, *dataset* dibagi menjadi 5 bagian. Proses pelatihan dan pengujian akan dilakukan sebanyak 5 kali, di mana setiap *fold* digunakan sebagai subset pengujian satu kali, dan sisanya digunakan sebagai subset pelatihan.<br/>
2. **Pelatihan dan Pengujian Berulang**<br/> 
Model pembelajaran mesin dilatih pada subset pelatihan dan diuji pada subset pengujian untuk setiap iterasi *cross-validation*. Proses ini dilakukan sebanyak jumlah *fold* yang telah ditentukan. <br/>
3. **Perhitungan Metrik Kinerja**<br/> 
Metrik kinerja seperti akurasi, presisi, *recall*, atau *F1-score* dihitung untuk setiap iterasi *cross-validation*. Metrik ini memberikan gambaran tentang seberapa baik model berkinerja pada berbagai subset data.

Berikut adalah prosedur yang dilakukan untuk melakukan *cross-validation* dengan menggunakan *library* milik scikit-learn. Secara umum proses yang dilakukan adalah *Grid Search* dengan rentang nilai yang terdistribusi merata dalam *log space* antara 0 sampai -9, dengan jumlah 400 nilai.

In [11]:
# Impor library GridSearchCV milik sklearn
from sklearn.model_selection import GridSearchCV

# Pengaturan parameter pencarian menggunakan gridSearch
param_grid_nb = {
    'var_smoothing': np.logspace(0,-9, num=400)
}

# Melakukan gridSearch dengan cross-validation untuk 10 fold
grid_search = GridSearchCV(estimator=GaussianNB(), param_grid=param_grid_nb, verbose=1, cv=10, n_jobs=-1)
grid_search.fit(x_train, y_train)

# Mendapatkan parameter dan model Naive Bayes terbaik
best_param = grid_search.best_params_['var_smoothing']
best_nb = grid_search.best_estimator_

Fitting 10 folds for each of 400 candidates, totalling 4000 fits


Setelah mendapatkan nilai var_smoothing dan model terbaik, mari kembali lakukan pengujian menggunakan Algoritma *Naive Bayes* yang telah dibangun sebelumnya

In [12]:
# Gunakan model Naive Bayes terbaik
y_pred = best_nb.predict(x_test)

In [13]:
# Pengujian kualitas model dengan metrik
print(classification_report(y_test, y_pred))
print("Akurasi : ", 100 * np.round(accuracy_score(y_test, y_pred), 5), "%")
print("Nilai hyperparameter terbaik:", grid_search.best_params_)

              precision    recall  f1-score   support

           0       0.93      0.99      0.96       142
           1       0.73      0.69      0.71       144
           2       0.71      0.73      0.72       155
           3       0.95      0.91      0.93       159

    accuracy                           0.83       600
   macro avg       0.83      0.83      0.83       600
weighted avg       0.83      0.83      0.83       600

Akurasi :  83.167 %
Nilai hyperparameter terbaik: {'var_smoothing': 0.5948892077934336}


In [14]:
# Gunakan model Naive Bayes from scratch yang sebelumnya dibangun
nb_scratch = NaiveBayes() 

# Lakukan fit model
nb_scratch.fit(x_train, y_train)

# Lakukan prediksi dengan data validation, menggunakan var_smoothing terbaik yang ditemukan
y_pred_scratch = nb_scratch.predict(x_test, best_param)

In [15]:
# Pengujian kualitas model dengan metrik
from sklearn.metrics import accuracy_score, classification_report

print(classification_report(y_test, y_pred_scratch))
print("Akurasi : ", 100 * np.round(accuracy_score(y_test, y_pred_scratch), 5), "%")
print("Nilai hyperparameter terbaik:", grid_search.best_params_)

              precision    recall  f1-score   support

           0       0.93      0.99      0.96       142
           1       0.73      0.69      0.71       144
           2       0.71      0.73      0.72       155
           3       0.95      0.91      0.93       159

    accuracy                           0.83       600
   macro avg       0.83      0.83      0.83       600
weighted avg       0.83      0.83      0.83       600

Akurasi :  83.167 %
Nilai hyperparameter terbaik: {'var_smoothing': 0.5948892077934336}


Terlihat bahwa dengan melakukan cross-validation pada rentang nilai var_smoothing tersebut, diperoleh nilai var_smoothing terbaik adalah 0.5948892077934336 dengan akurasi 83.167%. Angka ini meningkat dari akurasi sebelumnya!

## Penyimpanan dan *Load* Model

Agar model dapat digunakan kembali, maka model harus dapat disimpan dan di-*load*. Berikut adalah implementasi penyimpanan model yang dilakukan menggunakan *library* pickle.

In [16]:
import pickle

# Menyimpan model dalam pkl
model_pkl_file = "models/naive_bayes_model.pkl"  

with open(model_pkl_file, 'wb') as file:  
    pickle.dump(nb_scratch, file)

Untuk membuktikan bahwa model berhasil tersimpan, berikut adalah pembuktian pemanggilan kembali hasil prediksi model yang disimpan

In [17]:
# Load kembali model dari pkl
with open(model_pkl_file, 'rb') as file:  
    model = pickle.load(file)

# Melakukan prediksi dengan model tersebut
y_pickle = model.predict(x_test, best_param)

# Menguji hasil akurasi model
print(classification_report(y_test, y_pickle)) 

              precision    recall  f1-score   support

           0       0.93      0.99      0.96       142
           1       0.73      0.69      0.71       144
           2       0.71      0.73      0.72       155
           3       0.95      0.91      0.93       159

    accuracy                           0.83       600
   macro avg       0.83      0.83      0.83       600
weighted avg       0.83      0.83      0.83       600



Terbukti bahwa model pkl yang disimpan berhasil untuk digunakan kembali.

## [Bonus] Submisi Kaggle

Bagian ini dikhususkan untuk pemrosesan data dan penggunaan model yang dibuat sebagai dasar membuat submisi pada Kaggle.

In [18]:
# Pengambilan data keseluruhan dan pemrosesan awal
df_traink = pd.read_csv("../data/full_data.csv")
df_validationk = pd.read_csv("../data/data_validation.csv")

In [19]:
# Melakukan pemisahan kolom target
# Pada bagian ini, dipilih fitur dengan nilai korelasi diatas 0.1 melalui hasil EDA
x_traink = df_traink[columns_to_include]
y_traink = df_traink["price_range"]

x_testk = df_validationk[columns_to_include]
y_testk = df_validationk["price_range"]

x_traink

Unnamed: 0,ram,battery_power,px_width,px_height
0,2027,804,818,709
1,2826,1042,1018,68
2,2635,1481,522,249
3,1229,1104,1413,653
4,565,652,781,464
...,...,...,...,...
1995,1620,1547,957,347
1996,3579,1882,743,4
1997,1180,674,1809,576
1998,2032,1965,1965,915


In [20]:
# Dilakukan standarisasi dengan scaler yang dibuat mandiri
from utils.scaler import Scaler

scaler = Scaler()
x_traink = scaler.fit_transform(x_traink)
x_testk = scaler.transform(x_testk)

x_traink

Unnamed: 0,ram,battery_power,px_width,px_height
0,0.473276,0.202405,0.212283,0.361735
1,0.686799,0.361389,0.345794,0.034694
2,0.635756,0.654643,0.014686,0.127041
3,0.260021,0.402806,0.609479,0.333163
4,0.082576,0.100868,0.187583,0.236735
...,...,...,...,...
1995,0.364511,0.698731,0.305073,0.177041
1996,0.888028,0.922512,0.162216,0.002041
1997,0.246927,0.115564,0.873832,0.293878
1998,0.474613,0.977956,0.977971,0.466837


In [21]:
# Penggunaan hasil pada data test
test_data = pd.read_csv('../data/test.csv')
features = test_data[columns_to_include]

# Proses normalisasi data
scaler_final = Scaler()
feature_test = scaler.fit_transform(features)

feature_test

Unnamed: 0,ram,battery_power,px_width,px_height
0,0.197690,0.384461,0.543434,0.064990
1,0.827558,0.541192,0.794613,0.784067
2,0.952995,0.946417,0.839731,0.137841
3,0.782971,0.056932,0.057912,0.065514
4,0.117916,0.685867,0.740067,0.077044
...,...,...,...,...
1995,0.370132,0.896852,0.789226,0.685535
1996,0.333602,0.376423,0.141414,0.053459
1997,0.950846,0.633624,0.097643,0.179245
1998,0.165995,0.390489,0.268013,0.061845


In [22]:
# Gunakan model terbaik yang sebelumnya dibangun
nb_kaggle = NaiveBayes()

# Lakukan fit model
nb_kaggle.fit(x_traink, y_traink)

# Lakukan prediksi dengan data validation
predictions = nb_kaggle.predict(feature_test, best_param)

# Membuat dataframe hasil
result_df = pd.DataFrame({'id': test_data['id'], 'price_range': predictions})

# Menyimpan dataframe dalam csv
result_df.to_csv('../result/predictions-naive-bayes.csv', index=False)