# Algoritma *Naive Bayes*

## Mari berkenalan dengan Algoritma Naive Bayes

Algoritma Naive Bayes merupakan algoritma *machine learning* yang berbasis pada probabilitas. Algoritma ini umumnya digunakan untuk melakukan klasifikasi. Naive Bayes bekerja dengan menentukan nilai probabilitas sebuah sample termasuk suatu label/kategori berdasarkan data yang diberikan. Perhitungan probabilitas ini menggunakan konsep *conditional probability*.

*Conditional probability* adalah peluang terjadinya suatu kejadian apabila diketahui kejadian lain sudah berlangsung. Contohnya, peluang mendapatkan kartu ratu jika diketahui kartu tersebut adalah ratu padung sebesar 1/13, bukan 1/52 (jumlah kartu dalam dek lengkap). Peluang terjadinya A jika diketahui B terjadi dinotasikan sebagai P(A|B) dan bisa dihitung dengan rumus 
$$P(A|B) = \frac{P(A ∩ B)}{P(B)}$$
 Rumus tersebut disebut sebagai Aturan Bayes.

Naive Bayes menggunakan Aturan Bayes sebagai berikut (misalkan X merupakan data dan Y merupakan label) :
$$P(X | Y) = \frac{P(X ∩ Y)}{P(Y)}$$
$$P(X ∩ Y) = P(X | Y) * P(Y)$$
$$P(Y | X) = \frac{P(X ∩ Y)} {P(X)} = \frac{P(X | Y) * P(Y)}{P(X)}$$

Umunya X terdiri dari lebih dari satu jenis data. Aturan Bayes biasa untuk kasus dengan lebih dari satu jenis data adalah : 
$$P((a,z)∣b)=\frac{P(a,z,b)}{P(b)}=\frac{P(z,b) * P(a∣(z,b))}{P(b)}=\frac{P(b) * P(z∣b) * P(a∣(z,b))}{P(b)}=P(z∣b) * P(a∣(z,b))=P(a∣(z,b)) * P(z∣b)$$

Untuk menyederhanakan perhitungan, Naive Bayes mengasumsikan masing-masing jenis data dalam X tidak saling memengaruhi (independen), sehingga perhitungannya berubah menjadi

$$P(Y | X1, X2, ...Xn) = \frac{P(X1 | Y) * P(X2 | Y) * ... * P(Xn | Y) * P(Y)}{P(X1) * P(X2) * ... * P(Xn)}$$

P(Y) adalah peluang munculnya sebuah kategori Y dalam data, disebut juga *prior probability*. P(X1 | Y) * P(X2 | Y) * ... * P(Xn | Y) adalah perkalian seluruh kemungkinan data untuk label Y, disebut juga *probability of likelihood of evidence*. Pembagi merupakan hasil perkalian probabilitas masing-masing data atau disebut juga *probability of evidence*. Tujuan Naive Bayes adalah membandingkan probabilitas setiap kategori/label Y. Karena *probability of evidence* sama untuk setiap nilai Y yang mungkin, pembagi bisa diabaikan. Rumus akhir untuk perhitungan Naive Bayes adalah 
$$P(Y | X1, X2, ...Xn) = P(X1 | Y) * P(X2 | Y) * ... * P(Xn | Y) * P(Y)$$

P(X1 | Y) dan peluang X yang lain biasanya berupa perbandingan banyak nilai X tersebut dibanding banyak seluruh nilai jenis yang bersesuaian untuk label Y. Oleh karena itu, Naive Bayes biasanya digunakan untuk klasifikasi dengan data diskrit. Tetapi, Naive Bayes masih bisa digunakan untuk data kontinu. Peluang nilai kontinu bisa dilakukan dengan diskretisasi data (misal membagi menjadi 4 range data) maupun dengan menggunakan rumus densitas distribusi tertentu. Dalam implementasi kali ini akan digunakan rumus densitas Gaussian. Rumus Gaussian ini mengasumsikan data berdistribusi normal. Rumus ini digunakan walau data tidak berdistribusi normal karena dari hasil percobaan memiliki hasil yang paling bagus. Rumus distribusi Gaussian adalah 
$$f(x) = \frac{1}{σ*\sqrt{2π}} * e ^ {-0.5 *(\frac{x-μ}{σ}) ^ 2}$$

## Mengimpor Pustaka

Pada bagian ini akan diimpor beberapa pustaka yang akan digunakan untuk menyimulasikan Algoritma *Naive Bayes*.

In [1]:
import pandas as pd
import numpy as np

Selain itu, akan dipanggil juga modul Naive Bayes yang telah dibangun *from scratch*

In [2]:
from algorithm.naiveBayes import NaiveBayes

## Mengimpor *Dataset*

Pada bagian ini akan diimpor *dataset* yang sebelumnya telah terbagi menjadi `data_train.csv` dan `data_validation.csv`.

In [3]:
# Mengambil data train dan data validation
df_train = pd.read_csv("../data/data_train.csv")
df_validation = pd.read_csv("../data/data_validation.csv")

# *Pre-processing* Data

Tahap yang dilakukan meliputi pemisahan kolom target hingga melakukan standarisasi terhadap data sebelum dilakukan pemrosesan dengan Algoritma Naive Bayes.

In [4]:
# Melakukan pemisahan kolom target
# Menghapus baris dengan nilai yang tidak valid
df_train = df_train[df_train.px_width != 0]
df_train = df_train[df_train.px_height != 0]

# Pada bagian ini, dipilih fitur dengan nilai korelasi diatas 0.1 melalui hasil EDA
columns_to_exclude = ["blue", "wifi", "three_g", "int_memory", "sc_w", "clock_speed", "sc_h", "talk_time", "m_dep", "four_g", "n_cores", "fc", "pc", "dual_sim", "touch_screen", "mobile_wt", "price_range"]
x_train = df_train.drop(columns=columns_to_exclude)
y_train = df_train["price_range"]

x_test = df_validation.drop(columns=columns_to_exclude)
y_test = df_validation["price_range"]

In [5]:
# Dilakukan standarisasi dengan scaler yang dibuat mandiri
from utils.scaler import Scaler

scaler = Scaler()
x_train = scaler.fit_transform(x_train)
x_test = scaler.transform(x_test)

## Hasil Pemrosesan Algoritma Naive Bayes yang Dibangun

Berikut adalah hasil pemrosesan Algoritma Naive Bayes yang dibangun *from scratch*.

In [6]:
# Gunakan model KNN yang sebelumnya dibangun
nb_scratch = NaiveBayes() 

# Lakukan fit model
nb_scratch.fit(x_train, y_train)

# Lakukan prediksi dengan data validation
y_pred_scratch = nb_scratch.predict(x_test, 1e-9)

In [7]:
# Pengujian kualitas model dengan metrik
from sklearn.metrics import accuracy_score, classification_report

print(classification_report(y_test, y_pred_scratch))
print("Akurasi : ", 100 * np.round(accuracy_score(y_test, y_pred_scratch), 5), "%")

              precision    recall  f1-score   support

           0       0.88      0.89      0.88       142
           1       0.67      0.65      0.66       144
           2       0.68      0.72      0.70       155
           3       0.91      0.88      0.89       159

    accuracy                           0.79       600
   macro avg       0.79      0.78      0.78       600
weighted avg       0.79      0.79      0.79       600

Akurasi :  78.5 %


## Hasil Pemrosesan Algoritma Naive Bayes Pembanding

Hasil pemrosesan diatas akan dibandingkan dengan hasil yang diperoleh dari *library* scikit-learn

In [8]:
# Pemanggilan model KNN dari scikit-learn
from sklearn.naive_bayes import GaussianNB
from sklearn.neighbors import KernelDensity
from sklearn.pipeline import make_pipeline

gnb = GaussianNB()
y_pred = gnb.fit(x_train, y_train)
y_pred_scikit = gnb.predict(x_test)


In [9]:
# Pengujian kualitas model dengan metrik
print(classification_report(y_test, y_pred_scikit))
print("Akurasi : ", 100 * np.round(accuracy_score(y_test, y_pred_scikit), 5), "%")

              precision    recall  f1-score   support

           0       0.88      0.89      0.88       142
           1       0.67      0.65      0.66       144
           2       0.68      0.72      0.70       155
           3       0.91      0.88      0.89       159

    accuracy                           0.79       600
   macro avg       0.79      0.78      0.78       600
weighted avg       0.79      0.79      0.79       600

Akurasi :  78.5 %


## Hasil yang diperoleh

Berdasarkan kedua hasil tersebut, diperoleh **hasil yang sama** antara nilai prediksi yang dihasilkan oleh model Naive Bayes yang dibangun *from scratch* dengan model yang dimiliki scikit-learn.

In [10]:
# Pengujian kualitas model dengan metrik
print(classification_report(y_pred_scratch, y_pred_scikit))

              precision    recall  f1-score   support

           0       1.00      1.00      1.00       143
           1       1.00      1.00      1.00       140
           2       1.00      1.00      1.00       163
           3       1.00      1.00      1.00       154

    accuracy                           1.00       600
   macro avg       1.00      1.00      1.00       600
weighted avg       1.00      1.00      1.00       600



## Apakah sudah merupakan model yang terbaik?

Belum tentu! Perhitungan distribusi Gaussian memerlukan nilai variansi suatu kolom, namun ada kemungkinan nilai variansi tersebut 0. Nilai variansi 0 akan menyebabkan fungsi distribusi Gaussian tidak valid (ada pembagian dengan 0). Apabila jumlah data kita cukup banyak, kita bisa menambah variansi setiap data dengan sebuah nilai yang relatif kecil sehingga tidak ada variansi yang bernilai 0. Jumlah data yang banyak berarti penambahan tersebut tidak akan memengaruhi hasil secara signifikan. Oleh karena itu, fungsi *Gaussian Naive Bayes* dalam *library* scikit-learn memiliki parameter var_smoothing. Nilai var_smoothing ini akan dikali dengan nilai maksimum dari variansi seluruh data training untuk mendapat epsilon. Nilai epsilon ini yang kemudian ditambahkan ke variansi masing-masing kolom data.

*Variance smoothing* ini bisa meningkatkan akurasi hasil algoritma *Naive Bayes* jika nilainya optimal. Oleh karena itu, diperlukan nilai var_smoothing yang optimal.

## Memperkenalkan *Cross-validation*

Menemukan nilai terbaik untuk hyperparameter 'var_smoothing' di *Naive Bayes* melibatkan proses yang disebut *hyperparameter tuning*. Salah satu pendekatan yang umum adalah dengan menggunakan *cross-validation*.
Berikut adalah detail prosedurnya
1. Pemilihan Jumlah Subset (*Fold*)<br/> 
*Dataset* dibagi menjadi beberapa subset yang disebut "fold." Misalnya, dalam *5-fold cross-validation*, *dataset* dibagi menjadi 5 bagian. Proses pelatihan dan pengujian akan dilakukan sebanyak 5 kali, di mana setiap *fold* digunakan sebagai subset pengujian satu kali, dan sisanya digunakan sebagai subset pelatihan.<br/>
2. Pelatihan dan Pengujian Berulang<br/> 
Model pembelajaran mesin dilatih pada subset pelatihan dan diuji pada subset pengujian untuk setiap iterasi *cross-validation*. Proses ini dilakukan sebanyak jumlah *fold* yang telah ditentukan. <br/>
3. Perhitungan Metrik Kinerja<br/> 
Metrik kinerja seperti akurasi, presisi, *recall*, atau *F1-score* dihitung untuk setiap iterasi *cross-validation*. Metrik ini memberikan gambaran tentang seberapa baik model berkinerja pada berbagai subset data.

Berikut adalah prosedur yang dilakukan untuk melakukan *cross-validation* dengan menggunakan *library* milik scikit-learn. Secara umum proses yang dilakukan adalah *Grid Search* dengan rentang nilai yang terdistribusi merata dalam skala log antara 0 sampai -9, dengan jumlah 400 nilai.

In [11]:
# Menggunakan grid search, cari nilai variable smoothing terbaik

from sklearn.model_selection import GridSearchCV

param_grid_nb = {
    'var_smoothing': np.logspace(0,-9, num=400)
}
bestNB = GridSearchCV(estimator=GaussianNB(), param_grid=param_grid_nb, verbose=1, cv=10, n_jobs=-1)
bestNB.fit(x_train, y_train)
print(bestNB.best_estimator_)
best_param = bestNB.best_params_['var_smoothing']
y_pred_scikit = bestNB.best_estimator_.predict(x_test)

Fitting 10 folds for each of 400 candidates, totalling 4000 fits


GaussianNB(var_smoothing=0.5647805074067556)


Setelah mendapatkan nilai var_smoothing dan model terbaik, mari kembali lakukan pengujian menggunakan Algoritma *Naive Bayes* yang telah dibangun sebelumnya

In [12]:
# Pengujian kualitas model dengan metrik
print(classification_report(y_test, y_pred_scikit))
print("Akurasi : ", 100 * np.round(accuracy_score(y_test, y_pred_scikit), 5), "%")

              precision    recall  f1-score   support

           0       0.93      0.99      0.96       142
           1       0.75      0.69      0.72       144
           2       0.72      0.75      0.73       155
           3       0.96      0.92      0.94       159

    accuracy                           0.84       600
   macro avg       0.84      0.84      0.84       600
weighted avg       0.84      0.84      0.84       600

Akurasi :  84.0 %


In [13]:
# Gunakan model KNN yang sebelumnya dibangun
nb_scratch = NaiveBayes() 

# Lakukan fit model
nb_scratch.fit(x_train, y_train)

# Lakukan prediksi dengan data validation, menggunakan var_smoothing terbaik yang ditemukan
y_pred_scratch = nb_scratch.predict(x_test, best_param)

In [14]:
# Pengujian kualitas model dengan metrik
from sklearn.metrics import accuracy_score, classification_report

print(classification_report(y_test, y_pred_scratch))
print("Akurasi : ", 100 * np.round(accuracy_score(y_test, y_pred_scratch), 5), "%")

              precision    recall  f1-score   support

           0       0.93      0.99      0.96       142
           1       0.75      0.69      0.72       144
           2       0.72      0.75      0.73       155
           3       0.96      0.92      0.94       159

    accuracy                           0.84       600
   macro avg       0.84      0.84      0.84       600
weighted avg       0.84      0.84      0.84       600

Akurasi :  84.0 %


Terlihat bahwa dengan melakukan cross-validation pada rentang nilai var_smoothing tersebut, diperoleh nilai var_smoothing terbaik adalah 0.5647805074067556. Angka ini meningkat dari akurasi sebelumnya!

## Penyimpanan dan *Load* Model

Agar model dapat digunakan kembali, maka model harus dapat disimpan dan di-*load*. Berikut adalah implementasi penyimpanan model yang dilakukan menggunakan *library* pickle.

In [15]:
import pickle

# Menyimpan model dalam pkl
model_pkl_file = "models/naive_bayes_model.pkl"  

with open(model_pkl_file, 'wb') as file:  
    pickle.dump(nb_scratch, file)

Untuk membuktikan bahwa model berhasil tersimpan, berikut adalah pembuktian pemanggilan kembali hasil prediksi model yang disimpan

In [16]:
# Load kembali model dari pkl
with open(model_pkl_file, 'rb') as file:  
    model = pickle.load(file)

# Melakukan prediksi dengan model tersebut
y_pickle = model.predict(x_test, 0.5647805074067556)

# Menguji hasil akurasi model
print(classification_report(y_test, y_pickle)) 

              precision    recall  f1-score   support

           0       0.93      0.99      0.96       142
           1       0.75      0.69      0.72       144
           2       0.72      0.75      0.73       155
           3       0.96      0.92      0.94       159

    accuracy                           0.84       600
   macro avg       0.84      0.84      0.84       600
weighted avg       0.84      0.84      0.84       600



Terbukti bahwa model pkl yang disimpan berhasil untuk digunakan kembali.

## [Bonus] Submisi Kaggle

Bagian ini dikhususkan untuk pemrosesan data dan penggunaan model yang dibuat sebagai dasar membuat submisi pada Kaggle.

In [17]:
# Impor dataset
test_data = pd.read_csv('../data/test.csv')

columns_to_exclude_new = ["id", "blue", "wifi", "three_g", "int_memory", "sc_w", "clock_speed", "sc_h", "talk_time", "m_dep", "four_g", "n_cores", "fc", "pc", "dual_sim", "touch_screen", "mobile_wt"]
features = test_data.drop(columns=columns_to_exclude_new)

# Gunakan model KNN yang sebelumnya dibangun
nb_kaggle = NaiveBayes()

# Lakukan fit model
nb_kaggle.fit(x_train, y_train)

# Lakukan prediksi dengan data validation
feature_test = scaler.transform(features)
predictions = nb_kaggle.predict(feature_test, 0.5647805074067556)

# Membuat dataframe hasil
result_df = pd.DataFrame({'id': test_data['id'], 'price_range': predictions})

# Menyimpan dataframe dalam csv
result_df.to_csv('../result/predictions-naive-bayes.csv', index=False)