# SKLearn 13 | Naive Bayes Classification | Belajar Machine Learning Dasar

Referensi: https://en.wikipedia.org/wiki/Naive_Bayes_classifier

## Bayes' Theorem

Disini kita akan mengenal "Bayes' Theorem". Bayes' theorem menawarkan suatu formula untuk menghitung nilai probability dari suatu event dengan memanfaatkan pengetahuan sebelumnya dari kondisi terkait; atau sering kali dikenal dengan istilah conditional probability.

$P(A|B) = \frac{P(B|A) \times P(A)}{P(B)}$

+ Pada formula diatas merupakan formula probabilitas dari kemunculan event A bila diketahui event B muncul "P(B|A)".
+ Proses kalkulasinya bisa dilakukan dengan cara mencari tahu terlebih dahulu probabiltas dari kemunculan event B bila diketahui event A muncul "P(B|A)".
+ Lalu dikalikan dengan nilai probabilitas kemunculan event A "P(A)".
+ Lalu dibagi dengan nilai probabilitas kemunculan event B "P(B)"

$P(y|X) = \frac{P(X|y) \times P(y)}{P(X)}$

Diatas merupakan formula yang sama pada formula sebelumnya, namun kali ini dalam konteks klasifikasi.

+ Pada formula diatas merupakan formula probabilitas dari kemunculan nilai target label y bila diketahui kemunculan sekumpulan nilai feature X "P(y|X)".
+ Proses kalkulasinya bisa dilakukan dengan cara mencari tahu probabilitas dari kemunculan sekumpulan nilai feature X bila diketahui kemunculan nilai target label y "P(X|y)".
+ Lalu dikalikan dengan nilai probabilitas dari kemunculan nilai target label y "P(y)".
+ Lalu dibagi dengan probabilitas dari kemunculan sekumpulan nilai feature X "P(X)".

$Posterior = \frac{ Likelihood \times Prior}{Evidence}$

Jika kita ingin mengadopsi terminologi Naive Bayes, maka formulanya bisa direpresentasikan seperti pada rumus diatas. Dimana nilai $Posterior$ dicari dengan cara mengkalikan nilai $Likelihood$ dengan nilai $Prior$ lalu dibagi dengan nilai $Evidence$.

## Pengenalan Naive Bayes Classification

##### Studi Kasus 1

Berikut adalah studi kasus yang harapannya dapat membantu kita untuk lebih memahami **Naive Bayes** dengan lebih mudah. Semisal disini terdapat sebuah warung yang menawarkan 3 menu yaitu siomay, bakso, dan lumpia, warung ini juga hanya memiliki 2 pelanggan saja yaitu Asep dan Joko. Untuk setiap pelanggan sudah didata probabilitas pesanan mereka untuk setiap menu yang ditawarkan. Gambar dibawah ini merupakan ilustrasinya.

![](./images/asep_joko_snack.png)

Dari gambar tersebut kita bisa menarik beberapa informasi, yaitu :

**Asep**

+ Probability untuk Asep memesan siomay adalah 0.1.
+ Probability untuk Asep memesan bakso adalah 0.8.
+ Probability untuk Asep memesan lumpia adalah 0.1.

**Joko**

+ Probability untuk Joko memesan siomay adalah 0.5.
+ Probability untuk Joko memesan bakso adalah 0.2.
+ Probability untuk Joko memesan lumpia adalah 0.3.

Untuk konteks pada kasus tersebut, Asep dan Joko akan berperan sebagai target label atau class. Disini kita akan menerapkan klasifikasi sederhana dengan Naive Bayes untuk memprediksi siapa pelanggan yang memesan bila diketahui kombinasi pesanannya.

Berikut adalah misi atau hal yang harus kita lakukan.

**Misi** : Lakukan prediksi siapa pelanggan yang melakukan pemesanan dengan diketahui pesanannya adalah **lumpia** dan **bakso**.

##### Prior Probability: $P(y)$

Terminologi pertama yang akan kita pelajari adalah Prior Probablity. Prior adalah suatu nilai probabilitas dari kemunculan suatu nilai target label tertentu tanpa memperhatikan nilai feature nya, nilai ini tentunya akan bergantung pada dataset yang kita miliki. Untuk kasus kita kali ini, kita bisa asumsikan bahwa peluang untuk suatu pemesanan yang dilakukan oleh Asep atau Joko adalah berimbang. Oleh karenanya, prior dari kasus kita kali ini bisa diekspresikan sebagai berikut.

+ Referensi: https://en.wikipedia.org/wiki/Prior_probability
+ $P(Asep) = 0.5$
+ $P(Joko) = 0.5$

Dari pernyataan diatas kita bisa mengetahui bahwa probabilitas pemesanan yang dilakukan oleh Asep adalah 0.5 atau 50% dan probabilitas pemesanan yang dilakukan oleh Joko juga bernilai 0.5 atau 50%.

##### Likelihood: $P(X|y)$

Terminologi kedua yang akan kita pelajari adalah "Likelihood". Dalam statistika sebenarnya ada sedikit perbedaan antara probability dan likelihood, hanya saja untuk menyederhanakan penjelasan pada pembelajaran kali ini, kita asumsikan bahwa keduanya sama. Likelihood untuk konsep Naive Bayes, bisa didefinisikan sebagai probability kemunculan nilai feature tertentu bila diketahui kemunculan nilai target lainnya.

+ Referensi: https://en.wikipedia.org/wiki/Likelihood_function
+ Asep: $\begin{aligned} P(lumpia,bakso|Asep) &= (0.1 \times 0.8) = 0.08\end{aligned}$
+ Joko: $\begin{aligned} P(lumpia,bakso|Joko) &= (0.3\times 0.2 = 0.06\end{aligned}$

##### Evidence atau Normalizer: $P(X)$

Terminologi ketiga yang akan kita pelajari adalah "Evidence atau Normalizer". Evidence untuk konteks Naive Bayes, bisa didefinisikan sebagai total akumulasi dari hasil perkalian antara nilai likelihood dengan priornya seperti pada rumus dibawah ini.

+ $Evidence = \sum (Likelihood \times Prior)$

Untuk kasus kita kali ini adalah sebagai berikut.

+ $P(lumpia,bakso) = (0.08 \times 0.5)+ (0.06 \times 0.5) = 0.07$

##### Posterior Probability: $P(y|X)$

Terminologi keempat yang akan kita pelajari terkait Naive Bayes adalah "Posterior Probability".

+ Referensi: https://en.wikipedia.org/wiki/Posterior_probability
+ Formula:
$Posterior = \frac{Likelihood \times Prior}{Evidence}$
+ Asep: $$\begin{aligned} P(Asep|lumpia,bakso) &= \frac{0.08 \times 0.5}{0.7} = 0.57\end{aligned}$$
+ Joko: $$\begin{aligned} P(Joko|lumpia,bakso) &= \frac{0.06 \times 0.5}{0.7} = 0.43\end{aligned}$$

Berdasarkan kalkulasi atau perhitungan diatas, kita bisa melihat bahwa nilai posterior Asep lebih tinggi dari nilia posterior Joko, maka "Naive Bayes" akan mengklasifikasikan aset sebagai pemesanannya.
##### Studi Kasus 2

Untuk memperjelas pemahaman, kita akan mempelajari studi kasus yang kedua. Disini kita diminta untuk melakukan klasifikasi pelanggan berdasarkan informasi pesanan yang diterima. Hanya saja, kali ini pesanannya adalah "siomay" dan "bakso".

![](./images/asep_joko_snack.png)

**Misi** :  Lakukan prediksi siapa pelanggan yang melakukan pemesanan dengan diketahui pesanannya adalah **siomay** dan **bakso**

##### Posterior Probability: $P(y|X)$ (kasus 2)

+ pesanan: siomay, bakso
+ Evidence: $P(X)$

Pertama-tama kita akan menghitung terlebih dahulu nilai "Evindence" atau "Normalizer" nya. Pada kasus kita kali ini, nilai evidence nya adalah probability dari pesanan siomay dan bakso. Dibawah ini adalah hasil perhitungan kalkulasinya.

$P(siomay, bakso) = (0.1 \times 0.8 \times 0.5) + (0.5 \times 0.2 \times 0.5) = 0.09$

Selanjutnya kita akan menghitung nilai probability Asep sebagai pemesan bila diketahui pesanannya adalah siomay dan bakso. Dibawah ini adalah hasil perhitungan kalkulasinya.

+ Asep: $$\begin{aligned} P(Asep|siomay,bakso) = \frac{(0.1 \times 0.8) \times 0.5}{0.09} = 0.444\end{aligned}$$

Selanjutnya kita akan menghitung nilai probability Joko sebagai pemesan bila diketahui pesanannya adalah siomay dan bakso. Dibawah ini adalah hasil perhitungan kalkulasinya.

+ Joko: $$\begin{aligned} P(Joko|siomay,bakso) = \frac{(0.5 \times 0.2) \times 0.5}{0.09} = 0.555\end{aligned}$$

## Mengapa disebut Naive?

Mungkin ada banyak pertanyaan tentang mengapa model ini disebut Naive Bayes? Kata Bayes berasal dari nama seorang statistition yaitu Thomas Bayes. beliau lah yang menggagas suatu theorem yang akhirnya dikenal sebagai "Bayes Theorem". Lalu pertanyaan berikutnya adalah **Mengapa model ini disebut Naive?** dan jawaban singkatnya adalah sebagai berikut :

+ Karena sewaktu kita mendefinisikan Likelihood $P(lumpia, bakso|Asep),$
+ kita mengasumsikan $P(lumpia|Asep)$ conditionally independent terhadap $P(bakso|Asep);$ demikian sebaliknya.
+ Sehingga dapat diformulasikan sebagai berikut:

$P(lumpia, bakso|Asep) = P(lumpia|Asep) \times P(bakso|Asep)$

Disini Naive Bayes mengasumsikan bahwa pemesanan lumpia oleh Asep itu tidak dipengaruhi dan tidak ada hubungannya dengan pemesanan bakso oleh Asep. Padahal dalam kasus sebenarnya, bisa jadi pemesanan lumpia oleh Asep dipengaruhi oleh pemesanan bakso oleh Asep.

## Dataset: Breast Cancer Wisconsin (Diagnostic)

Selanjutnya kita akan mempelajari tahapan untuk menerapkan "Naive Bayes" model tersebut dengan SkLearn. Pertama kita akan siapkan terlebih dahulu datasetnya. Untuk kasus kali ini kita akan mengadopsi "Breast Cancer Wisconsin", ini merupakan open dataset yang ditawarkan oleh UCI machine learning.

Referensi: https://archive.ics.uci.edu/ml/datasets/Breast+Cancer+Wisconsin+(Diagnostic)

#### Load Dataset

In [1]:
from sklearn.datasets import load_breast_cancer

print(load_breast_cancer().DESCR)

.. _breast_cancer_dataset:

Breast cancer wisconsin (diagnostic) dataset
--------------------------------------------

**Data Set Characteristics:**

    :Number of Instances: 569

    :Number of Attributes: 30 numeric, predictive attributes and the class

    :Attribute Information:
        - radius (mean of distances from center to points on the perimeter)
        - texture (standard deviation of gray-scale values)
        - perimeter
        - area
        - smoothness (local variation in radius lengths)
        - compactness (perimeter^2 / area - 1.0)
        - concavity (severity of concave portions of the contour)
        - concave points (number of concave portions of the contour)
        - symmetry
        - fractal dimension ("coastline approximation" - 1)

        The mean, standard error, and "worst" or largest (mean of the three
        worst/largest values) of these features were computed for each image,
        resulting in 30 features.  For instance, field 0 is Mean Radi

Caranya:

+ Pertama-tama kita akan mengimport terlebih dahulu modulnya dengan memanggil method "from sklearn.datasets import load_breast_cancer".
+ Lalu selajutnya kita akan memanggil "load_breast_cancer()" dan disini kita akan coba akses description dari datasetnya dengan memanggil ".DESCR".
+ Lalu terakhir kita akan coba tampilkan pada layar dengan memanfaatkan fungsi print.

Berdasarkan hasil diatas, kita bisa melihat isi deskripsi dari dataset "Breast Cancer Wisconsin (Diagnostic)", kita bisa ketahui juga bahwa dataset ini terdiri dari 569 instances atau 569 data, kita juga bisa lihat number of attributes adalah 30 numeric yang artinya disini terdapat 30 nilai numerik sebagai featurenya atau sebagai kolomnya yang kita bisa lihat featurenya terdiri dari :

    - radius (mean of distances from center to points on the perimeter)
    - texture (standard deviation of gray-scale values)
    - perimeter
    - area
    - smoothness (local variation in radius lengths)
    - compactness (perimeter^2 / area - 1.0)
    - concavity (severity of concave portions of the contour)
    - concave points (number of concave portions of the contour)
    - symmetry
    - fractal dimension ("coastline approximation" - 1)

Semua feature tersebut memiliki type data numeric dengan total jumlah feature adalah 30. Terkait dengan class, terdapat 2 buah class pada dataset ini yaitu WDBC-Malignant (mengindikasikan tumor ganas) dan WDBC-Benign (mengindikasikan tumor jinak). Kita juga bisa melihat bahwa pada dataset ini tidak terdapat missing value. Lalu terkait proporsi classnya, terdapat 212 data yang diklasifikasikan sebagai malignant atau tumor ganas dan terdapat 357 data yang diklasifikasikan sebagai benign atau tumor jinak. Lalu selanjutnya ada keterangan creator atau pembuat dataset, dan ada juga tanggal pembuatannya. Kita sebaiknya mengetahui deskripsi suatu dataset terlebih dahulu sebelum bekerja dengan dataset yang akan digunakan.

In [2]:
# load_breast_cancer?
X, y = load_breast_cancer(return_X_y=True)
X.shape

(569, 30)

Caranya:

+ Selanjutnya kita akan melakukan akses pada dataset tersebut.
+ Jika kita bingung terhadap suatu dataset, jupyter notebook bisa memberikan informasi tentang dataset yang akan kita gunakan dengan memanggil fungsi "load_nama_database?" yang dalam kasus ini berarti "load_breast_cancer?".
+ Disini kita menemukan salah satu parameter yang bisa kita sertakan pada function "load_breast_cancer" yaitu "return_X_y" yang dalam kasus kita kali ini, kita akan set sebagai true yang artinya function ini akan secara otomatis membagi dan memisahkan antar features data dengan label datanya dan tentunya label semacam ini akan membantu dalam memudahkan pekerjaan yang kita lakukan.
+ Pada code diatas, kita akan coba eksekusi code nya "X, y = load_breast_cancer" yang kita beri nilai parameternya "return_X_y=True". X dan y perlu kita sertakan untuk menangkap nilai kembalian dari function tersebut, dimana nilai X digunakan untuk menampung nilai feature dan y digunakan untuk menampung nilai targetnya.
+ Lalu kita panggil "X.shape" untuk melihat dimensinya, yang bisa kita lihat bahwa jumlah barisnya ada 569 dan kolomnya berjumlah 30.

#### Training & Testing Dataset

Selanjutnya kita akan bagi dataset ini kedalam training dan testing set.

In [3]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X,
                                                    y,
                                                    test_size=0.2,
                                                    random_state=0)

print(f'X_train shape {X_train.shape}')
print(f'X_test shape {X_test.shape}')

X_train shape (455, 30)
X_test shape (114, 30)


Caranya:

+ Pertama-tama kita akan mencoba import terlebih dahulu modulnya dengan memanggil fungsi "from sklearn.model_selection import train_test_split".
+ Selanjutnya kita akan memanggil "train_test_split" dengan menyertakan parameter "(X, y, test_size=0.2 (artinya 20% dari data kita akan dialokasikan untuk testing dataset, sedangkan 80% akan digunakan sebagai training dataset), random_state=0). Fungsi ini akan mengembalikan 4 buah kumpulan nilai yang perlu kita tangkap kedalam 4 variabel yaitu "X_train, X_test, y_train, dan y_test".
+ Untuk selanjutnya, kita akan coba untuk menampilkan dimensi dari X_train dan X_test nya.

Bisa kita lihat pada code diatas, untuk X_train jumlah datanya ada 455 dan untuk X_test ada 114 artinya X_train merupakan 80% dan X_test 20% dari keseluruhan dataset yang kita miliki.

## Naive Bayes dengan Scikit Learn

Pada kali ini kita akan menerapkan "Naive Bayes" untuk melakukan klasifikasi data pada dataset "Breast Cancer" yang kita miliki.

In [4]:
from sklearn.naive_bayes import GaussianNB
from sklearn.metrics import accuracy_score

model = GaussianNB()
model.fit(X_train, y_train)
y_pred = model.predict(X_test)
accuracy_score(y_test, y_pred)

0.9298245614035088

Caranya:

+ Pertama-tama kita mengimport terlebih dahulu modelnya dengan memanggil fungsi "from sklearn.naive_bayes import GaussianNB". NB merepresentasikan Naive Bayes.
+ Lalu kita juga akan mengimport matriks akurasinya dengan memanggi fungsi "from sklearn.metrics import accuracy_score".
+ Berikutnya kita akan membentuk terlebih dahulu objek dari model "GaussianNB()" yang ditampung kedalam variabel "model".
+ Lalu selanjutnya, model ini akan training dengan menggunakan method "fit()" dengan menyertakan parameter "(X_train, y_train)".
+ Setelah modelnya kita training, maka train model tersebut akan kita gunakan untuk melakukan prediksi terhadap nilai dari X_test yang hasil prediksinya akan kita tampung kedalam variabel "y_pred".
+ Untuk selanjutnya, kita akan mengukur nilai akurasinya dengan memanggil fungsi "accuracy_score" dengan menyertakan parameter "(y_test, y_pred)".

Kita bisa lihat bahwa hasil akurasinya adalah 0.9298245614035088. Kita juga bisa mencari nilai akurasinya dengan cara yang lebih sederhana (perhatikan pada code selanjutnya).

In [5]:
model.score(X_test, y_test)

0.9298245614035088

Pemanggilan pada code diatas tersebut setara dengan pemanggilan fungsi baris code ke 5 dan 6 pada code sebelumnya.