# Classification Task dengan Naive Bayes

`Classification Task dengan Naive Bayes` adalah keluarga "pengklasifikasi probabilistik" (probabilistic classifiers) sederhana berdasarkan penerapan teorema Bayes dengan asumsi independensi yang kuat (naif) di antara fitur-fiturnya (lihat pengklasifikasi Bayes). Mereka adalah salah satu model jaringan Bayesian yang paling sederhana, tetapi digabungkan dengan estimasi kepadatan kernel, mereka dapat mencapai tingkat akurasi yang lebih tinggi. 

Selain itu Classification Task dengan Naive Bayes juga sangat skalabel, membutuhkan sejumlah parameter linier dalam jumlah variabel (fitur / prediktor) dalam masalah pembelajaran. Pelatihan kemungkinan maksimum dapat dilakukan dengan mengevaluasi ekspresi bentuk tertutup, yang membutuhkan waktu linier, bukan dengan pendekatan berulang yang mahal seperti yang digunakan untuk banyak jenis pengklasifikasi lainnya.

Referensi: [https://en.wikipedia.org/wiki/Naive_Bayes_classifier](https://en.wikipedia.org/wiki/Naive_Bayes_classifier)

## Bayes' Theorem

Bayes' theorem menawarkan suatu formula untuk menghitung nilai probability dari suatu event dengan memanfaatkan pengetahuan sebelumnya dari kondisi terkait; atau sering kali dikenal dengan istilah conditional probability.

$P(A|B) = \frac{P(B|A) \times P(A)}{P(B)}$ <br/>

$P(y|X) = \frac{P(X|y) \times P(y)}{P(X)}$ <br/>

$Posterior = \frac{ Likelihood \times Prior}{ Evidence }$ 

## Pengenalan Naive Bayes Classification

##### Studi Kasus 1

Semisal terdapat sebuah warung yang menawarkan tiga buah menu yaitu :
- Siomay
- Bakso
- Lumpia

Warung ini hanya memiliki dua pelanggan saja yaitu `Asep` dan `Joko`, untuk setiap pelanggan sudah didata probabilitas pemesanan mereka untuk setiap menu yang ditawarkan berikut adalah ilustrasi yang dapat dipahami.

![](./images/asep_joko_snack.png)
**Misi**: Lakukan prediksi siapa pelanggan yang melakukan pemesanan dengan diketahui pesanannya adalah **Lumpia** dan **Bakso**.

##### Prior Probability: $P(y)$

`Prior Probability` adalah nilai probability dari kemunculan suatu nilai target label tertentu tanpa memperhatikan nilai feature. **`P(y)`**  merupakan notasinya dan nilai ini akan bergantung pada nilai dataset yang dimiliki, untuk kasus disini kita dapat mengasumsikan bahwa peluang untuk suatu pemesanan dilakukan oleh Asep atau Joko adalah berimbang seperti sebagai berikut :

- $P(Asep) = 0.5$
- $P(Joko) = 0.5$

Referensi: [https://en.wikipedia.org/wiki/Prior_probability](https://en.wikipedia.org/wiki/Prior_probability)



##### Likelihood: $P(X|y)$

`likelihood function` (sering disebut likelihood) mengukur kesesuaian model statistik ke sampel data untuk nilai tertentu dari parameter yang tidak diketahui. Ini dibentuk dari distribusi probabilitas gabungan sampel, tetapi dilihat dan digunakan sebagai fungsi parameter saja, sehingga memperlakukan variabel acak sebagai tetap pada nilai yang diamati.

Likelihood juga dapat mendeskripsikan permukaan hiper yang puncaknya, jika ada, mewakili kombinasi nilai parameter model yang memaksimalkan probabilitas pengambilan sampel yang diperoleh. Prosedur untuk mendapatkan argumen dari fungsi kemungkinan maksimum ini dikenal sebagai estimasi kemungkinan maksimum, yang untuk kenyamanan komputasi biasanya dilakukan dengan menggunakan logaritma natural dari kemungkinan, yang dikenal sebagai fungsi kemungkinan log.


Nilai probability atau kemungkinan lumpia dan bakso dengan nama pemesannya adalah **Asep** dapat dikalkulasikan sebagai berikut :
- Asep:
$$
\begin{aligned}
 P(lumpia,bakso|Asep) &= (0.1 \times 0.8)\\ 
                      &= 0.08
\end{aligned}
$$

Nilai probability atau kemungkinan lumpia dan bakso dengan nama pemesannya adalah **Joko** dapat dikalkulasikan sebagai berikut :
- Joko:
$$
\begin{aligned}
 P(lumpia,bakso|Joko) &= (0.3 \times 0.2)\\ 
                      &= 0.06
\end{aligned}
$$

Referensi: [https://en.wikipedia.org/wiki/Likelihood_function](https://en.wikipedia.org/wiki/Likelihood_function)




##### Evidence atau Normalizer: $P(X)$

Evidence atau Normalizer dapat didefinisikan dari total akumulasi dari hasil perkalian antara nilai `Likelihood` dengan `Prior`
-	P(X) sebagai notasi dari Evidence atau Normalizer

$$
\begin{aligned}
 Evidence &= \sum (Likelihood \times Prior) \\
 P(lumpia,bakso) &= (0.08 \times 0.5)+ (0.06 \times 0.5) \\
                 &= 0.07
\end{aligned}
$$

<!-- - Evidence $= \sum ($Likelihood $\times$ Prior$)$
- Evidence = $P($lumpia,bakso$) = P($lumpia,bakso$|$Asep$) \times P($Asep$) + P($lumpia,bakso$|$Joko$) \times P($Joko$)  = (0.08 \times 0.5)+ (0.06 \times 0.5) = 0.07$ -->



##### Posterior Probability: $P(y|X)$ 

`Posterior Probability` dari peristiwa acak atau proposisi tidak pasti adalah probabilitas bersyarat yang diberikan (Clarification needed) setelah bukti atau latar belakang yang relevan diperhitungkan. Posterior, dalam konteks ini, berarti setelah memperhitungkan bukti-bukti yang relevan terkait dengan kasus tertentu yang sedang diperiksa.

Distribusi Posterior Probability adalah distribusi probabilitas dari kuantitas yang tidak diketahui, diperlakukan sebagai variabel acak, bergantung pada bukti yang diperoleh dari eksperimen atau survei.

- Referensi: [https://en.wikipedia.org/wiki/Posterior_probability](https://en.wikipedia.org/wiki/Posterior_probability)

- Formula: <br/>
$Posterior = \frac{ Likelihood \times Prior}{ Evidence }$

Pertama **Asep** adalah sebagai pemesan bila diketahui pesanannya adalah **lumpia** dan **bakso** seperti sebagai berikut :
- Asep:
$$
\begin{aligned}
 P(Asep|lumpia,bakso) &= \frac{0.08 \times 0.5}{0.07} \\
                      &= 0.57 
\end{aligned}
$$

Kedua **Joko** adalah sebagai pemesan bila diketahui pesanannya adalah **lumpia** dan **bakso** seperti sebagai berikut :
- Joko:
$$
\begin{aligned}
 P(Joko|lumpia,bakso) &= \frac{0.06 \times 0.5}{0.07} \\
                      &= 0.43 
\end{aligned}
$$

##### Studi Kasus 2

Studi kasus berikut kita akan diminta untuk melakukan klasifikasi pelanggan berdasarkan informasi pemesanan yang diterima, hanya saja kali ini pemesanannya adalah **siomay** dan **bakso** seperti dibawah ini.

![](./images/asep_joko_snack.png)
**Misi**: Lakukan prediksi siapa pelanggan yang melakukan pemesanan dengan diketahui pesanannya adalah **siomay** dan **bakso**.

##### Posterior Probability: $P(y|X)$ (kasus 2)
- pesanan: siomay, bakso
- Evidence: $P(X)$

$$
\begin{aligned}
P(siomay,bakso) &= (0.1 \times 0.8 \times 0.5) + (0.5 \times 0.2 \times 0.5) \\
&= 0.09
\end{aligned}
$$

Pertama kita akan hitung nilai probability **Asep** sebagai pemesan bila diketahui pesanannya adalah **siomay** dan **bakso** seperti sebagai berikut :
- Asep:
$$
\begin{aligned}
P(Asep|siomay,bakso) &= \frac{(0.1 \times 0.8) \times 0.5}{0.09} \\
                     &= 0.444
\end{aligned}
$$

Kedua kita akan hitung nilai probability **Joko** sebagai pemesan bila diketahui pesanannya adalah **siomay** dan **bakso** seperti sebagai berikut :
- Joko:
$$
\begin{aligned}
P(Joko|siomay,bakso) &= \frac{(0.5 \times 0.2) \times 0.5}{0.09} \\
                     &= 0.555
\end{aligned}
$$

## Apa dan mengapa disebut Naive Bayes?

Mengapa model ini disebut dengan Bayes?. Karena kata Bayes berasal dari nama orang statistion yaitu **Thomas Bayes** yang menggagas suatu theorem yang dikenal sebagai **Bayes Theorem** .

- Karena sewaktu kita mendefinisikan Likelihood $P(lumpia,bakso|Asep)$, <br/>

Mengapa model ini disebut dengan Naive?. Karena suatu kita mendefinisikan `Likelihood` nilai probability kemunculan pemesana lumpia dan bakso bila diketahui pemesannya adalah **Asep** kita mengasumsikan bahwa nilai probability kemunculan pemesan lumpia bila diketahui pemesannya adalah Asep itu kondisional independent terhadap nilai probability dari nilai kemunculan nilai pesanan bakso bila diketahui pemesannya adalah Asep dan demikian sebaliknya seperti keterangan sebagai berikut :

- kita mengasumsikan $P(lumpia|Asep)$ conditionally independent terhadap $P(bakso|Asep)$; demikian sebaliknya. <br/>
- Sehingga dapat diformulasikan sebagai berikut:

$P(lumpia,bakso|Asep) = P(lumpia|Asep) \times P(bakso|Asep)$


## Dataset: Breast Cancer Wisconsin (Diagnostic) 

Pada tahap ini pertama-tama kita akan mempersiapkan Datasetnya, untuk kali ini kita memakai Dataset dari `Breast Cancer Wisconsin (Diagnostic)` yang merupakan open dataset ditawarkan oleh `UCI Machine Learning`.

Referensi: [https://archive.ics.uci.edu/ml/datasets/Breast+Cancer+Wisconsin+(Diagnostic)](https://archive.ics.uci.edu/ml/datasets/Breast+Cancer+Wisconsin+(Diagnostic))

#### Load Dataset

Pada tahap `Load Dataset` pertama-tama kita melakukan import module `from sklearn.datasets import load_breast_cancer` yang diikuti dengan `print(load_breast_cancer().DESCR` seperti script dibawah ini.

In [1]:
from sklearn.datasets import load_breast_cancer

print(load_breast_cancer().DESCR)

.. _breast_cancer_dataset:

Breast cancer wisconsin (diagnostic) dataset
--------------------------------------------

**Data Set Characteristics:**

    :Number of Instances: 569

    :Number of Attributes: 30 numeric, predictive attributes and the class

    :Attribute Information:
        - radius (mean of distances from center to points on the perimeter)
        - texture (standard deviation of gray-scale values)
        - perimeter
        - area
        - smoothness (local variation in radius lengths)
        - compactness (perimeter^2 / area - 1.0)
        - concavity (severity of concave portions of the contour)
        - concave points (number of concave portions of the contour)
        - symmetry
        - fractal dimension ("coastline approximation" - 1)

        The mean, standard error, and "worst" or largest (mean of the three
        worst/largest values) of these features were computed for each image,
        resulting in 30 features.  For instance, field 0 is Mean Radi

Dengan menggunakan jupyter notebook kita dapat memiliki kebebasan untuk melakukan akses dokumentasi suatu `function` tertentu sebagai contoh untuk mengakses dokumentasi dari `load_breast_cancer?`. Setelah proses dieksekusi maka kita akan mendapatkan akses ke dokumentasi dari function tersebut.

In [2]:
load_breast_cancer?

Selanjutnya kita akan coba untuk melakukan eksekuysi script berikut dengan cara memanggil `load_breast_cancer(return_X_y=True)` yang memiliki parameter `return_X_y=True` kemudian ditampung ke dalam variabel sebagai berikut :
- `X` menampung nilai Features
- `y` menampung nilai Label

Lalu `X.shape` seperti script dibawah ini.

In [3]:
X, y = load_breast_cancer(return_X_y=True)
X.shape

(569, 30)

#### Training & Testing Set

Sebelum melakukan `Training & Testing Set` terlebih dahulu kita melakukam import module `from sklearn.model_selection import train_test_split` dengan memanggil `train_test_split` yang memilik parameter sebagai berikut :

- `X`
- `y`
- `test_size=0.2`
- `random_state=0)`

Kemudian ditampung ke dalam 4 variabel yaitu `X_train, X_test, y_train, y_test`, lalu memanggil shape seperti diabwah ini.

- `pint(f'X_train shape {X_train.shape}')`
- `print(f'X_test shape {X_test.shape}')`

In [4]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X,
                                                    y,
                                                    test_size=0.2,
                                                    random_state=0)

print(f'X_train shape {X_train.shape}')
print(f'X_test shape {X_test.shape}')

X_train shape (455, 30)
X_test shape (114, 30)


## Naive Bayes dengan Scikit Learn

Selanjutnya kita juga dapat melakukan `Naive Bayes` dengan `Scikit Learn`, untuk melakukannya pertama-tama kita melakukan 2 buah import module `from sklearn.naive_bayes import GaussianNB` dan `from sklearn.metrics import accuracy_score`. Kemudian memanggili `GaussianNB()` yang ditampung ke dalam variabel `model` lalu melakukan fit `model.fit(X_train, y_train)` dengan 2 parameter yaiut `X_train` dan `y_train` serta diikuti dengan melakukan prediksi model `model.predict(X_test)` yang ditampung ke dalam variabel `y_pred` dan memanggil `accuracy_score(y_test, y_pred)` seperti script dibawah ini.

In [5]:
from sklearn.naive_bayes import GaussianNB
from sklearn.metrics import accuracy_score

model = GaussianNB()
model.fit(X_train, y_train)
y_pred = model.predict(X_test)
accuracy_score(y_test, y_pred)

0.9298245614035088

- Script diatas dapat juga dapat peroleh cara yang sederhana hanya dengan memanggil `model.score(X_test, y_test)` yang memiliki 2 buah parameter `X_test` dan `y_test` seperti script dibawah ini.

In [6]:
model.score(X_test, y_test)

0.9298245614035088