# SKLearn 13 | *Classification Task* dengan *Naive Bayes*

## Bayes' Theorem
Bayes' theorem merupakan suatu formula dalam menghitung nilai probability dari suatu event dengan memanfaatkan pengetahuan sebelumnya dari kondisi terkait; atau seringkali dikenal dengan istilah conditional probability.

$P(A|B) = \frac {P(B|A) \times P(A)} {P(B)}$

- P(A|B) merepresentasikan nilai probability dari kemunculan event A bila diketahui event B muncul.
- P(B|A) merepresentasikan nilai probability dari kemunculan event B bila diketahui event A muncul.
- P(A) merepresentasikan nilai probability dari kemunculan event A.
- P(B) merepresentasikan nilai probability dari kemunculan event B.

$P(y|X) = \frac {P(X|y) \times P(y)} {P(X)}$

- Formula di atas merupakan penyesuaian untuk konteks pengklasifikasian
- P(y|X) merepresentasikan nilai probability dari kemunculan target label y bila diketahui kemunculan sekumpulan nilai features X.
- P(X|y) merepresentasikan nilai probability dari kemunculan sekumpulan nilai features X bila diketahui kemunculan target label y.
- P(y) merepresentasikan nilai probability dari kemunculan target label y.
- P(X) merepresentasikan nilai probability dari kemunculan sekumpulan nilai features X.

$Posterior = \frac {Likelihood \times Prior}{Evidence}$

## Pengenalan Naive Bayes Classification

### Studi Kasus 1

![1.png](attachment:1.png)

Pada studi kasus 1 ini, kita diminta untuk memprediksi, di antara Asep dan Joko, siapa yang akan melakukan pemesanan dengan diketahui bahwa pesanannya adalah **lumpia** dan **bakso**.
- Asep dan Joko akan berperan sebagai target label

## *Prior Probability: $P(y)$*

- Nilai probability dari kemunculan suatu nilai target label tertentu tanpa memperhatikan nilai featurenya.
- Peluang untuk suatu pemesanan yang dilakukan oleh Asep atau Joko berimbang, sehingga masing-masing probability pemesanan baik yang dilakukan oleh Asep maupun Joko bernilai 0.5 atau 50%.
- $P(Asep) = 0.5$
- $P(Joko) = 0.5$

## *Likelihood: $P(X|y)$*

- Probability kemunculan nilai feature tertentu jika diketahui kemunculan nilai targetnya.
- Nilai probability kemunculan lumpia dan bakso bila diketahui Asep adalah pemesannya.
$P(lumpia, bakso | Asep) = (0.1 \times 0.8) = 0.08$
- Nilai probability kemunculan lumpia dan bakso bila diketahui Joko adalah pemesannya.
$P(lumpia, bakso | Joko) = (0.3 \times 0.2) = 0.06$


## *Evidence atau Normalizer: $P(X)$*

- Total nilai dari perkalian antara likelihood dengan prior.
- Menghitung nilai probability dari kemunculan pemesanan lumpia dan bakso.

## *Posterior Probability: $P(y|X)$*

- Nilai dari probability kemunculan suatu class atau target label dengan diketahui kemunculan sekumpulan nilai featurenya.
- $Posterior = \frac {Likelihood \times Prior} {Evidence}$
- Nilai probability Asep sebagai pemesan bila diketahui pesanannya adalah lumpia dan bakso:

\begin{aligned}
P(Asep|lumpia, bakso) &= \frac {0.08 \times 0.5} {0.07} \\
                      &= \frac {0.04}{0.07} \\
                      &= 0.57
\end{aligned}

- Nilai probability Joko sebagai pemesan bila diketahui pesanannya adalah lumpia dan bakso:

\begin{aligned}
P(Joko|lumpia, bakso) &= \frac {0.06 \times 0.5} {0.07} \\
                      &= \frac {0.03}{0.07} \\
                      &= 0.43
\end{aligned}


**Nilai posterior probability Asep sebagai pemesan bila diketahui pesanannya adalah lumpia dan bakso lebih besar dibandingkan dengan nilai posterior probability Joko sebagai pemesan bila diketahui pesanannya adalah lumpia dan bakso. Sehingga, naive bayes' akan mengklasifikasikan Asep sebagai pemesan bila diketahui pesanannya adalah lumpia dan bakso.**

### Studi Kasus 2

![1.png](attachment:1.png)

Pada studi kasus 2 ini, kita diminta untuk memprediksi, di antara Asep dan Joko, siapa yang akan melakukan pemesanan dengan diketahui bahwa pesanannya adalah **siomay** dan **bakso**.
- Asep dan Joko akan berperan sebagai target label

## *Prior Probability: $P(y)$*

- Peluang untuk suatu pemesanan yang dilakukan oleh Asep atau Joko berimbang, sehingga masing-masing probability pemesanan baik yang dilakukan oleh Asep maupun Joko bernilai 0.5 atau 50%.
- $P(Asep) = 0.5$
- $P(Joko) = 0.5$

## *Likelihood: $P(X|y)$*

- Nilai probability kemunculan siomay dan bakso bila diketahui Asep adalah pemesannya.
- $P(siomay, bakso | Asep) = (0.1 \times 0.8) = 0.08$
- Nilai probability kemunculan siomay dan bakso bila diketahui Joko adalah pemesannya.
- $P(siomay, bakso | Joko) = (0.5 \times 0.2) = 0.1$

## *Evidence atau Normalizer: $P(X)$*

- Menghitung nilai probability dari kemunculan pemesanan siomay dan bakso.

\begin{aligned}
 Evidence &= \sum (Likelihood \times Prior) \\
 P(siomay,bakso) &= (0.08 \times 0.5)+ (0.1 \times 0.5) \\
                 &= 0.04 + 0.05 \\
                 &= 0.09
\end{aligned}

## *Posterior Probability: $P(y|X)$*

- Nilai probability Asep sebagai pemesan bila diketahui pesanannya adalah siomay dan bakso:

\begin{aligned}
P(Joko|lumpia, bakso) &= \frac {0.08 \times 0.5} {0.09} \\
                      &= \frac {0.04}{0.09} \\
                      &= 0.444
\end{aligned}

- Nilai probability Joko sebagai pemesan bila diketahui pesanannya adalah lumpia dan bakso:

\begin{aligned}
P(Joko|lumpia, bakso) &= \frac {0.1 \times 0.5} {0.09} \\
                      &= \frac {0.05}{0.09} \\
                      &= 0.555
\end{aligned}

**Nilai posterior probability Joko sebagai pemesan bila diketahui pesanannya adalah siomay dan bakso lebih besar dibandingkan dengan nilai posterior probability Asep sebagai pemesan bila diketahui pesanannya adalah siomay dan bakso. Sehingga, naive bayes' akan mengklasifikasikan Joko sebagai pemesan bila diketahui pesanannya adalah siomay dan bakso.**

## Mengapa disebut Naive?
- Pada saat mendefinisikan Likelihood $P(lumpia,bakso|Asep)$, kita mengansumsikan bahwa $P(bakso|Asep)$,begitu juga sebaliknya.
- Sehingga dapat diformulasikan sebagai berikut:
$P(lumpia, bakso|Asep) = P(lumpia|Asep) \times P(bakso|Asep)$

## Dataset: Breast Cancer Wisconsin

### *Load Dataset*

In [1]:
from sklearn.datasets import load_breast_cancer

In [2]:
print(load_breast_cancer().DESCR)  # Mengakses description dari load_breast_cancer

.. _breast_cancer_dataset:

Breast cancer wisconsin (diagnostic) dataset
--------------------------------------------

**Data Set Characteristics:**

    :Number of Instances: 569

    :Number of Attributes: 30 numeric, predictive attributes and the class

    :Attribute Information:
        - radius (mean of distances from center to points on the perimeter)
        - texture (standard deviation of gray-scale values)
        - perimeter
        - area
        - smoothness (local variation in radius lengths)
        - compactness (perimeter^2 / area - 1.0)
        - concavity (severity of concave portions of the contour)
        - concave points (number of concave portions of the contour)
        - symmetry
        - fractal dimension ("coastline approximation" - 1)

        The mean, standard error, and "worst" or largest (mean of the three
        worst/largest values) of these features were computed for each image,
        resulting in 30 features.  For instance, field 0 is Mean Radi

In [5]:
load_breast_cancer
#Mengakses documentation dari function load_breast_cancer

<function sklearn.datasets._base.load_breast_cancer(*, return_X_y=False, as_frame=False)>

In [6]:
X, y = load_breast_cancer(return_X_y=True)
X.shape                                       #Memisahkan feature data dan label data dengan memanggil load_breast_cancer(return_X_y=True)

(569, 30)

### *Training and Testing Dataset*

In [7]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X,
                                                    y,
                                                    test_size=0.2,
                                                    random_state=0)

print(f'X_train shape {X_train.shape}')
print(f'X_test shape {X_test.shape}')

X_train shape (455, 30)
X_test shape (114, 30)


## *Naive Bayes* dengan 8Scikit Learn *

In [8]:
from sklearn.naive_bayes import GaussianNB
from sklearn.metrics import accuracy_score

model = GaussianNB()
model.fit(X_train, y_train)
y_pred = model.predict(X_test)
accuracy_score(y_test, y_pred)

0.9298245614035088

In [9]:
model.score(X_test, y_test)        # Cara lain menghitung nilai accuracy

0.9298245614035088