# Tutorial 13: 
# Classification dengan Naive Bayes

### 1. Bayes Theorem
Bayes Theorem menawarkan suatu formula **untuk menghitung nilai probability dari suatu event dengan memanfaatkan pengetahuan sebelumnya dari kondisi terkait** atau sering kali dikenal dengan istilah conditional probability. Secara matematis dapat ditulis sebagai berikut: 
<br><br>
Posteriror = Likelihood * Prior / Evidence 

### 2. Studi Kasus 1

Pada sebuah toko kelontong **terdapat 2 orang pelanggan setia yang selalu memesan siomay, bakso, dan lumpia**. Nama pelanggan tersebut adalah Asep dan Joko. Berikut adalah peluang dari pesanan makanan yang akan dipesan oleh 2 orang tersebut. 
<br><br>
**Asep**: 
- Siomay: 0.1
- Bakso : 0.8
- Lumpia: 0.1 

<br><br>
**Joko** 
- Siomay: 0.5
- Bakso : 0.2
- Lumpia: 0.3
Disini kita akan melakukan **prediksi siapa pelanggan yang melakukan pemesanan dengan diketahui pesanannya adalah lumpia dan bakso.**

#### - Prior Probability: P(y) 
Prior Probability adalah besaran nilai probabiliti atas label tertentu tanpa mempedulikan nilai featurenya. Sehingga **nilai probability dari Asep adalah P(Asep) = 0.5 sedangkan Joko P(Joko)=0.5**.

#### - Likelihood: P(X|y)
Likelihood **merupakan probabilitas dari kemunculan feature tertentu bila diketahui kemunculan nilai target labelnya**. Sehingga secara matematis, likelihood dari pesanan lumpia dan bakso dari kedua pelanggan tersebut dapat dituliskan sebagai berikut. 
<br>
**Asep:** P(Lumpia, Bakso | Asep) = (0.1 * 0.8) = 0.08
<br>
**Joko:** P(Lumpia, Bakso | Joko) = (0.3 * 0.2) = 0.06

#### - Evidence atau Normalizer: P(X)
Evidence **merupakan total akumulasi dari perkalian antara likelihood dan prior**. Sehingga jika kita merujuk pada kasus kita, yaitu target label Asep dan Joko yang memesan Lumpia dan Bakso adalah sebagai berikut: 
<br>
**Evidence = Sum (Likelihood * Prior)** <br>
P(Lumpia, Bakso) = (0.08 * 0.5) + (0.06 * 0.5) = **0.07**

#### - Posterior Probability: P(y|X)
Posterior Probability **merupakan nilai peluang dari kemunculan suatu kelas atau target label jika diketahui kemunculan nilai featurenya.** Secara matematis, posterior dapat dituliskan sebagai berikut: 
<br><br>
**Posterior = Likelihood * Prior / Evidence**
<br>
- **Asep:** <br>
P(Asep | Lumpia, Bakso) = 0.08 * 0.5 / 0.07 = 0.57 
- **Joko:** <br>
P(Joko | Lumpia, Bakso) = 0.06 * 0.5 / 0.07 = 0.43
<br>
**Karena nilai Posterior Probability dari Asep (0.57) lebih besar dibandingkan dengan Joko (0.43) maka sistem akan mengasumsi bahwa pembelinya adalah Asep.** 
 

### 3. Studi Kasus 2 

Pada sebuah toko kelontong **terdapat 2 orang pelanggan setia yang selalu memesan siomay, bakso, dan lumpia**. Nama pelanggan tersebut adalah Asep dan Joko. Berikut adalah peluang dari pesanan makanan yang akan dipesan oleh 2 orang tersebut. 
<br><br>
**Asep**: 
- Siomay: 0.1
- Bakso : 0.8
- Lumpia: 0.1 

<br><br>
**Joko** 
- Siomay: 0.5
- Bakso : 0.2
- Lumpia: 0.3
Disini kita akan melakukan **prediksi siapa pelanggan yang melakukan pemesanan dengan diketahui pesanannya adalah siomay dan bakso.**

#### - Prior Probability: P(y) 
**nilai probability dari Asep adalah P(Asep) = 0.5 sedangkan Joko P(Joko)=0.5**.

#### - Likelihood: P(X|y)
**Asep:** P(Siomay, Bakso | Asep) = (0.1 * 0.8) = 0.08
<br>
**Joko:** P(Siomay, Bakso | Joko) = (0.5 * 0.2) = 0.1

#### - Evidence atau Normalizer: P(X)
**Evidence = Sum (Likelihood * Prior)** <br>
P(Siomay, Bakso) = (0.08 * 0.5) + (0.1 * 0.5) = **0.09**

#### - Posterior Probability: P(y|X)
**Posterior = Likelihood * Prior / Evidence**
<br>
- **Asep:** <br>
P(Asep | Siomay, Bakso) = 0.08 * 0.5 / 0.09 = 0.44
- **Joko:** <br>
P(Joko | Siomay, Bakso) = 0.1 * 0.5 / 0.09 = 0.56
<br>
**Karena nilai Posterior Probability dari Asep (0.44) lebih kecil dibandingkan dengan Joko (0.56) maka sistem akan mengasumsi bahwa pembelinya adalah Joko.** 

### 4. Persiapa Dataset: Breast Cancer Wisconsin (Diagnostic)
#### - Load Dataset

In [3]:
from sklearn.datasets import load_breast_cancer

print(load_breast_cancer().DESCR)

.. _breast_cancer_dataset:

Breast cancer wisconsin (diagnostic) dataset
--------------------------------------------

**Data Set Characteristics:**

    :Number of Instances: 569

    :Number of Attributes: 30 numeric, predictive attributes and the class

    :Attribute Information:
        - radius (mean of distances from center to points on the perimeter)
        - texture (standard deviation of gray-scale values)
        - perimeter
        - area
        - smoothness (local variation in radius lengths)
        - compactness (perimeter^2 / area - 1.0)
        - concavity (severity of concave portions of the contour)
        - concave points (number of concave portions of the contour)
        - symmetry
        - fractal dimension ("coastline approximation" - 1)

        The mean, standard error, and "worst" or largest (mean of the three
        worst/largest values) of these features were computed for each image,
        resulting in 30 features.  For instance, field 0 is Mean Radi

In [9]:
X, y = load_breast_cancer(return_X_y = True) # Return X_y digunakan untuk memisahkan feature data dengan label datanya
X.shape

(569, 30)

#### - Training & Testing Dataset

In [10]:
from sklearn.model_selection import train_test_split 

X_train, X_test, y_train, y_test = train_test_split(X, 
                                                    y, 
                                                    test_size=0.2, #20% Testing Set, dan 80% Training Set
                                                    random_state=0)

print(f'X Train Shape: {X_train.shape}')
print(f'X Test Shape: {X_test.shape}')

X Train Shape: (455, 30)
X Test Shape: (114, 30)


In [14]:
y_test

array([0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 0, 0, 0, 0, 0,
       1, 1, 0, 1, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 0, 1, 0, 1,
       1, 0, 1, 1, 1, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 0, 0, 0, 1, 1, 0, 1,
       0, 0, 0, 1, 1, 0, 1, 0, 0, 1, 1, 1, 1, 1, 0, 0, 0, 1, 0, 1, 1, 1,
       0, 0, 1, 0, 1, 0, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 0, 1, 0, 1, 0, 0,
       1, 0, 0, 1])

#### - Naive Bayes dengan Scikit Learn 

In [15]:
from sklearn.naive_bayes import GaussianNB
from sklearn.metrics import accuracy_score

model = GaussianNB()
model.fit(X_train, y_train)
y_pred = model.predict(X_test)
accuracy_score(y_test, y_pred)

0.9298245614035088

In [17]:
model.score(X_test, y_test)

0.9298245614035088