# **Classification 2: Naive Bayesian & Bayesian Network**

# **Naive Bayesian**

## **1. Naive Bayes Algorithm**

### **Algoritma Naive Bayes adalah sekumpulan algoritma pengklasifikasian dalam Supervised Machine Learning yang berdasarkan teorema probabilitas Bayes. Algoritma Naive Bayes mengasumsikan bahwa tidak ada korelasi antara fitur dalam dataset yang digunakan untuk melatih model.**

### **Pengklasifikasian Naive Bayes bekerja sangat baik dalam banyak masalah dunia nyata yang kompleks. Keuntungan besar dari pengklasifikasian Naive Bayes adalah ia hanya memerlukan sejumlah kecil sampel data pelatihan untuk melakukan klasifikasi secara efisien, dibandingkan dengan algoritme lain seperti Logistic Regression, Decision Trees, dan Support Vector Machines.**
---
### **Berikut beberapa istilah terkait dengan Naive Bayesian:**

## **Teorema Bayes**
### **Yaitu teorema yang menggambarkan probabilitas fitur, berdasarkan pengetahuan sebelumnya tentang situasi yang terkait dengan fitur itu. Misalnya, jika probabilitas seseorang menderita diabetes dikaitkan dengan usianya, maka dengan menggunakan teorema Bayes, usia dapat digunakan untuk memprediksi probabilitas diabetes secara lebih akurat.**
---
## **Naive**
### **Kata naif menyiratkan bahwa setiap pasangan fitur dalam kumpulan data independen satu sama lain. Semua pengklasifikasi Naive Bayes bekerja dengan asumsi bahwa nilai fitur tertentu tidak tergantung pada nilai fitur lain untuk kelas tertentu. Misalnya, buah dapat diklasifikasikan sebagai jeruk jika bulat, berdiameter sekitar 8 cm, dan berwarna oranye. Dengan pengklasifikasian Naive Bayes, masing-masing dari tiga fitur ini (bentuk, ukuran, dan warna) berkontribusi secara independen terhadap kemungkinan bahwa buah ini adalah jeruk. Selain itu, diasumsikan bahwa tidak ada kemungkinan korelasi antara atribut bentuk, ukuran, dan warna.**

## **2. Cara Kerja Naive Bayesian**

## **2.1. Workflow**

### **Setiap kali kita melakukan klasifikasi, langkah pertama adalah memahami masalah dan mengidentifikasi fitur dan label. Fitur adalah karakteristik atau atribut yang mempengaruhi hasil label. Misalnya, dalam hal penyaluran pinjaman, manajer bank mengidentifikasi pekerjaan nasabah, pendapatan, usia, lokasi, riwayat pinjaman sebelumnya, riwayat transaksi, dan nilai kredit. Karakteristik ini dikenal sebagai fitur yang membantu model mengklasifikasikan pelanggan.**

### **Klasifikasi ini memiliki dua fase, fase pembelajaran, dan fase evaluasi. Pada fase pembelajaran, classifier melatih modelnya pada dataset yang diberikan dan pada fase evaluasi, menguji kinerja classifier. Kinerja dievaluasi berdasarkan berbagai parameter seperti akurasi, kesalahan, presisi, dan ingatan.**

<img src='https://drive.google.com/uc?id=13b69rk4znQ8lHN86G0bM_ue6pKs_1eea'>

## **3. Implementasi Naive Bayesian**

## **3.1. Import Library**

In [121]:
import os
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.naive_bayes import GaussianNB
from sklearn.metrics import accuracy_score
from sklearn.model_selection import train_test_split

## **3.2. Import Dataset**

### **Sumber Dataset: https://www.kaggle.com/mathchi/diabetes-data-set**

In [122]:
os.environ['KAGGLE_USERNAME'] = "akmalzuhdyprasetya"
os.environ['KAGGLE_KEY'] = "3f1fd1ffa5d36294293dfb098b3b7392"

In [123]:
!kaggle datasets download -d mathchi/diabetes-data-set

diabetes-data-set.zip: Skipping, found more recently modified local copy (use --force to force download)


In [124]:
!unzip -q /content/diabetes-data-set.zip

replace diabetes.csv? [y]es, [n]o, [A]ll, [N]one, [r]ename: 

In [125]:
data = pd.read_csv("/content/diabetes.csv")
data.head(5)

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0
2,8,183,64,0,0,23.3,0.672,32,1
3,1,89,66,23,94,28.1,0.167,21,0
4,0,137,40,35,168,43.1,2.288,33,1


## **3.3. Data Pre-processing**

### **Sebelum memasukkan data ke model classifier Naive Bayes, kita perlu melakukan beberapa pra-pemrosesan.**

### **Di sini, kita akan membuat variabel `x` dan `y` dengan mengambilnya dari dataset dan menggunakan method `.train_test_split()` dari `scikit-learn` untuk membagi data menjadi dataset untuk pelatihan dan pengujian.**

### **Perlu diperhatikan bahwa ukuran pengujian 0,25 menunjukkan bahwa kita telah menggunakan 25% data untuk pengujian, parameter `random_state` memastikan tingkat reproduktifitas. Untuk output `.train_test_split()`, kita mendapatkan nilai `x_train`, `x_test`, `y_train`, dan `y_test`.**

In [126]:
x = data.drop('Outcome', axis=1)
y = data['Outcome']
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.50, 
                                                    random_state=42)

In [127]:
x_train, x_test

(     Pregnancies  Glucose  BloodPressure  ...   BMI  DiabetesPedigreeFunction  Age
 727            0      141             84  ...  32.4                     0.433   22
 423            2      115             64  ...  30.8                     0.421   21
 179            5      130             82  ...  39.1                     0.956   37
 304            3      150             76  ...  21.0                     0.207   37
 398            3       82             70  ...  21.1                     0.389   25
 ..           ...      ...            ...  ...   ...                       ...  ...
 71             5      139             64  ...  28.6                     0.411   26
 106            1       96            122  ...  22.4                     0.207   27
 270           10      101             86  ...  45.6                     1.136   38
 435            0      141              0  ...  42.4                     0.205   29
 102            0      125             96  ...  22.5                     0.2

In [128]:
y_train, y_test

(727    0
 423    0
 179    1
 304    0
 398    0
       ..
 71     0
 106    0
 270    1
 435    1
 102    0
 Name: Outcome, Length: 384, dtype: int64, 668    0
 324    0
 624    0
 690    0
 473    0
       ..
 578    0
 664    1
 100    1
 445    1
 689    1
 Name: Outcome, Length: 384, dtype: int64)

## **3.4. Model Training**

### **Kita akan menggunakan `x_train` dan `y_train` yang telah diperoleh, untuk melatih model classifier Naive Bayes. Kita akan menggunakan method `.fit()` dan memberikan parameter seperti yang ditunjukkan di bawah ini.**

### **Perhatikan bahwa output dari sel ini menjelaskan beberapa parameter seperti `prior` dan `var_smoothing` untuk model. Semua parameter ini dapat dikonfigurasi, dan kita bebas menyetelnya agar sesuai dengan kebutuhan kita.**

In [129]:
model = GaussianNB()
model.fit(x_train, y_train)

GaussianNB(priors=None, var_smoothing=1e-09)

## **3.5. Prediction**

### **Setelah model dilatih, model siap untuk membuat atau melakukan prediksi. Kita dapat menggunakan method `.predict()` pada model dan memberikan `x_test` sebagai parameter untuk mendapatkan output yaitu `y_pred`.**

In [130]:
y_pred = model.predict(x_test)

In [131]:
y_pred, x_test

(array([0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0,
        1, 0, 1, 1, 0, 0, 0, 0, 1, 1, 1, 0, 1, 1, 1, 0, 1, 0, 0, 0, 0, 1,
        0, 1, 1, 0, 0, 1, 0, 1, 1, 0, 0, 0, 1, 0, 0, 1, 1, 0, 1, 1, 0, 1,
        0, 1, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 1, 0,
        0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 1, 0, 1, 1, 1, 0, 0, 1, 0, 1,
        0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 1, 1, 1, 1,
        0, 1, 1, 0, 0, 1, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0,
        0, 1, 0, 0, 1, 0, 0, 1, 0, 0, 0, 1, 0, 0, 1, 1, 0, 0, 0, 1, 1, 0,
        0, 1, 0, 0, 1, 1, 0, 1, 1, 0, 0, 0, 1, 1, 0, 0, 1, 1, 0, 0, 0, 0,
        0, 1, 0, 0, 0, 1, 1, 0, 0, 0, 1, 1, 0, 0, 0, 0, 1, 0, 1, 0, 0, 1,
        1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 1, 0, 0, 1, 0, 0, 0, 0, 0,
        0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 1, 1, 0, 0,
        0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 1, 1, 1, 1, 0, 0,
        1, 0, 0, 1, 0, 1, 1, 0, 1, 0, 

In [132]:
x_test.iloc[10]

Pregnancies                  10.000
Glucose                     111.000
BloodPressure                70.000
SkinThickness                27.000
Insulin                       0.000
BMI                          27.500
DiabetesPedigreeFunction      0.141
Age                          40.000
Name: 667, dtype: float64

In [133]:
y_pred[10]

0

## **3.5. Model Evaluation**

### **Terakhir, kita perlu memeriksa untuk melihat seberapa baik kinerja model kita pada data uji. Untuk ini, kita mengevaluasi model kami dengan menemukan skor akurasi yang dihasilkan oleh model.**

In [134]:
acc = accuracy_score(y_test, y_pred)*100

In [135]:
print('Model Accuracy', acc, sep=': ')

Model Accuracy: 76.30208333333334


# **Bayesian Network**