### Naive Bayes

**Naive Bayes** adalah algoritma untuk melakukan klasifikasi berdasarkan teorema bayes. Algoritma ini merupakan salah satu dari algoritma yang paling cepat, simpel, dan efisien untuk membangun model klasifikasi.



Notebook ini mengimplementasikan algoritma **Naive Bayes** untuk melakukan klasifikasi spesies bunga Iris.

### Import library dan dataset
Spesies Iris pada dataset adalah :
* Iris-setosa -> 0
* Iris-versicolor -> 1
* Iris-virginica -> 2

In [1]:
import numpy as np 
import pandas as pd 
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
from sklearn.naive_bayes import GaussianNB
from sklearn.naive_bayes import MultinomialNB
from sklearn.naive_bayes import BernoulliNB
df = pd.read_csv('/content/Iris_clean.csv')

In [2]:
  df.head()

Unnamed: 0,SepalLengthCm,SepalWidthCm,PetalLengthCm,PetalWidthCm,Species
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0


### Split dataset
Memisah dataset menjadi dua bagian, data training dan data testing dengan pembagian :
* 60% data untuk **training**
* 40% data untuk **testing**

In [None]:
# X -> Merepresentasikan data-data yang digunakan untuk klasifikasi
X = df[['SepalLengthCm','SepalWidthCm','PetalLengthCm','PetalWidthCm']]
# y -> Merepresentasikan label dari data (pada kasus ini spesies Iris) 
y = df['Species']

# Memisahkan data training
X_train, X_test, y_train, y_test = train_test_split(X, y, train_size=0.6)

### Model Naive Bayes
Terdapat 3 tipe algoritma Naive Bayes, seperti :

* Gaussian Naive Bayes

* Multinomial Naive Bayes

* Bernoulli Naive Bayes

Untuk melakukan klasifikasi dengan data bersifat kontinu, **Gaussian NB** adalah model yang paling cocok. Sedangkan untuk data yang memiliki distribusi multinomial, **Multinomial NB** adalah model yang cocok untuk digunakan. Untuk data yang bersifat disktrit (data biner), **Bernoulli NB** adalah model yang cocok digunakan.

In [4]:
# Inisialisasi model naive bayes
gaussian_nb = GaussianNB()
multinomial_nb = MultinomialNB()
bernoulli_nb = BernoulliNB()

# Masukkan data training ke dalam object naive bayes
gaussian_nb.fit(X_train, y_train)
multinomial_nb.fit(X_train, y_train)
bernoulli_nb.fit(X_train, y_train)

# Prediksi data test
y_pred_gaussian = gaussian_nb.predict(X_test)
y_pred_multinomial = multinomial_nb.predict(X_test)
y_pred_bernoulli = bernoulli_nb.predict(X_test)

In [5]:
# Hitung dan print akurasi model
print('Gaussian NB model accuracy score: {0:0.4f}'. format(accuracy_score(y_test, y_pred_gaussian)))
print('Multinomial NB model accuracy score: {0:0.4f}'. format(accuracy_score(y_test, y_pred_multinomial)))
print('Bernoulli NB model accuracy score: {0:0.4f}'. format(accuracy_score(y_test, y_pred_bernoulli)))

Gaussian NB model accuracy score: 0.9500
Multinomial NB model accuracy score: 0.9333
Bernoulli NB model accuracy score: 0.3000


Berdasarkan hasil akurasi diatas, terlihat bahwa model Bernoulli NB adalah model yang paling rendah akurasinya. Hal ini dikarenakan model Bernoulli melakukan klasifikasi dengan melihat dan mencocokkan ada atau tidak keberadaan data yang berulang. Data yang bersifat biner adalah data yang cocok untuk model Bernoulli, sedangkan data yang digunakan adalah data yang bersifat kontinu.