<a href="https://colab.research.google.com/github/vivianesilviana/Proyek_Klasifikasi/blob/main/PROYEK_Model_Naive_Bayes.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## Model Naive Bayes

### Ide Dasar
Naive Bayes Classifier adalah algoritme Machine Learning yang sangat populer berdasarkan teorema Bayes. Ini adalah algoritma sederhana namun sangat kuat yang bekerja dengan baik dengan kumpulan data besar, seperti data teks yang diproses sebelumnya yang membuat ribuan vektor tergantung pada jumlah kata dalam kamus. Ini bekerja sangat baik dengan proyek data teks seperti analisis data sentimen, berkinerja baik dengan proyek kategorisasi dokumen, dan juga bagus dalam memprediksi data kategorikal dalam proyek seperti klasifikasi spam email.

Teorema Bayes menjelaskan probabilitas suatu peristiwa, berdasarkan pengetahuan sebelumnya tentang kondisi yang mungkin terkait dengan peristiwa tersebut.
Pertama, mari kita ambil rumus probabilitas bersyarat, dan mencoba menurunkan Teorema Bayes:

P(B|A) = P(A∩B)/P(B),

di mana probabilitas B diberikan A, yang berarti berapa probabilitas peristiwa B ketika peristiwa A sudah terjadi, sama dengan probabilitas persimpangan A B (artinya probabilitas peristiwa A dan B terjadi) dibagi dengan probabilitas B.

atau P (A|B) = P(B∩A)/P(A),

di mana probabilitas A diberikan B, yang berarti berapa probabilitas peristiwa A ketika peristiwa B sudah terjadi, sama dengan probabilitas persimpangan B A (artinya probabilitas peristiwa B dan A terjadi) dibagi dengan probabilitas A.
Mari kita lihat lebih dekat, kita melihat bahwa P (A∩B) dan P (B∩A) pada dasarnya sama, jadi kita dapat menuliskannya sebagai 
P(A∩B) = P(B∩A). Karena sama, kita bisa mendapatkan dua rumus dan memindahkan penyebut ke kiri persamaan:

P(A∩B) = P(A|B)*P(B), dan P(B∩A) = P(B|A) * P(A) 

P (A|B) * P(B) = P (B|A) * P(A).
Jadi, ketika kita ingin mencari probabilitas A diberikan B kita bisa menulis persamaan kita seperti ini:

P(A|B)= P(B|A) * P(A)/P(B), dan ini adalah persamaan dari Teorema Bayes.

### Terminologi Dasar
Menerapkan Persamaan Teorema Bayes dalam Algoritma
Mari kita uraikan persamaan kita dan pahami cara kerjanya:
1. P(A|B) adalah probabilitas posterior kelas (target) yang diberikan prediktor (atribut).
2. P(B) adalah probabilitas kelas prior.
3. P(B|A) adalah kemungkinan yang merupakan probabilitas kelas prediktor yang diberikan.
4. P(A) adalah probabilitas prediktor sebelumnya.

### Algoritma Naive Bayes
Pengklasifikasi Naive Bayes menghitung probabilitas suatu peristiwa dalam langkah-langkah berikut:

1. Hitung probabilitas prior untuk label kelas tertentu
2. Temukan probabilitas posterior dengan setiap atribut untuk setiap kelas
3. Masukkan nilai ini ke dalam Formula Bayes dan hitung probabilitas posterior.
4. Lihat kelas mana yang memiliki probabilitas lebih tinggi, mengingat input milik kelas probabilitas yang lebih tinggi.

### Kelebihan
1. Naive Bayes bukan pendekatan sederhana tetapi dapat melakukan prediksi yang cepat dan akurat.
2. Naive Bayes memiliki biaya komputasi yang sangat rendah.
3. Naive Bayes dapat bekerja secara efisien pada kumpulan data yang besar.
4. Naive Bayes berkinerja baik dalam kasus variabel respons diskrit dibandingkan dengan variabel kontinu.
5. Naive Bayes dapat digunakan dengan beberapa masalah prediksi kelas.
6. Naive Bayes bekerja dengan baik dalam kasus masalah analitik teks.
7. Jika asumsi independensi berlaku, pengklasifikasi Naive Bayes berperforma lebih baik dibandingkan dengan model lain seperti regresi logistik.

### Kekurangan
1. Asumsi fitur independen. Dalam praktiknya, hampir tidak mungkin model tersebut mendapatkan sekumpulan prediktor yang sepenuhnya independen.
2. Jika tidak ada tupel pelatihan dari kelas tertentu, ini menyebabkan probabilitas posterior nol. Dalam hal ini, model tidak dapat membuat prediksi. Masalah ini dikenal sebagai Masalah Probabilitas / Frekuensi Nol.

### Implementasi Pada Python dari Dasar

In [None]:
**Fungsi-fungsi pada Naive Bayes**

In [None]:
# Mengimpor Library Numpy, dataset, dan matplotlib
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn import datasets
import matplotlib.pyplot as plt

# Membuat dataset klasifikasi
X, y = datasets.make_classification(n_samples=1000, n_features=10, n_classes=2, random_state=123)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=123)

Naive Bayes classification accuracy 0.965


In [None]:
# Menyusun Fungsi secara step by step
def _naive_bayes(x):
    posteriors = []
    
    # hitung probabilitas posterior untuk setiap kelas
    for idx, c in enumerate(_classes):
        prior = np.log(_priors[idx])
        posterior = np.sum(np.log(_pdf(idx, x)))
        posterior = prior + posterior
        posteriors.append(posterior)
            
    # menentukan kelas berdasarkan nilai probabilitas posterior tertinggi
    return _classes[np.argmax(posteriors)]

def Naive_Bayes(X):
    n_samples, n_features = X.shape
    _classes = np.unique(y)
    n_classes = len(_classes)
    
    # menghitung mean, variansi, dan prior untuk masing-masing kelas
    _mean = np.zeros((n_classes, n_features), dtype=np.float64)
    _var = np.zeros((n_classes, n_features), dtype=np.float64)
    _priors =  np.zeros(n_classes, dtype=np.float64)
    
    for idx, c in enumerate(_classes):
        X_c = X[y==c]
        _mean[idx, :] = X_c.mean(axis=0)
        _var[idx, :] = X_c.var(axis=0)
        _priors[idx] = X_c.shape[0] / float(n_samples)
        y_pred = [_naive_bayes(x) for x in X]
        
    return np.array(y_pred)

# Membuat fungsi untuk mengukur akurasi
def akurasi(y_asli, y_pred):
    akr = np.sum(y_asli == y_pred) / len(y_asli)
    return akr

# Fungsi untuk menghitung PDF
def _pdf(class_idx, x):
    mean = _mean[class_idx]
    var = _var[class_idx]
    numerator = np.exp(- (x-mean)**2 / (2 * var))
    denominator = np.sqrt(2 * np.pi * var)
    return numerator / denominator

In [None]:
class NaiveBayes:

    def fit(self, X, y):
        n_samples, n_features = X.shape
        self._classes = np.unique(y)
        n_classes = len(self._classes)

        # menghitung mean, variansi, dan prior untuk masing-masing kelas
        self._mean = np.zeros((n_classes, n_features), dtype=np.float64)
        self._var = np.zeros((n_classes, n_features), dtype=np.float64)
        self._priors =  np.zeros(n_classes, dtype=np.float64)

        for idx, c in enumerate(self._classes):
            X_c = X[y==c]
            self._mean[idx, :] = X_c.mean(axis=0)
            self._var[idx, :] = X_c.var(axis=0)
            self._priors[idx] = X_c.shape[0] / float(n_samples)

    def predict(self, X):
        y_pred = [self._predict(x) for x in X]
        return np.array(y_pred)

    def _predict(self, x):
        posteriors = []

        # hitung probabilitas posterior untuk setiap kelas
        for idx, c in enumerate(self._classes):
            prior = np.log(self._priors[idx])
            posterior = np.sum(np.log(self._pdf(idx, x)))
            posterior = prior + posterior
            posteriors.append(posterior)
            
        # menentukan kelas berdasarkan nilai probabilitas posterior tertinggi
        return self._classes[np.argmax(posteriors)]
            
    # Fungsi untuk menghitung PDF
    def _pdf(self, class_idx, x):
        mean = self._mean[class_idx]
        var = self._var[class_idx]
        numerator = np.exp(- (x-mean)**2 / (2 * var))
        denominator = np.sqrt(2 * np.pi * var)
        return numerator / denominator

**Prediksi satu data uji**

In [None]:
x=X[0]

_naive_bayes(x)

1

**Prediksi data uji dalam bentuk vektor**

In [None]:
nb = NaiveBayes()
nb.fit(X_train, y_train)
prediksi_0 = nb.predict(X_test)

print("Akurasi Klasifikasi Naive Bayes", akurasi(y_test, prediksi_0)*100, "%")

Akurasi Klasifikasi Naive Bayes 96.5 %


### Model Naive Bayes Menggunakan Scikit Learn

In [None]:
from sklearn.naive_bayes import GaussianNB
# Mengaktifkan/memanggil/membuat fungsi klasifikasi Naive Bayes
modelnb = GaussianNB()

# Memasukkan data training pada fungsi klasifikasi Naive Bayes
nbtrain = modelnb.fit(X_train, y_train)

# Menentukan hasil prediksi dari x_test
prediksi_1 = nbtrain.predict(X_test)

print("Akurasi Klasifikasi Naive Bayes", akurasi(y_test, prediksi_1)*100, "%")

Akurasi Klasifikasi Naive Bayes 96.5 %
