# ***Klasifikasi Naive Bayes***

## **Penjelasan Naive Bayes**

Klasifikasi Naïve Bayes adalah algoritma pembelajaran mesin terbimbing yang digunakan untuk tugas klasifikasi seperti klasifikasi teks. Algoritma ini menggunakan prinsip probabilitas untuk melakukan tugas klasifikasi.

Naïve Bayes juga dikenal sebagai pengklasifikasi probabilistik karena didasarkan pada Teorema Bayes. Akan sulit untuk menjelaskan algoritma ini tanpa menjelaskan dasar-dasar statistik Bayesian. Teorema ini, yang juga dikenal sebagai Aturan Bayes, memungkinkan kita untuk "membalikkan" probabilitas bersyarat. Sebagai pengingat, probabilitas bersyarat mewakili probabilitas suatu peristiwa jika beberapa peristiwa lain telah terjadi 

## **Rumus Naive Bayes**

$$
    P(x|y) = \frac{P(y|x) \cdot P(x)}{P(y)}
$$

Di mana:
-  $P(x|y)$  = Probabilitas kejadian **A** terjadi jika **B** diketahui (probabilitas posterior).
-  $P(y|x)$  = Probabilitas **B** terjadi jika **A** diketahui (likelihood).
-  $P(x)$  = Probabilitas awal dari kejadian **A** (prior probability).
-  $P(y)$  = Probabilitas awal dari kejadian **B**.


## **Cara Kerja Naive Bayes**

Misalkan kita ingin mengklasifikasikan email sebagai **"Spam"** atau **"Bukan Spam"**, berdasarkan kata-kata dalam email.

1. **Menghitung Prior Probability**  
   - Hitung probabilitas dasar masing-masing kelas:  
   
     $
     P(Spam) = \frac{\text{Jumlah email spam}}{\text{Total email}}
     $
     
     $
     P(BukanSpam) = \frac{\text{Jumlah email bukan spam}}{\text{Total email}}
     $

2. **Menghitung Likelihood (P(W|C))**  
   - Untuk setiap kata dalam email, hitung probabilitas kata tersebut muncul dalam email spam dan bukan spam.

3. **Menghitung Posterior Probability**  
   - Gunakan rumus Bayes untuk menghitung probabilitas email tersebut menjadi spam atau bukan, lalu pilih kelas dengan probabilitas terbesar.



## **Jenis jenis Naive Bayes**

Tergantung pada jenis tipe data yang digunakan, ada beberapa jenis Naive Bayes yang dapat digunakan juga pada beberapa tipe data tertentu agar hasil yang diperoleh dapa lebih maksimal

### **a) Gaussian Naive Bayes**

- Digunakan untuk data **kontinu** (misalnya tinggi badan, berat badan).  
- Mengasumsikan bahwa fitur mengikuti distribusi Gaussian (Normal).  

Jika $ x_i $ adalah fitur dengan nilai kontinu, maka probabilitasnya dihitung dengan distribusi normal:

$$
P(x_i | C) = \frac{1}{\sqrt{2\pi\sigma^2}} e^{-\frac{(x_i - \mu)^2}{2\sigma^2}}
$$

Di mana:
- $ \mu $ adalah rata-rata (mean) fitur dalam kelas tertentu.
- $ \sigma^2 $ adalah varians fitur dalam kelas tersebut.

Contoh: Jika kita ingin mengklasifikasikan apakah seseorang tinggi atau pendek berdasarkan tinggi badan, kita bisa menggunakan Gaussian Naïve Bayes.

### **b) Multinomial Naive Bayes**

- Cocok untuk data **diskrit** seperti **teks** (jumlah kata dalam dokumen).  
- Menghitung probabilitas suatu kata muncul dalam dokumen yang termasuk dalam kelas tertentu.

Formula probabilitasnya adalah:

$$
P(x_i | C) = \frac{count(x_i, C) + 1}{\sum_{j} count(x_j, C) + V}
$$

Di mana:
- $ count(x_i, C) $ = Jumlah kemunculan kata $ x_i $ dalam kelas $ C $.
- $ V $ = Jumlah total kata unik dalam seluruh dokumen.

Contoh: Digunakan dalam **klasifikasi email spam**, di mana kata-kata tertentu lebih sering muncul dalam email spam dibandingkan email biasa.


### **c) Bernoulli Naive Bayes**

- Digunakan untuk **data biner** (ya/tidak, ada/tidak).  
- Menghitung probabilitas suatu fitur muncul dalam suatu kelas berdasarkan kejadian biner.

Formula probabilitasnya:

$$
P(x_i | C) = p^{x_i} (1 - p)^{1 - x_i}
$$

Di mana:
- $ p $ adalah probabilitas kata $ x_i $ muncul dalam kelas $ C $.
- $ x_i $ bernilai **1** jika kata ada, dan **0** jika kata tidak ada.

Contoh: Digunakan dalam **filter email spam** berdasarkan ada/tidaknya kata-kata tertentu dalam email.


## ***Perbandingan Perhitungan Data Naive Bayes***

Perbandingan ini dilakukan dengan data iris yang sudah kita kumpulkan pada pertemuan sebelumnya agar lebih mudah mendapatkan data datanya. Pada code paling awal kita akan menghubungkannya terlebih dahulu dengan Database. Selanjutnya adalah perhitungan Naive Bayes yang menggunakan data outliers atau data Kotor. Setelah itu kita bersihkan data dari outliers dengan menggunakan rumus LOF pada materi sebelumnya, dan menghitung data bersih tersebut menggunakan Naive Bayes. untuk yang terakhir adalah memberikan hasil dari masing masing perhitungan. Lalu pengungkapan kesimpulan dari hasil yang sudah didapatkan. 

In [6]:
# Mengimport Library yang digunakan dalam prosesnya
import pymysql
import psycopg2
from sqlalchemy import create_engine
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from scipy import stats
import numpy as np
import base64
import os
from dotenv import load_dotenv
from sklearn.neighbors import LocalOutlierFactor
from sklearn.naive_bayes import GaussianNB
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

In [2]:
# Mengkoneksi database dengan python

# for mysql
timeout = 10
connection = pymysql.connect(
    charset="utf8mb4",
    connect_timeout=timeout,
    cursorclass=pymysql.cursors.DictCursor,
    db="defaultdb",
    host="mysql-726cd75-mysqlpendata-11.h.aivencloud.com",
    password="AVNS_LHA80D-LNsKI6wncjfc",
    read_timeout=timeout,
    port=20734,
    user="avnadmin",
    write_timeout=timeout,
)
mysql_engine = create_engine("mysql+pymysql://avnadmin:AVNS_LHA80D-LNsKI6wncjfc@mysql-726cd75-mysqlpendata-11.h.aivencloud.com:20734/defaultdb")



# for postgre
def main():
    conn = psycopg2.connect('postgres://avnadmin:AVNS__Y6I8K0T7rSnwnRgE1U@pg-3266d3cf-postgresqlpendata-11.h.aivencloud.com:20817/defaultdb?sslmode=require')

    query_sql = 'SELECT VERSION()'

    cur = conn.cursor()
    cur.execute(query_sql)

    version = cur.fetchone()[0]
    print(version)

if __name__ == "__main__":
    main()
postgres_engine = create_engine("postgresql+psycopg2://avnadmin:AVNS__Y6I8K0T7rSnwnRgE1U@pg-3266d3cf-postgresqlpendata-11.h.aivencloud.com:20817/defaultdb")

# Ambil data dari MySQL
mysql_query = "SELECT * FROM iris_data"
mysql_df = pd.read_sql(mysql_query, mysql_engine)

# Ambil data dari PostgreSQL
pg_query = 'SELECT * FROM postgre'
pg_df = pd.read_sql(pg_query, postgres_engine)

merge_df = pd.merge(mysql_df, pg_df, left_on="id", right_on='id', how='outer')

# Menampilkan data yang diambil database dan ditampilkan dalam bentuk tabel
selected_columns = ["id", "class", "petal_length", "petal_width", "sepal length", "sepal width"]  
filtered_df = merge_df[selected_columns]

print()
print("Berikut ini adalah tampilan data yang diambil dari database :")
print()
print(filtered_df)




PostgreSQL 16.8 on x86_64-pc-linux-gnu, compiled by gcc (GCC) 14.2.1 20240912 (Red Hat 14.2.1-3), 64-bit

Berikut ini adalah tampilan data yang diambil dari database :

      id           class  petal_length  petal_width  sepal length  sepal width
0      1     Iris-setosa          86.4         70.0          20.1         30.5
1      2     Iris-setosa           1.4          0.2           4.9          3.0
2      3     Iris-setosa           1.3          0.2           4.7          3.2
3      4     Iris-setosa           1.5          0.2           4.6          3.1
4      5     Iris-setosa           1.4          0.2           5.0          3.6
..   ...             ...           ...          ...           ...          ...
145  146  Iris-virginica           5.2          2.3           6.7          3.0
146  147  Iris-virginica           5.0          1.9           6.3          2.5
147  148  Iris-virginica           5.2          2.0           6.5          3.0
148  149  Iris-virginica           5.4   

### *Membandingkan Data dengan Outliers*

In [3]:
data = pd.DataFrame({
    'id': range(1, 151),
    'class': ['Iris-setosa'] * 50 + ['Iris-versicolor'] * 50 + ['Iris-virginica'] * 50,
    'petal_length': filtered_df['petal_length'],
    'petal_width': filtered_df['petal_width'],
    'sepal length': filtered_df['sepal length'],
    'sepal width': filtered_df['sepal width']
})

# === 2. Data Preprocessing ===
data = data.drop(columns=['id'])  # Hapus kolom ID karena tidak diperlukan
X = data.drop(columns=['class'])  # Fitur (features)
y = data['class']  # Label (target)

# === 3. Membagi Data menjadi Training dan Testing (80%-20%) ===
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# === 4. Melatih Model Naïve Bayes ===
model = GaussianNB()
model.fit(X_train, y_train)

# === 5. Prediksi & Evaluasi ===
y_pred = model.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)

print("Akurasi Model Naïve Bayes:", accuracy)


Akurasi Model Naïve Bayes: 1.0


### *Membandingkan Data tanpa Outliers*

1. Proses filtering :

In [4]:

# Hapus kolom non-numerik sebelum menggunakan LOF
data = data.drop(columns=['class'])  

lof_model = LocalOutlierFactor(n_neighbors=3, metric='euclidean')

lof_labels = lof_model.fit_predict(data)  # -1 = outlier, 1 = inlier
lof_values = -lof_model.negative_outlier_factor_

for i in range(len(data)):
    print(f"Indeks-{i} → LOF: {lof_values[i]:.4f}, Label: {'Outlier' if lof_labels[i] == -1 else 'Inlier'}")

filtered_data = data[lof_labels == 1]  # Hanya simpan data yang bukan outlier

print("\nJumlah Data Sebelum:", len(data))
print("Jumlah Data Setelah Menghapus Outliers:", len(filtered_data))


Indeks-0 → LOF: 135.5942, Label: Outlier
Indeks-1 → LOF: 1.0776, Label: Inlier
Indeks-2 → LOF: 1.0697, Label: Inlier
Indeks-3 → LOF: 1.0050, Label: Inlier
Indeks-4 → LOF: 1.0453, Label: Inlier
Indeks-5 → LOF: 1.2883, Label: Inlier
Indeks-6 → LOF: 1.0516, Label: Inlier
Indeks-7 → LOF: 0.9114, Label: Inlier
Indeks-8 → LOF: 1.0996, Label: Inlier
Indeks-9 → LOF: 0.9596, Label: Inlier
Indeks-10 → LOF: 1.2623, Label: Inlier
Indeks-11 → LOF: 1.0550, Label: Inlier
Indeks-12 → LOF: 0.9596, Label: Inlier
Indeks-13 → LOF: 1.0592, Label: Inlier
Indeks-14 → LOF: 1.1404, Label: Inlier
Indeks-15 → LOF: 1.1932, Label: Inlier
Indeks-16 → LOF: 1.1637, Label: Inlier
Indeks-17 → LOF: 1.0582, Label: Inlier
Indeks-18 → LOF: 1.3447, Label: Inlier
Indeks-19 → LOF: 0.9854, Label: Inlier
Indeks-20 → LOF: 1.6460, Label: Outlier
Indeks-21 → LOF: 1.0483, Label: Inlier
Indeks-22 → LOF: 2.0784, Label: Outlier
Indeks-23 → LOF: 1.2242, Label: Inlier
Indeks-24 → LOF: 1.4252, Label: Inlier
Indeks-25 → LOF: 1.1547, Label

2. Hasil Naive Bayes : 

In [5]:
import pandas as pd
import numpy as np
from sklearn.naive_bayes import GaussianNB
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

filtered_data = filtered_data.copy()  # Hindari efek samping pada DataFrame asli

filtered_data['class'] = y[lof_labels == 1].values  # Ambil label dari data asli yang bukan outlier

filtered_data = filtered_data.reset_index(drop=True)

X = filtered_data.drop(columns=['class'])  # Hanya fitur
y = filtered_data['class']  # Label

if len(X) < 5:  # Jika data terlalu sedikit setelah filtering, tampilkan peringatan
    raise ValueError("Data terlalu sedikit setelah menghapus outliers. Coba tingkatkan nilai `n_neighbors` pada LOF.")

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

model = GaussianNB()
model.fit(X_train, y_train)

# === 5. Prediksi & Evaluasi ===
y_pred = model.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)

print("Akurasi Model Naïve Bayes setelah menghapus outliers:", accuracy)


Akurasi Model Naïve Bayes setelah menghapus outliers: 0.9642857142857143


### *Hasil Perhitungan Contoh*

1. **Dengan Outliers (Akurasi = 1.0)**  
   - Model sempurna dalam memprediksi data uji.  
   - Kemungkinan besar outlier membuat model terlalu terbiasa (overfitting) dengan data latih.  
   - Bisa jadi model hanya "menghafal" pola yang ada tanpa benar-benar memahami hubungan antar fitur.  
   - Model ini seperti anak yang selalu benar di ujian, tapi ternyata dia menghafal soal ujian, bukan benar-benar memahami materi. Mungkin saja model hanya cocok dengan data ini, tapi kalau dikasih data baru, bisa gagal total.

2. **Tanpa Outliers (Akurasi = 0.9643 ≈ 96.4%)**  
   - Sedikit penurunan akurasi, tetapi ini lebih realistis untuk data di dunia nyata.  
   - Model menjadi lebih generalisasi, artinya lebih baik dalam memprediksi data baru yang belum pernah dilihat sebelumnya.  
   - Menghapus outlier membantu mencegah overfitting dan membuat model lebih stabil.  
   - Artinya, model sudah belajar dengan baik, bukan sekadar menghafal.
   - Model ini sedikit lebih rendah skornya, tapi ini lebih realistis.


### ***Kesimpulan***

Menurut data yang saya punya, menghapus outlier memang menurunkan sedikit akurasi, tapi ini lebih baik untuk dunia nyata.
Karena model tidak hanya cocok untuk data lama, tapi juga bisa bekerja dengan data baru dengan baik. Akan tetapi Jika model digunakan untuk mendeteksi anomali, maka mempertahankan outlier bisa bermanfaat.

Ibaratnya:
- Dengan outlier → Seperti belajar dengan kunci jawaban, hasilnya sempurna tapi tidak belajar sungguhan.
- Tanpa outlier → Seperti belajar konsep dengan baik, jadi kalau ada soal baru, tetap bisa mengerjakan.