# **Naive Bayes**

Naïve Bayes adalah algoritma klasifikasi berbasis Teorema Bayes dengan asumsi bahwa setiap fitur dalam dataset bersifat independen satu sama lain. Algoritma ini sering digunakan dalam klasifikasi teks, deteksi spam, dan prediksi penyakit karena sederhana namun sangat efektif.

# **Teorema Bayes**

Naïve Bayes didasarkan pada Teorema Bayes, yang dirumuskan sebagai berikut:

  $
    P(A \mid B) = \frac{P(B \mid A) \cdot P(A)}{P(B)}
  $

Dimana :

- 𝑃(𝐴∣𝐵) = Probabilitas kejadian A terjadi jika B telah terjadi (probabilitas posterior).

- 𝑃(𝐵∣𝐴) = Probabilitas B terjadi jika A benar (likelihood).

- 𝑃(𝐴) = Probabilitas kejadian A terjadi (prior).

- 𝑃(𝐵) = Probabilitas B terjadi (evidence).

# **Naive Bayes dalam Klasifikasi**

Naïve Bayes mengasumsikan bahwa setiap fitur bersifat independen, sehingga rumus likelihood bisa ditulis sebagai:

𝑃(𝑋∣𝐶)=𝑃(𝑥1∣𝐶)⋅𝑃(𝑥2∣𝐶)⋅𝑃(𝑥3∣𝐶)⋅...⋅𝑃(𝑥𝑛∣𝐶)

Untuk menghitung probabilitas 𝑃(𝑥𝑖∣𝐶), jika fitur bersifat numerik, kita menggunakan distribusi Gaussian (Normal Distribution):

$
  P(x_i \mid C) = \frac{1}{\sqrt{2\pi \sigma^2}} \exp\left( \frac{-(x_i - \mu)^2}{2\sigma^2} \right)
$


Di mana:

𝜇 = Rata-rata fitur dalam kelas tersebut.

𝜎 = Standar deviasi fitur dalam kelas tersebut.

Setelah menghitung probabilitas setiap kelas, kita pilih kelas dengan nilai probabilitas terbesar sebagai hasil klasifikasi.

# **Contoh Perhitungan Manual Naïve Bayes**

Misalkan kita memiliki dataset berikut:

| Panjang Kelopak | Lebar Kelopak | Kelas |
|-----------------|--------------|-------|
| 1.4            | 0.2          | A     |
| 1.3            | 0.2          | A     |
| 1.5            | 0.3          | A     |
| 4.5            | 1.5          | B     |
| 4.1            | 1.3          | B     |
| 4.6            | 1.6          | B     |

## **Langkah 1: Hitung Prior Probability**

$
P(A) = \frac{3}{6} = 0.5, \quad P(B) = \frac{3}{6} = 0.5
$

## **Langkah 2: Hitung Mean (𝜇) dan Standard Deviation (𝜎) untuk Setiap Fitur**

Untuk kelas A:
- 𝜇panjang kelopak =
$
\frac{1.4 + 1.3 + 1.5}{3} = 1.4
$

- σ panjang kelopak =
$
 \sqrt{ \frac{(1.4 - 1.4)^2 + (1.3 - 1.4)^2 + (1.5 - 1.4)^2}{3} }
$

Untuk kelas B:

- 𝜇 panjang kelopak =
$
\frac{4.5 + 4.1 + 4.6}{3} = 4.4
$

- σ panjang kelopak =
$
\sqrt{ \frac{(4.5 - 4.4)^2 + (4.1 - 4.4)^2 + (4.6 - 4.4)^2}{3} }
$

Untuk lebar kelopak dilakukan hal yang sama

## **Langkah 3: Hitung Likelihood**

Misalkan kita ingin memprediksi kelas untuk data baru (Panjang Kelopak = 1.35, Lebar Kelopak = 0.25), kita masukkan nilai ini ke dalam rumus Gaussian.

$
P(\text{panjang kelopak}=1.35 \mid A) = \frac{1}{\sqrt{2 \pi \sigma^2}} \exp\left( -\frac{(1.35 - 1.4)^2}{2 \sigma^2} \right)
$

Hal yang sama dilakukan pada kelas B, lalu hitung probabilitas akhir dan pilih kelas dengan probabilitas terbesar.

Naive Bayes sangat cepat dan efektif untuk klasifikasi jika fitur benar-benar independen. Namun, jika fitur saling berkorelasi, model ini bisa kurang akurat.

# **Langkah-langkah Klasifikasi**



## **1. Persiapan Data**

Menggabungkan 2 data SQL yakni MySQL dan PostgreSQL

In [3]:
!pip install pymysql

Collecting pymysql
  Downloading PyMySQL-1.1.1-py3-none-any.whl.metadata (4.4 kB)
Downloading PyMySQL-1.1.1-py3-none-any.whl (44 kB)
[?25l   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/45.0 kB[0m [31m?[0m eta [36m-:--:--[0m[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m45.0/45.0 kB[0m [31m1.6 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: pymysql
Successfully installed pymysql-1.1.1


In [4]:
!pip install psycopg2-binary

Collecting psycopg2-binary
  Downloading psycopg2_binary-2.9.10-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (4.9 kB)
Downloading psycopg2_binary-2.9.10-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (3.0 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m3.0/3.0 MB[0m [31m37.3 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: psycopg2-binary
Successfully installed psycopg2-binary-2.9.10


In [15]:
import pymysql
import psycopg2
import pandas as pd
from tabulate import tabulate

# Konfigurasi koneksi ke database Aiven MySQL
mysql_config = {
    "host": "mysql23-112-irismysql23-112.h.aivencloud.com",
    "user": "avnadmin",
    "password": "AVNS_cTNd4CUt1kk0Z7MPIC1",
    "database": "defaultdb",
    "port": 15786
}

# Konfigurasi koneksi ke database Aiven PostgreSQL
postgres_config = {
    "host": "postgre23-112-postgresql23-112.h.aivencloud.com",
    "database": "defaultdb",
    "user": "avnadmin",
    "password": "AVNS_Ellqk9Jx9uICNV-C29t",
    "port": 15184
}

# Fungsi untuk mengambil data dari MySQL (hanya petal length & petal width)
def fetch_mysql_data():
    try:
        conn = pymysql.connect(**mysql_config)
        cursor = conn.cursor()
        query = 'SELECT id, class, `petal length`, `petal width` FROM mysqliris.flowers;'
        cursor.execute(query)
        data = cursor.fetchall()
        columns = [desc[0] for desc in cursor.description]  # Ambil nama kolom
        cursor.close()
        conn.close()
        df = pd.DataFrame(data, columns=columns)

        # Ubah nama kolom agar seragam
        df = df.rename(columns={"petal length": "petal_length", "petal width": "petal_width"})

        return df
    except pymysql.err.OperationalError as e:
        print(f"Error connecting to MySQL: {e}")
        return pd.DataFrame()

# Fungsi untuk mengambil data dari PostgreSQL (hanya sepal length & sepal width)
def fetch_postgres_data():
    try:
        conn = psycopg2.connect(**postgres_config)
        cursor = conn.cursor()
        query = 'SELECT id, "Class", "sepal length", "sepal width" FROM postgresqliris.postgresql ORDER by id ASC;'
        cursor.execute(query)
        data = cursor.fetchall()
        columns = [desc[0] for desc in cursor.description]  # Ambil nama kolom
        cursor.close()
        conn.close()
        df = pd.DataFrame(data, columns=columns)

        # Ubah nama kolom agar seragam
        df = df.rename(columns={"Class": "class", "sepal length": "sepal_length", "sepal width": "sepal_width"})

        return df
    except psycopg2.OperationalError as e:
        print(f"Error connecting to PostgreSQL: {e}")
        return pd.DataFrame()

# Ambil data dari kedua database
mysql_df = fetch_mysql_data()
postgres_df = fetch_postgres_data()

# Gabungkan data berdasarkan id dan class
combined_df = pd.merge(postgres_df, mysql_df, on=["id", "class"], how="inner")
# combined_df = combined_df.apply(pd.to_numeric, errors='coerce')  # Mengubah semua kolom ke float
# Tampilkan hasil
print("\nData Gabungan dari MySQL dan PostgreSQL:")
print(tabulate(combined_df, headers='keys', tablefmt='grid'))
# print(combined_df)


Data Gabungan dari MySQL dan PostgreSQL:
+-----+------+-----------------+----------------+---------------+----------------+---------------+
|     |   id | class           |   sepal_length |   sepal_width |   petal_length |   petal_width |
|   0 |    1 | Iris-setosa     |           20.1 |          30.5 |           86.4 |          70   |
+-----+------+-----------------+----------------+---------------+----------------+---------------+
|   1 |    2 | Iris-setosa     |            4.9 |           3   |            1.4 |           0.2 |
+-----+------+-----------------+----------------+---------------+----------------+---------------+
|   2 |    3 | Iris-setosa     |            4.7 |           3.2 |            1.3 |           0.2 |
+-----+------+-----------------+----------------+---------------+----------------+---------------+
|   3 |    4 | Iris-setosa     |            4.6 |           3.1 |            1.5 |           0.2 |
+-----+------+-----------------+----------------+---------------+--

## **Melakukan Perhitungan Sebelum Membuang Outlier**



In [16]:
import pymysql
import psycopg2
import pandas as pd
import numpy as np
from tabulate import tabulate
from sklearn.naive_bayes import GaussianNB

# Konfigurasi koneksi ke database MySQL dan PostgreSQL
mysql_config = {
    "host": "mysql23-112-irismysql23-112.h.aivencloud.com",
    "user": "avnadmin",
    "password": "AVNS_cTNd4CUt1kk0Z7MPIC1",
    "database": "defaultdb",
    "port": 15786
}

postgres_config = {
    "host": "postgre23-112-postgresql23-112.h.aivencloud.com",
    "database": "defaultdb",
    "user": "avnadmin",
    "password": "AVNS_Ellqk9Jx9uICNV-C29t",
    "port": 15184
}

# Fungsi untuk mengambil data dari MySQL
def fetch_mysql_data():
    try:
        conn = pymysql.connect(**mysql_config)
        cursor = conn.cursor()
        query = 'SELECT id, class, `petal length`, `petal width` FROM mysqliris.flowers;'
        cursor.execute(query)
        data = cursor.fetchall()
        columns = [desc[0] for desc in cursor.description]
        cursor.close()
        conn.close()
        df = pd.DataFrame(data, columns=columns)
        df = df.rename(columns={"petal length": "petal_length", "petal width": "petal_width"})
        return df
    except pymysql.err.OperationalError as e:
        print(f"Error connecting to MySQL: {e}")
        return pd.DataFrame()

# Fungsi untuk mengambil data dari PostgreSQL
def fetch_postgres_data():
    try:
        conn = psycopg2.connect(**postgres_config)
        cursor = conn.cursor()
        query = 'SELECT id, "Class", "sepal length", "sepal width" FROM postgresqliris.postgresql ORDER BY id ASC;'
        cursor.execute(query)
        data = cursor.fetchall()
        columns = [desc[0] for desc in cursor.description]
        cursor.close()
        conn.close()
        df = pd.DataFrame(data, columns=columns)
        df = df.rename(columns={"Class": "class", "sepal length": "sepal_length", "sepal width": "sepal_width"})
        return df
    except psycopg2.OperationalError as e:
        print(f"Error connecting to PostgreSQL: {e}")
        return pd.DataFrame()

# Ambil data dari MySQL dan PostgreSQL
mysql_df = fetch_mysql_data()
postgres_df = fetch_postgres_data()

# Gabungkan data berdasarkan 'id' dan 'class'
combined_df = pd.merge(postgres_df, mysql_df, on=["id", "class"], how="inner")

# Pastikan semua kolom numerik
feature_columns = ['petal_length', 'petal_width', 'sepal_length', 'sepal_width']
combined_df[feature_columns] = combined_df[feature_columns].apply(pd.to_numeric, errors='coerce')

# Pisahkan fitur (X) dan target (y)
X = combined_df[feature_columns]
y = combined_df['class']

# Inisialisasi model Naive Bayes (Gaussian Naive Bayes)
model = GaussianNB()

# Latih model dengan seluruh data
model.fit(X, y)

# **1. HITUNG PRIOR PROBABILITY**
prior = model.class_prior_
prior_table = [[model.classes_[i], prior[i]] for i in range(len(prior))]
print("\nPrior Probabilities:")
print(tabulate(prior_table, headers=["Class", "Prior Probability"], tablefmt="grid"))

# **2. HITUNG LIKELIHOOD (DISTRIBUSI GAUSSIAN)**
means = model.theta_  # Mean dari distribusi Gaussian
variances = model.var_  # Varians dari distribusi Gaussian

likelihood_data = []
for i, class_value in enumerate(model.classes_):
    for j, feature in enumerate(feature_columns):
        likelihood_data.append([class_value, feature, means[i][j], np.sqrt(variances[i][j])])

print("\nLikelihood (Distribusi Gaussian untuk setiap fitur dan kelas):")
print(tabulate(likelihood_data, headers=["Class", "Feature", "Mean", "Std Dev"], tablefmt="grid"))

# **3. HITUNG POSTERIOR PROBABILITY (MENGGUNAKAN TEOREMA BAYES)**
posterior_probs = model.predict_proba(X)
posterior_df = pd.DataFrame(posterior_probs, columns=[f"Posterior ({cls})" for cls in model.classes_])
posterior_df.insert(0, "Class", y.values)

print("\nPosterior Probabilities (Hasil Teorema Bayes untuk seluruh data):")
print(tabulate(posterior_df, headers='keys', tablefmt='grid'))



Prior Probabilities:
+-----------------+---------------------+
| Class           |   Prior Probability |
| Iris-setosa     |            0.333333 |
+-----------------+---------------------+
| Iris-versicolor |            0.333333 |
+-----------------+---------------------+
| Iris-virginica  |            0.333333 |
+-----------------+---------------------+

Likelihood (Distribusi Gaussian untuk setiap fitur dan kelas):
+-----------------+--------------+--------+-----------+
| Class           | Feature      |   Mean |   Std Dev |
| Iris-setosa     | petal_length |  3.164 | 11.8921   |
+-----------------+--------------+--------+-----------+
| Iris-setosa     | petal_width  |  1.64  |  9.76629  |
+-----------------+--------------+--------+-----------+
| Iris-setosa     | sepal_length |  5.306 |  2.142    |
+-----------------+--------------+--------+-----------+
| Iris-setosa     | sepal_width  |  3.958 |  3.81041  |
+-----------------+--------------+--------+-----------+
| Iris-versicolor 

#### **Alasan mengapa ID 1 mungkin terlihat berbeda atau dihilangkan:**

Perhitungan Likelihood: Jika fitur-fitur pada ID 1 sangat jauh dari rata-rata (mean) dan standar deviasi fitur lainnya, nilai likelihood untuk ID 1 bisa sangat kecil atau 0, yang bisa menyebabkan ID 1 memiliki probabilitas yang sangat rendah dalam perhitungan posterior. Namun, hal ini tidak berarti ID 1 dihapus, hanya saja kemungkinannya menjadi sangat kecil.

### **Penjelasan**

#### 1️⃣ Prior Probability
Prior Probability adalah probabilitas awal dari masing-masing kelas sebelum melihat fitur.

$
P(\text{Setosa}) = \frac{\text{Jumlah sampel dalam kelas Setosa}}{\text{Total jumlah sampel}}
$

ada 150 data dengan distribusi kelas:
- Setosa → 50 data

- Versicolor → 50 data

- Virginica → 50 data

Maka:

$
P(\text{Setosa}) = \frac{50}{150} = 0.333
$

$
P(\text{Versicolor}) = \frac{50}{150} = 0.333
$

$
P(\text{Virginica}) = \frac{50}{150} = 0.333
$


Jadi, prior probability untuk masing-masing kelas adalah 0.333 atau 33.3%.


#### 2️⃣ Likelihood (Distribusi Gaussian)
Likelihood adalah probabilitas mendapatkan nilai fitur tertentu dengan asumsi data berdistribusi normal (Gaussian).

Dihitung dengan fungsi distribusi normal (Gaussian/Normal Distribution):

$
  P(x_i \mid C) = \frac{1}{\sqrt{2\pi \sigma^2}} \exp\left( \frac{-(x_i - \mu)^2}{2\sigma^2} \right)
$

- 𝑋 = Nilai fitur

- 𝜇 = Mean fitur dalam kelas C

- $ \sigma^2 $  = Varians fitur dalam kelas C

### **Melakukan Perhitungan Setelah Membuang Outlier**

In [17]:
import numpy as np
import pandas as pd
from scipy.stats import zscore
from tabulate import tabulate

# Fungsi untuk mendeteksi dan menghilangkan outlier menggunakan Z-score
def remove_outliers_zscore(df, threshold=3):
    # Menghitung Z-score untuk setiap kolom numerik
    z_scores = np.abs(zscore(df.select_dtypes(include=[np.number])))  # Hanya pilih kolom numerik
    # Menyaring baris yang Z-score lebih besar dari threshold
    df_no_outliers = df[(z_scores < threshold).all(axis=1)]
    return df_no_outliers

# Ambil data dari kedua database
mysql_df = fetch_mysql_data()
postgres_df = fetch_postgres_data()

# Gabungkan data berdasarkan id dan class
combined_df = pd.merge(postgres_df, mysql_df, on=["id", "class"], how="inner")

# Hilangkan outlier menggunakan Z-score
combined_df_no_outliers = remove_outliers_zscore(combined_df, threshold=3)

# Tampilkan data setelah menghilangkan outlier
print("\nData Setelah Menghilangkan Outlier:")
print(tabulate(combined_df_no_outliers, headers='keys', tablefmt='grid', showindex=False))



Data Setelah Menghilangkan Outlier:
+------+-----------------+----------------+---------------+----------------+---------------+
|   id | class           |   sepal_length |   sepal_width |   petal_length |   petal_width |
|    2 | Iris-setosa     |            4.9 |           3   |            1.4 |           0.2 |
+------+-----------------+----------------+---------------+----------------+---------------+
|    3 | Iris-setosa     |            4.7 |           3.2 |            1.3 |           0.2 |
+------+-----------------+----------------+---------------+----------------+---------------+
|    4 | Iris-setosa     |            4.6 |           3.1 |            1.5 |           0.2 |
+------+-----------------+----------------+---------------+----------------+---------------+
|    5 | Iris-setosa     |            5   |           3.6 |            1.4 |           0.2 |
+------+-----------------+----------------+---------------+----------------+---------------+
|    6 | Iris-setosa     |       

In [19]:
import numpy as np
import pandas as pd
from scipy.stats import zscore
from tabulate import tabulate
from sklearn.naive_bayes import GaussianNB
from sklearn.preprocessing import LabelEncoder

# Fungsi untuk mendeteksi dan menghilangkan outlier menggunakan Z-score
def remove_outliers_zscore(df, threshold=3):
    z_scores = np.abs(zscore(df.select_dtypes(include=[np.number])))  # Hanya pilih kolom numerik
    df_no_outliers = df[(z_scores < threshold).all(axis=1)]
    return df_no_outliers

# Ambil data dari kedua database
mysql_df = fetch_mysql_data()
postgres_df = fetch_postgres_data()

# Gabungkan data berdasarkan id dan class
combined_df = pd.merge(postgres_df, mysql_df, on=["id", "class"], how="inner")

# Hilangkan outlier menggunakan Z-score
combined_df_no_outliers = remove_outliers_zscore(combined_df, threshold=3)

# Tentukan fitur dan label
feature_columns = ['sepal_length', 'sepal_width', 'petal_length', 'petal_width']
X = combined_df_no_outliers[feature_columns]
y = combined_df_no_outliers['class']

# Encode kelas menjadi angka untuk Naive Bayes
label_encoder = LabelEncoder()
y_encoded = label_encoder.fit_transform(y)

# Inisialisasi dan latih model Naive Bayes
nb_model = GaussianNB()
nb_model.fit(X, y_encoded)

# Hitung Prior Probability
prior_probabilities = nb_model.class_prior_
prior_table = [[label_encoder.inverse_transform([i])[0], prior_probabilities[i]] for i in range(len(prior_probabilities))]
print("\nPrior Probabilities:")
print(tabulate(prior_table, headers=["Class", "Prior Probability"], tablefmt="grid"))

# Hitung Likelihood (Mean & Variance)
means = nb_model.theta_
variances = nb_model.var_

print("\nLikelihood (Mean & Variance for each class and feature):")
likelihood_table = []
for class_index, class_name in enumerate(label_encoder.classes_):
    for feature_index, feature in enumerate(feature_columns):
        likelihood_table.append([class_name, feature, means[class_index, feature_index], variances[class_index, feature_index]])
print(tabulate(likelihood_table, headers=["Class", "Feature", "Mean", "Variance"], tablefmt="grid"))

# Hitung Posterior Probability untuk seluruh data
posterior_probs = nb_model.predict_proba(X)
posterior_df = pd.DataFrame(posterior_probs, columns=label_encoder.classes_)
posterior_df.insert(0, "ID", combined_df_no_outliers["id"].values)

print("\nPosterior Probabilities:")
print(tabulate(posterior_df, headers=posterior_df.columns, tablefmt="grid", showindex=False))


Prior Probabilities:
+-----------------+---------------------+
| Class           |   Prior Probability |
| Iris-setosa     |            0.328859 |
+-----------------+---------------------+
| Iris-versicolor |            0.33557  |
+-----------------+---------------------+
| Iris-virginica  |            0.33557  |
+-----------------+---------------------+

Likelihood (Mean & Variance for each class and feature):
+-----------------+--------------+----------+------------+
| Class           | Feature      |     Mean |   Variance |
| Iris-setosa     | sepal_length | 5.00408  |  0.124065  |
+-----------------+--------------+----------+------------+
| Iris-setosa     | sepal_width  | 3.41633  |  0.14504   |
+-----------------+--------------+----------+------------+
| Iris-setosa     | petal_length | 1.46531  |  0.0300208 |
+-----------------+--------------+----------+------------+
| Iris-setosa     | petal_width  | 0.244898 |  0.0114536 |
+-----------------+--------------+----------+--------

## **Kelebihan dan Kekurangan Naïve Bayes**  

### **🔹 Kelebihan Naïve Bayes**  
1. **Cepat dan Efisien** 🚀  
   - Sangat cepat dibandingkan dengan algoritma lain seperti SVM atau Random Forest.  
   - Bisa digunakan untuk dataset besar tanpa memerlukan banyak sumber daya.  

2. **Cocok untuk Data Teks** 📝  
   - Sangat populer dalam klasifikasi teks seperti **deteksi spam**, **analisis sentimen**, dan **klasifikasi dokumen**.  
   - Digunakan dalam **Google Spam Filter**, **Twitter Sentiment Analysis**, dll.  

3. **Tidak Butuh Banyak Data untuk Training** 📊  
   - Bisa bekerja dengan baik meskipun dataset kecil.  
   - Tidak terlalu rentan terhadap overfitting jika data terdistribusi dengan baik.  

4. **Dapat Mengatasi Data Kategori dan Numerik** 🔢  
   - Bisa digunakan dengan data kategori (menggunakan **Multinomial Naïve Bayes**).  
   - Bisa digunakan dengan data numerik (menggunakan **Gaussian Naïve Bayes**).  

5. **Mudah Diinterpretasi** 👀  
   - Perhitungannya jelas dan bisa dijelaskan secara matematis.  
   - Sangat transparan dalam pengambilan keputusan dibandingkan dengan model kompleks seperti Neural Networks.  

---

### **🔻 Kekurangan Naïve Bayes**  
1. **Asumsi Independensi yang Kuat** ⚠️  
   - Naïve Bayes mengasumsikan bahwa semua fitur **bersifat independen**.  
   - Dalam kenyataannya, fitur sering kali berkorelasi satu sama lain (contohnya dalam data medis, tekanan darah dan denyut jantung biasanya saling berkaitan).  
   - Jika fitur berkorelasi, akurasi model bisa turun.  

2. **Kurang Akurat Jika Data Tidak Sesuai dengan Distribusi yang Diasumsikan** 🎯  
   - Gaussian Naïve Bayes mengasumsikan bahwa data numerik **berdistribusi normal**.  
   - Jika data tidak berdistribusi normal, hasil klasifikasi bisa tidak akurat.  

3. **Tidak Bisa Menangani Data Kosong (Missing Values) Secara Langsung** ❌  
   - Jika ada fitur yang kosong (missing), Naïve Bayes tidak bisa menghitung probabilitasnya.  
   - Harus dilakukan **imputasi data** atau penanganan khusus terlebih dahulu.  

4. **Rentan terhadap Data Imbang (Imbalanced Data)** ⚖️  
   - Jika satu kelas memiliki jumlah data jauh lebih besar daripada kelas lainnya, model cenderung bias terhadap kelas mayoritas.  
   - Perlu dilakukan teknik seperti **oversampling atau undersampling** untuk menangani ini.  

5. **Tidak Bisa Menangani Interaksi Fitur Secara Kompleks** 🔄  
   - Model lain seperti **Random Forest atau Neural Networks** bisa memahami interaksi antara fitur lebih baik daripada Naïve Bayes.  

---

### **Kesimpulan**  
Naïve Bayes sangat baik untuk **klasifikasi cepat dan sederhana**, terutama dalam **klasifikasi teks** dan **deteksi spam**. Namun, jika fitur **saling berkorelasi atau tidak independen**, akurasinya bisa menurun.  

📌 **Gunakan Naïve Bayes jika:**  
✅ Dataset besar dan butuh hasil cepat.  
✅ Data bersifat independen atau hampir independen.  
✅ Masalah klasifikasi teks seperti email spam, analisis sentimen, dll.  

📌 **Hindari Naïve Bayes jika:**  
❌ Fitur dalam dataset sangat bergantung satu sama lain.  
❌ Data memiliki distribusi yang sangat kompleks.  
❌ Masalah klasifikasi membutuhkan pemodelan interaksi fitur yang kompleks.  

Kalau ada pertanyaan lain, langsung tanyakan aja! 🚀