# üìå Penjelasan Na√Øve Bayes & Alasan Langkah-langkahnya  

## üß† Apa itu Na√Øve Bayes?  
Na√Øve Bayes adalah algoritma klasifikasi berbasis **Teorema Bayes**, yang mengasumsikan bahwa setiap fitur dalam dataset **bersifat independen** satu sama lain. Meskipun asumsi ini jarang 100% benar di dunia nyata, Na√Øve Bayes tetap **sangat efektif** dalam banyak kasus seperti **klasifikasi teks, deteksi spam, dan analisis sentimen**.  

## üî• Mengapa Na√Øve Bayes Penting?  

Na√Øve Bayes memiliki beberapa **keunggulan utama**, di antaranya:  

1Ô∏è‚É£ **Cepat dan Efisien** üöÄ  
   - Na√Øve Bayes sangat cepat dalam melakukan training, bahkan pada dataset besar.  
   - Algoritma ini memiliki **kompleksitas rendah**, biasanya hanya **O(n)** di mana \( n \) adalah jumlah data.  

2Ô∏è‚É£ **Bekerja dengan Data Kecil** üîç  
   - Dibandingkan dengan algoritma lain seperti Neural Networks atau SVM, Na√Øve Bayes dapat bekerja dengan baik meskipun data latihnya **terbatas**.  

3Ô∏è‚É£ **Performa Baik dalam Klasifikasi Teks & NLP** üìù  
   - Digunakan luas dalam **deteksi spam, analisis sentimen, dan rekomendasi produk** karena kemampuannya mengelola data kategorikal dan teks.  

4Ô∏è‚É£ **Tidak Mudah Overfitting** üõ°  
   - Karena algoritma ini hanya bergantung pada probabilitas sederhana, Na√Øve Bayes lebih **stabil terhadap overfitting**, terutama dibandingkan dengan model kompleks lainnya.  

5Ô∏è‚É£ **Dapat Menangani Banyak Fitur** üèó  
   - Meskipun fitur dalam dataset dianggap independen (asumsi naive), algoritma tetap bisa bekerja **baik dalam praktik** meskipun fitur-fitur memiliki sedikit korelasi.  

### üî¢ Rumus dasar **Teorema Bayes**:  

$$
P(A|B) = \frac{P(B|A) \cdot P(A)}{P(B)}
$$

Di mana:  
- \( P(A|B) \) = Probabilitas kejadian **A terjadi** jika **B sudah terjadi**  
- \( P(B|A) \) = Probabilitas **B terjadi** jika **A terjadi**  
- \( P(A) \) = Probabilitas awal **A**  
- \( P(B) \) = Probabilitas awal **B**  



---



## üîÑ Langkah-langkah Ini Diperlukan  

### 1Ô∏è‚É£ Mengambil Data dari MySQL & PostgreSQL  
- Data yang kita pakai kali ini berasal dari database MySQL dan PostgreSQL
- Mengambil data dari kedua database ini memastikan kita memiliki dataset yang lengkap dan lebih representatif.  

In [80]:
!pip install pymysql
!pip install psycopg2
!pip install tabulate



In [81]:
import pymysql
import pandas as pd

# Koneksi ke MySQL
mysql_conn = pymysql.connect(
    host="mysql-34425cbd-irismysqlaldi.h.aivencloud.com",
    port=22476,
    user="avnadmin",
    password="AVNS_QsQ7Yf7zzcmrk83yFgg",
    db="irismysqlaldi",
    charset="utf8mb4",
    cursorclass=pymysql.cursors.DictCursor
)

# Ambil data dari MySQL
with mysql_conn.cursor() as mysql_cur:
    mysql_cur.execute("SELECT id, class, `petal length`, `petal width` FROM flowers")
    mysql_data = mysql_cur.fetchall()
mysql_df = pd.DataFrame(mysql_data)
print("Data dari MySQL:")
print(mysql_df.head())

mysql_conn.close()


Data dari MySQL:
   id        class  petal length  petal width
0   1  Iris-setosa          86.4         70.0
1   2  Iris-setosa           1.4          0.2
2   3  Iris-setosa           1.3          0.2
3   4  Iris-setosa           1.5          0.2
4   5  Iris-setosa           1.4          0.2


In [82]:
import psycopg2
import pandas as pd

# Koneksi ke PostgreSQL
pg_conn = psycopg2.connect(
    "postgres://avnadmin:AVNS_0S2t3zth51a__4WQCdz@pg-2c20c354-pendataku.h.aivencloud.com:26053/defaultdb?sslmode=require"
)
pg_cur = pg_conn.cursor()

# Ambil data dari PostgreSQL
pg_cur.execute("SELECT id, class, sepal_length, sepal_width FROM flowers")
pg_data = pg_cur.fetchall()
pg_columns = [desc[0] for desc in pg_cur.description]
pg_df = pd.DataFrame(pg_data, columns=pg_columns)
print("Data dari PostgreSQL:")
print(pg_df.head())

pg_cur.close()
pg_conn.close()

Data dari PostgreSQL:
   id        class  sepal_length  sepal_width
0   1  Iris-setosa          20.1         30.5
1   2  Iris-setosa           4.9          3.0
2   3  Iris-setosa           4.7          3.2
3   4  Iris-setosa           4.6          3.1
4   5  Iris-setosa           5.0          3.6


### 2Ô∏è‚É£ Menggabungkan Data  
- Karena kita mengambil dari dua sumber berbeda, kita perlu **menggabungkannya** untuk membentuk dataset yang siap diproses.  
- Teknik yang digunakan**join berdasarkan ID**.  
berikut code untuk penggabungan data

In [83]:
# Join data berdasarkan 'id' dan 'class'
data_asli = pd.merge(mysql_df, pg_df, on=['id', 'class'], how='inner')

# Tentukan panjang maksimum tiap kolom agar tidak geser
col_widths = {
  "id": max(data_asli["id"].astype(str).apply(len).max(), 3),
  "class": max(data_asli["class"].astype(str).apply(len).max(), 6),
  "petal length": 13,
  "petal width": 12,
  "sepal_length": 13,
  "sepal_width": 12,
}

# Header tabel
header = f"| {'ID':<{col_widths['id']}} | {'Class':<{col_widths['class']}} | {'Petal Length':<{col_widths['petal length']}} | {'Petal Width':<{col_widths['petal width']}} | {'Sepal Length':<{col_widths['sepal_length']}} | {'Sepal Width':<{col_widths['sepal_width']}} |"
separator = "+" + "+".join(["-" * (col_widths[col] + 2) for col in col_widths]) + "+"

print(separator)
print(header)
print(separator)

# Isi tabel
for _, row in data_asli.iterrows():
  print(f"| {str(row['id']):<{col_widths['id']}} | {str(row['class']):<{col_widths['class']}} | {str(row['petal length']):<{col_widths['petal length']}} | {str(row['petal width']):<{col_widths['petal width']}} | {str(row['sepal_length']):<{col_widths['sepal_length']}} | {str(row['sepal_width']):<{col_widths['sepal_width']}} |")

print(separator)

+-----+-----------------+---------------+--------------+---------------+--------------+
| ID  | Class           | Petal Length  | Petal Width  | Sepal Length  | Sepal Width  |
+-----+-----------------+---------------+--------------+---------------+--------------+
| 1   | Iris-setosa     | 86.4          | 70.0         | 20.1          | 30.5         |
| 2   | Iris-setosa     | 1.4           | 0.2          | 4.9           | 3.0          |
| 3   | Iris-setosa     | 1.3           | 0.2          | 4.7           | 3.2          |
| 4   | Iris-setosa     | 1.5           | 0.2          | 4.6           | 3.1          |
| 5   | Iris-setosa     | 1.4           | 0.2          | 5.0           | 3.6          |
| 6   | Iris-setosa     | 1.7           | 0.4          | 5.4           | 3.9          |
| 7   | Iris-setosa     | 1.4           | 0.3          | 4.6           | 3.4          |
| 8   | Iris-setosa     | 1.5           | 0.2          | 5.0           | 3.4          |
| 9   | Iris-setosa     | 1.4   

### 3Ô∏è‚É£ Mencari dan menghapus Outlier üîç
- **Outlier** adalah nilai ekstrem yang bisa mengganggu proses klasifikasi, terutama dalam model probabilistik seperti **Na√Øve Bayes**.  
 maka dari itu kita harus mencari outlier dan menghapus outliernya

In [85]:
from sklearn.neighbors import LocalOutlierFactor
from tabulate import tabulate

# Menggunakan LocalOutlierFactor untuk deteksi outlier
model = LocalOutlierFactor(n_neighbors=20, contamination=0.01)
X = data_asli[['petal length', 'petal width', 'sepal_length', 'sepal_width']]
outliers = model.fit_predict(X)

# Hasil prediksi (-1 untuk outlier, 1 untuk normal)
data_asli['outlier'] = outliers
data_bersih = data_asli[data_asli['outlier'] == 1].drop(columns=['outlier'])

# Reset index setelah menghapus outlier
data_bersih = data_bersih.reset_index(drop=True)

# Menampilkan hasil setelah membersihkan outlier
print(f"Jumlah data setelah membersihkan outlier: {len(data_bersih)}")
print(tabulate(data_bersih, headers='keys', tablefmt='grid'))


Jumlah data setelah membersihkan outlier: 148
+-----+------+-----------------+----------------+---------------+----------------+---------------+
|     |   id | class           |   petal length |   petal width |   sepal_length |   sepal_width |
|   0 |    2 | Iris-setosa     |            1.4 |           0.2 |            4.9 |           3   |
+-----+------+-----------------+----------------+---------------+----------------+---------------+
|   1 |    3 | Iris-setosa     |            1.3 |           0.2 |            4.7 |           3.2 |
+-----+------+-----------------+----------------+---------------+----------------+---------------+
|   2 |    4 | Iris-setosa     |            1.5 |           0.2 |            4.6 |           3.1 |
+-----+------+-----------------+----------------+---------------+----------------+---------------+
|   3 |    5 | Iris-setosa     |            1.4 |           0.2 |            5   |           3.6 |
+-----+------+-----------------+----------------+--------------

# üåü **Langkah-langkah Perhitungan Na√Øve Bayes** üìä

## üìå 1. **Persiapan Dataset** üìÇ
Na√Øve Bayes menghitung probabilitas suatu kelas berdasarkan fitur yang diberikan. Misalnya, kita memiliki dataset bunga iris dengan fitur:
- **Petal Length** (Panjang Kelopak)
- **Petal Width** (Lebar Kelopak)
- **Class** (Jenis bunga: Iris-setosa, Iris-versicolor, Iris-virginica)

Kita akan menghitung probabilitas menggunakan Na√Øve Bayes berdasarkan dataset ini.

---

## üìå 2. **Menghitung Prior Probability \( P(Kelas) \)** üßÆ
Prior probability adalah probabilitas awal dari setiap kelas sebelum mempertimbangkan fitur.

$$
P(\text{Iris-setosa}) = \frac{\text{Jumlah Iris-setosa}}{\text{Total Data}}
$$

$$
P(\text{Iris-versicolor}) = \frac{\text{Jumlah Iris-versicolor}}{\text{Total Data}}
$$

$$
P(\text{Iris-virginica}) = \frac{\text{Jumlah Iris-virginica}}{\text{Total Data}}
$$

---

## üìå 3. **Menghitung Likelihood \( P(Fitur | Kelas) \)** üìä
Untuk setiap fitur (misalnya petal length), kita menghitung distribusi probabilitas dalam masing-masing kelas dengan distribusi normal:

$$
P(X | Kelas) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp \left( -\frac{(X - \mu)^2}{2\sigma^2} \right)
$$

Di mana:
- \( \mu \) adalah **mean** dari fitur dalam kelas tertentu
- \( \sigma^2 \) adalah **variance** dari fitur dalam kelas tertentu
- \( X \) adalah nilai fitur yang diamati

Contoh perhitungan untuk **Petal Length** dalam kelas **Iris-setosa**:

$$
\mu_{\text{setosa}} = \frac{\sum \text{Petal Length Setosa}}{\text{Jumlah Setosa}}
$$

$$
\sigma^2_{\text{setosa}} = \frac{\sum (X - \mu_{\text{setosa}})^2}{\text{Jumlah Setosa}}
$$

---

## üìå 4. **Menghitung Posterior Probability \( P(Kelas | Fitur) \)** ü§î
Posterior probability dihitung menggunakan **Teorema Bayes**:

$$
P(Kelas | X) = \frac{P(X | Kelas) P(Kelas)}{P(X)}
$$

Karena \( P(X) \) sama untuk semua kelas, kita cukup membandingkan nilai **numerator**:

$$
P(Kelas | X) \propto P(X | Kelas) P(Kelas)
$$

---

## üìå 5. **Menentukan Kelas dengan Probabilitas Tertinggi** üèÜ
Kita memilih kelas yang memiliki **posterior probability** tertinggi sebagai prediksi akhir.

$$
\text{Prediksi} = \arg\max P(Kelas | X)
$$

---
berikuy code nya


In [86]:
import pandas as pd
import numpy as np
from sklearn.naive_bayes import GaussianNB
from sklearn.metrics import accuracy_score
from tabulate import tabulate

# Pilih fitur numerik untuk model Na√Øve Bayes
numeric_cols = ["sepal_length", "sepal_width", "petal length", "petal width"]
X_full = data_asli[numeric_cols]
y_full = data_asli["class"]

# Inisialisasi model Na√Øve Bayes
nb_full = GaussianNB()

# Latih model dengan data **tanpa menghapus outlier**
nb_full.fit(X_full, y_full)

# Hitung likelihood P(X|Y) untuk setiap sampel
likelihoods_full = nb_full.predict_proba(X_full)

# Konversi likelihood menjadi DataFrame untuk setiap kelas
likelihood_df_full = pd.DataFrame(likelihoods_full, columns=nb_full.classes_)

# Gabungkan hasil likelihood dengan dataset utama
data_asli = pd.concat([data_asli, likelihood_df_full], axis=1)

# Tambahkan hasil akhir prediksi ke dataset
data_asli["final_prediction"] = nb_full.predict(X_full)

# Hapus kolom class_frequency agar sesuai dengan dataset tanpa outlier
if "class_frequency" in data_asli.columns:
    data_asli = data_asli.drop(columns=["class_frequency"])

# Urutkan ulang kolom agar sesuai dengan versi tanpa outlier
ordered_columns = ["id", "sepal length", "sepal width", "petal length", "petal width",
                   "class"] + list(nb_full.classes_) + ["final_prediction"]

# Pastikan hanya kolom yang ada di dataset yang dipilih
data_asli = data_asli[[col for col in ordered_columns if col in data_asli.columns]]

# Hitung akurasi
accuracy = accuracy_score(y_full, data_asli["final_prediction"])

# Tampilkan hasil akhir dalam bentuk tabel dan akurasi
print("Hasil Na√Øve Bayes **tanpa menghapus outlier**:")
print(tabulate(data_asli, headers="keys", tablefmt="psql", showindex=False))



Hasil Na√Øve Bayes **tanpa menghapus outlier**:
+------+----------------+---------------+-----------------+---------------+-------------------+------------------+--------------------+
|   id |   petal length |   petal width | class           |   Iris-setosa |   Iris-versicolor |   Iris-virginica | final_prediction   |
|------+----------------+---------------+-----------------+---------------+-------------------+------------------+--------------------|
|    1 |           86.4 |          70   | Iris-setosa     |   1           |       0           |      0           | Iris-setosa        |
|    2 |            1.4 |           0.2 | Iris-setosa     |   1           |       2.78223e-12 |      4.31289e-20 | Iris-setosa        |
|    3 |            1.3 |           0.2 | Iris-setosa     |   1           |       1.55044e-13 |      3.38143e-21 | Iris-setosa        |
|    4 |            1.5 |           0.2 | Iris-setosa     |   1           |       2.00939e-12 |      4.04965e-20 | Iris-setosa        |


In [87]:
print(f"\nAkurasi Model Na√Øve Bayes: {accuracy * 100:.2f}%")


Akurasi Model Na√Øve Bayes: 96.00%


In [88]:
import pandas as pd
from sklearn.naive_bayes import GaussianNB
from sklearn.metrics import precision_score, recall_score, f1_score, confusion_matrix, roc_auc_score, log_loss, accuracy_score
from tabulate import tabulate

# Asumsi data_bersih sudah ada setelah menghapus outlier
# Pilih fitur numerik untuk model Na√Øve Bayes
numeric_cols = ["sepal_length", "sepal_width", "petal length", "petal width"]
X_bersih = data_bersih[numeric_cols]
y_bersih = data_bersih["class"]

# Tangani NaN (opsi 1: menghapus baris yang memiliki NaN)
X_bersih = X_bersih.dropna()
y_bersih = y_bersih[X_bersih.index]  # Sesuaikan y dengan index X

# Inisialisasi model Na√Øve Bayes
nb_bersih = GaussianNB()

# Latih model dengan data bersih (tanpa outlier)
nb_bersih.fit(X_bersih, y_bersih)

# Hitung likelihood P(X|Y) untuk setiap sampel
likelihoods_bersih = nb_bersih.predict_proba(X_bersih)

# Konversi likelihood menjadi DataFrame untuk setiap kelas
likelihood_df_bersih = pd.DataFrame(likelihoods_bersih, columns=nb_bersih.classes_)

# Gabungkan hasil likelihood dengan dataset utama
data_bersih = data_bersih.loc[X_bersih.index]  # Menyelaraskan indeks
data_bersih = pd.concat([data_bersih, likelihood_df_bersih], axis=1)

# Tambahkan hasil akhir prediksi ke dataset
data_bersih["final_prediction"] = nb_bersih.predict(X_bersih)

# Hapus kolom class_frequency agar sesuai dengan dataset
if "class_frequency" in data_bersih.columns:
    data_bersih = data_bersih.drop(columns=["class_frequency"])

# Urutkan ulang kolom
ordered_columns = ["id", "sepal_length", "sepal_width", "petal length", "petal width",
                   "class"] + list(nb_bersih.classes_) + ["final_prediction"]

# Pastikan hanya kolom yang ada di dataset yang dipilih
data_bersih = data_bersih[[col for col in ordered_columns if col in data_bersih.columns]]

# Tampilkan hasil akhir dalam bentuk tabel
print("Hasil Na√Øve Bayes **setelah menghapus outlier**:")
print(tabulate(data_bersih, headers="keys", tablefmt="psql", showindex=False))

# Hitung akurasi model
accuracy = accuracy_score(y_bersih, data_bersih["final_prediction"])
print(f"\nAkurasi Model Na√Øve Bayes: {accuracy:.4f}")


Hasil Na√Øve Bayes **setelah menghapus outlier**:
+------+----------------+---------------+----------------+---------------+-----------------+---------------+-------------------+------------------+--------------------+
|   id |   sepal_length |   sepal_width |   petal length |   petal width | class           |   Iris-setosa |   Iris-versicolor |   Iris-virginica | final_prediction   |
|------+----------------+---------------+----------------+---------------+-----------------+---------------+-------------------+------------------+--------------------|
|    2 |            4.9 |           3   |            1.4 |           0.2 | Iris-setosa     |  1            |       1.77375e-17 |      2.7496e-25  | Iris-setosa        |
|    3 |            4.7 |           3.2 |            1.3 |           0.2 | Iris-setosa     |  1            |       1.18185e-18 |      2.57757e-26 | Iris-setosa        |
|    4 |            4.6 |           3.1 |            1.5 |           0.2 | Iris-setosa     |  1          

In [89]:
print(f"\nAkurasi Model Na√Øve Bayes: {accuracy * 100:.2f}%")


Akurasi Model Na√Øve Bayes: 95.95%


# üîç **Mengapa Data Asli 96% dan Data Bersih 95%?** ü§î  

## üìä **Perbedaan Akurasi**  
- **Data Asli (dengan 1 outlier) ‚Üí** üü¢ **96%**  
- **Data Bersih (tanpa outlier) ‚Üí** üîµ **95%**  

Meskipun hanya **1 baris outlier**, akurasinya sedikit berbeda! Kenapa bisa begitu? ü§∑‚Äç‚ôÇÔ∏è  

---

## üìå **1. Outlier Bisa Membantu Model Membedakan Kelas?** üé≠  
- Outlier dalam dataset mungkin **secara tidak sengaja membantu model** membedakan kelas lebih baik dalam **dataset training & testing**.  
- Jika outlier membuat model lebih condong ke satu pola tertentu, bisa jadi model lebih cocok dengan data testing, sehingga **akurasi terlihat lebih tinggi (96%)**.  

üìù **Namun, ini bisa berbahaya!**  
- Model mungkin bekerja **baik pada data uji saat ini**, tapi **kurang stabil pada data baru** (real-world).  

---

## üìå **2. Pengaruh Outlier terhadap Distribusi Data** üìà  
Na√Øve Bayes menggunakan **mean (\(\mu\)) dan varians (\(\sigma^2\))** untuk menghitung probabilitas.  

Mean dihitung sebagai:  
$$
\mu = \frac{\sum X}{N}
$$  

Varians dihitung sebagai:  
$$
\sigma^2 = \frac{\sum (X - \mu)^2}{N}
$$  

Probabilitas likelihood dalam Na√Øve Bayes dihitung dengan distribusi normal:  
$$
P(X | \text{Kelas}) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp \left( -\frac{(X - \mu)^2}{2\sigma^2} \right)
$$  

- **Data Asli (dengan outlier)** ‚Üí Mean & varians berubah sedikit, sehingga probabilitasnya sedikit berbeda.  
- **Data Bersih (tanpa outlier)** ‚Üí Mean & varians lebih stabil, tapi model kehilangan pola yang mungkin "membantu" klasifikasi.  

üí° **Hasilnya?**  
- Data asli **memiliki distribusi yang sedikit berbeda**, yang **kebetulan cocok dengan data testing**, sehingga akurasinya naik ke **96%**.  

---

## üìå **3. Akurasi Naik, Tapi Bisa Overfitting?** üöÄ  
- **Data Asli (96%) mungkin sedikit overfitting** terhadap outlier, sehingga tampak lebih akurat dalam dataset ini.  
- **Data Bersih (95%) lebih generalisasi**, jadi meskipun akurasinya sedikit lebih rendah, **model lebih stabil dalam jangka panjang**.  

üõë **Kesalahan yang sering terjadi:**  
> "Akurasi lebih tinggi berarti model lebih baik!" ‚ùå **(Tidak selalu benar!)**  

---

## üèÜ **Kesimpulan**  
‚úÖ **Perbedaan 1% tidak signifikan**, tetapi menunjukkan bahwa **outlier sedikit mempengaruhi model**.  
‚úÖ **Akurasi lebih tinggi bukan berarti lebih baik!** Bisa jadi itu hanya karena model menghafal pola dari outlier.  
‚úÖ **Model tanpa outlier lebih stabil & lebih bisa diandalkan pada data baru!**  



üéØ **Kesimpulan Akhir:**  
üì¢ **Jika outlier tidak masuk akal, lebih baik dihapus agar model lebih generalisasi & tidak hanya menghafal data training!** ‚ú®  
