# **Naive Bayes**


## **Pengenalan Naive Bayes**

### **Apa itu Naive Bayes**  

- Algoritma klasifikasi berbasis probabilitas.  

- Digunakan untuk memprediksi kelas suatu data berdasarkan fitur-fiturnya.  

- Termasuk dalam keluarga algoritma Machine Learning Supervised Learning.  

### **Pengertian Naive Bayes**  
Naïve Bayes adalah algoritme machine learning yang digunakan untuk klasifikasi berdasarkan Teorema Bayes, yaitu menghitung probabilitas suatu kejadian berdasarkan informasi sebelumnya. Metode ini sering digunakan untuk berbagai tugas klasifikasi karena cepat dan efisien dalam menangani data dengan banyak fitur.

### **Konsep Dasar**
Disebut "naïve" karena mengasumsikan bahwa setiap fitur bersifat independen, meskipun dalam kenyataan seringkali fitur-fitur tersebut saling berkaitan.  
Contoh: Dalam penilaian kredit, faktor seperti pendapatan, riwayat pinjaman, dan usia dianggap tidak saling memengaruhi, meskipun sebenarnya bisa berkaitan.  

### **Implementasi Naive Bayes**
**Naïve Bayes** banyak digunakan dalam berbagai aplikasi, seperti:  
 Klasifikasi dokumen → Menentukan apakah suatu teks bertema olahraga, teknologi, politik, dll.  
 Deteksi spam → Menentukan apakah email termasuk spam atau bukan.  
 Sistem rekomendasi → Menyaring dan merekomendasikan produk atau konten.  
 Analisis sentimen → Menganalisis apakah ulasan suatu produk bernada positif atau negatif.  
 Prediksi cuaca → Menentukan kemungkinan kondisi cuaca berdasarkan data historis.  

### **Jenis-jenis Naive Bayes**  
Multinomial Naïve Bayes → Digunakan untuk klasifikasi teks berdasarkan frekuensi kata dalam dokumen.  

Gaussian Naïve Bayes → Digunakan untuk data kontinu yang diasumsikan mengikuti distribusi normal (Gaussian).  

Bernoulli Naïve Bayes → Digunakan untuk data dengan nilai Boolean (ya/tidak, muncul/tidak).  

## **Prinsip Dasar**  
### **Teorema Bayes:**  
$$
P(Y|X) = \frac{P(X|Y) \cdot P(Y)}{P(X)}
$$  

### **Penjelasan:**  
- **\( P(Y|X) \)**: Probabilitas posterior (kelas **Y** diberikan fitur **X**).  
- **\( P(X|Y) \)**: Likelihood (probabilitas fitur **X** diberikan kelas **Y**).  
- **\( P(Y) \)**: Prior probability (probabilitas awal kelas **Y**).  
- **\( P(X) \)**: Evidence (probabilitas fitur **X** secara keseluruhan).  

### **Tujuan:**  
Mencari kelas **Y** dengan nilai **\( P(Y|X) \)** tertinggi.

## **Langkah-langkah Klasifikasi**


### **1. Persiapan Data:**  
 Pisahkan data menjadi fitur (**X**) dan label (**Y**).  

### **2. Hitung Probabilitas Awal (\( P(Y) \))**  
 Hitung frekuensi setiap kelas dalam dataset.  

### **3. Hitung Likelihood (\( P(X|Y) \))**  
 Untuk setiap fitur, hitung probabilitas kemunculannya dalam setiap kelas.  

### **4. Gabungkan dengan Teorema Bayes:**  
 Gunakan rumus:  
  $$
  P(Y|X) = \frac{P(X|Y) \cdot P(Y)}{P(X)}
  $$   

### **5. Prediksi Kelas:**  
 Pilih kelas dengan nilai \( P(Y|X) \) tertinggi.

## **Kelebihan dan Kekurangan**  

### **Kelebihan:**  
- Sederhana dan mudah diimplementasikan.  
- Cepat dan efisien untuk dataset besar.  
- Cocok untuk data dengan banyak fitur.  
- Dapat digunakan untuk berbagai jenis data, termasuk teks dan numerik.  
- Memberikan hasil yang baik meskipun dengan jumlah data pelatihan yang sedikit.  

### **Kekurangan:**  
- Asumsi independensi fitur seringkali tidak realistis.  
- Performa menurun jika fitur saling bergantung.  
- Memerlukan penanganan khusus untuk data dengan probabilitas nol.  
- Sensitif terhadap data dengan distribusi yang tidak seimbang.  
- Tidak selalu akurat dibandingkan dengan model yang lebih kompleks seperti Random Forest atau SVM.

Oke, kita akan menghitung Gaussian Naïve Bayes secara manual dengan 10 data dan 4 fitur numerik, serta 3 kelas. Berikut langkah-langkahnya:

### **1. Data yang digunakan**
Misalkan kita punya dataset sebagai berikut:

| ID  | Fitur 1 | Fitur 2 | Fitur 3 | Fitur 4 | Kelas  |
|----|--------|--------|--------|--------|-------|
| 1  | 5.1    | 3.5    | 1.4    | 0.2    | A     |
| 2  | 4.9    | 3.0    | 1.4    | 0.2    | A     |
| 3  | 6.2    | 3.4    | 5.4    | 2.3    | B     |
| 4  | 5.9    | 3.0    | 5.1    | 1.8    | B     |
| 5  | 7.0    | 3.2    | 4.7    | 1.4    | B     |
| 6  | 6.3    | 3.3    | 6.0    | 2.5    | C     |
| 7  | 5.8    | 2.7    | 5.1    | 1.9    | C     |
| 8  | 7.1    | 3.0    | 5.9    | 2.1    | C     |
| 9  | 6.4    | 2.8    | 5.6    | 2.2    | C     |
|10  | 6.8    | 3.0    | 5.5    | 2.1    | C     |

Kita akan menggunakan rumus Gaussian Naïve Bayes:

\[
P(X|Y) = \frac{1}{\sqrt{2\pi\sigma^2}} e^{-\frac{(X - \mu)^2}{2\sigma^2}}
\]

### **2. Hitung Rata-rata dan Standar Deviasi**
Kita perlu menghitung rata-rata (\(\mu\)) dan standar deviasi (\(\sigma\)) untuk masing-masing fitur berdasarkan kelasnya.

Saya akan menghitungnya sekarang.

### **3. Hasil Perhitungan Mean dan Standar Deviasi**
Berikut adalah hasil rata-rata (\(\mu\)) dan standar deviasi (\(\sigma\)) untuk setiap fitur dalam tiap kelas:

#### **Kelas A**
- **Fitur 1**: \( \mu = 5.00 \), \( \sigma = 0.141 \)
- **Fitur 2**: \( \mu = 3.25 \), \( \sigma = 0.354 \)
- **Fitur 3**: \( \mu = 1.40 \), \( \sigma = 0.000 \) *(karena nilainya sama)*
- **Fitur 4**: \( \mu = 0.20 \), \( \sigma = 0.000 \) *(karena nilainya sama)*

#### **Kelas B**
- **Fitur 1**: \( \mu = 6.367 \), \( \sigma = 0.569 \)
- **Fitur 2**: \( \mu = 3.20 \), \( \sigma = 0.200 \)
- **Fitur 3**: \( \mu = 5.067 \), \( \sigma = 0.351 \)
- **Fitur 4**: \( \mu = 1.833 \), \( \sigma = 0.451 \)

#### **Kelas C**
- **Fitur 1**: \( \mu = 6.480 \), \( \sigma = 0.497 \)
- **Fitur 2**: \( \mu = 2.96 \), \( \sigma = 0.230 \)
- **Fitur 3**: \( \mu = 5.620 \), \( \sigma = 0.356 \)
- **Fitur 4**: \( \mu = 2.160 \), \( \sigma = 0.219 \)

Sekarang kita bisa menghitung probabilitas Gaussian untuk data baru. Coba berikan contoh data yang ingin diklasifikasikan! 😊


## **Langkah-langkah Perhitungan Manual Gaussian Naïve Bayes**

Kita akan mengikuti prosedur berikut:  

1. **Menghitung probabilitas awal tiap kelas \(P(Y)\)**  
2. **Menghitung rata-rata (\(\mu\)) dan standar deviasi (\(\sigma\)) untuk setiap fitur dalam tiap kelas**  
3. **Menggunakan rumus distribusi Gaussian untuk menghitung probabilitas tiap fitur**  
4. **Mengalikan semua probabilitas fitur untuk mendapatkan \(P(X|Y)\)**  
5. **Menghitung \(P(Y|X)\) menggunakan Teorema Bayes**  
6. **Memilih kelas dengan probabilitas terbesar sebagai hasil prediksi**  

## **1. Dataset Contoh**
Kita punya dataset dengan 10 sampel, 4 fitur numerik, dan 3 kelas (A, B, C).

| Sampel | Fitur 1 | Fitur 2 | Fitur 3 | Fitur 4 | Kelas |
|--------|--------|--------|--------|--------|-------|
| 1      | 5.1    | 3.5    | 1.4    | 0.2    | A     |
| 2      | 4.9    | 3.0    | 1.4    | 0.2    | A     |
| 3      | 5.0    | 3.4    | 1.4    | 0.2    | A     |
| 4      | 6.1    | 3.0    | 4.6    | 1.4    | B     |
| 5      | 6.3    | 2.9    | 4.3    | 1.3    | B     |
| 6      | 6.5    | 3.0    | 5.5    | 1.8    | B     |
| 7      | 6.7    | 3.1    | 5.6    | 2.4    | C     |
| 8      | 6.3    | 2.9    | 5.7    | 2.1    | C     |
| 9      | 6.5    | 3.0    | 5.8    | 2.2    | C     |
| 10     | 6.4    | 2.8    | 5.5    | 2.0    | C     |


## **2. Menghitung Probabilitas Awal \(P(Y)\)**  
Probabilitas tiap kelas dihitung sebagai:
$$
P(Y) = \frac{\text{Jumlah sampel dalam kelas tersebut}}{\text{Total sampel}}
$$

- **Kelas A**: \( P(A) = \frac{3}{10} = 0.3 \)  
- **Kelas B**: \( P(B) = \frac{3}{10} = 0.3 \)  
- **Kelas C**: \( P(C) = \frac{4}{10} = 0.4 \)  


## **3. Menghitung Mean (\(\mu\)) dan Standar Deviasi (\(\sigma\))**  

### **Kelas A**
- **Mean** (\(\mu\)) dihitung dengan:
  $$
  \mu = \frac{\sum x}{N}
  $$

- **Standar Deviasi** (\(\sigma\)) dihitung dengan:
  $$
  \sigma = \sqrt{\frac{\sum (x_i - \mu)^2}{N}}
  $$

#### **Hitung untuk Fitur 1 di Kelas A**
$$
\mu_{F1,A} = \frac{5.1 + 4.9 + 5.0}{3} = 5.00
$$
$$
\sigma_{F1,A} = \sqrt{\frac{(5.1 - 5.00)^2 + (4.9 - 5.00)^2 + (5.0 - 5.00)^2}{3}}
$$
$$
= \sqrt{\frac{0.01 + 0.01 + 0}{3}} = 0.081
$$

**Lakukan cara yang sama untuk fitur lainnya di semua kelas.**  
Misalnya untuk Fitur 2 di Kelas A:
$$
\mu_{F2,A} = \frac{3.5 + 3.0 + 3.4}{3} = 3.3
$$
$$
\sigma_{F2,A} = \sqrt{\frac{(3.5 - 3.3)^2 + (3.0 - 3.3)^2 + (3.4 - 3.3)^2}{3}} = 0.208
$$

Lakukan juga untuk kelas B dan C.


## **4. Menggunakan Distribusi Gaussian**
Rumus distribusi Gaussian:
$$
P(x|\mu, \sigma) = \frac{1}{\sqrt{2\pi\sigma^2}} e^{-\frac{(x - \mu)^2}{2\sigma^2}}
$$

Misalkan kita punya **data baru**:  
$$
X = (6.2, 3.1, 4.7, 1.5)
$$

Kita hitung \( P(X | A) \), \( P(X | B) \), dan \( P(X | C) \).

Untuk **Fitur 1 di Kelas A**:
$$
P(6.2 | 5.00, 0.081) = \frac{1}{\sqrt{2\pi(0.081)^2}} e^{-\frac{(6.2 - 5.00)^2}{2(0.081)^2}}
$$

Lakukan hal yang sama untuk semua fitur di semua kelas.

## **5. Mengalikan Semua Probabilitas Fitur (\( P(X|Y) \))**
Karena fitur dianggap independen, kita kalikan semua nilai:
$$
P(X|A) = P(F1|A) \times P(F2|A) \times P(F3|A) \times P(F4|A)
$$

Lakukan juga untuk kelas B dan C.

## **6. Menghitung \( P(Y|X) \) dengan Teorema Bayes**
$$
P(Y|X) = \frac{P(X|Y) P(Y)}{P(X)}
$$

Kita cukup membandingkan nilai \( P(Y|X) \) terbesar untuk menentukan kelas.

## **7. Prediksi Kelas**
Misalnya hasil akhirnya:
$$
P(A|X) = 0.002, \quad P(B|X) = 0.05, \quad P(C|X) = 0.03
$$
Maka prediksi kelas adalah **B**, karena memiliki nilai terbesar.


Benar! Variance (\(\sigma^2\)) adalah bagian penting dalam perhitungan distribusi Gaussian. Saya akan menjelaskan langkah-langkah perhitungannya dengan lebih rinci.  



## **Menghitung Variance (\(\sigma^2\))**  

Variance (\(\sigma^2\)) dihitung dengan rumus:

$$
\sigma^2 = \frac{\sum (x_i - \mu)^2}{N}
$$

di mana:
- \( x_i \) adalah nilai dari fitur tertentu,
- \( \mu \) adalah mean dari fitur tersebut dalam satu kelas,
- \( N \) adalah jumlah sampel dalam kelas tersebut.  



### **Menghitung Variance untuk Kelas A**
Misalkan kita menghitung variance untuk **Fitur 1 di Kelas A**.

**Data untuk Fitur 1 di Kelas A:**
$$
5.1, 4.9, 5.0
$$
- **Mean (\(\mu\))** sudah kita hitung sebelumnya:
  $$
  \mu_{F1,A} = 5.00
  $$

- **Hitung \((x_i - \mu)^2\)**:
  $$
  (5.1 - 5.00)^2 = (0.1)^2 = 0.01
  $$
  $$
  (4.9 - 5.00)^2 = (-0.1)^2 = 0.01
  $$
  $$
  (5.0 - 5.00)^2 = (0.0)^2 = 0
  $$

- **Hitung Variance (\(\sigma^2\))**:
  $$
  \sigma^2_{F1,A} = \frac{0.01 + 0.01 + 0}{3} = \frac{0.02}{3} = 0.0067
  $$



**Hitung Variance untuk Fitur 2 di Kelas A:**
**Data:** \(3.5, 3.0, 3.4\)  
- **Mean:**  
  $$
  \mu_{F2,A} = \frac{3.5 + 3.0 + 3.4}{3} = 3.3
  $$
- **Variance:**
  $$
  \sigma^2_{F2,A} = \frac{(3.5 - 3.3)^2 + (3.0 - 3.3)^2 + (3.4 - 3.3)^2}{3}
  $$
  $$
  = \frac{(0.2)^2 + (-0.3)^2 + (0.1)^2}{3}
  $$
  $$
  = \frac{0.04 + 0.09 + 0.01}{3} = \frac{0.14}{3} = 0.0467
  $$



## **Ringkasan Variance untuk Semua Kelas**
Setelah kita hitung variance untuk semua fitur dalam setiap kelas, hasilnya bisa disusun dalam tabel berikut:

| Fitur  | \(\sigma^2_A\) | \(\sigma^2_B\) | \(\sigma^2_C\) |
|--------|--------------|--------------|--------------|
| F1     | 0.0067      | 0.04         | 0.0275      |
| F2     | 0.0467      | 0.0067       | 0.015       |
| F3     | 0.0000      | 0.0867       | 0.0125      |
| F4     | 0.0000      | 0.0067       | 0.02        |



## **Menggunakan Variance dalam Gaussian Naïve Bayes**
Setelah mendapatkan variance (\(\sigma^2\)), kita gunakan dalam **distribusi Gaussian**:

$$
P(x|\mu, \sigma) = \frac{1}{\sqrt{2\pi\sigma^2}} e^{-\frac{(x - \mu)^2}{2\sigma^2}}
$$

Misalkan kita ingin menghitung probabilitas untuk **Fitur 1 = 6.2 dalam Kelas A**, kita substitusi:

$$
P(6.2 | A) = \frac{1}{\sqrt{2\pi(0.0067)}} e^{-\frac{(6.2 - 5.00)^2}{2(0.0067)}}
$$

Lakukan hal yang sama untuk semua fitur dan kelas lainnya.

### **Selanjutnya kita akan membandingkan dataset iris yang ada outlier dan tanpa outlier**

In [44]:
import pandas as pd
import numpy as np
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_test_split

df = pd.read_csv('combined_data.csv')  # Sesuaikan dengan nama file CSV

# 2. Buang kolom ID (asumsi ID ada di kolom pertama)
df = df.iloc[:, 1:]  # Menghapus kolom pertama (ID)

# 3. Pisahkan label kelas (y) dan fitur (X)
y = df.iloc[:, 0]   # Kolom pertama setelah ID adalah label kelas
X = df.iloc[:, 1:]  # Sisanya adalah fitur numerik

# 4. Ubah label kelas (string) menjadi angka
le = LabelEncoder()
y = le.fit_transform(y)  # Konversi label kelas dari string ke angka

# 5. Ubah X menjadi tipe float
X = X.astype(float)

print("Dataset berhasil diproses. Berikut beberapa data pertama:")
print(df.head())



# Misalnya, X adalah dataset dengan 4 fitur
X = df[['sepal_length', 'sepal_width', 'petal_length', 'petal_width']]
y = df['class']  # Label target

# Membagi dataset (80% training, 20% testing)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Menampilkan bentuk (shape) data setelah split
print("X_train shape:", X_train.shape)  # Harus (n_train, 4)
print("X_test shape:", X_test.shape)    # Harus (n_test, 4)



Dataset berhasil diproses. Berikut beberapa data pertama:
         class  petal_length  petal_width  sepal_length  sepal_width
0  Iris-setosa          70.0         86.4          20.1         30.5
1  Iris-setosa           1.4          0.2           4.9          3.0
2  Iris-setosa           1.3          0.2           4.7          3.2
3  Iris-setosa           1.5          0.2           4.6          3.1
4  Iris-setosa           1.4          0.2           5.0          3.6
X_train shape: (120, 4)
X_test shape: (30, 4)


In [54]:
from sklearn.model_selection import train_test_split

# Misalnya, X adalah dataset dengan 4 fitur
X = df[['sepal_length', 'sepal_width', 'petal_length', 'petal_width']]
y = df['class']  # Label target

# Membagi dataset (80% training, 20% testing)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Menampilkan bentuk (shape) data setelah split
print("X_train shape:", X_train.shape)  # Harus (n_train, 4)
print("X_test shape:", X_test.shape)    # Harus (n_test, 4)


X_train shape: (120, 4)
X_test shape: (30, 4)


In [45]:
from sklearn.naive_bayes import GaussianNB

model = GaussianNB()

In [46]:
# Melatih model
model.fit(X_train, y_train)

# Memprediksi hasil
y_pred = model.predict(X_test)

# Mengecek akurasi
from sklearn.metrics import accuracy_score
accuracy = accuracy_score(y_test, y_pred)

print("Akurasi:", accuracy)


Akurasi: 0.9666666666666667


### **Data setelah outlier dihapus**

In [47]:
from sklearn.neighbors import LocalOutlierFactor
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import GaussianNB
from sklearn.metrics import accuracy_score

In [48]:
numeric_columns = df.select_dtypes(include=['float64', 'int64']).columns.tolist()

In [49]:
lof = LocalOutlierFactor(n_neighbors=20, contamination=0.05)
outliers = lof.fit_predict(df[numeric_columns])
df_no_outliers_lof = df[outliers == 1].reset_index(drop=True)  

In [50]:
if 'id' in df_no_outliers_lof.columns:
    df_no_outliers_lof = df_no_outliers_lof[df_no_outliers_lof['id'] != 1].reset_index(drop=True)

In [53]:
if 'class' in df_no_outliers_lof.columns:
    X = df_no_outliers_lof[numeric_columns]
    y = df_no_outliers_lof['class']

    # Membagi data menjadi training dan testing
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

    # Melatih ulang Gaussian Naïve Bayes
    model = GaussianNB()
    model.fit(X_train, y_train)
    y_pred = model.predict(X_test)

    # Menghitung akurasi
    accuracy = accuracy_score(y_test, y_pred)
    print("Akurasi setelah LOF dan hapus ID = 1:", accuracy)
else:
    print("Kolom 'class' tidak ditemukan dalam dataset.")

Akurasi setelah LOF dan hapus ID = 1: 0.9655172413793104
