# **Naive Bayes Classifier**
Naïve Bayes adalah algoritma klasifikasi berbasis teorema Bayes, yang berasumsi bahwa setiap fitur dalam dataset saling independen satu sama lain  

## **1. Teori Dasar Naïve Bayes**
Naïve Bayes bekerja dengan menghitung probabilitas suatu kelas berdasarkan data yang ada, menggunakan Teorema Bayes :

$$
P(A | B) = \frac{P(B | A) \cdot P(A)}{P(B)}
$$

Di mana:
- $ P(A | B) $ = Probabilitas hipotesis $ A $ benar jika diberikan bukti $ B $.
- $ P(B | A) $ = Probabilitas mendapatkan bukti $ B $ jika hipotesis $ A $ benar.
- $ P(A) $ = Probabilitas awal hipotesis $ A $ (prior).
- $ P(B) $ = Probabilitas bukti $ B $ terjadi.

## **2. Prinsip "Naive" (Independensi Fitur)**
Naive Bayes mengasumsikan bahwa setiap fitur dalam dataset **tidak saling bergantung**, sehingga probabilitas gabungan fitur dapat dihitung sebagai:

$$
P(A | X_1, X_2, ..., X_n) = \frac{P(X_1, X_2, ..., X_n | A) \cdot P(A)}{P(X_1, X_2, ..., X_n)}
$$

Karena diasumsikan fitur **independen**, maka :

$$
P(X_1, X_2, ..., X_n | A) = P(X_1 | A) \cdot P(X_2 | A) \cdot ... \cdot P(X_n | A)
$$

Sehingga :

$$
P(A | X_1, X_2, ..., X_n) = \frac{P(A) \cdot \prod_{i=1}^{n} P(X_i | A)}{P(X_1, X_2, ..., X_n)}
$$

## **3. Jenis Naive Bayes**
### **a) Gaussian Naive Bayes** (Untuk Data Numerik)
Jika fitur $ X $ mengikuti **distribusi normal (Gaussian)**, maka probabilitas dihitung dengan :

$$
P(x | C) = \frac{1}{\sqrt{2\pi\sigma^2}} e^{\frac{-(x-\mu)^2}{2\sigma^2}}
$$

Di mana :
- $ \mu $ = Rata-rata fitur dalam kelas tertentu
- $ \sigma $ = Standar deviasi fitur dalam kelas tertentu
- $ x $ = Nilai fitur

### **b) Multinomial Naive Bayes** (Untuk Data Kategori)
Digunakan untuk **klasifikasi teks** berdasarkan frekuensi kata :

$$
P(X | C) = \frac{(N_{c, X} + \alpha)}{(N_c + \alpha \cdot d)}
$$

Di mana :
- $ N_{c, X} $ = Jumlah kata $ X $ dalam kelas $ C $
- $ N_c $ = Total jumlah kata dalam kelas $ C $
- $ d $ = Jumlah total kata unik dalam semua kelas
- $ \alpha $ = Parameter smoothing (Laplace Smoothing)

### **c) Bernoulli Naive Bayes** (Untuk Data Biner)
Digunakan jika fitur hanya memiliki dua kemungkinan (ada/tidak ada) :

$$
P(X | C) = P(X_1 | C)^{x_1} \cdot P(X_2 | C)^{x_2} \cdot ... \cdot P(X_n | C)^{x_n} \cdot (1 - P(X_1 | C))^{(1 - x_1)}
$$

## **4. Kelebihan dan kekurangan :**
### **Kelebihan :**
- Sederhana dan mudah diimplementasikan.
- Cepat dan efisien untuk dataset besar.
- Cocok untuk data dengan banyak fitur.

### **Kekurangan :**
- Asumsi independensi fitur seringkali tidak realistis.
- Performa menurun jika fitur saling bergantung.
- Memerlukan penanganan khusus untuk data dengan probabilitas nol.

## **5. Contoh penggunaan Naive Bayes :**
1. Deteksi Email Spam → Mengklasifikasikan email sebagai spam atau tidak.
2. Analisis Sentimen → Menganalisis ulasan positif atau negatif.
3. Klasifikasi Penyakit → Menentukan kemungkinan penyakit berdasarkan gejala.
4. Sistem Rekomendasi Film → Menentukan preferensi pengguna berdasarkan riwayat.

# **Implementasi Naive Bayes untuk klasifikasi data**
## Implementasi pada data yang ada outliernya
**Import library**

In [1]:
%pip install scikit-learn




[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip is available: [0m[31;49m25.0.1[0m[39;49m -> [0m[32;49m25.1.1[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49mpython3 -m pip install --upgrade pip[0m


Note: you may need to restart the kernel to use updated packages.


In [2]:
import pandas as pd
from sklearn.naive_bayes import GaussianNB
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# Membaca file CSV
file_path = "hasil_gabungan.csv"
df = pd.read_csv(file_path)

# Memilih fitur dan label
X = df[['petal_length', 'petal_width', 'sepal_length', 'sepal_width']]
y = df['class']

# Membagi data menjadi data latih dan data uji
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Inisialisasi model Naïve Bayes
model = GaussianNB()

# Melatih model
model.fit(X_train, y_train)

# Melakukan prediksi
y_pred = model.predict(X_test)

# Mengukur akurasi model
accuracy = accuracy_score(y_test, y_pred)
print("Akurasi:", accuracy)

Akurasi: 0.8666666666666667


## Implementasi pada data yang sudah dihapus outliernya

In [3]:
import pandas as pd
from sklearn.naive_bayes import GaussianNB
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# Membaca file CSV
file_path = "cleaned_data.csv"
df = pd.read_csv(file_path)

# Memilih fitur dan label
X = df[['petal_length', 'petal_width', 'sepal_length', 'sepal_width']]
y = df['class']

# Membagi data menjadi data latih dan data uji
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Inisialisasi model Naïve Bayes
model = GaussianNB()

# Melatih model
model.fit(X_train, y_train)

# Melakukan prediksi
y_pred = model.predict(X_test)

# Mengukur akurasi model
accuracy = accuracy_score(y_test, y_pred)
print("Akurasi:", accuracy)

Akurasi: 1.0
