---
title: Naive Bayes

---

# Naive Bayes

## *Pendahuluan*
Naive Bayes adalah salah satu algoritma klasifikasi yang sederhana namun efektif, berdasarkan *Teorema Bayes*. Algoritma ini sering digunakan dalam berbagai aplikasi seperti klasifikasi teks, analisis sentimen, deteksi spam, dan lainnya.

---

## *Teorema Bayes*
Teorema Bayes menyatakan:
$$
P(H|E) = \frac{P(E|H) \cdot P(H)}{P(E)}
$$

Keterangan:
- *P(H|E)*: Probabilitas hipotesis ***H*** diberikan bukti ***E*** (probabilitas posterior). 
- *P(E|H)*: Probabilitas bukti ***E*** diberikan hipotesis ***H*** (probabilitas likelihood). 
- *P(H)*: Probabilitas awal hipotesis ***H*** (probabilitas prior). 
- *P(E)*: Probabilitas total bukti ***E***. 

---

## *Asumsi Naive Bayes*
1. *Independensi Kondisional*: Fitur dianggap independen satu sama lain.
2. *Sederhana namun Efektif*: Meskipun asumsi ini jarang berlaku sempurna dalam dunia nyata, Naive Bayes tetap bekerja dengan baik dalam banyak kasus.

---

## *Formula Naive Bayes*
$$ \text{Untuk memprediksi kelas }C_k 
\text{ dengan fitur }
x_1, x_2, ..., x_n:
\text{,Rumusnya Adalah :}$$ $$P(C_k|x_1, x_2, ..., x_n) \propto P(C_k) \cdot P(x_1|C_k) \cdot P(x_2|C_k) \cdot ... \cdot P(x_n|C_k)
$$

Keterangan:
- $$P(C_k|x_1, x_2, ..., x_n): \text{Probabilitas posterior untuk kelas } C_k$$
- $$P(C_k): \text{Probabilitas prior dari kelas } C_k$$ 
- $$P(x_i|C_k): \text{Probabilitas likelihood dari fitur } x_i\text{ pada kelas } C_k$$

---

## *Langkah-langkah Algoritma Naive Bayes*
1. *Hitung Prior*:
   $$
   P(C_k) = \frac{\text{Jumlah data dalam kelas } C_k}{\text{Total jumlah data}}
   $$
2. *Hitung Likelihood*:
   $$
   P(x_i|C_k) = \frac{\text{Jumlah data dalam kelas } C_k \text{ dengan fitur } x_i}{\text{Jumlah data dalam kelas } C_k}$$
   
3. *Hitung Probabilitas Posterior* menggunakan formula Naive Bayes. 
4. *Prediksi*: Pilih kelas dengan probabilitas posterior tertinggi.

---

## *Jenis-Jenis Naive Bayes*
### *1. Gaussian Naive Bayes*
- Digunakan untuk data kontinu, dengan asumsi distribusi normal (Gaussian).
- Likelihood dihitung sebagai:
  $$
  P(x|C_k) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right)
  $$
  Dimana:
  - $$\mu: \text{Mean (rata-rata).}$$
  - $$\sigma^2:\text{Varians.}$$

### *2. Multinomial Naive Bayes*
- Cocok untuk data diskret, seperti frekuensi kata dalam klasifikasi teks.
- Likelihood dihitung dari distribusi multinomial.

### *3. Bernoulli Naive Bayes*
- Digunakan untuk data biner (0 atau 1), misalnya ada atau tidaknya kata dalam dokumen.

---

## *Kelebihan Naive Bayes*
- Cepat dan mudah diimplementasikan.
- Efisien untuk dataset besar.
- Tidak rentan terhadap overfitting pada dataset kecil.

## *Kekurangan Naive Bayes*
- Asumsi independensi fitur sering kali tidak realistis.
- Tidak cocok untuk data dengan hubungan antar fitur yang kompleks.
- Performa bisa menurun jika distribusi probabilitas fitur tidak sesuai asumsi model.

---
## Kesimpulan
Naive Bayes adalah algoritma yang sederhana namun kuat untuk berbagai tugas klasifikasi, terutama pada data dengan dimensi tinggi seperti teks. Meskipun memiliki keterbatasan, performa yang efisien membuatnya menjadi pilihan utama untuk banyak aplikasi dunia nyata.

## Probabilitas Diskrit Probabilitas Bayesian
![WhatsApp Image 2024-12-09 at 07.28.39_94f9678c](https://hackmd.io/_uploads/rJjJq3XNJl.jpg)

* **Langkah-langkah Perhitungan**

menghitung probabilitas *Hipertensi (H)* dan *Tidak Hipertensi (T)* terhadap *usia paruh baya dengan tekanan darah sangat tinggi* menggunakan pendekatan Bayesian.


**1. Probabilitas Prior**

Hitung probabilitas prior untuk \( H \) dan \( T \):

$$
P(H) = \frac{\text{Jumlah data dengan } H}{\text{Total data}} = \frac{4}{8} = 0.5
$$
$$
P(T) = \frac{\text{Jumlah data dengan } T}{\text{Total data}} = \frac{4}{8} = 0.5
$$

---

**2. Probabilitas Likelihood**

Hitung probabilitas *Usia Paruh Baya* dan *Tekanan Darah Sangat Tinggi* berdasarkan masing-masing kategori \( H \) dan \( T \):

**a. Untuk Hipertensi  *H :***
- *Probabilitas Usia = Paruh Baya | H*:
$$
P(\text{Usia = Paruh Baya} | H) = \frac{\text{Jumlah data Paruh Baya dengan H}}{\text{Total data dengan H}} = \frac{1}{4} = 0.25
$$
- *Probabilitas Tekanan Darah = Sangat Tinggi | H*:
$$
P(\text{Tekanan Darah = Sangat Tinggi} | H) = \frac{\text{Jumlah data Sangat Tinggi dengan H}}{\text{Total data dengan H}} = \frac{1}{4} = 0.25
$$

**b. Untuk Tidak Hipertensi *T :***
- *Probabilitas Usia = Paruh Baya | T*:
$$
P(\text{Usia = Paruh Baya} | T) = \frac{\text{Jumlah data Paruh Baya dengan T}}{\text{Total data dengan T}} = \frac{1}{4} = 0.25
$$
- *Probabilitas Tekanan Darah = Sangat Tinggi | T*:
$$
P(\text{Tekanan Darah = Sangat Tinggi} | T) = \frac{\text{Jumlah data Sangat Tinggi dengan T}}{\text{Total data dengan T}} = \frac{0}{4} = 0
$$

---
**3. Hitung Probabilitas Posterior**

Gunakan Teorema Bayes untuk menghitung probabilitas posterior:

**a. Untuk Hipertensi *H :***
$$
P(H | \text{Paruh Baya, Sangat Tinggi}) \propto P(H) \cdot P(\text{Paruh Baya} | H) \cdot P(\text{Sangat Tinggi} | H)
$$
$$
P(H | \text{...}) = 0.5 \cdot 0.25 \cdot 0.25 = 0.03125
$$

**b. Untuk Tidak Hipertensi *T :***
$$
P(T | \text{Paruh Baya, Sangat Tinggi}) \propto P(T) \cdot P(\text{Paruh Baya} | T) \cdot P(\text{Sangat Tinggi} | T)
$$
$$
P(T | \text{...}) = 0.5 \cdot 0.25 \cdot 0 = 0
$$

---

**4. Normalisasi**

Normalisasi probabilitas:
$$
P(H | \text{...}) = \frac{0.03125}{0.03125 + 0} = 1
$$
$$
P(T | \text{...}) = \frac{0}{0.03125 + 0} = 0
$$

---

### *Kesimpulan*

Berdasarkan perhitungan Bayesian:
- $$ \text{Probabilitas Hipertensi H: }  P(H) = 1 $$
- $$ \text{Probabilitas Tidak Hipertensi T: } P(T) = 0 $$

Sehingga, *usia paruh baya dengan tekanan darah sangat tinggi* *pasti mengalami Hipertensi (H)*.