# Klasifikasi Naive Bayas  

## Penjelasan Klasifikasi Naive Bayas  

**Apa itu Naive Bayes?**  
- Algoritma klasifikasi berbasis probabilitas.  
- Digunakan untuk memprediksi kelas suatu data berdasarkan fitur-fiturnya.  
- Termasuk dalam keluarga algoritma Machine Learning Supervised Learning.  

**Asumsi “Naive”**  
- Fitur-fitur bersifat independen satu sama lain.  
- Artinya, probabilitas suatu fitur tidak dipengaruhi oleh fitur lainnya.  

### **1. Prinsip Dasar - Teorema Bayes**  

**Teorema Bayes:**  

$$
P(Y | X) = \frac{P(X | Y) \cdot P(Y)}{P(X)}
$$  
  
**Penjelasan:**  
- $ P(Y | X) $ = Probabilitas posterior (kelas $𝑌$ diberikan fitur $𝑋$).  
- $ P(X | Y) $ = Likelihood (probabilitas fitur $𝑋$ diberikan kelas $𝑌$).  
- $ P(Y) $ = Prior probability (probabilitas awal kelas $𝑌$).  
- $ P(X) $ = Evidence (probabilitas fitur $𝑋$ secara keseluruhan).  

**Tujuan:**  
Mencari kelas $𝑌$ dengan nilai $𝑃(𝑌|𝑋)$ tertinggi.  

### **2. Contoh Aplikasi:**  

- Klasifikasi email spam atau bukan spam.  
- Prediksi cuaca.  
- Analisis sentimen teks.  

### **3. Langkah-langkah Klasifikasi**  

**1. Persiapan Data:**  
- Pisahkan data menjadi fitur ($𝑋$) dan label ($𝑌$).  

**2. Hitung Probabilitas Awal ($𝑃$($𝑌$)):**  
- Hitung frekuensi setiap kelas dalam dataset.  

**3. Hitung Likelihood ($𝑃$($𝑋$|$𝑌$)):**  
- Untuk setiap fitur, hitung probabilitas kemunculannya dalam setiap kelas.  

**4. Gabungkan dengan Teorema Bayes:**  
- Gunakan rumus
$
P(Y | X) = \frac{P(X | Y) \cdot P(Y)}{P(X)}  
$  

**5. Prediksi Kelas:**  
- Pilih kelas dengan nilai $𝑃$($𝑌$|$𝑋$) tertinggi.

### **4. Kelebihan dan Kekurangan**  

**Kelebihan:**  
- Sederhana dan mudah diimplementasikan.  
- Cepat dan efisien untuk dataset besar.  
- Cocok untuk data dengan banyak fitur.  

**Kekurangan:**  
- Asumsi independensi fitur seringkali tidak realistis.  
- Performa menurun jika fitur saling bergantung.  
- Memerlukan penanganan khusus untuk data dengan probabilitas nol.  

### **5. Contoh Kasus - Klasifikasi Email Spam**  

**Dataset:**  
- **Fitur:** Frekuensi kata-kata tertentu (e.g., “gratis”, “diskon”).  
- **Label:** Spam atau Bukan Spam.  

**Langkah-Langkah:**  
1. Hitung probabilitas prior untuk setiap kelas.  
2. Hitung likelihood untuk setiap kata dalam email.  
3. Gunakan teorema Bayes untuk memprediksi apakah email termasuk spam atau bukan.  

**Hasil:**  

Email diklasifikasikan sebagai spam jika probabilitas spam lebih tinggi daripada bukan spam.  


## **Implementasi Naive Bayes**  

Import Library

In [479]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

### **Implementasi Menggunakan Outlier**

Import Dataset

In [480]:
dataset = pd.read_csv('data_gabungan_baru.csv')
dataset.head()

Unnamed: 0,id,class,petal_length,petal_width,sepal_length,sepal_width
0,1,Iris-setosa,86.4,70.0,20.1,30.5
1,2,Iris-setosa,1.4,0.2,4.9,3.0
2,3,Iris-setosa,1.3,0.2,4.7,3.2
3,4,Iris-setosa,1.5,0.2,4.6,3.1
4,5,Iris-setosa,1.4,0.2,5.0,3.6


In [481]:
X = dataset.iloc[:, 4:].values
y = dataset['class'].values

In [482]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, random_state=43)

In [483]:
from sklearn.preprocessing import StandardScaler
sc = StandardScaler()
X_train = sc.fit_transform(X_train)
X_test = sc.transform(X_test)

In [484]:
from sklearn.naive_bayes import GaussianNB
classifier = GaussianNB()
classifier.fit(X_train, y_train)

In [485]:
y_pred = classifier.predict(X_test) 
y_pred

array(['Iris-setosa', 'Iris-setosa', 'Iris-versicolor', 'Iris-versicolor',
       'Iris-virginica', 'Iris-setosa', 'Iris-versicolor',
       'Iris-versicolor', 'Iris-versicolor', 'Iris-versicolor',
       'Iris-setosa', 'Iris-virginica', 'Iris-virginica', 'Iris-setosa',
       'Iris-versicolor', 'Iris-versicolor', 'Iris-setosa', 'Iris-setosa',
       'Iris-versicolor', 'Iris-virginica', 'Iris-setosa', 'Iris-setosa',
       'Iris-setosa', 'Iris-versicolor', 'Iris-versicolor',
       'Iris-virginica', 'Iris-setosa', 'Iris-versicolor', 'Iris-setosa',
       'Iris-setosa'], dtype='<U15')

In [486]:
from sklearn.metrics import confusion_matrix
cm = confusion_matrix(y_test, y_pred)
from sklearn.metrics import accuracy_score 
print ("Accuracy : ", accuracy_score(y_test, y_pred))
cm

Accuracy :  0.8


array([[13,  0,  0],
       [ 0,  7,  1],
       [ 0,  5,  4]])

In [487]:
df = pd.DataFrame({'Real Values':y_test, 'Predicted Values':y_pred})
df

Unnamed: 0,Real Values,Predicted Values
0,Iris-setosa,Iris-setosa
1,Iris-setosa,Iris-setosa
2,Iris-virginica,Iris-versicolor
3,Iris-versicolor,Iris-versicolor
4,Iris-virginica,Iris-virginica
5,Iris-setosa,Iris-setosa
6,Iris-virginica,Iris-versicolor
7,Iris-versicolor,Iris-versicolor
8,Iris-versicolor,Iris-versicolor
9,Iris-versicolor,Iris-versicolor


### **Implementasi Tanpa Menggunakan Outlier**

Import Dataset

In [488]:
dataset = pd.read_csv('data_gabungan.csv')
dataset.head()

Unnamed: 0,id,class,petal_length,petal_width,sepal_length,sepal_width
0,1,Iris-setosa,1.4,0.2,5.1,3.5
1,2,Iris-setosa,1.4,0.2,4.9,3.0
2,3,Iris-setosa,1.3,0.2,4.7,3.2
3,4,Iris-setosa,1.5,0.2,4.6,3.1
4,5,Iris-setosa,1.4,0.2,5.0,3.6


Memisahkan Fitur dan Label

In [489]:
X = dataset.iloc[:, 4:].values
y = dataset['class'].values

Pisah Dataset ke Data Latih dan Data Uji

In [490]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, random_state=42)

Normalisasi Data

In [491]:
from sklearn.preprocessing import StandardScaler
sc = StandardScaler()
X_train = sc.fit_transform(X_train)
X_test = sc.transform(X_test)

In [492]:
from sklearn.naive_bayes import GaussianNB
classifier = GaussianNB()
classifier.fit(X_train, y_train)

In [493]:
y_pred = classifier.predict(X_test) 
y_pred

array(['Iris-versicolor', 'Iris-setosa', 'Iris-virginica',
       'Iris-versicolor', 'Iris-virginica', 'Iris-setosa',
       'Iris-versicolor', 'Iris-virginica', 'Iris-versicolor',
       'Iris-versicolor', 'Iris-virginica', 'Iris-setosa', 'Iris-setosa',
       'Iris-setosa', 'Iris-setosa', 'Iris-virginica', 'Iris-virginica',
       'Iris-versicolor', 'Iris-versicolor', 'Iris-virginica',
       'Iris-setosa', 'Iris-versicolor', 'Iris-setosa', 'Iris-virginica',
       'Iris-virginica', 'Iris-virginica', 'Iris-virginica',
       'Iris-virginica', 'Iris-setosa', 'Iris-setosa'], dtype='<U15')

In [494]:
from sklearn.metrics import confusion_matrix
cm = confusion_matrix(y_test, y_pred)
from sklearn.metrics import accuracy_score 
print ("Accuracy : ", accuracy_score(y_test, y_pred))
cm

Accuracy :  0.9


array([[10,  0,  0],
       [ 0,  7,  2],
       [ 0,  1, 10]])

Perbandingan Nilai Real dengan Nilai Prediksi

In [496]:
df = pd.DataFrame({'Real Values':y_test, 'Predicted Values':y_pred})
df

Unnamed: 0,Real Values,Predicted Values
0,Iris-versicolor,Iris-versicolor
1,Iris-setosa,Iris-setosa
2,Iris-virginica,Iris-virginica
3,Iris-versicolor,Iris-versicolor
4,Iris-versicolor,Iris-virginica
5,Iris-setosa,Iris-setosa
6,Iris-versicolor,Iris-versicolor
7,Iris-virginica,Iris-virginica
8,Iris-versicolor,Iris-versicolor
9,Iris-versicolor,Iris-versicolor
