# **Naive Bayes**


## **Pengenalan Naive Bayes**

### **Apa itu Naive Bayes**  

- Algoritma klasifikasi berbasis probabilitas.  

- Digunakan untuk memprediksi kelas suatu data berdasarkan fitur-fiturnya.  

- Termasuk dalam keluarga algoritma Machine Learning Supervised Learning.  

### **Pengertian Naive Bayes**  
Naïve Bayes adalah algoritme machine learning yang digunakan untuk klasifikasi berdasarkan Teorema Bayes, yaitu menghitung probabilitas suatu kejadian berdasarkan informasi sebelumnya. Metode ini sering digunakan untuk berbagai tugas klasifikasi karena cepat dan efisien dalam menangani data dengan banyak fitur.

### **Konsep Dasar**
Disebut "naïve" karena mengasumsikan bahwa setiap fitur bersifat independen, meskipun dalam kenyataan seringkali fitur-fitur tersebut saling berkaitan.  
Contoh: Dalam penilaian kredit, faktor seperti pendapatan, riwayat pinjaman, dan usia dianggap tidak saling memengaruhi, meskipun sebenarnya bisa berkaitan.  

### **Implementasi Naive Bayes**
**Naïve Bayes** banyak digunakan dalam berbagai aplikasi, seperti:  
 Klasifikasi dokumen → Menentukan apakah suatu teks bertema olahraga, teknologi, politik, dll.  
 Deteksi spam → Menentukan apakah email termasuk spam atau bukan.  
 Sistem rekomendasi → Menyaring dan merekomendasikan produk atau konten.  
 Analisis sentimen → Menganalisis apakah ulasan suatu produk bernada positif atau negatif.  
 Prediksi cuaca → Menentukan kemungkinan kondisi cuaca berdasarkan data historis.  

### **Jenis-jenis Naive Bayes**  
Multinomial Naïve Bayes → Digunakan untuk klasifikasi teks berdasarkan frekuensi kata dalam dokumen.  

Gaussian Naïve Bayes → Digunakan untuk data kontinu yang diasumsikan mengikuti distribusi normal (Gaussian).  

Bernoulli Naïve Bayes → Digunakan untuk data dengan nilai Boolean (ya/tidak, muncul/tidak).  

## **Prinsip Dasar**  
### **Teorema Bayes:**  
$$
P(Y|X) = \frac{P(X|Y) \cdot P(Y)}{P(X)}
$$  

### **Penjelasan:**  
- **\( P(Y|X) \)**: Probabilitas posterior (kelas **Y** diberikan fitur **X**).  
- **\( P(X|Y) \)**: Likelihood (probabilitas fitur **X** diberikan kelas **Y**).  
- **\( P(Y) \)**: Prior probability (probabilitas awal kelas **Y**).  
- **\( P(X) \)**: Evidence (probabilitas fitur **X** secara keseluruhan).  

### **Tujuan:**  
Mencari kelas **Y** dengan nilai **\( P(Y|X) \)** tertinggi.

## **Langkah-langkah Klasifikasi**


### **1. Persiapan Data:**  
 Pisahkan data menjadi fitur (**X**) dan label (**Y**).  

### **2. Hitung Probabilitas Awal (\( P(Y) \))**  
 Hitung frekuensi setiap kelas dalam dataset.  

### **3. Hitung Likelihood (\( P(X|Y) \))**  
 Untuk setiap fitur, hitung probabilitas kemunculannya dalam setiap kelas.  

### **4. Gabungkan dengan Teorema Bayes:**  
 Gunakan rumus:  
  $$
  P(Y|X) = \frac{P(X|Y) \cdot P(Y)}{P(X)}
  $$   

### **5. Prediksi Kelas:**  
 Pilih kelas dengan nilai \( P(Y|X) \) tertinggi.

## **Kelebihan dan Kekurangan**  

### **Kelebihan:**  
- Sederhana dan mudah diimplementasikan.  
- Cepat dan efisien untuk dataset besar.  
- Cocok untuk data dengan banyak fitur.  
- Dapat digunakan untuk berbagai jenis data, termasuk teks dan numerik.  
- Memberikan hasil yang baik meskipun dengan jumlah data pelatihan yang sedikit.  

### **Kekurangan:**  
- Asumsi independensi fitur seringkali tidak realistis.  
- Performa menurun jika fitur saling bergantung.  
- Memerlukan penanganan khusus untuk data dengan probabilitas nol.  
- Sensitif terhadap data dengan distribusi yang tidak seimbang.  
- Tidak selalu akurat dibandingkan dengan model yang lebih kompleks seperti Random Forest atau SVM.

## **Langkah-langkah Perhitungan Manual Gaussian Naïve Bayes dengan Variance**  

### **1. Persiapan Data**
- Pisahkan dataset menjadi fitur $ X $ dan label $ Y $.

### **2. Menghitung Probabilitas Awal $ P(Y) $**
- Hitung probabilitas setiap kelas dalam dataset:
  $$
  P(Y) = \frac{\text{Jumlah sampel dalam kelas tersebut}}{\text{Total sampel}}
  $$

### **3. Menghitung Mean ($\mu$) dan Variance ($\sigma^2$)**  
Untuk setiap fitur dalam setiap kelas:
- **Rata-rata (Mean)**
  $$
  \mu = \frac{\sum x}{N}
  $$
- **Variance ($\sigma^2$)**
  $$
  \sigma^2 = \frac{\sum (x_i - \mu)^2}{N}
  $$
  Variance menggantikan standar deviasi dalam perhitungan distribusi normal.

### **4. Menghitung Likelihood $ P(X|Y) $ Menggunakan Distribusi Gaussian**  
Gunakan rumus **distribusi Gaussian** dengan variance:  
$$  
P(x|\mu, \sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}} e^{-\frac{(x - \mu)^2}{2\sigma^2}}
$$  
Untuk setiap fitur  X_i , hitung probabilitasnya berdasarkan mean dan variance dari kelas yang bersangkutan.

### **5. Menggabungkan dengan Teorema Bayes**  
Gunakan Teorema Bayes untuk menghitung probabilitas posterior:  
$$  
P(Y|X) = \frac{P(X|Y) P(Y)}{P(X)}
$$  
Karena  P(X)  sama untuk semua kelas, kita cukup mencari nilai P(Y|X)  terbesar.

### **6. Prediksi Kelas**
- Pilih kelas $ Y $ dengan nilai $ P(Y|X) $ tertinggi.


## **Contoh perhitungan manual Gaussian Naïve Bayes** 
menggunakan **15 data mahasiswa**, dengan **4 fitur** dan **3 kelas label**.


### **📌 Dataset Mahasiswa**
| No | IPK | Kehadiran (%) | Tugas | Ujian | Kelas (Label) |
|----|----|----|----|----|----|
| 1  | 3.5 | 90 | 80 | 85 | A |
| 2  | 3.8 | 85 | 78 | 88 | A |
| 3  | 3.6 | 92 | 82 | 84 | A |
| 4  | 3.9 | 80 | 79 | 89 | A |
| 5  | 3.7 | 87 | 81 | 86 | A |
| 6  | 3.2 | 75 | 70 | 78 | B |
| 7  | 3.0 | 80 | 72 | 76 | B |
| 8  | 2.9 | 78 | 74 | 75 | B |
| 9  | 3.1 | 77 | 71 | 77 | B |
| 10 | 3.3 | 74 | 69 | 79 | B |
| 11 | 2.5 | 60 | 60 | 65 | C |
| 12 | 2.7 | 55 | 58 | 63 | C |
| 13 | 2.6 | 57 | 59 | 64 | C |
| 14 | 2.8 | 53 | 57 | 62 | C |
| 15 | 2.4 | 50 | 55 | 60 | C |



## **Langkah 1: Hitung Probabilitas Awal $ P(Y) $**
Jumlah mahasiswa per kelas:
- **A** = 5
- **B** = 5
- **C** = 5  
Total = 15

$$
P(A) = \frac{5}{15} = 0.33
$$  
$$
P(B) = \frac{5}{15} = 0.33
$$  
$$
P(C) = \frac{5}{15} = 0.33
$$ 



## **Langkah 2: Hitung Mean $\mu$ dan Variance $\sigma^2$**

### **Kelas A**
| Fitur | Mean $\mu$ | Variance $\sigma^2$ |
|--------|--------------|----------------|
| IPK | $ \frac{3.5 + 3.8 + 3.6 + 3.9 + 3.7}{5} = 3.7 $ | $ \frac{(3.5-3.7)^2 + (3.8-3.7)^2 + ...}{5} = 0.02 $ |
| Kehadiran | 86.8 | 17.36 |
| Tugas | 80 | 2.5 |
| Ujian | 86.4 | 4.64 |

### **Kelas B**
| Fitur | Mean $\mu$ | Variance $\sigma^2$ |
|--------|--------------|----------------|
| IPK | 3.1 | 0.02 |
| Kehadiran | 76.8 | 5.36 |
| Tugas | 71.2 | 6.96 |
| Ujian | 77 | 1.36 |

### **Kelas C**
| Fitur | Mean $\mu$ | Variance $\sigma^2$ |
|--------|--------------|----------------|
| IPK | 2.6 | 0.02 |
| Kehadiran | 55 | 11.5 |
| Tugas | 57.8 | 3.7 |
| Ujian | 62.8 | 4.2 |


## **Langkah 3: Hitung Likelihood \( P(X|Y) \) Menggunakan Distribusi Gaussian**

Misalkan ada **mahasiswa baru** dengan data berikut:

| IPK | Kehadiran (%) | Tugas | Ujian |
|----|----|----|----|
| 3.4 | 82 | 75 | 80 |

Gunakan **Distribusi Gaussian** untuk menghitung probabilitas masing-masing kelas:


$$P(x|\mu, \sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}} e^{-\frac{(x - \mu)^2}{2\sigma^2}}$$


Untuk IPK kelas **A**:

$$P(3.4 | A) = \frac{1}{\sqrt{2\pi(0.02)}} e^{-\frac{(3.4 - 3.7)^2}{2(0.02)}}$$

Untuk Kehadiran kelas **A**:

$$P(82 | A) = \frac{1}{\sqrt{2\pi(17.36)}} e^{-\frac{(82 - 86.8)^2}{2(17.36)}}$$


Lakukan perhitungan serupa untuk semua fitur dan semua kelas.



## **Langkah 4: Hitung \( P(Y|X) \) Menggunakan Teorema Bayes**
$
P(A|X) = P(X|A) P(A)
$
$
P(B|X) = P(X|B) P(B)
$
$
P(C|X) = P(X|C) P(C)
$

Bandingkan hasilnya dan pilih kelas dengan nilai probabilitas terbesar.



## **Langkah 5: Prediksi Kelas**
Misalnya setelah perhitungan, diperoleh:
- $ P(A|X) = 0.50 $
- $ P(B|X) = 0.30 $
- $ P(C|X) = 0.20 $

Maka, **mahasiswa baru diklasifikasikan sebagai kelas A**.

**Catatan:**
- Perhitungan manual ini bisa sangat panjang, sehingga biasanya menggunakan Python untuk menghitungnya.
- Jika ingin melihat implementasi dalam Python,scrol ke paling bawah namun saya menggunakan dataset yang berbeda


## **Rumus Variance $\sigma^2$**
$\sigma^2 = \frac{\sum (x_i - \mu)^2}{N}$
di mana:
- $ x_i $ adalah nilai dari fitur tertentu dalam suatu kelas,
- $ \mu $ adalah mean dari fitur dalam kelas tersebut,
- $ N $ adalah jumlah data dalam kelas.



## **Menghitung Variance untuk Kelas A**  

### **1️. Variance untuk Fitur IPK di Kelas A**
**Data IPK Kelas A:**  
$3.5, 3.8, 3.6, 3.9, 3.7$  

**Mean ($\mu$)**:  

$$\mu_{IPK,A} = \frac{3.5 + 3.8 + 3.6 + 3.9 + 3.7}{5} = 3.7$$  


**Variance ($\sigma^2$)**:  

$$\sigma^2_{IPK,A} = \frac{(3.5 - 3.7)^2 + (3.8 - 3.7)^2 + (3.6 - 3.7)^2 + (3.9 - 3.7)^2 + (3.7 - 3.7)^2}{5}$$  

$$= \frac{(-0.2)^2 + (0.1)^2 + (-0.1)^2 + (0.2)^2 + (0.0)^2}{5}$$  

$$= \frac{0.04 + 0.01 + 0.01 + 0.04 + 0.00}{5} = \frac{0.10}{5} = 0.02$$  



### **2️. Variance untuk Fitur Kehadiran di Kelas A**
**Data Kehadiran Kelas A:**  
$ 90, 85, 92, 80, 87 $  

**Mean ($\mu$)**:  

$$\mu_{Kehadiran,A} = \frac{90 + 85 + 92 + 80 + 87}{5} = 86.8$$  

  
**Variance ($\sigma^2$)**:  

$$\sigma^2_{Kehadiran,A} = \frac{(90 - 86.8)^2 + (85 - 86.8)^2 + (92 - 86.8)^2 + (80 - 86.8)^2 + (87 - 86.8)^2}{5}$$  

$$= \frac{(3.2)^2 + (-1.8)^2 + (5.2)^2 + (-6.8)^2 + (0.2)^2}{5}$$  

$$= \frac{10.24 + 3.24 + 27.04 + 46.24 + 0.04}{5} = \frac{86.8}{5} = 17.36$$  



### **3️. Variance untuk Fitur Tugas di Kelas A**
**Data Tugas Kelas A:**  
$ 80, 78, 82, 79, 81 $  

**Mean ($\mu$)**:  

$$\mu_{Tugas,A} = \frac{80 + 78 + 82 + 79 + 81}{5} = 80$$  


**Variance ($\sigma^2$)**:  

$$\sigma^2_{Tugas,A} = \frac{(80-80)^2 + (78-80)^2 + (82-80)^2 + (79-80)^2 + (81-80)^2}{5}$$  

$$= \frac{0 + 4 + 4 + 1 + 1}{5} = \frac{10}{5} = 2.5$$



### **4️. Variance untuk Fitur Ujian di Kelas A**
**Data Ujian Kelas A:**  
$ 85, 88, 84, 89, 86 $  

**Mean ($\mu$)**:  

$$\mu_{Ujian,A} = \frac{85 + 88 + 84 + 89 + 86}{5} = 86.4$$  


**Variance ($\sigma^2$)**:  

$$\sigma^2_{Ujian,A} = \frac{(85-86.4)^2 + (88-86.4)^2 + (84-86.4)^2 + (89-86.4)^2 + (86-86.4)^2}{5}$$  

$$= \frac{(-1.4)^2 + (1.6)^2 + (-2.4)^2 + (2.6)^2 + (-0.4)^2}{5}$$  

$$= \frac{1.96 + 2.56 + 5.76 + 6.76 + 0.16}{5} = \frac{17.2}{5} = 4.64$$  



### **Ringkasan Variance ($\sigma^2$) untuk Semua Kelas**  
Sekarang kita susun hasil perhitungan variance untuk semua kelas dalam tabel berikut:  

| Fitur  | $\sigma^2_A$ | $\sigma^2_B$ | $\sigma^2_C$ |
|--------|--------------|--------------|--------------|
| IPK | 0.02 | 0.02 | 0.02 |
| Kehadiran | 17.36 | 5.36 | 11.5 |
| Tugas | 2.5 | 6.96 | 3.7 |
| Ujian | 4.64 | 1.36 | 4.2 |



### **Menggunakan Variance dalam Gaussian Naïve Bayes**  
Setelah mendapatkan variance ($\sigma^2$), kita gunakan dalam **distribusi Gaussian**:  

$$  
P(x|\mu, \sigma) = \frac{1}{\sqrt{2\pi\sigma^2}} e^{-\frac{(x - \mu)^2}{2\sigma^2}}
$$  

Misalkan kita ingin menghitung probabilitas untuk **IPK = 3.4 dalam Kelas A**, kita substitusi:  

$$  
P(3.4 | A) = \frac{1}{\sqrt{2\pi(0.02)}} e^{-\frac{(3.4 - 3.7)^2}{2(0.02)}}
$$  

Lakukan hal yang sama untuk semua fitur dan kelas lainnya.  


**Kesimpulan:**  
- Variance ($\sigma^2$) sudah dihitung ulang dan disesuaikan dengan dataset mahasiswa.  
- Hasilnya dapat digunakan dalam distribusi Gaussian untuk menghitung likelihood $ P(X|Y) $.  
- Selanjutnya, kita bisa melanjutkan perhitungan $ P(Y|X) $ dan menentukan kelas prediksi.  


### **Selanjutnya kita akan membandingkan dataset iris yang ada outlier dan tanpa outlier**

**Import Library**

In [1]:
import pandas as pd
import numpy as np
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_test_split

`pandas (pd)`: Manipulasi data (baca CSV, hapus kolom, dsb.).  
`numpy (np)`: Operasi numerik (tidak digunakan langsung di kode ini, tapi berguna untuk perhitungan).  
`LabelEncoder`: Mengubah label kategori (string) menjadi angka agar bisa digunakan dalam machine learning.  
`train_test_split`: Membagi dataset menjadi data training dan testing.  

**Membaca dataset dari File csv**

In [2]:
df = pd.read_csv('combined_data.csv')  # Sesuaikan dengan nama file CSV

Membaca dataset dari file CSV bernama `combined_data.csv`.  
Menyimpan data dalam format DataFrame `(df)`.  

**Menghapus kolom kolom pertama ID**

In [3]:
df = df.iloc[:, 1:]  

Kolom ID dihapus karena biasanya tidak memiliki pengaruh dalam proses klasifikasi atau prediksi.  

Menghapus kolom pertama dari dataset (diasumsikan sebagai kolom `ID`).  
`iloc[:, 1:]`:  
- `:` → Pilih semua baris.  
- `1:` → Pilih semua kolom mulai dari indeks ke-1 (menghapus kolom ke-0).  

**Memisahkan Label Kelas (y) dan Fitur (X)**

In [4]:
y = df.iloc[:, 0]   # Kolom pertama setelah ID adalah label kelas
X = df.iloc[:, 1:]  # Sisanya adalah fitur numerik

`y = df.iloc[:, 0]`: Mengambil kolom pertama sebagai label **kelas** (y).  
`X = df.iloc[:, 1:]`: Mengambil kolom lainnya sebagai **fitur** (X).

**Mengubah Label Kelas dari String ke Angka**  
Mengapa perlu labelnya di ubah yang sebelumnya string ke angka?   
karena ,ika kelas masih dalam bentuk string, model tidak bisa melakukan operasi matematika.   
Sebagai contoh, Gaussian Naïve Bayes menghitung probabilitas berdasarkan statistik, yang hanya bisa diterapkan pada angka.  

In [5]:
le = LabelEncoder()
y = le.fit_transform(y)  # Konversi label kelas dari string ke angka

`LabelEncoder()`: Membuat encoder untuk mengubah label kategori menjadi angka.  
`.fit_transform(y)`:  
- Mengubah nilai string dalam `y` menjadi angka (misalnya, `'setosa'` → `0`, `'versicolor'` → `1`, `'virginica'` → `2`).  

**Mengubah Semua Fitur (X) Menjadi Float**

In [6]:
X = X.astype(float)

Mengonversi semua fitur `(X)` menjadi tipe data float.  
Ini diperlukan karena beberapa algoritma ML tidak bisa bekerja dengan tipe data selain numerik.  

**Menampilkan Data yang Telah Diproses**

In [7]:
print("Dataset berhasil diproses. Berikut beberapa data pertama:")
print(df.head())

Dataset berhasil diproses. Berikut beberapa data pertama:
         class  petal_length  petal_width  sepal_length  sepal_width
0  Iris-setosa          70.0         86.4          20.1         30.5
1  Iris-setosa           1.4          0.2           4.9          3.0
2  Iris-setosa           1.3          0.2           4.7          3.2
3  Iris-setosa           1.5          0.2           4.6          3.1
4  Iris-setosa           1.4          0.2           5.0          3.6


Menampilkan pesan sukses setelah preprocessing selesai.  
`df.head()`: Menampilkan 5 baris pertama dataset untuk verifikasi.  

**Memilih Fitur**

In [8]:
X = df[['sepal_length', 'sepal_width', 'petal_length', 'petal_width']]
y = df['class']  # Label target

Memilih 4 fitur utama dari dataset `(sepal_length, sepal_width, petal_length, petal_width)`.  
`y = df['class']`: Menentukan target klasifikasi (class).  

**Persiapan data dan Membagi Dataset menjadi Training dan Testing**

In [9]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2,random_state=42)

Membagi dataset menjadi:  
- `80%` data training `(X_train, y_train)`. 
- `20%` data testing `(X_test, y_test)`.  
- `random_state=42`: Agar hasil pembagian selalu sama setiap dijalankan.  

**Menampilkan Ukuran Data Setelah Split**

In [10]:
print("X_train shape:", X_train.shape)  # Harus (n_train, 4)
print("X_test shape:", X_test.shape)    # Harus (n_test, 4)

X_train shape: (120, 4)
X_test shape: (30, 4)


Menampilkan jumlah sampel dan fitur setelah data dibagi.  
`.shape`: Mengembalikan jumlah baris dan kolom dalam dataset.  
`X_train.shape` dan `X_test.shape` harus berupa `(jumlah_sampel, 4)`, karena kita hanya memiliki 4 fitur.  

**Inisialisasi Model**

In [11]:
from sklearn.naive_bayes import GaussianNB
model = GaussianNB()

**Melatih model**

In [12]:
model.fit(X_train, y_train)

**Memprediksi hasil**

In [13]:
y_pred = model.predict(X_test)

**Mengecek akurasi**

In [14]:
from sklearn.metrics import accuracy_score
accuracy = accuracy_score(y_test, y_pred)
print("Akurasi:", accuracy)

Akurasi: 0.9666666666666667


### **Data setelah outlier dihapus**

**Import Library**

In [15]:
from sklearn.neighbors import LocalOutlierFactor
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import GaussianNB
from sklearn.metrics import accuracy_score

`LocalOutlierFactor`: Digunakan untuk mendeteksi outlier dalam dataset.  
`train_test_split`: Membagi dataset menjadi data training dan testing.  
`GaussianNB`: Model Gaussian Naïve Bayes untuk klasifikasi.  
`accuracy_score`: Menghitung akurasi prediksi model.  

**Menentukan Kolom Numerik**

In [16]:
numeric_columns = df.select_dtypes(include=['float64', 'int64']).columns.tolist()

Mendeteksi kolom yang berisi data numerik `(float64 dan int64)`.  
Mengembalikan daftar nama kolom numerik dalam dataset.  
Ini penting karena `LocalOutlierFactor`hanya bisa bekerja dengan data numerik.  



**Menghapus Outlier Menggunakan LOF**

In [17]:
lof = LocalOutlierFactor(n_neighbors=20, contamination=0.05)
outliers = lof.fit_predict(df[numeric_columns])
df_no_outliers_lof = df[outliers == 1].reset_index(drop=True)  

`LocalOutlierFactor(n_neighbors=20, contamination=0.05)`:  
- `n_neighbors=20` → Melihat 20 tetangga terdekat untuk menentukan apakah titik itu outlier atau bukan.  
- `contamination=0.05` → 5% data dianggap outlier.  

`lof.fit_predict(df[numeric_columns])`:  
- Mendeteksi outlier dalam dataset.
- Hasilnya adalah array label (1 untuk data normal, -1 untuk outlier).

`df[outliers == 1]`:  
- Hanya menyimpan data yang bukan outlier `(1)`.

`.reset_index(drop=True)`:  
- Mereset indeks agar tidak ada indeks yang hilang setelah data dihapus.



**Menghapus Baris dengan ID = 1**

In [18]:
if 'id' in df_no_outliers_lof.columns:
    df_no_outliers_lof = df_no_outliers_lof[df_no_outliers_lof['id'] != 0].reset_index(drop=True)

Memeriksa apakah ada kolom `'id'` dalam dataset.  
Jika ada, hapus baris dengan `ID = 1`.  
`reset_index(drop=True)`: Agar indeks tetap berurutan setelah penghapusan.  

In [19]:
if 'class' in df_no_outliers_lof.columns:
    X = df_no_outliers_lof[numeric_columns]
    y = df_no_outliers_lof['class']

    # Membagi data menjadi training dan testing
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

    # Melatih ulang Gaussian Naïve Bayes
    model = GaussianNB()
    model.fit(X_train, y_train)
    y_pred = model.predict(X_test)

    # Menghitung akurasi
    accuracy = accuracy_score(y_test, y_pred)
    print("Akurasi setelah LOF dan hapus ID = 1:", accuracy)
else:
    print("Kolom 'class' tidak ditemukan dalam dataset.")

Akurasi setelah LOF dan hapus ID = 1: 0.9655172413793104


 **Memeriksa Apakah Kolom 'class' Ada**  
```python
if 'class' in df_no_outliers_lof.columns:
```
 **Fungsi:**  
- **Pastikan dataset memiliki kolom `'class'`** (label target untuk klasifikasi).  
- Jika tidak ada, program akan mencetak pesan error dan tidak menjalankan training model.  

 **Menyiapkan Data untuk Training & Testing**  
```python
X = df_no_outliers_lof[numeric_columns]
y = df_no_outliers_lof['class']
```
 **Fungsi:**  
- `X`: **Fitur (independent variables)** → Semua kolom numerik dalam dataset.  
- `y`: **Target (dependent variable)** → Kolom `'class'`.  

```python
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
```
 **Fungsi:**  
- **Membagi dataset menjadi 80% training dan 20% testing**.  
- `random_state=42` → Agar hasil pembagian selalu sama setiap dijalankan.  

 **Melatih Model Gaussian Naïve Bayes**  
```python
model = GaussianNB()
model.fit(X_train, y_train)
```
 **Fungsi:**  
- `GaussianNB()`: **Membuat model Naïve Bayes dengan distribusi Gaussian**.  
- `.fit(X_train, y_train)`: **Melatih model menggunakan data training**.  

 **Memprediksi Data Testing**  
```python
y_pred = model.predict(X_test)
```
 **Fungsi:**  
- **Memprediksi kelas dari data testing (`X_test`)**.  

 **Menghitung Akurasi Model**  
```python
accuracy = accuracy_score(y_test, y_pred)
print("Akurasi setelah LOF dan hapus ID=1:", accuracy)
```
 **Fungsi:**  
- **Membandingkan hasil prediksi (`y_pred`) dengan label asli (`y_test`)**.  
- `accuracy_score(y_test, y_pred)`: **Menghitung akurasi model**.  
- `print()` → Menampilkan akurasi ke layar.  

 **Jika Kolom 'class' Tidak Ada**  
```python
else:
    print("Kolom 'class' tidak ditemukan dalam dataset.")
```
 **Fungsi:**  
- Jika **tidak ada kolom `'class'`**, maka model tidak bisa dilatih.  
- Program akan **menampilkan pesan error** dan berhenti.  


## **Kesimpulan**  

1. Setelah menghapus outlier menggunakan **Local Outlier Factor (LOF)**, akurasi sedikit menurun dari **96.67% menjadi 96.55%**.  
2. Menghapus outlier **tidak selalu meningkatkan akurasi**, kadang justru bisa sedikit menurunkannya.  
3. **Tidak semua outlier harus dihapus**, karena ada kemungkinan mereka mengandung informasi yang berguna untuk model.  
4. Sebelum menghapus outlier, **perlu dicek dulu apakah mereka benar-benar mengganggu hasil atau tidak**.  

Jadi, dalam kasus ini, **menghapus outlier tidak terlalu berpengaruh** dan metode lain mungkin lebih efektif untuk meningkatkan akurasi.