# **Klasifikasi Naive Bayes**

# **Apa itu naive bayes...?**

Naïve Bayes adalah salah satu algoritma klasifikasi dalam pembelajaran mesin yang termasuk dalam metode pembelajaran terbimbing (*supervised learning*). Algoritma ini sering digunakan dalam berbagai tugas klasifikasi seperti klasifikasi teks, filtering spam, analisis sentimen, dan berbagai aplikasi lainnya. Naïve Bayes didasarkan pada prinsip probabilitas dan menggunakan Teorema Bayes sebagai dasar perhitungannya. Teorema Bayes memungkinkan kita untuk menghitung kemungkinan suatu kejadian berdasarkan informasi yang telah diketahui sebelumnya. Dalam konteks klasifikasi, algoritma ini menghitung probabilitas suatu kategori berdasarkan fitur-fitur yang diberikan dalam data.  

Istilah *Naïve* atau *Naif* dalam Naïve Bayes digunakan karena algoritma ini mengasumsikan bahwa setiap fitur dalam data bersifat independen satu sama lain dalam menentukan kategori akhir. Dengan kata lain, algoritma ini menganggap bahwa tidak ada hubungan antar fitur, meskipun dalam kenyataannya mungkin ada keterkaitan. Sebagai contoh, dalam klasifikasi teks, Naïve Bayes mengasumsikan bahwa kemunculan sebuah kata dalam dokumen tidak dipengaruhi oleh kata lain, padahal dalam bahasa alami, kata-kata sering kali memiliki keterkaitan. Meskipun asumsi ini sederhana dan sering kali tidak realistis, algoritma Naïve Bayes tetap bekerja dengan baik dalam banyak kasus.    

Naïve Bayes memiliki beberapa keunggulan, di antaranya adalah kecepatan dan efisiensinya dalam memproses dataset yang besar, kemudahan implementasi dengan perhitungan probabilitas sederhana, serta kemampuannya bekerja dengan baik pada data kategorikal maupun teks. Selain itu, algoritma ini tidak membutuhkan banyak data latih untuk memberikan hasil yang baik. Namun, terdapat pula beberapa kelemahan, seperti asumsi independensi fitur yang sering kali tidak sesuai dengan kondisi nyata, kurangnya akurasi jika fitur saling bergantung satu sama lain, serta sensitivitas terhadap data yang belum pernah ditemui, yang dapat menyebabkan kesalahan jika ada kata atau fitur baru yang tidak muncul dalam data pelatihan.  

Secara keseluruhan, meskipun memiliki keterbatasan, algoritma Naïve Bayes tetap menjadi salah satu metode klasifikasi yang populer, terutama dalam pengolahan teks dan analisis data berbasis probabilitas. Kecepatan, kesederhanaan, dan efektivitasnya dalam menangani berbagai tugas klasifikasi menjadikannya pilihan yang kuat dalam berbagai aplikasi pembelajaran mesin.

# **Berikut adalah rumus naive bayes...!**

**Naïve Bayes Classifier**  

Naïve Bayes adalah metode klasifikasi berdasarkan **Teorema Bayes**. Rumus dasar dari Teorema Bayes adalah:  

$$
P(C|X) = \frac{P(X|C) \cdot P(C)}{P(X)}
$$

Di mana:  
- \( P(C|X) \) = Probabilitas kelas \( C \) berdasarkan fitur \( X \) (*posterior probability*).  
- \( P(X|C) \) = Probabilitas fitur \( X \) muncul dalam kategori \( C \) (*likelihood*).  
- \( P(C) \) = Probabilitas awal dari kelas \( C \) (*prior probability*).  
- \( P(X) \) = Probabilitas fitur \( X \) dalam seluruh dataset (*evidence*).  

Karena dalam Naïve Bayes kita mengasumsikan fitur-fitur **bersifat independen**, maka probabilitas gabungan dari beberapa fitur \( X_1, X_2, ..., X_n \) dapat dihitung sebagai:  

$$
P(C|X_1, X_2, ..., X_n) = \frac{P(C) \cdot P(X_1|C) \cdot P(X_2|C) \cdots P(X_n|C)}{P(X_1) \cdot P(X_2) \cdots P(X_n)}
$$

Karena **\( P(X) \)** sama untuk semua kelas dalam klasifikasi, kita cukup menghitung pembilangnya saja:

$$
P(C|X_1, X_2, ..., X_n) \propto P(C) \cdot P(X_1|C) \cdot P(X_2|C) \cdots P(X_n|C)
$$

Jika terdapat kemungkinan kata atau fitur belum pernah muncul dalam data latih, maka kita menggunakan **Laplace Smoothing** untuk menghindari probabilitas nol:

$$
P(X_i|C) = \frac{\text{jumlah } X_i \text{ dalam } C + 1}{\text{total kata dalam } C + |V|}
$$

Di mana:  
- \( |V| \) adalah jumlah total kata unik dalam seluruh dataset.  
- \( 1 \) adalah nilai smoothing untuk menghindari pembagian dengan nol.  

## **Contoh Perhitungan**  

Misalkan kita memiliki dataset dengan dua kategori: **Spam** dan **Non-Spam**, dengan informasi berikut:  

| Kata dalam Email  | Spam (\( C_1 \)) | Non-Spam (\( C_2 \)) |
|------------------|-----------|---------------|
| Promo           | 3         | 1             |
| Diskon          | 2         | 1             |
| Transfer        | 1         | 2             |
| Sekarang        | 2         | 1             |
| **Total Kata**  | 8         | 5             |

Jika kita ingin menghitung probabilitas bahwa email **"Promo Diskon"** adalah **Spam**, kita gunakan rumus:  

### **1. Prior Probabilities**  
$$
P(\text{Spam}) = \frac{\text{Jumlah Email Spam}}{\text{Total Email}}
$$

### **2. Likelihood dengan Laplace Smoothing**  
$$
P(\text{Promo} | \text{Spam}) = \frac{3 + 1}{8 + 4} = \frac{4}{12}
$$  
$$
P(\text{Diskon} | \text{Spam}) = \frac{2 + 1}{8 + 4} = \frac{3}{12}
$$  

### **3. Kalkulasi Probabilitas Naïve Bayes**  
$$
P(\text{Spam} | \text{Promo, Diskon}) \propto P(\text{Spam}) \times P(\text{Promo} | \text{Spam}) \times P(\text{Diskon} | \text{Spam})
$$

# **Jenis-Jenis Naive Bayes...!**

Naive Bayes merupakan metode klasifikasi yang digunakan untuk berbagai jenis data. Berikut adalah penjelasan mengenai jenis-jenis Naive Bayes yang dapat digunakan sesuai dengan tipe data yang dimiliki:

**1. Gaussian Naive Bayes**

Gaussian Naive Bayes digunakan untuk data kontinu, seperti pengukuran fisik (misalnya, tinggi badan atau berat badan). Metode ini mengasumsikan bahwa fitur-fitur data mengikuti distribusi normal (Gaussian). Probabilitas suatu fitur dihitung menggunakan distribusi normal dengan rata-rata (\( \mu_C \)) dan varians (\( \sigma_C^2 \)) dari kelas tersebut.

Formula probabilitasnya adalah:

$$
P(X_i | C) = \frac{1}{\sqrt{2 \pi \sigma_C^2}} \exp \left( - \frac{(X_i - \mu_C)^2}{2\sigma_C^2} \right)
$$

- \( X_i \) = nilai fitur ke-\( i \) pada data
- \( \mu_C \) = rata-rata fitur pada kelas \( C \)
- \( \sigma_C^2 \) = varians fitur pada kelas \( C \)

**Contoh:**  
Jika kita ingin mengklasifikasikan seseorang sebagai "tinggi" atau "pendek" berdasarkan tinggi badan, kita bisa menggunakan Gaussian Naïve Bayes dengan distribusi normal untuk fitur tinggi badan pada masing-masing kategori.


**2. Multinomial Naive Bayes**

Multinomial Naive Bayes paling cocok digunakan untuk data diskrit, seperti frekuensi kemunculan fitur dalam dokumen. Misalnya, dalam klasifikasi teks, kita menghitung probabilitas kata-kata yang muncul dalam dokumen tertentu. Formula probabilitasnya adalah:

$$
P(X_i | C) = \frac{n_{i,C} + \alpha}{N_C + \alpha \cdot V}
$$

- \( n_{i,C} \) = jumlah kemunculan kata \( i \) dalam kelas \( C \)
- \( N_C \) = jumlah total kata dalam kelas \( C \)
- \( \alpha \) = parameter smoothing (biasanya \( \alpha = 1 \) untuk Laplace smoothing)
- \( V \) = jumlah total kata unik dalam seluruh dataset

**Contoh:**  
Jika kita ingin mengklasifikasikan email sebagai "Spam" atau "Non-Spam", kita dapat menghitung probabilitas kata "diskon" muncul dalam email spam dibandingkan dengan non-spam menggunakan Multinomial Naïve Bayes.



**3. Bernoulli Naive Bayes**

Bernoulli Naive Bayes digunakan untuk data biner, di mana fitur hanya memiliki dua nilai kemungkinan: ada (1) atau tidak ada (0). Probabilitas suatu fitur \( X_i \) muncul dalam kelas \( C \) dihitung dengan rumus berikut:

$$
P(X_i = 1 | C) = \frac{n_{i,C} + \alpha}{N_C + \alpha}
$$

- \( n_{i,C} \) = jumlah kejadian di mana fitur \( X_i \) ada dalam kelas \( C \)
- \( N_C \) = jumlah total data dalam kelas \( C \)
- \( \alpha \) = parameter smoothing (biasanya \( \alpha = 1 \) untuk Laplace smoothing)

**Contoh:**  
Misalnya, dalam filter spam, kita dapat memeriksa apakah kata "diskon" ada dalam email (1) atau tidak (0) dan mengklasifikasikan email tersebut sebagai spam atau tidak spam menggunakan Bernoulli Naïve Bayes.


**Ringkasan Formula Probabilitas**

1. **Gaussian Naive Bayes**:
   $$
   P(X_i | C) = \frac{1}{\sqrt{2 \pi \sigma_C^2}} \exp \left( - \frac{(X_i - \mu_C)^2}{2\sigma_C^2} \right)
   $$

2. **Multinomial Naive Bayes**:
   $$
   P(X_i | C) = \frac{n_{i,C} + \alpha}{N_C + \alpha \cdot V}
   $$

3. **Bernoulli Naive Bayes**:
   $$
   P(X_i = 1 | C) = \frac{n_{i,C} + \alpha}{N_C + \alpha}
   $$

Dengan rumus-rumus ini, Anda dapat menghitung probabilitas untuk setiap jenis Naive Bayes sesuai dengan data yang Anda miliki dan menentukan kelas yang paling mungkin.


# **Berikut Perbandingan Perhitungan Data Naive Bayes...!**

Perbandingan yang dilakukan dalam penelitian ini menggunakan dataset Iris yang telah kita kumpulkan pada pertemuan sebelumnya, sehingga mempermudah dalam memperoleh data yang diperlukan. Pada langkah pertama, kita akan menghubungkan dataset Iris tersebut dengan database agar dapat memproses data lebih lanjut. Selanjutnya, perhitungan Naive Bayes dilakukan menggunakan data yang belum diproses, termasuk data yang mengandung outliers atau data kotor. Setelah itu, kita akan membersihkan data tersebut dengan menerapkan teknik Local Outlier Factor (LOF) yang telah dibahas sebelumnya untuk mendeteksi dan menghilangkan outliers dari dataset. Setelah data dibersihkan, kita akan kembali melakukan perhitungan menggunakan Naive Bayes pada data yang sudah bersih dan bebas dari outliers. Pada bagian akhir, kita akan menyajikan hasil dari kedua perhitungan tersebut, yakni perhitungan dengan data kotor dan data yang telah dibersihkan. Hasil tersebut kemudian akan dianalisis untuk mengungkapkan kesimpulan mengenai pengaruh outliers terhadap akurasi dan kinerja algoritma Naive Bayes.

In [16]:
# Mengkoneksi database dengan python
# Install library
!pip install pymysql
!pip install psycopg2
!pip install sqlalchemy
!pip install pandas

# Import library
import pymysql
import psycopg2
import pandas as pd
from sqlalchemy import create_engine

# for mysql
timeout = 10
connection = pymysql.connect(
    charset="utf8mb4",
    connect_timeout=timeout,
    cursorclass=pymysql.cursors.DictCursor,
    db="defaultdb",
    host="mysql-726cd75-mysqlpendata-11.h.aivencloud.com",
    password="AVNS_LHA80D-LNsKI6wncjfc",
    read_timeout=timeout,
    port=20734,
    user="avnadmin",
    write_timeout=timeout,
)
mysql_engine = create_engine("mysql+pymysql://avnadmin:AVNS_LHA80D-LNsKI6wncjfc@mysql-726cd75-mysqlpendata-11.h.aivencloud.com:20734/defaultdb")



# for postgre
def main():
    conn = psycopg2.connect('postgres://avnadmin:AVNS__Y6I8K0T7rSnwnRgE1U@pg-3266d3cf-postgresqlpendata-11.h.aivencloud.com:20817/defaultdb?sslmode=require')

    query_sql = 'SELECT VERSION()'

    cur = conn.cursor()
    cur.execute(query_sql)

    version = cur.fetchone()[0]
    print(version)

if __name__ == "__main__":
    main()
postgres_engine = create_engine("postgresql+psycopg2://avnadmin:AVNS__Y6I8K0T7rSnwnRgE1U@pg-3266d3cf-postgresqlpendata-11.h.aivencloud.com:20817/defaultdb")

# Ambil data dari MySQL
mysql_query = "SELECT * FROM iris_data"
mysql_df = pd.read_sql(mysql_query, mysql_engine)

# Ambil data dari PostgreSQL
pg_query = 'SELECT * FROM postgre'
pg_df = pd.read_sql(pg_query, postgres_engine)

merge_df = pd.merge(mysql_df, pg_df, left_on="id", right_on='id', how='outer')

# Menampilkan data yang diambil database dan ditampilkan dalam bentuk tabel
selected_columns = ["id", "class", "petal_length", "petal_width", "sepal length", "sepal width"]
filtered_df = merge_df[selected_columns]

print()
print("Berikut ini adalah hasil dari data yang diambil:")
print()
print(filtered_df)

PostgreSQL 16.8 on x86_64-pc-linux-gnu, compiled by gcc (GCC) 14.2.1 20240912 (Red Hat 14.2.1-3), 64-bit

Berikut ini adalah hasil dari data yang diambil:

      id           class  petal_length  petal_width  sepal length  sepal width
0      1     Iris-setosa          86.4         70.0          20.1         30.5
1      2     Iris-setosa           1.4          0.2           4.9          3.0
2      3     Iris-setosa           1.3          0.2           4.7          3.2
3      4     Iris-setosa           1.5          0.2           4.6          3.1
4      5     Iris-setosa           1.4          0.2           5.0          3.6
..   ...             ...           ...          ...           ...          ...
145  146  Iris-virginica           5.2          2.3           6.7          3.0
146  147  Iris-virginica           5.0          1.9           6.3          2.5
147  148  Iris-virginica           5.2          2.0           6.5          3.0
148  149  Iris-virginica           5.4          2.3   

## **Berikut adalah Membandingkan Data dengan Outliers...!**

In [56]:
# Import yang diperlukan
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import GaussianNB
from sklearn.metrics import accuracy_score

# Membuat DataFrame dengan data yang telah disiapkan
data = pd.DataFrame({
    'id': range(1, 151),
    'class': ['Iris-setosa'] * 50 + ['Iris-versicolor'] * 50 + ['Iris-virginica'] * 50,
    'petal_length': filtered_df['petal_length'],
    'petal_width': filtered_df['petal_width'],
    'sepal length': filtered_df['sepal length'],
    'sepal width': filtered_df['sepal width']
})

# === Data Preprocessing ===
data = data.drop(columns=['id'])  # Hapus kolom ID karena tidak diperlukan
X = data.drop(columns=['class'])  # Fitur (features)
y = data['class']  # Label (target)

# === Membagi Data menjadi Training dan Testing (80%-20%) ===
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# === Melatih Model Naïve Bayes ===
model = GaussianNB()
model.fit(X_train, y_train)

# === Prediksi & Evaluasi ===
y_pred = model.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)

print("Akurasi Model Naïve Bayes:", accuracy)

Akurasi Model Naïve Bayes: 1.0


## **Berikut adalah Membandingkan Data tanpa Outliers...!**

**A. PROSES FILTERING**

In [61]:
# Pastikan kolom 'class' ada sebelum menghapusnya
if 'class' in data.columns:
    data = data.drop(columns=['class'])  # Hapus kolom 'class' jika ada

# LOF untuk mendeteksi outlier
lof_model = LocalOutlierFactor(n_neighbors=3, metric='euclidean')

lof_labels = lof_model.fit_predict(data)  # -1 = outlier, 1 = inlier
lof_values = -lof_model.negative_outlier_factor_

# Tampilkan LOF dan label untuk setiap data point
for i in range(len(data)):
    print(f"Indeks-{i} → LOF: {lof_values[i]:.4f}, Label: {'Outlier' if lof_labels[i] == -1 else 'Inlier'}")

filtered_data = data[lof_labels == 1]  # Hanya simpan data yang bukan outlier

Indeks-0 → LOF: 135.5942, Label: Outlier
Indeks-1 → LOF: 1.0776, Label: Inlier
Indeks-2 → LOF: 1.0697, Label: Inlier
Indeks-3 → LOF: 1.0050, Label: Inlier
Indeks-4 → LOF: 1.0453, Label: Inlier
Indeks-5 → LOF: 1.2883, Label: Inlier
Indeks-6 → LOF: 1.0516, Label: Inlier
Indeks-7 → LOF: 0.9114, Label: Inlier
Indeks-8 → LOF: 1.0996, Label: Inlier
Indeks-9 → LOF: 0.9596, Label: Inlier
Indeks-10 → LOF: 1.2623, Label: Inlier
Indeks-11 → LOF: 1.0550, Label: Inlier
Indeks-12 → LOF: 0.9596, Label: Inlier
Indeks-13 → LOF: 1.0592, Label: Inlier
Indeks-14 → LOF: 1.1404, Label: Inlier
Indeks-15 → LOF: 1.1932, Label: Inlier
Indeks-16 → LOF: 1.1637, Label: Inlier
Indeks-17 → LOF: 1.0582, Label: Inlier
Indeks-18 → LOF: 1.3447, Label: Inlier
Indeks-19 → LOF: 0.9854, Label: Inlier
Indeks-20 → LOF: 1.6460, Label: Outlier
Indeks-21 → LOF: 1.0483, Label: Inlier
Indeks-22 → LOF: 2.0784, Label: Outlier
Indeks-23 → LOF: 1.2242, Label: Inlier
Indeks-24 → LOF: 1.4252, Label: Inlier
Indeks-25 → LOF: 1.1547, Label

**B. HASIL DARI NAIVE BAYES :**

In [58]:
import pandas as pd
import numpy as np
from sklearn.naive_bayes import GaussianNB
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

filtered_data = filtered_data.copy()  # Hindari efek samping pada DataFrame asli

filtered_data['class'] = y[lof_labels == 1].values  # Ambil label dari data asli yang bukan outlier

filtered_data = filtered_data.reset_index(drop=True)

X = filtered_data.drop(columns=['class'])  # Hanya fitur
y = filtered_data['class']  # Label

if len(X) < 5:  # Jika data terlalu sedikit setelah filtering, tampilkan peringatan
    raise ValueError("Data terlalu sedikit setelah menghapus outliers. Coba tingkatkan nilai `n_neighbors` pada LOF.")

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

model = GaussianNB()
model.fit(X_train, y_train)

# === 5. Prediksi & Evaluasi ===
y_pred = model.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)

print("Akurasi Model Naïve Bayes setelah menghapus outliers:", accuracy)

Akurasi Model Naïve Bayes setelah menghapus outliers: 0.9642857142857143


# **Berikut adalah hasil dari perhitungan pada contoh...!**

**1. Dengan Outliers (Akurasi = 1.0)**

Ketika model melibatkan data yang mengandung *outliers*, hasil yang diperoleh bisa sangat baik dalam konteks data uji, bahkan mencapai akurasi sempurna, yaitu **1.0**. Hal ini sering menunjukkan bahwa model sangat cocok dengan data latih yang digunakan.

Namun, meskipun akurasi terlihat tinggi, ini bisa menjadi indikasi bahwa model telah mengalami **overfitting**. **Overfitting** terjadi ketika model "terlalu terlatih" pada data yang ada, termasuk noise atau data yang tidak relevan (outliers), sehingga model sangat peka terhadap data latih tersebut. Akibatnya, model ini mungkin hanya bekerja baik dengan data yang sangat mirip dengan data latih, dan tidak dapat menggeneralisasi dengan baik pada data baru yang belum pernah dilihat sebelumnya.

Sebagai analogi, bayangkan seorang siswa yang selalu mendapatkan nilai sempurna dalam ujian karena hanya menghafal soal-soal yang sering keluar dalam ujian sebelumnya. Meskipun siswa tersebut selalu benar, dia mungkin tidak benar-benar memahami konsep di balik soal-soal tersebut. Jika diberikan soal ujian baru, yang tidak ada dalam soal yang dia hafalkan, siswa tersebut bisa saja gagal.

**2. Tanpa Outliers (Akurasi = 0.9643 ≈ 96.4%)**

Saat kita menghapus **outliers** dari dataset, akurasi model biasanya sedikit menurun. Dalam contoh ini, akurasi turun menjadi sekitar **96.4%**, yang menunjukkan penurunan kecil dibandingkan dengan model yang menggunakan outliers. Meskipun demikian, **penurunan akurasi ini** sebenarnya mencerminkan **kinerja yang lebih realistis** dalam dunia nyata.

Dengan menghapus outliers, model menjadi lebih **general** dalam hal **kemampuan memprediksi data baru**. Artinya, model tidak hanya belajar pola yang ada dalam data latih, tetapi juga belajar **hubungan yang lebih luas** antara fitur-fitur tanpa terpengaruh oleh data yang mungkin tidak representatif (outliers).

Model ini lebih stabil dan tidak terlalu terpengaruh oleh data yang ekstrem, yang biasanya tidak sesuai dengan pola umum yang ada dalam data. Dengan kata lain, model lebih cenderung untuk menemukan hubungan yang sesungguhnya antara variabel-variabel dalam data, bukan hanya sekadar "menghafal" pola yang terlalu spesifik dari data yang mengandung outliers.

Sebagai analogi, ini seperti seorang siswa yang benar-benar memahami konsep ujian dan bisa mengerjakan soal-soal baru yang tidak pernah dilatih sebelumnya, meskipun soal-soal tersebut sedikit berbeda. Walaupun nilai yang didapat sedikit lebih rendah, siswa ini lebih siap menghadapi ujian yang baru.


# **Kesimpulan...!**

Berdasarkan pengamatan ini, **menghapus outliers sedikit mengurangi akurasi**, tetapi ini adalah langkah yang lebih baik dalam konteks penggunaan dunia nyata. Di dunia nyata, data tidak selalu sempurna, dan kita sering kali menghadapi data yang mengandung noise atau outliers. Dengan menghapus outliers, kita meningkatkan **kemampuan model untuk menggeneralisasi**, sehingga model lebih dapat diandalkan untuk memprediksi data yang belum pernah dilihat sebelumnya.

Namun, **jika tujuan utama model adalah untuk mendeteksi anomali** atau mendeteksi data yang sangat berbeda dari pola normal, maka **mempertahankan outliers** bisa sangat berguna. Dalam hal ini, outliers adalah sesuatu yang ingin kita identifikasi, bukan dihilangkan.

**Perumpamaan:**
- **Dengan Outlier**: Bayangkan belajar dengan kunci jawaban. Anda bisa mendapatkan nilai ujian yang sempurna, tetapi itu tidak mencerminkan pemahaman yang nyata karena Anda hanya menghafal jawaban tanpa benar-benar memahami materi. Model seperti ini hanya cocok dengan data yang mirip dengan data latih dan bisa gagal dengan data baru yang berbeda.
- **Tanpa Outlier**: Ini seperti belajar konsep dengan pemahaman yang dalam. Walaupun mungkin Anda tidak mendapatkan nilai sempurna setiap kali, Anda bisa mengerjakan soal-soal baru dengan baik, meskipun soal tersebut tidak pernah Anda temui sebelumnya. Model ini lebih kuat dalam memprediksi data baru, dan lebih bisa diandalkan dalam dunia nyata.

**Pentingnya Generalisasi**:
Menghapus outliers penting dalam memastikan bahwa model dapat menangani **data baru** dan **beragam**. Model yang mampu menggeneralisasi dengan baik akan lebih tahan terhadap variasi yang muncul di dunia nyata, karena model tidak hanya "menghafal" data yang ada. Sebaliknya, model yang terlalu terlatih dengan outliers cenderung hanya dapat bekerja dengan data yang sangat mirip dengan yang telah dipelajari, yang dapat membuatnya tidak efektif ketika dihadapkan dengan data baru yang berbeda.