# **Preprocessing**



Tujuan utama dari tahap ini adalah untuk membersihkan data dari anomali atau outlier yang dapat mengganggu performa model machine learning. Outlier adalah titik data yang secara signifikan berbeda dari observasi lainnya.

## **Menangani Outlier**

Dalam tahap data preprocessing, outlier harus diperhatikan karena:

*   Outlier dapat menyebabkan distorsi statistik (mean, standar deviasi).

*   Bisa mempengaruhi akurasi model karena model salah menangkap pola.

*   Dalam konteks anomaly detection, outlier biasanya ditandai dengan Anomaly = 1.


Ada beberapa cara menangani outlier:

1.   Menghapus outlier → sering dipilih jika jumlahnya sedikit dan tidak merepresentasikan distribusi data.

2.   Transformasi data (log, z-score scaling, winsorizing) → kalau outlier tetap dianggap penting.

3.   Menyimpan outlier sebagai informasi → jika outlier punya arti khusus (contohnya kasus fraud detection).





In [1]:
from google.colab import files
uploaded = files.upload()


Saving ABOD.csv to ABOD.csv
Saving KNN.csv to KNN.csv
Saving LOF.csv to LOF.csv


Karena dari identifikasi outlier di tahap data understanding hanya sedikit outliernya, maka saya menggunakan cara menangani pertama yaitu menghapus datanya:

### 1.  LOF

In [2]:
import pandas as pd

# Baca dataset hasil deteksi LOF
df_lof = pd.read_csv("LOF.csv")

# Hapus outlier (Anomaly = 1)
df_lof_clean = df_lof[df_lof['Anomaly'] == 0]

print("Dataset LOF setelah outlier dihapus:")
print(df_lof_clean.to_string())


Dataset LOF setelah outlier dihapus:
               class  petal_length  petal_width  sepal_length  sepal_width  Anomaly  Anomaly_Score
0        Iris-setosa           1.0          0.2           4.6          3.6        0       1.294602
1        Iris-setosa           1.1          0.1           4.3          3.0        0       1.326518
2        Iris-setosa           1.2          0.2           5.0          3.2        0       0.972286
3        Iris-setosa           1.2          0.2           5.8          4.0        0       1.463125
4        Iris-setosa           1.3          0.2           4.4          3.0        0       1.134884
5        Iris-setosa           1.3          0.2           4.4          3.2        0       1.123400
6        Iris-setosa           1.3          0.2           4.7          3.2        0       1.019841
7        Iris-setosa           1.3          0.2           5.5          3.5        0       1.073003
9        Iris-setosa           1.3          0.3           5.0          3

### 2.  KNN

In [3]:
import pandas as pd

# Baca dataset hasil deteksi KNN
df_knn = pd.read_csv("KNN.csv")

# Hapus outlier (Anomaly = 1)
df_knn_clean = df_knn[df_knn['Anomaly'] == 0]

print("Dataset KNN setelah outlier dihapus:")
print(df_knn_clean.to_string())


Dataset KNN setelah outlier dihapus:
               class  petal_length  petal_width  sepal_length  sepal_width  Anomaly  Anomaly_Score
0        Iris-setosa           1.0          0.2           4.6          3.6        0       0.565685
1        Iris-setosa           1.1          0.1           4.3          3.0        0       0.500000
2        Iris-setosa           1.2          0.2           5.0          3.2        0       0.346410
3        Iris-setosa           1.2          0.2           5.8          4.0        0       0.583095
4        Iris-setosa           1.3          0.2           4.4          3.0        0       0.300000
5        Iris-setosa           1.3          0.2           4.4          3.2        0       0.316228
6        Iris-setosa           1.3          0.2           4.7          3.2        0       0.264575
7        Iris-setosa           1.3          0.2           5.5          3.5        0       0.360555
9        Iris-setosa           1.3          0.3           5.0          3

### 3. ABOD

In [4]:
import pandas as pd

# Baca dataset hasil deteksi ABOD
df_abod = pd.read_csv("ABOD.csv")

# Hapus outlier (Anomaly = 1)
df_abod_clean = df_abod[df_abod['Anomaly'] == 0]

print("Dataset ABOD setelah outlier dihapus:")
print(df_abod_clean.to_string())


Dataset ABOD setelah outlier dihapus:
               class  petal_length  petal_width  sepal_length  sepal_width  Anomaly  Anomaly_Score
0        Iris-setosa           1.0          0.2           4.6          3.6        0      -0.771745
1        Iris-setosa           1.1          0.1           4.3          3.0        0      -6.211703
2        Iris-setosa           1.2          0.2           5.0          3.2        0     -22.260507
3        Iris-setosa           1.2          0.2           5.8          4.0        0      -0.971267
4        Iris-setosa           1.3          0.2           4.4          3.0        0    -128.152246
5        Iris-setosa           1.3          0.2           4.4          3.2        0     -44.802539
6        Iris-setosa           1.3          0.2           4.7          3.2        0     -93.422000
7        Iris-setosa           1.3          0.2           5.5          3.5        0      -3.638189
9        Iris-setosa           1.3          0.3           5.0          