<a href="https://colab.research.google.com/github/IndraMadika/ML_Study/blob/main/Representasi%20Data/Menentukan_Outlier.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

Ada beberapa metode yang dapat digunakan untuk mengidentifikasi outlier dalam data. Berikut ini beberapa contoh metode yang umum digunakan:

**Metode Z-Score:**<br>
Metode ini menghitung seberapa jauh suatu nilai dari rata-rata dalam satuan deviasi standar. Nilai yang memiliki z-score lebih dari ambang batas tertentu dianggap sebagai outlier. Berikut ini contoh penggunaan metode Z-Score dengan Python:

In [27]:
import numpy as np

# Contoh data
data = np.array([1, 2, 3, 10, 20, 30, 100, 80, 240, 1000000])

# Menghitung Z-Score
z_scores = (data - np.mean(data)) / np.std(data)

# Menentukan ambang batas outlier
threshold = 2.5

# Mengidentifikasi outlier
outliers = np.where(np.abs(z_scores) > threshold)[0]

print("Outliers:", data[outliers])


Outliers: [1000000]


**Metode IQR (Interquartile Range):**

Metode ini menggunakan rentang antara kuartil pertama (Q1) dan kuartil ketiga (Q3) dalam data. Nilai yang berada di luar rentang Q1 - 1.5 * IQR dan Q3 + 1.5 * IQR dianggap sebagai outlier. Berikut ini contoh penggunaan metode IQR dengan Python:

In [26]:
import numpy as np

# Contoh data
data = np.array([1, 2, 3, 10, 20, 30, 100, 900, 100000])

# Menghitung kuartil pertama dan kuartil ketiga
q1 = np.percentile(data, 25)
q3 = np.percentile(data, 75)

# Menghitung IQR
iqr = q3 - q1

# Menentukan ambang batas outlier
threshold = 1.5 * iqr

# Mengidentifikasi outlier
outliers = np.where((data < q1 - threshold) | (data > q3 + threshold))[0]

print("Outliers:", data[outliers])


Outliers: [   900 100000]


**Metode Metode Hampiran Median Absolut (MAD):**

Metode ini menggunakan Median Absolut Deviation (MAD) sebagai ukuran jarak data dari median. Nilai yang memiliki jarak lebih besar dari ambang batas tertentu (biasanya 2 atau 3 kali MAD) dianggap sebagai outlier. Berikut ini contoh penggunaan metode MAD dengan Python:

In [25]:
import numpy as np
from statsmodels import robust

# Contoh data
data = np.array([1, 2, 3, 10, 20, 30, 100, 1000, 10000])

# Menghitung Median Absolut Deviation (MAD)
mad = robust.mad(data)

# Menentukan ambang batas outlier
threshold = 2 * mad

# Mengidentifikasi outlier
outliers = np.where(np.abs(data - np.median(data)) > threshold)[0]

print("Outliers:", data[outliers])


Outliers: [  100  1000 10000]


Mempertimbangkan konteks dan pengetahuan domain saat melakukan identifikasi outlier berarti mengambil informasi tambahan tentang data dan pemahaman tentang domain atau bidang spesifik di mana data tersebut digunakan.

Ketika Anda mengidentifikasi outlier, penting untuk memahami konteks data tersebut. Apa tujuan analisis data tersebut? Apakah ada faktor eksternal atau kondisi khusus yang dapat mempengaruhi data? Misalnya, jika Anda menganalisis data keuangan, outlier pada pendapatan atau pengeluaran mungkin memiliki makna yang berbeda tergantung pada industri atau sektor bisnis yang sedang dianalisis.

Selain itu, pengetahuan domain juga sangat penting. Anda harus memahami pola, perilaku, dan karakteristik data dalam domain yang Anda kerjakan. Dalam beberapa kasus, **nilai yang dianggap outlier dalam satu domain mungkin sebenarnya merupakan nilai yang valid atau penting dalam domain lain.**

Dengan mempertimbangkan konteks dan pengetahuan domain, Anda dapat menghindari kesalahan mengklasifikasikan nilai sebagai outlier **hanya berdasarkan analisis statistik semata**. Ini memungkinkan Anda untuk memahami alasan di balik nilai-nilai ekstrem tersebut dan memutuskan apakah nilai tersebut benar-benar outlier atau memiliki makna yang penting dalam konteks yang relevan.