#Deteksi Outlier dengan Metode Local Outlier Factor (LOF) dalam Data Understanding

Local Outlier Factor (LOF) adalah metode deteksi outlier berbasis kepadatan yang digunakan untuk mengidentifikasi data yang memiliki tingkat kepadatan lebih rendah dibandingkan dengan tetangga terdekatnya. LOF bekerja dengan menghitung rasio antara kepadatan lokal suatu titik data dengan kepadatan lokal tetangganya. Jika suatu titik memiliki kepadatan yang jauh lebih rendah dibandingkan dengan sekitarnya, maka titik tersebut dikategorikan sebagai outlier.


Mengapa LOF Digunakan dalam Data Understanding?
Dalam data understanding, penting untuk mengenali pola data, termasuk keberadaan outlier yang dapat mempengaruhi hasil analisis lebih lanjut. Outlier dapat terjadi karena berbagai alasan, seperti kesalahan pengukuran, anomali alami dalam data, atau aktivitas mencurigakan (misalnya, dalam deteksi fraud). LOF memungkinkan kita untuk menemukan data yang menyimpang berdasarkan hubungan dengan data lain, bukan hanya berdasarkan jarak absolut seperti metode berbasis threshold.

Cara Kerja Metode LOF
1. Menentukan K-Tetangga Terdekat (k-nearest neighbors)

  - LOF menghitung jarak antara suatu titik dengan sejumlah k tetangga terdekatnya.

  - Parameter k menentukan sensitivitas model terhadap anomali:
    - Kecil → Lebih sensitif terhadap noise.
    - Besar → Mengurangi sensitivitas, tetapi bisa menyamarkan outlier kecil.
2. Menghitung Kepadatan Lokal (Local Reachability Density - LRD)

  - Kepadatan lokal dihitung berdasarkan jarak reachability, yaitu jarak dari titik tertentu ke tetangganya yang diperbesar dengan jarak minimum antar titik tersebut.

  - Jika titik berada di daerah yang memiliki banyak tetangga dekat, maka kepadatannya tinggi. Jika tidak, kepadatannya rendah.

3. Menghitung LOF Score

  - LOF dihitung dengan membandingkan kepadatan lokal suatu titik dengan kepadatan lokal tetangganya.

  - Nilai LOF ≈ 1 menunjukkan bahwa titik tersebut tidak menyimpang dari tetangganya.

  - Nilai LOF > 1 menunjukkan bahwa titik tersebut memiliki kepadatan lebih rendah dibandingkan tetangganya dan bisa dianggap outlier.

## CONTOH MENGHITUNG MANUAL LOF
Berikut adalah cara singkat menghitung **Local Outlier Factor (LOF)** untuk satu titik data dengan dua fitur:

1. **Dataset**:  
   Misalkan data berikut:

| ID | Feature1 | Feature2 |
|----|----------|----------|
| 1  | 10.0      | 20.0      |
| 2  | 15.0      | 25.0      |
| 3  | 20.0      | 30.0      |
| 4  | 25.0      | 35.0      |
| 5  | 30.0      | 40.0      |
| 6  | 35.0      | 45.0      |
| 7  | 40.0      | 50.0      |
| 8  | 45.0      | 55.0      |
| 9  | 50.0      | 60.0      |
| 10  | 100.0      | 110.0      |

Kita akan hitung LOF untuk titik ke-10 (100.0, 110.0) dengan k = 2.

2. Hitung Jarak Euclidean ke Titik Lain
Jarak antara titik 10 dan titik lainnya:

Ke titik 9: 70.71
Ke titik 8: 77.78
3. Tentukan k-Tetangga Terdekat (k=2)
Tetangga terdekat untuk titik 10: Titik 9 dan Titik 8.

4. Hitung Reachability Distance
Reachability distance (10 → 9): 70.71
Reachability distance (10 → 8): 77.78

5. **Hitung Local Reachability Density (LRD)**:  
   $
   \text{LRD}(10) = \frac{1}{\frac{1}{2} \times (70.71 + 77.78)} = 0.0136
   $

6. **Hitung LOF**:  
   $
   \text{LOF}(10) = \frac{0.0136}{0.0182} + \frac{0.0136}{0.0196} = 1.50
   $

7. **Interpretasi**:  
   Karena LOF = 1.50 (>1), titik 10 dianggap sebagai outlier, tetapi tidak ekstrem.

LOF mengukur seberapa terisolasi titik dibandingkan tetangganya. Titik dengan LOF lebih besar dari 1 dianggap outlier.

##IMPLEMENTASI


In [8]:
import numpy as np
import pandas as pd
from sklearn.neighbors import LocalOutlierFactor

# Dataset baru dengan 10 data
data = {
    'Feature1': [10.0, 15.0, 20.0, 25.0, 30.0, 35.0, 40.0, 45.0, 50.0, 100.0],
    'Feature2': [20.0, 25.0, 30.0, 35.0, 40.0, 45.0, 50.0, 55.0, 60.0, 110.0]
}

# Membuat DataFrame
df = pd.DataFrame(data)

# Inisialisasi model LOF dengan k=2 (2 tetangga terdekat)
lof = LocalOutlierFactor(n_neighbors=2)

# Fit model LOF dan prediksi label (1 untuk normal, -1 untuk outlier)
lof_labels = lof.fit_predict(df)

# Menambahkan hasil prediksi ke DataFrame
df['LOF Label'] = lof_labels

# Menampilkan hasil
print(df)

# Menampilkan jumlah outlier
num_outliers = (lof_labels == -1).sum()
print(f"\nJumlah outlier: {num_outliers}")

# Menampilkan data outlier
outliers = df[df['LOF Label'] == -1]
print("\nData Outlier:")
print(outliers)


   Feature1  Feature2  LOF Label
0      10.0      20.0          1
1      15.0      25.0          1
2      20.0      30.0          1
3      25.0      35.0          1
4      30.0      40.0          1
5      35.0      45.0          1
6      40.0      50.0          1
7      45.0      55.0          1
8      50.0      60.0          1
9     100.0     110.0         -1

Jumlah outlier: 1

Data Outlier:
   Feature1  Feature2  LOF Label
9     100.0     110.0         -1


In [9]:
%pip install pymysql
%pip install psycopg2



digunakan untuk menginstal pustaka yang diperlukan agar Python dapat terhubung dengan database MySQL dan PostgreSQL.

pymysql: Pustaka ini digunakan untuk menghubungkan Python dengan database MySQL. Dengan pymysql, kita bisa melakukan koneksi, menjalankan kueri SQL, mengambil data, dan memanipulasi tabel dalam database MySQL.

psycopg2: Pustaka ini digunakan untuk menghubungkan Python dengan database PostgreSQL. Fungsi dan cara penggunaannya mirip dengan pymysql tetapi khusus untuk PostgreSQL.

Simbol % di awal menunjukkan bahwa ini adalah magic command di Jupyter Notebook

In [10]:
import psycopg2
import pymysql
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.neighbors import NearestNeighbors

def get_pg_data():
    conn = psycopg2.connect(
        host="pg-24ccfcfa-iqbal.i.aivencloud.com",
        user="avnadmin",
        password="AVNS_7h7RaEuETy6xtaTdGPL",
        database="defaultdb",
        port=11038
    )
    cursor = conn.cursor()
    cursor.execute("SELECT * FROM iris_data")
    data = cursor.fetchall()
    columns = [desc[0] for desc in cursor.description]  # Ambil nama kolom
    cursor.close()
    conn.close()

    return pd.DataFrame(data, columns=columns)

def get_mysql_data():
    conn = pymysql.connect(
        host="mysql-207e66db-iqbal.h.aivencloud.com",
        user="avnadmin",
        password="AVNS_moPYLh4RrOq11aEBY_x",
        database="iris",
        port=11038
    )
    cursor = conn.cursor()
    cursor.execute("SELECT * FROM iris_dataset")
    data = cursor.fetchall()
    columns = [desc[0] for desc in cursor.description]  # Ambil nama kolom
    cursor.close()
    conn.close()

    return pd.DataFrame(data, columns=columns)

# Ambil data dari kedua database
df_postgresql = get_pg_data()
df_mysql = get_mysql_data()

# Gabungkan berdasarkan kolom 'id' dan 'Class'
df_merged = pd.merge(df_mysql, df_postgresql, on=["id", "class"], how="inner")

# Cetak semua data hasil gabungan tanpa indeks
print(df_merged.to_string(index=False))

 id           class  petal_length  petal_width  sepal_length  sepal_width
  1     Iris-setosa           1.4          0.2           5.1          3.5
  2     Iris-setosa          14.0          2.0          40.9         30.0
  3     Iris-setosa           1.3          0.2           4.7          3.2
  4     Iris-setosa           1.5          0.2           4.6          3.1
  5     Iris-setosa           1.4          0.2           5.0          3.6
  6     Iris-setosa           1.7          0.4           5.4          3.9
  7     Iris-setosa           1.4          0.3           4.6          3.4
  8     Iris-setosa           1.5          0.2           5.0          3.4
  9     Iris-setosa           1.4          0.2           4.4          2.9
 10     Iris-setosa           1.5          0.1           4.9          3.1
 11     Iris-setosa           1.5          0.2           5.4          3.7
 12     Iris-setosa           1.6          0.2           4.8          3.4
 13     Iris-setosa           1.4     

##Kode diatas untuk menggabungkan data dari 2 tabel database

In [11]:
import pandas as pd
from sklearn.neighbors import LocalOutlierFactor

# Gabungkan berdasarkan kolom 'id' dan 'class'
df_merge = pd.merge(df_mysql, df_postgresql, on=["id", "class"], how="inner")

# Ambil data fitur numerik tanpa kolom 'class'
feature_columns = ["petal_length", "petal_width", "sepal_length", "sepal_width"]
data_values = df_merge[feature_columns].values

# Inisialisasi model LOF
clf = LocalOutlierFactor(n_neighbors=90)
label = clf.fit_predict(data_values)

# Tambahkan hasil label ke dataframe
df_merge["outlier_label"] = label

# Cetak hasil dengan ID dan class
print(df_merge.to_string(index=False))

num_outliers = (label == -1).sum()
print(f"\nJumlah outlier: {num_outliers}")

outliers = df_merge[df_merge["outlier_label"] == -1]
print("\nData Outlier:")
print(outliers.to_string(index=False))

 id           class  petal_length  petal_width  sepal_length  sepal_width  outlier_label
  1     Iris-setosa           1.4          0.2           5.1          3.5              1
  2     Iris-setosa          14.0          2.0          40.9         30.0             -1
  3     Iris-setosa           1.3          0.2           4.7          3.2              1
  4     Iris-setosa           1.5          0.2           4.6          3.1              1
  5     Iris-setosa           1.4          0.2           5.0          3.6              1
  6     Iris-setosa           1.7          0.4           5.4          3.9              1
  7     Iris-setosa           1.4          0.3           4.6          3.4              1
  8     Iris-setosa           1.5          0.2           5.0          3.4              1
  9     Iris-setosa           1.4          0.2           4.4          2.9              1
 10     Iris-setosa           1.5          0.1           4.9          3.1              1
 11     Iris-setosa  

Kode di atas menggunakan metode Local Outlier Factor (LOF) untuk mendeteksi outlier dalam dataset yang digabungkan dari dua sumber data, yaitu MySQL dan PostgreSQL. Berikut adalah penjelasan rinci mengenai fungsionalitas kode tersebut:

1. Menggabungkan Data dari MySQL dan PostgreSQL

  - df_merge = pd.merge(df_mysql, df_postgresql, on=["id", "class"], how="inner")

  - Data dari dua database yang memiliki kolom id dan class yang sama akan digabungkan menggunakan metode inner join.

  - Hanya data yang ada di kedua database yang akan masuk ke df_merge.

2. Memilih Fitur Numerik

  - feature_columns = ["petal_length", "petal_width", "sepal_length", "sepal_width"]

  - Kolom yang berisi informasi panjang dan lebar petal serta sepal dipilih sebagai fitur numerik untuk analisis outlier.

  - data_values = df_merge[feature_columns].values mengonversi data fitur ke dalam format array NumPy.

3. Inisialisasi Model LOF

  - clf = LocalOutlierFactor(n_neighbors=90)

  - Model LOF digunakan untuk mendeteksi outlier dengan 90 tetangga terdekat (k=90).

  - LOF akan menghitung kepadataan lokal setiap titik data dibandingkan dengan tetangganya.

  - Jika kepadatan lokal suatu titik jauh lebih rendah dibandingkan sekitarnya, titik tersebut dianggap sebagai outlier.

4. Memprediksi Outlier

  - label = clf.fit_predict(data_values)

  - Model LOF dilatih dan memberikan label untuk setiap data:
    - 1 = Data normal
    - -1 = Outlier

5. Menambahkan Label Outlier ke DataFrame

  - df_merge["outlier_label"] = label

  - Kolom baru outlier_label ditambahkan ke dataset untuk menyimpan hasil deteksi outlier.

6. Mencetak Hasil dan Jumlah Outlier

  - print(df_merge.to_string(index=False)) menampilkan seluruh data beserta label outlier.

  - num_outliers = (label == -1).sum() menghitung jumlah total data yang diklasifikasikan sebagai outlier.

  - print(f"\nJumlah outlier: {num_outliers}") mencetak jumlah total outlier.

7. Menampilkan Data Outlier

  - outliers = df_merge[df_merge["outlier_label"] == -1] menyaring hanya data yang terdeteksi sebagai outlier.

  - print(outliers.to_string(index=False)) mencetak daftar data outlier untuk dianalisis lebih lanjut.