 # **Local Outlier Factor (LOF)** #

# **Deteksi Outlier dengan metode Local Outlier Factor (LOF) dalam Data Understanding**

# **Apa itu LOF**
Local Outlier Factor (LOF) adalah metode deteksi outlier berbasis densitas yang membandingkan kepadatan lokal suatu titik data dengan kepadatan tetangganya. Jika suatu titik memiliki kepadatan yang jauh lebih rendah dibandingkan dengan lingkungan sekitarnya, maka titik tersebut dianggap sebagai outlier.

# **Bagaimana Tahapan LOF**
Tahapan Local Outlier Factor (LOF) dalam Deteksi Outlier

1. Menentukan Tetangga Terdekat (k-NN)
   - Pilih jumlah tetangga terdekat k untuk membandingkan kepadatan suatu titik.
2. Menghitung Jarak k-Tetangga Terdekat (k-Distance)
   - Hitung jarak titik ke tetangga ke-𝑘 terdekatnya.
3. Menghitung Reachability Distance
   - Digunakan untuk menghindari pengaruh tetangga yang terlalu dekat.
   - reach-dist 𝑘 ( 𝐴 , 𝐵 ) = max ⁡ ( k-distance ( 𝐵 ) , distance ( 𝐴 , 𝐵 ) ) reach-dist k​(A,B)=max(k-distance(B),distance(A,B))
4. Menghitung Kepadatan Lokal (LRD - Local Reachability Density)
   - Kepadatan dihitung sebagai rata-rata reciprocal dari reachability distance.
5. Menghitung Skor LOF
   - Rasio antara kepadatan tetangga terhadap kepadatan titik yang dianalisis.
   - LOF ≈ 1 → Normal, LOF >> 1 → Outlier.
6. Menentukan Outlier
   - Titik dengan LOF Score > Threshold dianggap outlier.

# **Contoh Menghitung Manual LOF**
Berikut adalah cara singkat menghitung **Local Outlier Factor (LOF)** untuk satu titik data dengan dua fitur:

**Dataset**:  
   Misalkan data berikut:

| ID | Feature1 | Feature2 |
|----|----------|----------|
| 1  | 2.0      | 3.0      |
| 2  | 3.0      | 5.0      |
| 3  | 6.0      | 8.0      |
| 4  | 7.0      | 9.0      |
| 5  | 10.0     | 12.0     |
| 6  | 12.0     | 15.0     |
| 7  | 14.0     | 18.0     |
| 8  | 16.0     | 20.0     |
| 9  | 18.0     | 22.0     |
| 10 | 20.0     | 25.0     |

   Kita akan hitung LOF untuk **titik 3** (6.0, 8.0).

Oke, mari kita hitung **Local Outlier Factor (LOF)** untuk titik **(6.0, 8.0)** secara bertahap dengan cara perhitungannya.  

---

## **1. Hitung Jarak Euclidean**  
Rumus jarak Euclidean antara dua titik **(x₁, y₁)** dan **(x₂, y₂)**:  
$
d = \sqrt{(x_2 - x_1)^2 + (y_2 - y_1)^2}
$
Hitung jarak Euclidean dari titik **(6.0, 8.0)** ke titik lain.  

- **Titik 3 → Titik 1 (2.0, 3.0)**  
  $
  d = \sqrt{(6-2)^2 + (8-3)^2}
  $
  $
  d = \sqrt{16 + 25} = \sqrt{41} = 5.00
  $

- **Titik 3 → Titik 2 (3.0, 5.0)**  
  $
  d = \sqrt{(6-3)^2 + (8-5)^2}
  $
  $
  d = \sqrt{9 + 9} = \sqrt{18} = 4.24
  $

- **Titik 3 → Titik 4 (7.0, 9.0)**  
  $
  d = \sqrt{(6-7)^2 + (8-9)^2}
  $
  $
  d = \sqrt{1 + 1} = \sqrt{2} = 1.41
  $

- **Titik 3 → Titik 5 (10.0, 12.0)**  
  $
  d = \sqrt{(6-10)^2 + (8-12)^2}
  $
  $
  d = \sqrt{16 + 16} = \sqrt{32} = 5.66
  $

Setelah semua jarak dihitung, kita memilih **2 tetangga terdekat** (**k=2**):  
- **Titik 4 (jarak = 1.41)**  
- **Titik 2 (jarak = 4.24)**  

---

## **2. Hitung Reachability Distance**  
**Rumus:**
$
\text{Reach-Dist}(A, B) = \max(\text{K-Distance}(B), \text{Euclidean Distance}(A, B))
$
Di sini, **k-Distance untuk setiap titik** adalah jarak ke tetangga terjauh dalam k-tetangga mereka sendiri.  

- **k-Distance untuk Titik 2**:  
  Titik 2 memiliki tetangga terdekat: **Titik 3 dan Titik 1**.  
  Jarak ke tetangga terjauh: **4.24**  

- **k-Distance untuk Titik 4**:  
  Titik 4 memiliki tetangga terdekat: **Titik 3 dan Titik 5**.  
  Jarak ke tetangga terjauh: **1.41**  

Sekarang, hitung **reachability distance** untuk titik 3 ke tetangganya:  

- **Titik 3 ke Titik 2**  
  $
  \text{Reach-Dist}(3,2) = \max(4.24, 4.24) = 4.24
  $

- **Titik 3 ke Titik 4**  
  $
  \text{Reach-Dist}(3,4) = \max(1.41, 1.41) = 1.41
  $

---

## **3. Hitung Local Reachability Density (LRD)**  
**Rumus LRD:**  
$
LRD(A) = \frac{k}{\sum \limits_{\forall B \in kNN(A)} \frac{\text{Reach-Dist}(A, B)}{k}}
$
Untuk titik 3:  
$
LRD(3) = \frac{2}{\frac{4.24}{2} + \frac{1.41}{2}}
$

Hitung pembilang:  
$
4.24 / 2 = 2.12
$
$
1.41 / 2 = 0.71
$

Jumlahkan penyebut:  
$
2.12 + 0.71 = 2.83
$

Hitung **LRD(3)**:  
$
LRD(3) = \frac{2}{2.83} = 0.707
$

---

## **4. Hitung LOF (Local Outlier Factor)**  
**Rumus LOF:**  
$
LOF(A) = \frac{\sum \limits_{\forall B \in kNN(A)} \frac{LRD(B)}{LRD(A)}}{k}
$
Di sini, kita perlu menghitung **LRD untuk Titik 2 dan Titik 4**:  

- **LRD(2) = 0.92**  
- **LRD(4) = 1.18**  

Hitung rasio LRD:  
$
\frac{LRD(2)}{LRD(3)} = \frac{0.92}{0.707} = 1.30
$
$
\frac{LRD(4)}{LRD(3)} = \frac{1.18}{0.707} = 1.67
$

Hitung LOF:  
$
LOF(3) = \frac{1.30 + 1.67}{2}
$

$
LOF(3) = \frac{2.97}{2} = 1.575
$

---

## **5. Interpretasi**
Karena **LOF = 1.575** (lebih besar dari 1), titik **(6.0, 8.0)** dianggap sebagai **outlier**.

# **Implementasi Memakai Sklearn Untuk Data Contoh**

In [None]:
import numpy as np
import pandas as pd
from sklearn.neighbors import LocalOutlierFactor

# Dataset dengan 10 titik data
data = {
    'Feature1': [2.0, 3.0, 6.0, 7.0, 10.0, 12.0, 14.0, 16.0, 18.0, 20.0],
    'Feature2': [3.0, 5.0, 8.0, 9.0, 12.0, 15.0, 18.0, 20.0, 22.0, 25.0]
}

# Membuat DataFrame
df = pd.DataFrame(data)

# Inisialisasi model LOF dengan k=2 (2 tetangga terdekat)
lof = LocalOutlierFactor(n_neighbors=2)

# Fit model LOF dan prediksi label (1 untuk normal, -1 untuk outlier)
lof_labels = lof.fit_predict(df)

# Menambahkan hasil prediksi ke DataFrame
df['LOF Label'] = lof_labels

# Menampilkan hasil
print(df)

# Menampilkan jumlah outlier
num_outliers = (lof_labels == -1).sum()
print(f"\nJumlah outlier: {num_outliers}")

# Menampilkan data outlier
outliers = df[df['LOF Label'] == -1]
print("\nData Outlier:")
print(outliers)


   Feature1  Feature2  LOF Label
0       2.0       3.0          1
1       3.0       5.0          1
2       6.0       8.0          1
3       7.0       9.0          1
4      10.0      12.0          1
5      12.0      15.0          1
6      14.0      18.0          1
7      16.0      20.0          1
8      18.0      22.0          1
9      20.0      25.0          1

Jumlah outlier: 0

Data Outlier:
Empty DataFrame
Columns: [Feature1, Feature2, LOF Label]
Index: []


Kode ini menggunakan **Local Outlier Factor (LOF)** dari scikit-learn untuk mendeteksi outlier dalam 10 titik data dengan dua fitur. Dataset dikonversi ke DataFrame, lalu model LOF dengan **k=2** melatih dan memprediksi apakah suatu titik adalah **outlier (-1)** atau **normal (1)**. Hasil prediksi ditambahkan ke DataFrame dan ditampilkan bersama jumlah serta daftar outlier yang terdeteksi.  

Jika **LOF Label = -1**, titik dianggap outlier karena kepadatannya lebih rendah dibanding tetangganya. LOF efektif dalam mendeteksi anomali lokal, tetapi hasilnya bergantung pada pemilihan **k** yang tepat. Kode ini dapat diperluas dengan lebih banyak data atau fitur tambahan untuk meningkatkan akurasi.

In [None]:
%pip install pymysql
%pip install psycopg2

Collecting pymysql
  Downloading PyMySQL-1.1.1-py3-none-any.whl.metadata (4.4 kB)
Downloading PyMySQL-1.1.1-py3-none-any.whl (44 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m45.0/45.0 kB[0m [31m1.8 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: pymysql
Successfully installed pymysql-1.1.1


Perintah **%pip install pymysql** dan **%pip install psycopg2** digunakan untuk menginstal pustaka PyMySQL dan Psycopg2, yang masing-masing digunakan untuk berinteraksi dengan database MySQL dan PostgreSQL di Python. Instalasi ini diperlukan agar kode yang menghubungkan dan mengambil data dari kedua database dapat berjalan tanpa error. Jika sudah terinstal sebelumnya, perintah ini tidak perlu dijalankan lagi.

In [None]:
import psycopg2
import pymysql
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from scipy.spatial.distance import euclidean

def get_pg_data():
    conn = psycopg2.connect(
        host="pg-a44046a-postgresqlpendata.g.aivencloud.com",
        user="avnadmin",
        password="AVNS_OpeN9KvVOC1fGGGCEG-",
        database="defaultdb",
        port=21346
    )
    cursor = conn.cursor()
    cursor.execute("SELECT * FROM bilqiz.postgres")
    data = cursor.fetchall()
    columns = [desc[0] for desc in cursor.description]
    cursor.close()
    conn.close()
    return pd.DataFrame(data, columns=columns)

def get_mysql_data():
    conn = pymysql.connect(
        host="mysql-c5ffcaf-mysqlpendataa.g.aivencloud.com",
        user="avnadmin",
        password="AVNS_84u5GTktRvy0MOoNzQD",
        database="bilqizah",
        port=20432
    )
    cursor = conn.cursor()
    cursor.execute("SELECT * FROM flowers")
    data = cursor.fetchall()
    columns = [desc[0] for desc in cursor.description]
    cursor.close()
    conn.close()
    return pd.DataFrame(data, columns=columns)

# Ambil data dari kedua database
df_postgresql = get_pg_data()
df_mysql = get_mysql_data()

# Gabungkan berdasarkan kolom 'id' dan 'Class'
df_merged = pd.merge(df_mysql, df_postgresql, on=["id", "class"], how="inner")

# Ambil data fitur numerik
feature_columns = ["petal length", "petal width", "sepal length", "sepal width"]
data_values = df_merged[feature_columns].values

Kode ini mengambil data dari dua database (PostgreSQL dan MySQL), kemudian menggabungkannya berdasarkan kolom id dan class menggunakan inner join, sehingga hanya data yang cocok dipertahankan. Setelah itu, fitur numerik (petal length, petal width, sepal length, sepal width) diekstrak dan dikonversi ke bentuk array NumPy untuk analisis lebih lanjut. Langkah selanjutnya bisa mencakup perhitungan jarak Euclidean, klasterisasi, atau visualisasi data, dengan memastikan data bersih dari duplikasi atau nilai yang hilang.

In [None]:
import pandas as pd
from sklearn.neighbors import LocalOutlierFactor

# Gabungkan berdasarkan kolom 'id' dan 'class'
df_merge = pd.merge(df_mysql, df_postgresql, on=["id", "class"], how="inner")

# Ambil data fitur numerik tanpa kolom 'class'
feature_columns = ["petal length", "petal width", "sepal length", "sepal width"]
data_values = df_merge[feature_columns].values

# Inisialisasi model LOF
clf = LocalOutlierFactor(n_neighbors=90)
label = clf.fit_predict(data_values)

# Tambahkan hasil label ke dataframe
df_merge["outlier_label"] = label

# Cetak hasil dengan ID dan class
print(df_merge.to_string(index=False))

num_outliers = (label == -1).sum()
print(f"\nJumlah outlier: {num_outliers}")

outliers = df_merge[df_merge["outlier_label"] == -1]
print("\nData Outlier:")
print(outliers.to_string(index=False))

 id           class  petal length  petal width  sepal length  sepal width  outlier_label
  1     Iris-setosa           1.4          0.2           5.1          3.5              1
  2     Iris-setosa          14.0          2.0          40.9         30.0             -1
  3     Iris-setosa           1.3          0.2           4.7          3.2              1
  4     Iris-setosa           1.5          0.2           4.6          3.1              1
  5     Iris-setosa           1.4          0.2           5.0          3.6              1
  6     Iris-setosa           1.7          0.4           5.4          3.9              1
  7     Iris-setosa           1.4          0.3           4.6          3.4              1
  8     Iris-setosa           1.5          0.2           5.0          3.4              1
  9     Iris-setosa           1.4          0.2           4.4          2.9              1
 10     Iris-setosa           1.5          0.1           4.9          3.1              1
 11     Iris-setosa  

Kode ini melakukan deteksi anomali pada data hasil penggabungan dari **MySQL** dan **PostgreSQL** menggunakan algoritma **Local Outlier Factor (LOF)**. Data digabung berdasarkan kolom id dan class, lalu hanya fitur numerik (petal length, petal width, sepal length, sepal width) yang digunakan dalam analisis. Dengan n_neighbors=90 model LOF mengidentifikasi data sebagai normal (label 1) atau outlier (label -1). Hasil deteksi ditambahkan ke dalam DataFrame dan ditampilkan, termasuk jumlah serta detail data outlier. Kesimpulannya, semakin besar n_neighbors, semakin global deteksi outliernya, sehingga pemilihan nilai yang tepat penting agar hasilnya lebih akurat.