## **Deteksi Outlier dengan metode Local Outlier Factor (LOF) dalam Data Understanding**

### **pengertian LOF**
Local Outlier Factor (LOF) adalah salah satu metode deteksi outlier berbasis kepadatan yang digunakan untuk mengidentifikasi titik-titik data yang memiliki karakteristik berbeda dari mayoritas data lainnya dalam suatu dataset. LOF bekerja dengan membandingkan kepadatan lokal suatu titik data terhadap kepadatan lokal dari titik-titik tetangganya. Jika kepadatan lokal suatu titik jauh lebih rendah dibandingkan dengan tetangga-tetangganya, maka titik tersebut dianggap sebagai outlier atau anomali.


Metode ini berbeda dengan pendekatan deteksi outlier berbasis jarak yang hanya mengandalkan seberapa jauh suatu titik dari mayoritas data lainnya. Dalam LOF, kepadatan dihitung berdasarkan jumlah tetangga terdekat (k-nearest neighbors) dan bagaimana titik tersebut dibandingkan dengan kepadatan dari titik-titik di sekitarnya. Semakin kecil kepadatan lokal suatu titik dibandingkan dengan kepadatan rata-rata tetangganya, semakin tinggi nilai LOF yang dimilikinya, sehingga semakin besar kemungkinan titik tersebut dianggap sebagai outlier.

### **Tahapan dalam LOF**

**Menentukan Jumlah Tetangga (k-Nearest Neighbors)**
- Tentukan jumlah k tetangga terdekat untuk setiap titik data.

- Nilai k yang umum digunakan berkisar antara 10 hingga 50, tergantung pada ukuran dataset dan karakteristik data.

- Pemilihan k yang tepat sangat penting karena mempengaruhi sensitivitas metode terhadap outlier.

**Menghitung Jarak ke k Tetangga Terdekat (k-Distance)**
- Untuk setiap titik data A, hitung jarak ke k tetangga terdekatnya.

- Jarak ini dapat dihitung menggunakan Euclidean Distance, Manhattan Distance, atau metode lainnya.

- Setelah itu, tetangga k-terdekat dari titik A ditentukan.

**Menghitung Jarak Keterjangkauan (Reachability Distance)**
Jarak keterjangkauan (reachability distance) digunakan untuk menghindari nilai yang terlalu kecil ketika dua titik sangat dekat.

**Menghitung Kepadatan Lokal (Local Reachability Density - LRD)**
- LRD(A) adalah ukuran kepadatan lokal suatu titik A.

- Dihitung sebagai kebalikan dari rata-rata jarak keterjangkauan ke tetangga terdekatnya:

**Menghitung Local Outlier Factor (LOF)**
- LOF(A) membandingkan kepadatan lokal A dengan kepadatan lokal tetangga-tetangganya.

- Jika kepadatan A jauh lebih rendah dari tetangganya, maka LOF(A) akan tinggi, menandakan A adalah outlier.

**Menentukan Threshold untuk Outlier**
- Tidak ada threshold absolut untuk LOF, tetapi umumnya jika LOF > 1.5 atau 2, titik tersebut dapat dianggap sebagai outlier.

- Kita bisa menggunakan persentil atau distribusi LOF score untuk menentukan batas outlier yang lebih akurat.

### **Contoh Menghitung manual Lof**
1. **Dataset**:  
   Misalkan data berikut:

| ID | Feature1 | Feature2 |
|----|----------|----------|
| 1  | 2.0      | 3.0      |
| 2  | 3.5      | 4.5      |
| 3  | 5.0      | 6.0      |
| 4  | 6.5      | 7.5      |
| 5  | 8.0      | 9.0      |

   Kita akan hitung LOF untuk **titik 3** (5.0, 6.0).

2. **Hitung Jarak Euclidean**:  
   Jarak antara titik 3 dan titik lainnya:
   - Titik 3 ke Titik 2: 2.12
   - Titik 3 ke Titik 4: 2.12

3. **Tentukan k-Tetangga Terdekat** (k=2):  
   Titik 3 memiliki dua tetangga terdekat: titik 2 dan titik 4.

4. **Hitung Reachability Distance**:  
   Reachability distance antara titik 3 dan tetangga:
   - Titik 3 ke Titik 2: 2.12
   - Titik 3 ke Titik 4: 2.12

5. **Hitung Local Reachability Density (LRD)**:  
   $
   \text{LRD}(3) = \frac{1}{\frac{1}{2} \times (4.24 + 2.12)} = 0.47
   $

6. **Hitung LOF**:  
   $
   \text{LOF}(3) = \frac{0.47}{0.47} + \frac{0.47}{0.47} = 2
   $

7. **Interpretasi**:  
   Karena **LOF = 2** (lebih besar dari 1), titik 3 dianggap **outlier**.

LOF mengukur seberapa terisolasi titik dibandingkan tetangganya. Titik dengan LOF lebih besar dari 1 dianggap outlier.

## **IMPLEMENTASI PAKAI SKLEARN UNTUK DATA CONTOH**

In [1]:
import numpy as np
import pandas as pd
from sklearn.neighbors import LocalOutlierFactor

# Dataset contoh
data = {
    'Feature1': [2.0, 3.5, 5.0, 6.5, 8.0],
    'Feature2': [3.0, 4.5, 6.0, 7.5, 9.0]
}

# Membuat DataFrame
df = pd.DataFrame(data)

# Inisialisasi model LOF dengan k=2 (2 tetangga terdekat)
lof = LocalOutlierFactor(n_neighbors=2)

# Fit model LOF dan prediksi label (1 untuk normal, -1 untuk outlier)
lof_labels = lof.fit_predict(df)

# Menambahkan hasil prediksi ke DataFrame
df['LOF Label'] = lof_labels

# Menampilkan hasil
print(df)

# Menampilkan jumlah outlier
num_outliers = (lof_labels == -1).sum()
print(f"\nJumlah outlier: {num_outliers}")

# Menampilkan data outlier
outliers = df[df['LOF Label'] == -1]
print("\nData Outlier:")
print(outliers)

   Feature1  Feature2  LOF Label
0       2.0       3.0          1
1       3.5       4.5          1
2       5.0       6.0          1
3       6.5       7.5          1
4       8.0       9.0          1

Jumlah outlier: 0

Data Outlier:
Empty DataFrame
Columns: [Feature1, Feature2, LOF Label]
Index: []


In [2]:
%pip install pymysql
%pip install psycopg2

Collecting pymysql
  Downloading PyMySQL-1.1.1-py3-none-any.whl.metadata (4.4 kB)
Downloading PyMySQL-1.1.1-py3-none-any.whl (44 kB)
[?25l   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/45.0 kB[0m [31m?[0m eta [36m-:--:--[0m[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m45.0/45.0 kB[0m [31m1.7 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: pymysql
Successfully installed pymysql-1.1.1


kode diatas adalah Perintah %pip install pymysql digunakan untuk menginstal pustaka PyMySQL, yang berfungsi sebagai konektor antara Python dan database MySQL. Dengan pustaka ini, pengguna dapat menjalankan perintah SQL seperti INSERT, SELECT, UPDATE, DELETE, dan mengelola database langsung dari skrip Python.

Sementara itu, perintah %pip install psycopg2 digunakan untuk menginstal pustaka psycopg2, yang merupakan driver utama untuk berkomunikasi dengan database PostgreSQL. Pustaka ini memungkinkan pengguna untuk menghubungkan Python ke PostgreSQL, menjalankan query, dan mengelola data dengan mudah.

Kedua pustaka ini sangat berguna dalam pengembangan aplikasi berbasis database, baik untuk kebutuhan analisis data, pengelolaan transaksi, maupun pengembangan web yang menggunakan MySQL atau PostgreSQL sebagai sistem manajemen basis data (DBMS).

In [3]:
import psycopg2
import pymysql
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from scipy.spatial.distance import euclidean

def get_pg_data():
    conn = psycopg2.connect(
        host="pg-289a0f88-pendataa.g.aivencloud.com",
        user="avnadmin",
        password="AVNS_1tT_bnHq81keqZ9n-wh",
        database="defaultdb",
        port=22825
    )
    cursor = conn.cursor()
    cursor.execute("SELECT * FROM iris_postgresql")
    data = cursor.fetchall()
    columns = [desc[0] for desc in cursor.description]
    cursor.close()
    conn.close()
    return pd.DataFrame(data, columns=columns)

def get_mysql_data():
    conn = pymysql.connect(
        host="mysql-9b686fb-pendataa.g.aivencloud.com",
        user="avnadmin",
        password="AVNS_ZuFdVS1OQkmHx4P1Wtp",
        database="defaultdb",
        port=22825
    )
    cursor = conn.cursor()
    cursor.execute("SELECT * FROM irismysql")
    data = cursor.fetchall()
    columns = [desc[0] for desc in cursor.description]
    cursor.close()
    conn.close()
    return pd.DataFrame(data, columns=columns)

# Ambil data dari kedua database
df_postgresql = get_pg_data()
df_mysql = get_mysql_data()

# Gabungkan berdasarkan kolom 'id' dan 'Class'
df_merged = pd.merge(df_mysql, df_postgresql, on=["id", "class"], how="inner")

# Ambil data fitur numerik
feature_columns = ["petal_length", "petal_width", "sepal_length", "sepal_width"]
data_values = df_merged[feature_columns].values

kode diatas di gunakan untuk menggabungkan data dari 2 database

In [4]:
import pandas as pd
from sklearn.neighbors import LocalOutlierFactor

# Gabungkan berdasarkan kolom 'id' dan 'class'
df_merge = pd.merge(df_mysql, df_postgresql, on=["id", "class"], how="inner")

# Ambil data fitur numerik tanpa kolom 'class'
feature_columns = ["petal_length", "petal_width", "sepal_length", "sepal_width"]
data_values = df_merge[feature_columns].values

# Inisialisasi model LOF
clf = LocalOutlierFactor(n_neighbors=90)
label = clf.fit_predict(data_values)

# Tambahkan hasil label ke dataframe
df_merge["outlier_label"] = label

# Cetak hasil dengan ID dan class
print(df_merge.to_string(index=False))

num_outliers = (label == -1).sum()
print(f"\nJumlah outlier: {num_outliers}")

outliers = df_merge[df_merge["outlier_label"] == -1]
print("\nData Outlier:")
print(outliers.to_string(index=False))

 id           class  petal_length  petal_width  sepal_length  sepal_width  outlier_label
  1     Iris-setosa           1.4          0.2           5.1          3.5              1
  2     Iris-setosa          14.0          2.0          40.9         30.0             -1
  3     Iris-setosa           1.3          0.2           4.7          3.2              1
  4     Iris-setosa           1.5          0.2           4.6          3.1              1
  5     Iris-setosa           1.4          0.2           5.0          3.6              1
  6     Iris-setosa           1.7          0.4           5.4          3.9              1
  7     Iris-setosa           1.4          0.3           4.6          3.4              1
  8     Iris-setosa           1.5          0.2           5.0          3.4              1
  9     Iris-setosa           1.4          0.2           4.4          2.9              1
 10     Iris-setosa           1.5          0.1           4.9          3.1              1
 11     Iris-setosa  

Kode diatas ini digunakan untuk mendeteksi outlier dalam data yang berasal dari dua database, yaitu MySQL dan PostgreSQL. Pertama, data dari kedua sumber digabungkan berdasarkan kolom "id" dan "class" sehingga hanya data dengan nilai yang sama pada kedua kolom tersebut yang disertakan.


Setelah itu, hanya kolom fitur numerik "petal_length", "petal_width", "sepal_length", dan "sepal_width" yang diambil untuk dianalisis. Data ini kemudian digunakan sebagai input untuk model Local Outlier Factor (LOF), yang diinisialisasi dengan 90 tetangga terdekat. Model ini menghitung kepadatan lokal dari setiap titik data dan membandingkannya dengan tetangga terdekatnya untuk mengidentifikasi apakah suatu titik merupakan outlier atau tidak.


Hasil prediksi dari LOF berupa label 1 untuk data normal dan -1 untuk outlier. Label ini ditambahkan ke dalam dataset yang telah digabungkan. Kemudian, jumlah total outlier dihitung dan ditampilkan, serta seluruh data yang terdeteksi sebagai outlier ditampilkan secara terpisah untuk analisis lebih lanjut.