# **Deteksi Outlier dengan metode Local Outlier Factor (LOF) dalam Data Understanding**
## APA ITU LOF
Dalam proses Data Understanding, deteksi outlier merupakan langkah penting untuk mengidentifikasi data yang menyimpang dari pola umum. Salah satu metode yang banyak digunakan untuk mendeteksi outlier adalah Local Outlier Factor (LOF). LOF adalah algoritma berbasis kepadatan yang mengukur sejauh mana suatu titik data berbeda dari titik-titik di sekitarnya. Berbeda dengan metode berbasis jarak seperti K-Nearest Neighbors (KNN), LOF tidak hanya mempertimbangkan jarak tetapi juga kepadatan lingkungan sekitar suatu titik data.

LOF bekerja dengan menghitung kepadatan lokal (local density) suatu titik berdasarkan jarak dengan k tetangga terdekatnya. Jika suatu titik memiliki kepadatan yang jauh lebih rendah dibandingkan dengan tetangga sekitarnya, maka titik tersebut dianggap sebagai outlier. Nilai LOF lebih besar dari 1 menunjukkan bahwa suatu titik kemungkinan adalah outlier, sementara nilai mendekati 1 menunjukkan bahwa titik tersebut berada dalam kelompok yang serupa dengan data lainnya.

Metode LOF memiliki keunggulan dibandingkan teknik deteksi outlier lainnya karena kemampuannya dalam menangani outlier secara kontekstual. Artinya, LOF dapat mengenali outlier berdasarkan kondisi lokalnya tanpa bergantung pada distribusi global data. Oleh karena itu, LOF sering digunakan dalam berbagai bidang seperti deteksi anomali dalam transaksi keuangan, keamanan siber, dan pemantauan sensor. Namun, kelemahan LOF adalah kepekaannya terhadap pemilihan parameter k serta kompleksitas komputasi yang tinggi pada dataset besar. Oleh karena itu, dalam praktiknya, pemilihan parameter yang optimal sangat penting untuk meningkatkan kinerja deteksi outlier dengan LOF.

## BAGAIMANA TAHAPAN LOF
Tahapan dari metode **Local Outlier Factor (LOF)** dalam mendeteksi outlier adalah sebagai berikut:

- Persiapan Data – Kumpulkan, bersihkan, dan normalisasi data jika diperlukan untuk memastikan hasil yang lebih akurat.

- Menentukan Parameter k – Pilih jumlah tetangga terdekat (k) yang akan digunakan untuk menghitung kepadatan lokal. Nilai k yang tepat sangat berpengaruh terhadap hasil deteksi.

- Menghitung Jarak K-Tetangga Terdekat – Gunakan metrik jarak seperti Euclidean distance untuk menentukan k tetangga terdekat dari setiap titik dalam dataset.

- Menghitung Kepadatan Lokal – Hitung kepadatan lokal setiap titik dengan membandingkan jaraknya terhadap tetangga-tetangganya.

- Menentukan Local Outlier Factor (LOF) Score – Hitung rasio kepadatan lokal suatu titik dibandingkan dengan kepadatan lokal dari tetangga-tetangganya. Jika suatu titik memiliki kepadatan yang jauh lebih rendah dibandingkan lingkungannya, maka LOF-nya tinggi, menandakan kemungkinan sebagai outlier.

- Menentukan Outlier Berdasarkan Threshold – Tetapkan ambang batas (threshold) untuk menentukan apakah suatu titik termasuk outlier. Titik dengan LOF > 1 secara signifikan dapat dianggap sebagai outlier.

- Visualisasi dan Analisis – Gunakan plot atau histogram untuk memahami distribusi outlier dan evaluasi hasil deteksi.

- Penanganan Outlier – Putuskan apakah outlier akan dihapus, dikoreksi, atau dianalisis lebih lanjut sesuai dengan kebutuhan bisnis atau penelitian.
   
## CONTOH MENGHITUNG MANUAL LOF
Berikut adalah cara singkat menghitung **Local Outlier Factor (LOF)** untuk satu titik data dengan dua fitur:

1. **Dataset**:  
   Misalkan data berikut:

| ID | Feature1 | Feature2 |
|----|----------|----------|
| 1  | 1.0      | 2.0      |
| 2  | 2.0      | 3.0      |
| 3  | 3.0      | 4.0      |
| 4  | 4.0      | 5.0      |
| 5  | 5.0      | 6.0      |
| 6  | 10.0      | 20.0      |
| 7  | 12.0      | 22.0      |
| 8  | 14.0      | 24.0      |
| 8  | 3.5      | 4.0      |
| 10  | 4.5      | 5.5      |

   Kita akan hitung LOF untuk **titik 3** (3.0, 4.0).
   K= 2

2. **Hitung Jarak Euclidean**:  
Jarak Euclidean antara titik ke-3 (3.0, 4.0) dan titik lainnya:

 - Ke titik 4: 2.83
 - Ke titik 6: 1.41
 - Ke titik 3: 1.41
 - Ke titik 7: 2.83
 - Ke titik 2: 17.03
 - Ke titik 8: 20.12
 - Ke titik 1: 23.32
 - Ke titik 9: 0.50
 - Ke titik 10: 2.12

  Rumus:
  $ \text{Jarak} = \sqrt{(x_2 - x_1)^2 + (y_2 - y_1)^2} $

3. **Tentukan k-Tetangga Terdekat** (k=2):  
- TTitik ke-9 (3.5, 4.0) dengan jarak 0.50
- Titik ke-2 (2.0, 3.0) dengan jarak 1.41

4. **Hitung Reachability Distance**:  
- Reachability distance ke titik 4: 0.50
- Reachability distance ke titik 6: 1.41

5. **Hitung Local Reachability Density (LRD)**:  
   $
   \text{LRD}(3) = \frac{1}{\frac{1}{2} \times (1.41 + 0.50)}
   $

   $
   =\frac{1}{\frac{1}{2} \times (1.91)} = 1.05
   $

6. **Hitung LOF**:  
Untuk menghitung LOF(5), kita perlu LRD dari titik 4 dan 6:

   $
   \text{LRD}(3.5 , 4.0) = 1.10
   $

    $
   \text{LDR}(2.0 , 3.0 ) = 0.95
   $

   $
    \text{LOF}(5) = \frac{1.10}{1.05}+\frac{0.95}{1.05}=0.98
   $

7. **Interpretasi**:  
   Karena LOF(3) ≈ 0.98, yang mendekati 1, berarti titik (3.0, 4.0) bukan outlier.

LOF mengukur seberapa terisolasi titik dibandingkan tetangganya. Titik dengan LOF lebih besar dari 1 dianggap outlier.
## Langkah-langkah perhitungan LOF:
Menentukan Jarak K-Tetangga Terdekat (k-distance)

- Jika kita pilih k = 2, maka dua tetangga terdekat titik E adalah D dan C.
Jarak Euclidean antara E dan D = √((12−6)² + (12−6)²) = 8.49
Jarak Euclidean antara E dan C = √((12−5)² + (12−5)²) = 9.90
Menghitung Reachability Distance

- Reachability distance adalah jarak maksimum antara titik tertentu dengan k-tetangganya atau k-distance dari tetangga tersebut.
Menghitung Kepadatan Lokal (Local Reachability Density, LRD)

- LRD dihitung dengan membandingkan jarak tetangga dan jumlah tetangga.
Kepadatan titik E akan jauh lebih rendah dibandingkan kepadatan titik lain di sekitarnya.
Menghitung LOF

- LOF dihitung dengan membandingkan kepadatan lokal titik E terhadap kepadatan lokal tetangga-tetangganya.
Jika LOF(E) >> 1, maka titik E kemungkinan adalah outlier karena memiliki kepadatan yang jauh lebih rendah dibandingkan titik lainnya.

## IMPLEMENTASI PAKAI SKLEARN UNTUK DATA CONTOH

In [None]:
import numpy as np
import pandas as pd
from sklearn.neighbors import LocalOutlierFactor

# Dataset contoh dengan tambahan 5 data lagi
data = {
    'Feature1': [1.0, 2.0, 3.0, 4.0, 5.0, 10.0, 12.0, 14.0, 3.5, 4.5],
    'Feature2': [2.0, 3.0, 4.0, 5.0, 6.0, 20.0, 22.0, 24.0, 4.0, 5.5]
}

# Membuat DataFrame
df = pd.DataFrame(data)

# Inisialisasi model LOF dengan k=3 (3 tetangga terdekat untuk stabilitas lebih baik)
lof = LocalOutlierFactor(n_neighbors=3)

# Fit model LOF dan prediksi label (1 untuk normal, -1 untuk outlier)
lof_labels = lof.fit_predict(df)

# Menambahkan hasil prediksi ke DataFrame
df['LOF Label'] = lof_labels

# Menampilkan hasil
print(df)

# Menampilkan jumlah outlier
num_outliers = (lof_labels == -1).sum()
print(f"\nJumlah outlier: {num_outliers}")

# Menampilkan data outlier
outliers = df[df['LOF Label'] == -1]
print("\nData Outlier:")
print(outliers)


   Feature1  Feature2  LOF Label
0       1.0       2.0          1
1       2.0       3.0          1
2       3.0       4.0          1
3       4.0       5.0          1
4       5.0       6.0          1
5      10.0      20.0         -1
6      12.0      22.0         -1
7      14.0      24.0         -1
8       3.5       4.0          1
9       4.5       5.5          1

Jumlah outlier: 3

Data Outlier:
   Feature1  Feature2  LOF Label
5      10.0      20.0         -1
6      12.0      22.0         -1
7      14.0      24.0         -1


In [None]:
%pip install pymysql
%pip install psycopg2

Collecting pymysql
  Downloading PyMySQL-1.1.1-py3-none-any.whl.metadata (4.4 kB)
Downloading PyMySQL-1.1.1-py3-none-any.whl (44 kB)
[?25l   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/45.0 kB[0m [31m?[0m eta [36m-:--:--[0m[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m45.0/45.0 kB[0m [31m1.8 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: pymysql
Successfully installed pymysql-1.1.1


Kode diatas digunakan untuk menginstal dua pustaka Python, yaitu `pymysql` dan `psycopg2`, yang berfungsi sebagai konektor untuk basis data (database). Pustaka `pymysql` digunakan untuk menghubungkan aplikasi Python dengan database MySQL atau MariaDB menggunakan protokol MySQL asli. Sementara itu, `psycopg2` merupakan pustaka yang digunakan untuk menghubungkan Python dengan database PostgreSQL, menyediakan antarmuka yang efisien untuk menjalankan perintah SQL dan berinteraksi dengan database tersebut.

In [None]:
import psycopg2
import pymysql
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from scipy.spatial.distance import euclidean

def get_pg_data():
    conn = psycopg2.connect(
         host="pg-138e7d50-postgresqllll.d.aivencloud.com",
        user="avnadmin",
        password="AVNS_hUJVkoNFS0qvBDXnrxU",
        database="defaultdb",
        port=10802
    )
    cursor = conn.cursor()
    cursor.execute('SELECT * FROM  "Naufal"."postgree"')
    data = cursor.fetchall()
    columns = [desc[0] for desc in cursor.description]
    cursor.close()
    conn.close()
    return pd.DataFrame(data, columns=columns)

def get_mysql_data():
    conn = pymysql.connect(
        host="mysql-2386dab1-myysqll.d.aivencloud.com",
        user="avnadmin",
        password="AVNS_bZVPOBZt5yW-M1GcqrS",
        database="defaultdb",
        port=22065
    )
    cursor = conn.cursor()
    cursor.execute("SELECT * FROM flowers")
    data = cursor.fetchall()
    columns = [desc[0] for desc in cursor.description]
    cursor.close()
    conn.close()
    return pd.DataFrame(data, columns=columns)

# Ambil data dari kedua database
df_postgresql = get_pg_data()
df_mysql = get_mysql_data()
df_postgresql = df_postgresql.rename(columns={'Class': 'class'})

# Gabungkan berdasarkan kolom 'id' dan 'Class'
df_merged = pd.merge(df_mysql, df_postgresql, on=["id", "class"], how="inner")

# Ambil data fitur numerik
feature_columns = ["petal length", "petal width", "sepal length", "sepal width"]
data_values = df_merged[feature_columns].values

Kode diatas hanya untuk menggabungkan data dari 2 database saja

In [None]:
import pandas as pd
from sklearn.neighbors import LocalOutlierFactor

# Gabungkan berdasarkan kolom 'id' dan 'class'
df_merge = pd.merge(df_mysql, df_postgresql, on=["id", "class"], how="inner")

# Ambil data fitur numerik tanpa kolom 'class'
feature_columns = ["petal length", "petal width", "sepal length", "sepal width"]
data_values = df_merge[feature_columns].values

# Inisialisasi model LOF
clf = LocalOutlierFactor(n_neighbors=90)
label = clf.fit_predict(data_values)

# Tambahkan hasil label ke dataframe
df_merge["outlier_label"] = label

# Cetak hasil dengan ID dan class
print(df_merge.to_string(index=False))

num_outliers = (label == -1).sum()
print(f"\nJumlah outlier: {num_outliers}")

outliers = df_merge[df_merge["outlier_label"] == -1]
print("\nData Outlier:")
print(outliers.to_string(index=False))

 id           class  petal length  petal width  sepal length  sepal width  outlier_label
  1     Iris-setosa           1.4          0.2           5.1          3.5              1
  2     Iris-setosa          14.0          2.0          40.9         30.0             -1
  3     Iris-setosa           1.3          0.2           4.7          3.2              1
  4     Iris-setosa           1.5          0.2           4.6          3.1              1
  5     Iris-setosa           1.4          0.2           5.0          3.6              1
  6     Iris-setosa           1.7          0.4           5.4          3.9              1
  7     Iris-setosa           1.4          0.3           4.6          3.4              1
  8     Iris-setosa           1.5          0.2           5.0          3.4              1
  9     Iris-setosa           1.4          0.2           4.4          2.9              1
 10     Iris-setosa           1.5          0.1           4.9          3.1              1
 11     Iris-setosa  

Kode di atas menggunakan metode Local Outlier Factor (LOF) untuk mendeteksi outlier pada data yang digabungkan dari dua database, yaitu PostgreSQL dan MySQL. Setelah data digabungkan berdasarkan kolom 'id' dan 'class', kode ini mengekstrak fitur numerik, seperti panjang dan lebar petal serta panjang dan lebar sepal, untuk analisis deteksi outlier lebih lanjut.

Metode LOF bekerja dengan mengidentifikasi outlier berdasarkan kepadatan lokal data. Artinya, LOF menilai seberapa terisolasi suatu titik data dibandingkan dengan titik-titik data sekitarnya. LOF menghitung rasio kepadatan antara suatu titik dan tetangganya; jika titik tersebut memiliki kepadatan yang jauh lebih rendah daripada tetangganya, maka titik tersebut dianggap sebagai outlier. Dalam kode ini, parameter n_neighbors=90 digunakan untuk menentukan bahwa model LOF akan mempertimbangkan 90 tetangga terdekat dalam analisis kepadatan.

