# Materi Local Outlier Factor(LOF)

# Deteksi Outlier dengan Menggunakan Metode Local Outlier Factor (LOF)

## Apa itu Local Outlier Factor?
Local Outlier Factor (LOF) adalah algoritma yang digunakan untuk mendeteksi outlier atau anomali dalam kumpulan data. LOF bekerja dengan membandingkan kepadatan suatu titik data dengan kepadatan tetangganya.

## Cara kerja LOF:
1. LOF menghitung kerapatan lokal suatu titik data.
2. LOF membandingkan kerapatan lokal titik data tersebut dengan kerapatan lokal tetangganya.
3. LOF menganggap titik data yang memiliki kerapatan jauh lebih rendah daripada tetangganya sebagai outlier.

## Kelebihan LOF
LOF merupakan algoritma pembelajaran mesin tanpa pengawasan. LOF memiliki konsep yang sama dengan DBSCAN dan OPTICS, seperti konsep "jarak inti" dan "jarak jangkauan".

# Contoh Menghitung Manual LOF

Berikut adalah langkah-langkah menghitung LOF secara manual dengan k=3.

1. Dataset

| ID | Fitur 1 | Fitur 2 |
|----|---------|---------|
| 1  | 2.1     | 3.4     |
| 2  | 1.8     | 3.1     |
| 3  | 2.5     | 3.8     |
| 4  | 8.0     | 8.2     |
| 5  | 14.7    | 17.0    |
| 6  | 8.2     | 8.5     |
| 7  | 12.3    | 20.3    |
| 8  | 4.7     | 5.3     |
| 9  | 4.3     | 4.9     |
| 10 | 10.0    | 10.2    |



2. Tentukan Jarak Antar Titik (Euclidean Distance)

LOF memerlukan perhitungan jarak antara setiap titik dengan semua titik lainya. Kita menggunakan jarak Euclidean:

  $
  \text {d}(A,B)= √(x2-x1)²+(y2-y1)²
  $

Contoh:

  $
  \text {d}(1,2)= √(2.1-1.8)² + (3.4-3.1)² = √0.3² + 0.3² = √0.09 + 0.09 = √0.18 ≈ 0.42
  $

Proses ini dilakukan untuk semua pasangan titik sehingga diperoleh matriks jarak.

3. Tentukan k-Tetangga Terdekat

Untuk setiap titik, kita urutkan jarak ke titik lain dan pilih 3 tetangga terdekat (k=3).
Misalnya, untuk titik ID 1 (2.1, 3.4), tetangga terdekat adalah ID 2, ID 3, dan ID 7 berdasarkan jarak terkecil.

4. Hitung k-Distance

k-Distance adalah jarak ke tetangga ke-k (tetangga ke-3).
Misalnya, jika titik ID 1 memiliki tetangga ke-1, ke-2, dan ke-3 dengan jarak:

$
\text [0.42,0.64,2.85]
$

Maka, k-Distance ID 1 = 2.85 (jarak ke tetangga ke-3).

5. Hitung Reachability Distance

Untuk setiap pasangan titik A dan tetangganya B, kita hitung reachability distance:

  $
  \text RD(A,B) = max(k-Distance(B),D(A,B))
  $

Misalnya untuk ID 1 dan ID 2:

k-Distance ID 2 = 2.85

Jarak ID 1 ke ID 2 = 0.42

  $
  \text RD(1,2) = max(2.85, 0.42) = 2.85
  $

  $
  \text RD(1,2) = max(2.85, 0.42) = 2.85
  $

Kita lakukan ini untuk semua tetangga.

6. Hitung Local Reachability Density (LRD)

LRD didefinisikan sebagai kebalikan dari rata-rata reachability distance ke tetangga:

$
\text {LRD}(A) = \frac {1}{ {\frac {1}{k}} ∑ RD(A,B)}
$

Misalnya untuk ID 1:

RD(1,2) = 2.85

RD(1,3)=2.85

RD(1,7)=2.90

$
\text LRD(1) = \frac {1}{ (2.85 + 2.85 + 2.90) / 3} = \frac {1}{2.8667} ≈ 0.349
$


7. Hitung LOF Score

LOF didefinisikan sebagai rasio rata-rata LRD tetangga terhadap LRD titik tersebut:

$
\text {LOF}(A)=  \frac {∑LRD(B)} {k \times LRD(A)}
$

Misalnya untuk ID 1:
- LRD(2)=0.308
- LRD(3)=0.400
- LRD(7)=0.295

$
\text LOF(1)= \frac {(0.308+0.400+0.295)} {3 \times 0.349} = \frac {1.047}{1.003} ≈ 1.13
$

Interpretasi LOF:
- Jika LOF ≈ 1, maka titik tersebut bukan outlier.
- Jika LOF > 1, maka titik tersebut memiliki kemungkinan sebagai outlier.
- Semakin besar LOF, semakin besar kemungkinannya menjadi outlier.

# Implementasi Menggunakan Skelearn

In [1]:
%pip install pymysql
%pip install psycopg2

Note: you may need to restart the kernel to use updated packages.
Note: you may need to restart the kernel to use updated packages.


In [2]:
import numpy as np
import pandas as pd
from sklearn.neighbors import LocalOutlierFactor

# Dataset contoh dengan tambahan 5 data lagi
data = {
    'Fitur 1': [2.1, 1.8, 2.5, 8.0, 7.5, 14.7, 4.5, 12.3, 4.3, 10.0],
    'Fitur 2': [3.4, 3.1, 3.8, 8.2, 8.0, 17.0, 5.0, 20.3, 4.9, 10.2]
}

# Membuat DataFrame
df = pd.DataFrame(data)

# Inisialisasi model LOF dengan k=3 (3 tetangga terdekat untuk stabilitas lebih baik)
lof = LocalOutlierFactor(n_neighbors=3)

# Fit model LOF dan prediksi label (1 untuk normal, -1 untuk outlier)
lof_labels = lof.fit_predict(df)

# Menambahkan hasil prediksi ke DataFrame
df['LOF Label'] = lof_labels

# Menampilkan hasil
print(df)

# Menampilkan jumlah outlier
num_outliers = (lof_labels == -1).sum()
print(f"\nJumlah outlier: {num_outliers}")

# Menampilkan data outlier
outliers = df[df['LOF Label'] == -1]
print("\nData Outlier:")
print(outliers)


   Fitur 1  Fitur 2  LOF Label
0      2.1      3.4          1
1      1.8      3.1          1
2      2.5      3.8          1
3      8.0      8.2          1
4      7.5      8.0          1
5     14.7     17.0         -1
6      4.5      5.0          1
7     12.3     20.3         -1
8      4.3      4.9          1
9     10.0     10.2          1

Jumlah outlier: 2

Data Outlier:
   Fitur 1  Fitur 2  LOF Label
5     14.7     17.0         -1
7     12.3     20.3         -1


Kode diatas digunakan untuk menginstal dua pustaka Python, yaitu `pymysql` dan `psycopg2`, yang berfungsi sebagai konektor untuk basis data (database). Pustaka `pymysql` digunakan untuk menghubungkan aplikasi Python dengan database MySQL atau MariaDB menggunakan protokol MySQL asli. Sementara itu, `psycopg2` merupakan pustaka yang digunakan untuk menghubungkan Python dengan database PostgreSQL, menyediakan antarmuka yang efisien untuk menjalankan perintah SQL dan berinteraksi dengan database tersebut.

In [3]:
import psycopg2
import pymysql
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from scipy.spatial.distance import euclidean

def get_pg_data():
    conn = psycopg2.connect(
         host="pg-23566fa8-poostgree.d.aivencloud.com",
        user="avnadmin",
        password="AVNS_PQHHNe5BmPwoXLKHHad",
        database="defaultdb",
        port=19790
    )
    cursor = conn.cursor()
    cursor.execute('SELECT * FROM  "rossi"."postgree"')
    data = cursor.fetchall()
    columns = [desc[0] for desc in cursor.description]
    cursor.close()
    conn.close()
    return pd.DataFrame(data, columns=columns)

def get_mysql_data():
    conn = pymysql.connect(
        host="mysql-761e1af-mysqlmysql.d.aivencloud.com",
        user="avnadmin",
        password="AVNS_b3-R_nwIM0G13-jogyl",
        database="defaultdb",
        port=22667
    )
    cursor = conn.cursor()
    cursor.execute("SELECT * FROM flowers")
    data = cursor.fetchall()
    columns = [desc[0] for desc in cursor.description]
    cursor.close()
    conn.close()
    return pd.DataFrame(data, columns=columns)

# Ambil data dari kedua database
df_postgresql = get_pg_data()
df_mysql = get_mysql_data()
df_postgresql = df_postgresql.rename(columns={'Class': 'class'})

# Gabungkan berdasarkan kolom 'id' dan 'Class'
df_merged = pd.merge(df_mysql, df_postgresql, on=["id", "class"], how="inner")

# Ambil data fitur numerik
feature_columns = ["petal length", "petal width", "sepal length", "sepal width"]
data_values = df_merged[feature_columns].values

Kode diatas hanya untuk menggabungkan data dari 2 database saja

In [4]:
import pandas as pd
from sklearn.neighbors import LocalOutlierFactor

# Gabungkan berdasarkan kolom 'id' dan 'class'
df_merge = pd.merge(df_mysql, df_postgresql, on=["id", "class"], how="inner")

# Ambil data fitur numerik tanpa kolom 'class'
feature_columns = ["petal length", "petal width", "sepal length", "sepal width"]
data_values = df_merge[feature_columns].values

# Inisialisasi model LOF
clf = LocalOutlierFactor(n_neighbors=90)
label = clf.fit_predict(data_values)

# Tambahkan hasil label ke dataframe
df_merge["outlier_label"] = label

# Cetak hasil dengan ID dan class
print(df_merge.to_string(index=False))

num_outliers = (label == -1).sum()
print(f"\nJumlah outlier: {num_outliers}")

outliers = df_merge[df_merge["outlier_label"] == -1]
print("\nData Outlier:")
print(outliers.to_string(index=False))

 id           class  petal length  petal width  sepal length  sepal width  outlier_label
  1     Iris-setosa          86.4         70.0          20.1         30.5             -1
  2     Iris-setosa           1.4          0.2           4.9          3.0              1
  3     Iris-setosa           1.3          0.2           4.7          3.2              1
  4     Iris-setosa           1.5          0.2           4.6          3.1              1
  5     Iris-setosa           1.4          0.2           5.0          3.6              1
  6     Iris-setosa           1.7          0.4           5.4          3.9              1
  7     Iris-setosa           1.4          0.3           4.6          3.4              1
  8     Iris-setosa           1.5          0.2           5.0          3.4              1
  9     Iris-setosa           1.4          0.2           4.4          2.9              1
 10     Iris-setosa           1.5          0.1           4.9          3.1              1
 11     Iris-setosa  

Kode di atas menggunakan metode Local Outlier Factor (LOF) untuk mendeteksi outlier pada data yang digabungkan dari dua database, yaitu PostgreSQL dan MySQL. Setelah data digabungkan berdasarkan kolom 'id' dan 'class', kode ini mengekstrak fitur numerik, seperti panjang dan lebar petal serta panjang dan lebar sepal, untuk analisis deteksi outlier lebih lanjut.

Metode LOF bekerja dengan mengidentifikasi outlier berdasarkan kepadatan lokal data. Artinya, LOF menilai seberapa terisolasi suatu titik data dibandingkan dengan titik-titik data sekitarnya. LOF menghitung rasio kepadatan antara suatu titik dan tetangganya; jika titik tersebut memiliki kepadatan yang jauh lebih rendah daripada tetangganya, maka titik tersebut dianggap sebagai outlier. Dalam kode ini, parameter n_neighbors=90 digunakan untuk menentukan bahwa model LOF akan mempertimbangkan 90 tetangga terdekat dalam analisis kepadatan.

