## **Deteksi Outlier dengan Metode Local Outlier Factor (LOF) dalam Data Understanding**

## Pengertian LOF
Algoritme Faktor Outlier Lokal (LOF) adalah metode deteksi anomali tanpa pengawasan yang menghitung deviasi kerapatan lokal dari titik data tertentu terhadap tetangganya. Algoritme ini menganggap outlier sebagai sampel yang memiliki kerapatan yang jauh lebih rendah daripada tetangganya.

## Tahapan LOF

Tentukan Parameter K (Jumlah Tetangga Terdekat)

* Pilih K yang sesuai untuk menentukan seberapa banyak tetangga yang digunakan dalam perhitungan.
Nilai umum untuk K biasanya antara 5 hingga 20 tergantung pada dataset.

* Hitung Jarak ke K-Tetangga Terdekat (K-Nearest Neighbors Distance)
Gunakan jarak Euclidean atau Manhattan Distance untuk menentukan tetangga terdekat dari setiap titik.
Jarak ke K-tetangga terdekat (k-distance) adalah jarak antara suatu titik dengan tetangga ke-K.

* Tentukan Reachability Distance.
Reachability Distance digunakan untuk menghindari jarak yang terlalu kecil pada titik yang sangat dekat.

* Hitung Local Reachability Density (LRD)
Local Reachability Density (LRD) menunjukkan seberapa padat suatu titik dibandingkan dengan tetangganya.

* Hitung Local Outlier Factor (LOF) untuk Setiap Titik

## Menghitung Manual LOF
### **Dataset**:

| ID  | Feature1 | Feature2 |
|-----|----------|----------|
| 1   | 1.5      | 2.5      |
| 2   | 2.5      | 3.5      |
| 3   | 3.5      | 4.5      |
| 4   | 4.5      | 5.5      |
| 5   | 5.5      | 6.5      |
| 6   | 6.5      | 7.5      |
| 7   | 7.5      | 8.5      |
| 8   | 8.5      | 9.5      |
| 9   | 50.0     | 50.0     |  *(outlier)* |
| 10  | 9.5      | 10.5     |

Dalam dataset ini, **titik 9** (50.0, 50.0) adalah **outlier** karena sangat jauh dibandingkan dengan titik lainnya.

### **Menghitung LOF untuk Titik 3 (3.5, 4.5)**

Langkah-langkah manual untuk menghitung **LOF** untuk titik **3**:

#### 1. **Hitung Jarak Euclidean** antara Titik 3 dan Titik Lainnya
Jarak Euclidean antara dua titik $(x_1, y_1)$ dan $(x_2, y_2)$ dihitung dengan rumus:

$
d = \sqrt{(x_2 - x_1)^2 + (y_2 - y_1)^2}
$

- **Titik 3 ke Titik 2 (2.5, 3.5)**:
  $
  d = \sqrt{(3.5 - 2.5)^2 + (4.5 - 3.5)^2} = \sqrt{1 + 1} = \sqrt{2} \approx 1.41
  $

- **Titik 3 ke Titik 4 (4.5, 5.5)**:
  $
  d = \sqrt{(3.5 - 4.5)^2 + (4.5 - 5.5)^2} = \sqrt{1 + 1} = \sqrt{2} \approx 1.41
  $

#### 2. **Tentukan k-Tetangga Terdekat** (k = 2)
- Titik 3 memiliki dua tetangga terdekat yaitu Titik 2 dan Titik 4, berdasarkan perhitungan jarak Euclidean yang sama (1.41).

#### 3. **Hitung Reachability Distance** untuk Titik 3
Reachability distance adalah jarak antara titik dengan tetangga terdekat yang dipengaruhi oleh jarak tetangga terdekat. Misalkan \( k \)-distance antara Titik 3 dan tetangga adalah 1.41.

$
\text{Reachability Distance}(3, 2) = \max(\text{k-distance}(3), d_{3,2}) = \max(1.41, 1.41) = 1.41
$
$
\text{Reachability Distance}(3, 4) = \max(\text{k-distance}(3), d_{3,4}) = \max(1.41, 1.41) = 1.41
$

#### 4. **Hitung Local Reachability Density (LRD)** untuk Titik 3
Local Reachability Density (LRD) adalah kebalikan dari rata-rata reachability distance ke tetangga terdekat.

$
\text{LRD}(3) = \frac{1}{\frac{1}{2} \times (1.41 + 1.41)} = \frac{1}{\frac{1}{2} \times 2.82} = \frac{1}{1.41} \approx 0.71
$

#### 5. **Hitung LOF untuk Titik 3**
LOF dihitung dengan membandingkan LRD titik 3 dengan LRD tetangganya.

$
\text{LOF}(3) = \frac{\text{LRD}(3)}{\text{LRD}(2)} + \frac{\text{LRD}(3)}{\text{LRD}(4)} = \frac{0.71}{0.71} + \frac{0.71}{0.71} = 2
$

### **Interpretasi LOF**
Karena **LOF = 2** (lebih besar dari 1), titik 3 (3.5, 4.5) dianggap **outlier**.

### **Kesimpulan:**
- Titik dengan LOF lebih besar dari 1 dianggap sebagai outlier. Titik 3 memiliki LOF 2, sehingga dianggap sebagai **outlier**.
- Titik 9 (50.0, 50.0) juga akan memiliki LOF yang sangat tinggi karena jauh dari titik lainnya, sehingga dapat dikatakan sebagai outlier yang sangat jelas.

## IMPLEMENTASI PAKAI SKLEARN UNTUK DATA CONTOH

In [2]:
import numpy as np
import pandas as pd
from sklearn.neighbors import LocalOutlierFactor

# Dataset contoh dengan 10 baris dan satu outlier
data = {
    'Feature1': [1.5, 2.5, 3.5, 4.5, 5.5, 6.5, 7.5, 8.5, 50.0, 9.5],
    'Feature2': [2.5, 3.5, 4.5, 5.5, 6.5, 7.5, 8.5, 9.5, 50.0, 10.5]
}

# Membuat DataFrame
df = pd.DataFrame(data)

# Inisialisasi model LOF dengan k=2 (2 tetangga terdekat)
lof = LocalOutlierFactor(n_neighbors=2)

# Fit model LOF dan prediksi label (1 untuk normal, -1 untuk outlier)
lof_labels = lof.fit_predict(df)

# Menambahkan hasil prediksi ke DataFrame
df['LOF Label'] = lof_labels

# Menampilkan hasil
print(df)

# Menampilkan jumlah outlier
num_outliers = (lof_labels == -1).sum()
print(f"\nJumlah outlier: {num_outliers}")

# Menampilkan data outlier
outliers = df[df['LOF Label'] == -1]
print("\nData Outlier:")
print(outliers)


   Feature1  Feature2  LOF Label
0       1.5       2.5          1
1       2.5       3.5          1
2       3.5       4.5          1
3       4.5       5.5          1
4       5.5       6.5          1
5       6.5       7.5          1
6       7.5       8.5          1
7       8.5       9.5          1
8      50.0      50.0         -1
9       9.5      10.5          1

Jumlah outlier: 1

Data Outlier:
   Feature1  Feature2  LOF Label
8      50.0      50.0         -1


In [1]:
%pip install pymysql
%pip install psycopg2


[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip is available: [0m[31;49m24.3.1[0m[39;49m -> [0m[32;49m25.0.1[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49mpython -m pip install --upgrade pip[0m
Note: you may need to restart the kernel to use updated packages.

[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip is available: [0m[31;49m24.3.1[0m[39;49m -> [0m[32;49m25.0.1[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49mpython -m pip install --upgrade pip[0m
Note: you may need to restart the kernel to use updated packages.


Code diatas untuk menginstal pustaka Python PyMySQL dan Psycopg2, yang digunakan untuk menghubungkan Python dengan database:

pymysql → Untuk koneksi ke database MySQL
psycopg2 → Untuk koneksi ke database PostgreSQL

In [4]:
import psycopg2
import pymysql
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from scipy.spatial.distance import euclidean

def get_pg_data():
    conn = psycopg2.connect(
        host="pg-289a0f88-pendataa.g.aivencloud.com",
        user="avnadmin",
        password="AVNS_1tT_bnHq81keqZ9n-wh",
        database="defaultdb",
        port=22825
    )
    cursor = conn.cursor()
    cursor.execute("SELECT * FROM iris_postgresql")
    data = cursor.fetchall()
    columns = [desc[0] for desc in cursor.description]
    cursor.close()
    conn.close()
    return pd.DataFrame(data, columns=columns)

def get_mysql_data():
    conn = pymysql.connect(
        host="mysql-9b686fb-pendataa.g.aivencloud.com",
        user="avnadmin",
        password="AVNS_ZuFdVS1OQkmHx4P1Wtp",
        database="defaultdb",
        port=22825
    )
    cursor = conn.cursor()
    cursor.execute("SELECT * FROM irismysql")
    data = cursor.fetchall()
    columns = [desc[0] for desc in cursor.description]
    cursor.close()
    conn.close()
    return pd.DataFrame(data, columns=columns)

# Ambil data dari kedua database
df_postgresql = get_pg_data()
df_mysql = get_mysql_data()

# Gabungkan berdasarkan kolom 'id' dan 'Class'
df_merged = pd.merge(df_mysql, df_postgresql, on=["id", "class"], how="inner")

# Ambil data fitur numerik
feature_columns = ["petal_length", "petal_width", "sepal_length", "sepal_width"]
data_values = df_merged[feature_columns].values

Kode diatas untuk menggabungkan data dari 2 database

In [5]:
import pandas as pd
from sklearn.neighbors import LocalOutlierFactor

# Gabungkan berdasarkan kolom 'id' dan 'class'
df_merge = pd.merge(df_mysql, df_postgresql, on=["id", "class"], how="inner")

# Ambil data fitur numerik tanpa kolom 'class'
feature_columns = ["petal_length", "petal_width", "sepal_length", "sepal_width"]
data_values = df_merge[feature_columns].values

# Inisialisasi model LOF
clf = LocalOutlierFactor(n_neighbors=90)
label = clf.fit_predict(data_values)

# Tambahkan hasil label ke dataframe
df_merge["outlier_label"] = label

# Cetak hasil dengan ID dan class
print(df_merge.to_string(index=False))

num_outliers = (label == -1).sum()
print(f"\nJumlah outlier: {num_outliers}")

outliers = df_merge[df_merge["outlier_label"] == -1]
print("\nData Outlier:")
print(outliers.to_string(index=False))

 id           class  petal_length  petal_width  sepal_length  sepal_width  outlier_label
  1     Iris-setosa           1.4          0.2           5.1          3.5              1
  2     Iris-setosa          14.0          2.0          40.9         30.0             -1
  3     Iris-setosa           1.3          0.2           4.7          3.2              1
  4     Iris-setosa           1.5          0.2           4.6          3.1              1
  5     Iris-setosa           1.4          0.2           5.0          3.6              1
  6     Iris-setosa           1.7          0.4           5.4          3.9              1
  7     Iris-setosa           1.4          0.3           4.6          3.4              1
  8     Iris-setosa           1.5          0.2           5.0          3.4              1
  9     Iris-setosa           1.4          0.2           4.4          2.9              1
 10     Iris-setosa           1.5          0.1           4.9          3.1              1
 11     Iris-setosa  

Kode di atas menggunakan Local Outlier Factor (LOF) untuk mendeteksi outlier dalam data yang diperoleh dari dua database berbeda: MySQL dan PostgreSQL.

1. Menggabungkan Data
Data dari df_mysql dan df_postgresql digabungkan berdasarkan kolom "id" dan "class" menggunakan metode inner join, sehingga hanya data yang memiliki kecocokan pada kedua tabel yang akan disertakan.

2. Menyiapkan Data Fitur
Hanya kolom numerik "petal_length", "petal_width", "sepal_length", dan "sepal_width" yang digunakan untuk analisis outlier. Data dari kolom ini diambil sebagai array untuk diproses oleh model.

3. Mendeteksi Outlier dengan LOF
Model Local Outlier Factor (LOF) diinisialisasi dengan 90 tetangga terdekat (n_neighbors=90) dan diterapkan ke data. Hasil prediksi diberikan dalam bentuk label, di mana:

* 1 → Data normal
* -1 → Data terdeteksi sebagai outlier
4. Menambahkan Label ke DataFrame
Hasil deteksi outlier ditambahkan sebagai kolom baru "outlier_label" dalam df_merge.

5. Menampilkan Hasil
* Data lengkap dengan label outlier dicetak.
* Jumlah total outlier dihitung dan ditampilkan.
* Data yang terdeteksi sebagai outlier (-1) diambil dan ditampilkan secara terpisah.