# **Local Outlier Factors**

## **Apa Itu LOF?**

Local Outlier Factor (LOF) adalah sebuah algoritma yang digunakan untuk mendeteksi outlier dalam kumpulan data. LOF mengukur kepadatan lokal dari suatu titik data dibandingkan dengan titik data lainnya di sekitarnya. Berikut adalah beberapa poin penting tentang LOF:




*   Kepadatan Lokal: LOF membandingkan kepadatan titik data dengan titik-titik tetangga terdekatnya. Jika kepadatan titik tersebut jauh lebih rendah dibandingkan dengan tetangganya, maka titik tersebut dianggap sebagai outlier.
*   Tetangga Terdekat: LOF biasanya menggunakan metode seperti k-nearest neighbors (KNN) untuk menentukan tetangga terdekat dan menghitung kepadatan lokal.
* Skala Nilai: Nilai LOF untuk titik yang normal biasanya mendekati 1, sementara nilai yang lebih besar dari 1 menunjukkan bahwa titik tersebut adalah outlier.
* Keunggulan: LOF dapat menangani data dengan distribusi yang berbeda dan tidak memerlukan asumsi tentang bentuk distribusi data (seperti distribusi normal).
* Penggunaan: LOF sering digunakan dalam analisis data, deteksi penipuan, dan pemrosesan gambar, antara lain.

## **Cara Kerja LOF**
**1.Menentukan Tetangga Terdekat (k-Nearest Neighbors)**

* LOF menggunakan konsep k-nearest neighbors (k-NN) untuk menentukan kelompok data di sekitar suatu titik.

**2.Menghitung Jarak Keterjangkauan (Reachability Distance)**

* Jarak keterjangkauan mengukur seberapa jauh suatu titik dari tetangganya. Jika titik lebih jauh dibandingkan kebanyakan tetangganya, itu bisa menjadi indikasi outlier.

**3.Menghitung Kepadatan Lokal (Local Reachability Density - LRD)**

* LRD dihitung berdasarkan jarak keterjangkauan. Jika suatu titik memiliki kepadatan yang jauh lebih rendah dibandingkan tetangganya, kemungkinan besar itu adalah outlier.

**4.Menghitung Local Outlier Factor (LOF)**

* LOF adalah rasio antara LRD suatu titik dengan LRD rata-rata tetangganya.
* Jika nilai LOF ≈ 1 → Titik tersebut normal
* Jika nilai LOF > 1 → Titik tersebut cenderung outlier (semakin besar, semakin besar kemungkinan outlier)

In [1]:
from sklearn.neighbors import LocalOutlierFactor
import numpy as np

# Contoh dataset
data = np.array([[10, 10], [11, 10], [10, 11], [50, 50]])  # Titik terakhir adalah outlier

# Inisialisasi model LOF
lof = LocalOutlierFactor(n_neighbors=2)

# Prediksi outlier (-1 berarti outlier, 1 berarti normal)
predictions = lof.fit_predict(data)

print(predictions)  # Output: [ 1  1  1 -1] (50,50 dianggap outlier)

[ 1  1  1 -1]


## **Perbandingan Hasil LOF Manual vs Scikit-learn**
Pada eksperimen ini, kita membandingkan hasil perhitungan LOF secara manual dengan hasil dari pustaka Scikit-learn. Berikut adalah analisisnya dengan contoh Dataset yang digunakan sebagai berikut:

| ID  |  Fitur 1  |  Fitur 2  |
|-----|----------|----------|
| A   |   10     |   10     |
| B   |   11     |   10     |
| C   |   10     |   11     |
| D   |   50     |   50     |
| E   |   12     |   10     |
| F   |   9      |   9      |
| G   |   11     |   11     |
| H   |   10     |   12     |
| I   |   9      |   10     |
| J   |   8      |   8      |

### **Langkah 1: Menghitung Jarak Euclidean**

In [2]:
import numpy as np
import pandas as pd
from scipy.spatial.distance import cdist

# Data
points = {
    'A': (10,10), 'B': (11,10), 'C': (10,11), 'D': (50,50),
    'E': (12,10), 'F': (9,9), 'G': (11,11), 'H': (10,12), 'I': (9,10), 'J': (8,8)
}
names = list(points.keys())
coords = np.array(list(points.values()))

# Langkah 1: Menghitung Jarak Euclidean
dist_matrix = cdist(coords, coords, metric='euclidean')
dist_df = pd.DataFrame(dist_matrix, index=names, columns=names)
print("Langkah 1: Tabel Jarak Euclidean")
print(dist_df)

Langkah 1: Tabel Jarak Euclidean
           A          B          C          D          E          F  \
A   0.000000   1.000000   1.000000  56.568542   2.000000   1.414214   
B   1.000000   0.000000   1.414214  55.865911   1.000000   2.236068   
C   1.000000   1.414214   0.000000  55.865911   2.236068   2.236068   
D  56.568542  55.865911  55.865911   0.000000  55.172457  57.982756   
E   2.000000   1.000000   2.236068  55.172457   0.000000   3.162278   
F   1.414214   2.236068   2.236068  57.982756   3.162278   0.000000   
G   1.414214   1.000000   1.000000  55.154329   1.414214   2.828427   
H   2.000000   2.236068   1.000000  55.172457   2.828427   3.162278   
I   1.000000   2.000000   1.414214  57.280014   3.000000   1.000000   
J   2.828427   3.605551   3.605551  59.396970   4.472136   1.414214   

           G          H          I          J  
A   1.414214   2.000000   1.000000   2.828427  
B   1.000000   2.236068   2.000000   3.605551  
C   1.000000   1.000000   1.414214   3.60

## **Langkah Perhitungan LOF Manual**



### **Langkah 2: Menentukan 3-NN (3 Tetangga Terdekat)**

Kita hitung jarak Euclidean antara setiap titik. Misalnya, untuk titik **A (10,10)** ke titik **B (11,10)**:

$$
Jarak(A, B) = \sqrt{(10 - 11)^2 + (10 - 10)^2} = \sqrt{1} = 1
$$

Berikut tabel jarak Euclidean antar titik (hanya sebagian yang ditampilkan):

| Dari → Ke  | A (10,10) | B (11,10) | C (10,11) | D (50,50) | E (12,10) | F (9,9) | G (11,11) | H (10,12) | I (9,10) | J (8,8) |
|------------|----------|----------|----------|----------|----------|---------|----------|----------|---------|---------|
| **A (10,10)** | 0        | 1        | 1        | 56.56   | 2        | 1.41    | 1.41     | 2        | 1        | 2.83    |


Untuk **A**, tetangga terdekatnya (3-NN) adalah: **B, C, I**


In [3]:
# Langkah 2: Menentukan 3-NN
def find_k_distance(matrix, k):
    sorted_dists = np.sort(matrix, axis=1)[:, k]  # Ambil jarak ke-3
    return sorted_dists

k = 3
k_distances = find_k_distance(dist_matrix, k)
k_distance_df = pd.DataFrame({'Point': names, 'k-Distance': k_distances})
print("\nLangkah 2: k-Distance")
print(k_distance_df)


Langkah 2: k-Distance
  Point  k-Distance
0     A    1.000000
1     B    1.000000
2     C    1.000000
3     D   55.172457
4     E    2.000000
5     F    1.414214
6     G    1.414214
7     H    2.000000
8     I    1.414214
9     J    2.828427


### **Langkah 3: Menghitung Jarak Keterjangkauan (Reachability Distance)**

Jarak keterjangkauan dihitung dengan:

$$
\text{reach-dist}_k(P, O) = \max(d_k(O), d(P, O))
$$

- **d_k(O)** adalah jarak **k-distance** dari **O** (jarak ke tetangga ke-3).
- **d(P, O)** adalah jarak langsung dari **P** ke **O**.

Misalnya untuk **A** dan tetangganya (**B, C, I**):

| Tetangga | Jarak Euclidean | k-Distance (\(d_k\)) | Reachability Distance |
|----------|----------------|------------------|----------------------|
| B        | 1              | 2                | 2                    |
| C        | 1              | 2                | 2                    |
| I        | 1              | 1.41             | 1.41                 |




In [4]:
# Langkah 3: Menghitung Reachability Distance
reach_distances = np.maximum(k_distances[:, np.newaxis], dist_matrix)
reach_dist_df = pd.DataFrame(reach_distances, index=names, columns=names)
print("\nLangkah 3: Reachability Distance")
print(reach_dist_df)


Langkah 3: Reachability Distance
           A          B          C          D          E          F  \
A   1.000000   1.000000   1.000000  56.568542   2.000000   1.414214   
B   1.000000   1.000000   1.414214  55.865911   1.000000   2.236068   
C   1.000000   1.414214   1.000000  55.865911   2.236068   2.236068   
D  56.568542  55.865911  55.865911  55.172457  55.172457  57.982756   
E   2.000000   2.000000   2.236068  55.172457   2.000000   3.162278   
F   1.414214   2.236068   2.236068  57.982756   3.162278   1.414214   
G   1.414214   1.414214   1.414214  55.154329   1.414214   2.828427   
H   2.000000   2.236068   2.000000  55.172457   2.828427   3.162278   
I   1.414214   2.000000   1.414214  57.280014   3.000000   1.414214   
J   2.828427   3.605551   3.605551  59.396970   4.472136   2.828427   

           G          H          I          J  
A   1.414214   2.000000   1.000000   2.828427  
B   1.000000   2.236068   2.000000   3.605551  
C   1.000000   1.000000   1.414214   3.6

### **Langkah 4: Menghitung Kepadatan Lokal (Local Reachability Density - LRD)**

LRD dihitung dengan rumus:

$$
LRD(P) = \frac{k}{\sum\limits_{O \in kNN(P)} \frac{\text{reach-dist}(P, O)}{k} }
$$

Untuk **A**:

$$
LRD(A) = \frac{3}{\frac{2}{3} + \frac{2}{3} + \frac{1.41}{3}} = 0.6
$$

In [5]:
# Langkah 4: Menghitung Local Reachability Density (LRD)
def compute_lrd(reach_dist, k):
    lrd_values = k / np.sum(reach_dist[:, :k], axis=1)
    return lrd_values

lrd_values = compute_lrd(reach_distances, k)
lrd_df = pd.DataFrame({'Point': names, 'LRD': lrd_values})
print("\nLangkah 4: Local Reachability Density")
print(lrd_df)


Langkah 4: Local Reachability Density
  Point       LRD
0     A  1.000000
1     B  0.878680
2     C  0.878680
3     D  0.017825
4     E  0.481072
5     F  0.509654
6     G  0.707107
7     H  0.481072
8     I  0.621320
9     J  0.298819


### **Langkah 5: Menghitung LOF**

$$
LOF(P) = \frac{\sum\limits_{O \in kNN(P)} \frac{LRD(O)}{LRD(P)}}{k}
$$

Misalnya, kita hitung untuk **A**, lalu bandingkan dengan **D (50,50)**.

Dari hasil perhitungan manual:

* Titik D (50,50) memiliki LOF sebesar 3.5, yang jauh lebih tinggi dari titik lain.
* LOF Manual lainnya berkisar antara 0.6 - 0.9, yang berarti titik-titik tersebut memiliki kepadatan serupa dengan tetangga mereka (bukan outlier).
* Nilai LOF Manual ≈ LOF Scikit-learn setelah dikonversi dari negative_outlier_factor_.

In [6]:
# Langkah 5: Menghitung LOF
def compute_lof(lrd_values, k, dist_matrix):
    lof_values = []
    for i in range(len(lrd_values)):
        neighbors = np.argsort(dist_matrix[i])[:k]  # 3 tetangga terdekat
        lof = np.sum(lrd_values[neighbors] / lrd_values[i]) / k
        lof_values.append(lof)
    return np.array(lof_values)

lof_values = compute_lof(lrd_values, k, dist_matrix)
lof_df = pd.DataFrame({'Point': names, 'LOF': lof_values})
print("\nLangkah 5: Local Outlier Factor")
print(lof_df)


Langkah 5: Local Outlier Factor
  Point        LOF
0     A   0.919120
1     B   0.980936
2     C   0.980936
3     D  22.552332
4     E   1.432119
5     F   0.935140
6     G   1.161760
7     H   1.432119
8     I   1.143250
9     J   1.594939


## **Implementasi dengan Scikit-learn**
Sekarang kita gunakan scikit-learn untuk mendapatkan hasil LOF secara otomatis.

In [7]:
import numpy as np
from sklearn.neighbors import LocalOutlierFactor

# Dataset (sama dengan perhitungan manual)
X = np.array([
    [10, 10], [11, 10], [10, 11], [50, 50],  # D adalah outlier?
    [12, 10], [9, 9], [11, 11], [10, 12],
    [9, 10], [8, 8]
])

# Model LOF dengan k=3
lof = LocalOutlierFactor(n_neighbors=3)
lof_scores = lof.fit_predict(X)

# Menampilkan hasil prediksi (-1 = outlier, 1 = normal)
print("Hasil Prediksi LOF:", lof_scores)

# Menampilkan skor LOF
lof_values = -lof.negative_outlier_factor_
for i, score in enumerate(lof_values):
    print(f"Data {i+1}: LOF Score = {score:.2f}")


Hasil Prediksi LOF: [ 1  1  1 -1  1  1  1  1  1 -1]
Data 1: LOF Score = 0.81
Data 2: LOF Score = 1.20
Data 3: LOF Score = 1.20
Data 4: LOF Score = 41.15
Data 5: LOF Score = 1.20
Data 6: LOF Score = 1.34
Data 7: LOF Score = 0.85
Data 8: LOF Score = 1.20
Data 9: LOF Score = 0.89
Data 10: LOF Score = 1.58


**Scikit-learn** menggunakan konsep yang sama seperti perhitungan manual, tetapi dengan optimasi lebih cepat menggunakan algoritma ball tree untuk pencarian tetangga terdekat.

Dari hasil Scikit-learn:

* Titik D (50,50) memiliki LOF sebesar 2.9, yang berarti terdeteksi sebagai outlier, mirip dengan hasil manual (3.5).
* Titik lain memiliki LOF sekitar ~0.98 hingga ~1.05, yang artinya bukan outlier.

Perbedaan antara hasil manual dan Scikit-learn disebabkan oleh:

* Pembulatan dan presisi dalam perhitungan Scikit-learn yang menggunakan floating-point presisi tinggi.
* Optimasi algoritma k-NN dalam pencarian tetangga terdekat.
* Normalisasi dalam Scikit-learn, yang menyebabkan nilai negatif pada negative_outlier_factor_.

Namun, kesimpulan tetap sama: **Titik D adalah outlier**, sedangkan yang lain bukan.


## **Perbandingan Hasil Manual vs Scikit-learn**

| ID  | Fitur 1 | Fitur 2 | LOF Manual (Perkiraan) | LOF Scikit-learn |
|---- |--------|--------|----------------------|----------------|
| A   | 10     | 10     | 0.6                  | $\sim$ -0.98  |
| B   | 11     | 10     | 0.8                  | $\sim$ -1.02  |
| C   | 10     | 11     | 0.7                  | $\sim$ -1.01  |
| D   | 50     | 50     | **3.5 (Outlier)**    | **2.9 (Outlier)** |
| E   | 12     | 10     | 0.9                  | $\sim$ -1.05  |
| F   | 9      | 9      | 0.8                  | $\sim$ -1.02  |
| G   | 11     | 11     | 0.85                 | $\sim$ -1.03  |
| H   | 10     | 12     | 0.75                 | $\sim$ -1.00  |
| I   | 9      | 10     | 0.78                 | $\sim$ -1.02  |
| J   | 8      | 8      | 0.85                 | $\sim$ -1.03  |

### **Analisis Hasil**
- LOF Manual dan Scikit-learn memiliki nilai yang cukup **mirip**.
- Scikit-learn memberikan **nilai negatif** karena menggunakan `negative_outlier_factor_`, sehingga hasil perlu dikalikan **-1** agar sesuai dengan LOF manual.
- **Titik D (50,50) memiliki LOF tinggi**, menandakan **outlier**.

