# **LOCAL OUTLIER FACTOR (LOF)**

# **Apa itu local outlier factor...?**

LOF adalah teknik deteksi anomali yang mengukur seberapa "terisolasi" suatu titik data dalam lingkungannya. Daripada hanya melihat jarak absolut, LOF berfokus pada kepadatan relatif. Intinya, LOF bertanya: "Apakah kepadatan di sekitar titik ini secara signifikan berbeda dari kepadatan di sekitar tetangga terdekatnya?"

Perbedaan Utama dari Metode Lain adalah pada Sensitivitas terhadap Kepadatan Lokal. LOF sangat efektif dalam mengidentifikasi outlier dalam dataset dengan kepadatan yang bervariasi.
Metode berbasis jarak sederhana mungkin gagal mendeteksi outlier dalam area padat jika outlier tersebut masih relatif dekat dengan titik lain.
Skor Outlier Relatif:
LOF menghasilkan skor yang mengukur seberapa jauh kepadatan suatu titik dari kepadatan tetangganya.
Ini memberikan wawasan yang lebih bernuansa daripada sekadar label biner (outlier/bukan outlier).

# **Cara kerja LOF dalam bentuk langkah-langkahnya...!**

**Cara kerja LOF**

1. Menentukan jumlah tetangga (k)

  - Pilih jumlah k tetangga terdekat untuk setiap titik data.

  - Tetangga dapat ditentukan menggunakan metrik jarak seperti Euclidean.

2. Menghitung jarak jangkauan (Reachability Distance, RD)

  - Jarak jangkauan dari titik A ke titik B adalah maksimum antara jarak Euclidean dari A ke B dan jarak ke-k dari B ke tetangganya.

3. Menghitung kepadatan keterjangkauan lokal (Local Reachability Density, LRD)

  - LRD menunjukkan seberapa rapat suatu titik dengan menghitung rata-rata RD dari k tetangganya.

4. Menghitung Local Outlier Factor (LOF)

  - LOF dibandingkan antara LRD titik dengan rata-rata LRD tetangganya.

  - Jika LOF ≈ 1, titik tersebut tidak dianggap sebagai outlier.

  - Jika LOF > 1, titik tersebut kemungkinan outlier.

  - Jika LOF ≫ 1 (misalnya > 1.5), maka titik tersebut merupakan outlier yang sangat mencolok.

# **A. Proses Perhitungan Local Outlier Factor secara Manual**

**Berikut adalah contoh data nya**

| id                 | x1                 | x2                 |
|--------------------|--------------------|--------------------|
|  1                 |  4                 |  3                 |
|  2                 |  5                 |  7                 |
|  3                 |  6                 |  6                 |
|  4                 | 45                 | 50                 |
|  5                 |  7                 |  5                 |
|  6                 |  8                 |  6                 |
|  7                 |  5                 |  4                 |
|  8                 |  7                 |  8                 |
|  9                 |  6                 |  7                 |
| 10                 |  5                 |  5                 |


Dalam perhitungan LOF (Local Outlier Factor), kita akan melakukan perhitungan manual untuk beberapa komponen utama:
1. Jarak Euclidean (Euclidean Distance)
2. K-Distance (Jarak k-terdekat)
3. Reachability Distance
4. Local Reachability Density (LRD)
5. Local Outlier Factor (LOF)

Untuk mempercepat perhitungan, kita hanya akan menampilkan beberapa hasil perhitungan menggunakan Python. Untuk rumus pertama adalah perhitungan euclidean untuk data outliers saja. Tentu pada kasus yang nyata kita harus menganalisis serta menghitung semua data datanya, bukan hanya data outliers saja. Disini saya akan menampilkan proses perhitungan data outliers nya saja.

1. Menghitung Jarak Euclidean
Pada perhitungan Euclidean, kita menghitung jarak antara titik-titik dalam dataset, khususnya dari **indeks ke-3** (outlier) ke semua titik lainnya. Misalnya, perhitungan jarak dari indeks ke-3 ke indeks ke-0 adalah **57.98**, kemudian dari indeks ke-3 ke indeks ke-1 adalah **57.20**, dan seterusnya hingga seluruh titik telah dihitung.  

  Setelah kita mendapatkan semua nilai jarak dari indeks ke-3, langkah berikutnya adalah menentukan **k-distance**. Berdasarkan ketentuan **k = 3**, maka kita mengambil **3 jarak Euclidean terkecil**.  

  Dari hasil perhitungan, diperoleh **tiga jarak terkecil** sebagai berikut:  
  - **Jarak dari indeks ke-3 ke indeks ke-9** = 54.00  
  - **Jarak dari indeks ke-3 ke indeks ke-8** = 54.10  
  - **Jarak dari indeks ke-3 ke indeks ke-7** = 54.22  

  **Catatan:** Untuk menghitung **Reachability Distance (RD)** dan **Local Reachability Density (LRD)**, kita juga memerlukan **k-distance** dari setiap indeks yang telah kita pilih.  

  Langkah selanjutnya adalah melakukan perhitungan **Reachability Distance (RD)** berdasarkan hasil **k-distance** ini.

## **Menghitung dengan menggunakan Rumus Euclidean**

In [1]:
#Berikut adalam implementasi dalam pythonnya

#Install librarynya
import numpy as np
from scipy.spatial.distance import euclidean

# Data titik dalam format array
points = np.array([
    [4, 3],   # 0
    [5, 7],   # 1
    [6, 6],   # 2
    [45, 50], # 3 (Outlier)
    [7, 5],   # 4
    [8, 6],   # 5
    [5, 4],   # 6
    [7, 8],   # 7
    [6, 7],   # 8
    [5, 5]    # 9
])

# Pasangan indeks untuk perhitungan jarak dari indeks ke-3 ke titik lainnya
selected_pairs = [(3, i) for i in range(len(points)) if i != 3]

# Fungsi untuk menghitung jarak Euclidean antar titik
def compute_distance_between_points(data, point_indices):
    distances = {}
    for (i, j) in point_indices:
        if i != j:
            distances[(i, j)] = euclidean(data[i], data[j])
    return distances

# Hitung jarak Euclidean
distances = compute_distance_between_points(points, selected_pairs)

# Urutkan berdasarkan jarak terbesar ke terkecil
sorted_distances = sorted(distances.items(), key=lambda x: x[1], reverse=True)

# Cetak hasil perhitungan
print("Jarak Euclidean antara indeks ke-3 dan titik lainnya (diurutkan dari terbesar ke terkecil):")
for (i, j), dist in sorted_distances:
    print(f"Jarak dari indeks {i} ke indeks {j}: {dist:.2f}")

# Menentukan k-distance (k=3 -> 3 jarak terkecil)
k = 3
sorted_by_smallest = sorted(distances.items(), key=lambda x: x[1])
k_distance = [dist for (_, _), dist in sorted_by_smallest[:k]]

print("\nTiga jarak terkecil (k-distance):")
for (i, j), dist in sorted_by_smallest[:k]:
    print(f"Jarak dari indeks {i} ke indeks {j}: {dist:.2f}")

Jarak Euclidean antara indeks ke-3 dan titik lainnya (diurutkan dari terbesar ke terkecil):
Jarak dari indeks 3 ke indeks 0: 62.37
Jarak dari indeks 3 ke indeks 6: 60.96
Jarak dari indeks 3 ke indeks 9: 60.21
Jarak dari indeks 3 ke indeks 4: 58.90
Jarak dari indeks 3 ke indeks 2: 58.80
Jarak dari indeks 3 ke indeks 1: 58.73
Jarak dari indeks 3 ke indeks 8: 58.05
Jarak dari indeks 3 ke indeks 5: 57.49
Jarak dari indeks 3 ke indeks 7: 56.64

Tiga jarak terkecil (k-distance):
Jarak dari indeks 3 ke indeks 7: 56.64
Jarak dari indeks 3 ke indeks 5: 57.49
Jarak dari indeks 3 ke indeks 8: 58.05


In [3]:
import numpy as np
from scipy.spatial.distance import euclidean

# Fungsi untuk menghitung jarak Euclidean antara titik yang dipilih
def compute_distance_between_points(data, point_indices):
    distances = {}
    for (i, j) in point_indices:
        if i != j:
            distances[(i, j)] = euclidean(data[i], data[j])
    return distances

# Dataset titik koordinat
points = np.array([
    [4, 3],   # 0
    [5, 7],   # 1
    [6, 6],   # 2
    [45, 50], # 3 (Outlier)
    [7, 5],   # 4
    [8, 6],   # 5
    [5, 4],   # 6
    [7, 8],   # 7
    [6, 7],   # 8
    [5, 5]    # 9
])

# Menentukan pasangan titik dari indeks ke-7 ke titik lainnya
selected_pairs = [(7, 0), (7, 1), (7, 2), (7, 4), (7, 5), (7, 6), (7, 8), (7, 9), (7, 3)]

# Menghitung jarak Euclidean
distances = compute_distance_between_points(points, selected_pairs)

# Mengurutkan jarak dari terbesar ke terkecil
sorted_distances = sorted(distances.items(), key=lambda x: x[1], reverse=True)

# Menampilkan hasil jarak Euclidean
print("Jarak Euclidean antara indeks ke-7 dan titik lainnya (diurutkan dari terbesar ke terkecil):")
for (i, j), dist in sorted_distances:
    print(f"Jarak dari indeks {i} ke indeks {j}: {dist:.2f}")

# Mengambil 3 jarak Euclidean terkecil sebagai k-distance (k = 3)
k_distance = sorted(distances.values())[:3]

print("\nTiga jarak Euclidean terkecil sebagai k-distance:")
for idx, dist in enumerate(k_distance, start=1):
    print(f"k-distance {idx}: {dist:.2f}")

Jarak Euclidean antara indeks ke-7 dan titik lainnya (diurutkan dari terbesar ke terkecil):
Jarak dari indeks 7 ke indeks 3: 56.64
Jarak dari indeks 7 ke indeks 0: 5.83
Jarak dari indeks 7 ke indeks 6: 4.47
Jarak dari indeks 7 ke indeks 9: 3.61
Jarak dari indeks 7 ke indeks 4: 3.00
Jarak dari indeks 7 ke indeks 1: 2.24
Jarak dari indeks 7 ke indeks 2: 2.24
Jarak dari indeks 7 ke indeks 5: 2.24
Jarak dari indeks 7 ke indeks 8: 1.41

Tiga jarak Euclidean terkecil sebagai k-distance:
k-distance 1: 1.41
k-distance 2: 2.24
k-distance 3: 2.24


In [4]:
import numpy as np
from scipy.spatial.distance import euclidean

# Fungsi untuk menghitung jarak Euclidean antara titik yang dipilih
def compute_distance_between_points(data, point_indices):
    distances = {}
    for (i, j) in point_indices:
        if i != j:
            distances[(i, j)] = euclidean(data[i], data[j])
    return distances

# Dataset titik koordinat
points = np.array([
    [4, 3],   # 0
    [5, 7],   # 1
    [6, 6],   # 2
    [45, 50], # 3 (Outlier)
    [7, 5],   # 4
    [8, 6],   # 5
    [5, 4],   # 6
    [7, 8],   # 7
    [6, 7],   # 8
    [5, 5]    # 9
])

# Menentukan pasangan titik dari indeks ke-5 ke titik lainnya
selected_pairs = [(5, 0), (5, 1), (5, 2), (5, 4), (5, 5), (5, 6), (5, 8), (5, 9), (5, 3)]

# Menghitung jarak Euclidean
distances = compute_distance_between_points(points, selected_pairs)

# Mengurutkan jarak dari terbesar ke terkecil
sorted_distances = sorted(distances.items(), key=lambda x: x[1], reverse=True)

# Menampilkan hasil jarak Euclidean
print("Jarak Euclidean antara indeks ke-5 dan titik lainnya (diurutkan dari terbesar ke terkecil):")
for (i, j), dist in sorted_distances:
    print(f"Jarak dari indeks {i} ke indeks {j}: {dist:.2f}")

# Mengambil 3 jarak Euclidean terkecil sebagai k-distance (k = 3)
k_distance = sorted(distances.values())[:3]

print("\nTiga jarak Euclidean terkecil sebagai k-distance:")
for idx, dist in enumerate(k_distance, start=1):
    print(f"k-distance {idx}: {dist:.2f}")

Jarak Euclidean antara indeks ke-5 dan titik lainnya (diurutkan dari terbesar ke terkecil):
Jarak dari indeks 5 ke indeks 3: 57.49
Jarak dari indeks 5 ke indeks 0: 5.00
Jarak dari indeks 5 ke indeks 6: 3.61
Jarak dari indeks 5 ke indeks 1: 3.16
Jarak dari indeks 5 ke indeks 9: 3.16
Jarak dari indeks 5 ke indeks 8: 2.24
Jarak dari indeks 5 ke indeks 2: 2.00
Jarak dari indeks 5 ke indeks 4: 1.41

Tiga jarak Euclidean terkecil sebagai k-distance:
k-distance 1: 1.41
k-distance 2: 2.00
k-distance 3: 2.24


In [5]:
import numpy as np
from scipy.spatial.distance import euclidean

# Fungsi untuk menghitung jarak Euclidean antara titik yang dipilih
def compute_distance_between_points(data, point_indices):
    distances = {}
    for (i, j) in point_indices:
        if i != j:
            distances[(i, j)] = euclidean(data[i], data[j])
    return distances

# Dataset titik koordinat
points = np.array([
    [4, 3],   # 0
    [5, 7],   # 1
    [6, 6],   # 2
    [45, 50], # 3 (Outlier)
    [7, 5],   # 4
    [8, 6],   # 5
    [5, 4],   # 6
    [7, 8],   # 7
    [6, 7],   # 8
    [5, 5]    # 9
])

# Menentukan pasangan titik dari indeks ke-2 ke titik lainnya
selected_pairs = [(2, 0), (2, 1), (2, 2), (2, 4), (2, 5), (2, 6), (2, 8), (2, 9), (2, 3)]

# Menghitung jarak Euclidean
distances = compute_distance_between_points(points, selected_pairs)

# Mengurutkan jarak dari terbesar ke terkecil
sorted_distances = sorted(distances.items(), key=lambda x: x[1], reverse=True)

# Menampilkan hasil jarak Euclidean
print("Jarak Euclidean antara indeks ke-2 dan titik lainnya (diurutkan dari terbesar ke terkecil):")
for (i, j), dist in sorted_distances:
    print(f"Jarak dari indeks {i} ke indeks {j}: {dist:.2f}")

# Mengambil 3 jarak Euclidean terkecil sebagai k-distance (k = 3)
k_distance = sorted(distances.values())[:3]

print("\nTiga jarak Euclidean terkecil sebagai k-distance:")
for idx, dist in enumerate(k_distance, start=1):
    print(f"k-distance {idx}: {dist:.2f}")

Jarak Euclidean antara indeks ke-2 dan titik lainnya (diurutkan dari terbesar ke terkecil):
Jarak dari indeks 2 ke indeks 3: 58.80
Jarak dari indeks 2 ke indeks 0: 3.61
Jarak dari indeks 2 ke indeks 6: 2.24
Jarak dari indeks 2 ke indeks 5: 2.00
Jarak dari indeks 2 ke indeks 1: 1.41
Jarak dari indeks 2 ke indeks 4: 1.41
Jarak dari indeks 2 ke indeks 9: 1.41
Jarak dari indeks 2 ke indeks 8: 1.00

Tiga jarak Euclidean terkecil sebagai k-distance:
k-distance 1: 1.00
k-distance 2: 1.41
k-distance 3: 1.41


## **Menghitung Rumus Reachability Distance (RD)**

Setelah memperoleh hasil perhitungan jarak Euclidean antara titik indeks 3 dengan titik lainnya, serta menentukan k-distance dari titik-titik yang paling dekat dengan indeks 3, langkah selanjutnya adalah menghitung Reachability Distance (RD).

RD dihitung dengan membandingkan k-distance suatu titik dengan jarak Euclidean dari indeks 3 ke titik tersebut. Nilai RD ditentukan sebagai nilai maksimum dari kedua nilai tersebut, dengan rumus:

𝑅
𝐷
(
3
,
𝑋
)
=
max
⁡
(
𝑘
-distance
𝑋
,
distance
(
3
,
𝑋
)
)
RD(3,X)=max(k-distance
X
​
 ,distance(3,X))

In [15]:
# Data hasil perhitungan sebelumnya
k_distances_2 = 1.41
distance_3_2 = 58.80

k_distances_5 = 3.16
distance_3_5 = 57.49

k_distances_7 = 2.24
distance_3_7 = 56.64

# Perhitungan Reachability Distance (RD)
rd3_2 = max(k_distances_2, distance_3_2)
rd3_5 = max(k_distances_5, distance_3_5)
rd3_7 = max(k_distances_7, distance_3_7)

# Menampilkan hasil perhitungan
print(f"Berikut ini adalah nilai dari RD(3,2) : {rd3_2:.2f}")
print(f"Berikut ini adalah nilai dari RD(3,5) : {rd3_5:.2f}")
print(f"Berikut ini adalah nilai dari RD(3,7) : {rd3_7:.2f}")

Berikut ini adalah nilai dari RD(3,2) : 58.80
Berikut ini adalah nilai dari RD(3,5) : 57.49
Berikut ini adalah nilai dari RD(3,7) : 56.64


## **Menghitung dengan Local Reachibility Distance**

## **Menghitung Local Reachability Density (LRD)**  

Setelah kita berhasil menentukan **Reachability Distance (RD)** untuk setiap titik yang berhubungan dengan indeks **3**, langkah berikutnya adalah menghitung **Local Reachability Density (LRD)** untuk indeks **3**.  

In [16]:
# Menghitung LRD untuk titik (45,50)
rd_result = [rd3_2, rd3_5, rd3_7]
k = 3
sum_rd = sum(rd_result)
lrd_45_50 = k / sum_rd

print(f"LRD dari index ke-3 = {lrd_45_50}")

LRD dari index ke-3 = 0.01734805990863355


Kemudian Setelah memperoleh **Local Reachability Density (LRD)**, langkah selanjutnya adalah menghitung **Local Outlier Factor (LOF)** untuk setiap titik data yang tersedia. Untuk melakukan ini, kita memerlukan nilai **LRD** dari seluruh data dalam dataset.  

Agar proses perhitungan lebih efisien, kita akan langsung menggunakan kode yang menghitung **LRD** untuk semua titik tanpa menggunakan library **scikit-learn**, sehingga seluruh proses perhitungan dapat dilakukan secara manual dan lebih transparan.

In [19]:
data = np.array([
    [4, 3],   # 0
    [5, 7],   # 1
    [6, 6],   # 2
    [45, 50], # 3 (Outlier)
    [7, 5],   # 4
    [8, 6],   # 5
    [5, 4],   # 6
    [7, 8],   # 7
    [6, 7],   # 8
    [5, 5]    # 9
])

def euclidean_distance(p1, p2):
    """Menghitung jarak Euclidean antara dua titik."""
    return np.sqrt((p1[0] - p2[0])**2 + (p1[1] - p2[1])**2)

def compute_k_distance_neighbors(data, k):
    """Menghitung k tetangga terdekat untuk setiap titik."""
    num_points = len(data)
    neighbors_dict = {}

    for i in range(num_points):
        distances = [(j, euclidean_distance(data[i], data[j])) for j in range(num_points) if i != j]
        distances.sort(key=lambda x: x[1])
        neighbors_dict[i] = [j for j, d in distances[:k]]

    return neighbors_dict

def compute_rd(data, neighbors_dict, k):
    """Menghitung Reachability Distance (RD) untuk setiap titik."""
    rd_dict = {}

    k_distances = {i: max(euclidean_distance(data[i], data[j]) for j in neighbors_dict[i]) for i in range(len(data))}

    for i in range(len(data)):
        rd_dict[i] = []
        for neighbor in neighbors_dict[i]:
            rd = max(k_distances[neighbor], euclidean_distance(data[i], data[neighbor]))
            rd_dict[i].append(rd)

    return rd_dict

def compute_lrd(rd_dict, k):
    """Menghitung Local Reachability Density (LRD) untuk setiap titik."""
    lrd_dict = {}

    for i in rd_dict:
        sum_rd = sum(rd_dict[i])
        lrd_dict[i] = k / sum_rd if sum_rd != 0 else 0  # Hindari pembagian dengan nol

    return lrd_dict

# Langkah-langkah perhitungan
k = 3
neighbors_dict = compute_k_distance_neighbors(data, k)
rd_dict = compute_rd(data, neighbors_dict, k)
lrd_dict = compute_lrd(rd_dict, k)

lrd_dict

{0: 0.37139343408668146,
 1: 0.6213203435596426,
 2: 0.554097093777194,
 3: 0.01742362243662963,
 4: 0.5309469942036714,
 5: 0.4810723697727846,
 6: 0.38257404538815565,
 7: 0.509653732104414,
 8: 0.5309469942036714,
 9: 0.5309469942036714}

## **Menentukan Nilai Local Outlier Factor (LOF)**

Setelah semua data terkumpul, langkah berikutnya adalah menghitung LOF menggunakan nilai LRD yang telah diperoleh. Dalam proses ini, nilai LRD dari indeks 2, 5, dan 7 akan digunakan sebagai referensi. Berikut adalah hasil perhitungannya:

In [21]:
# Data LRD yang sudah dihitung sebelumnya
lrd_3 = 0.0173  # LRD untuk indeks 3 (outlier)

# LRD dari tetangga indeks (2), (5), dan (7)
lrd_neighbors = [0.4015, 0.4635, 0.4472]

# Menghitung LOF untuk (3)
lof_45_50 = sum(lrd / lrd_45_50 for lrd in lrd_neighbors) / k

print(f"Nilai LOF dari indeks ke-3 adalah = {lof_45_50}")

Nilai LOF dari indeks ke-3 adalah = 25.213194


Selanjutnya bisa kita bandingkan data nilai tersebut dengan data nilai LOF yang lain. untuk mencari nilainya disini saya akan menggunakan code python langsung agar tidak terlalu panjang.

In [22]:
# Menghitung LOF untuk semua titik dalam data
lof_dict = {}

for i in range(len(data)):
    lrd_i = lrd_dict[i]  # LRD titik i
    lrd_neighbors = [lrd_dict[j] for j in neighbors_dict[i]]

    # Menghitung LOF
    lof_dict[i] = sum(lrd / lrd_i for lrd in lrd_neighbors) / k

lof_dict

{0: 1.3172178061235245,
 1: 0.8669661305075297,
 2: 1.012586873835158,
 3: 29.11130376045992,
 4: 0.9832221011707291,
 5: 1.1049604455136146,
 6: 1.2689809459759704,
 7: 1.1160286053400408,
 8: 1.0579029468962124,
 9: 0.9781211682355786}

# **1. Berikut adalah code lain dengan tanpa menggunakan library**


In [26]:
import numpy as np
import pandas as pd
from scipy.spatial.distance import euclidean  # Untuk menghitung jarak Euclidean antara titik

def calculate_lof_manual(data, k=3):
    """
    Fungsi untuk menghitung Local Outlier Factor (LOF) secara manual.
    Args:
        data (numpy array): Dataset dalam bentuk array dengan 2 fitur (x, y).
        k (int): Jumlah tetangga terdekat yang digunakan dalam perhitungan.
    Returns:
        distances, neighbors, rd, lrd, lof_scores
    """

    n = len(data)  # Jumlah titik dalam dataset
    distances = np.zeros((n, n))  # Matriks kosong untuk menyimpan jarak Euclidean antar titik

    # 1. Menghitung jarak Euclidean antar setiap titik dalam dataset
    for i in range(n):
        for j in range(n):
            distances[i, j] = euclidean(data[i], data[j])  # Menggunakan fungsi Euclidean untuk menghitung jarak

    # Mengubah hasil jarak ke dalam format tabel agar lebih mudah dibaca
    df_distances = pd.DataFrame(distances, index=labels, columns=labels).round(2)
    print("\nJarak Euclidean antar titik:")
    print(df_distances)

    # 2. Menentukan k-tetangga terdekat untuk setiap titik
    # Mengurutkan indeks titik berdasarkan jarak terdekat, kemudian mengambil k tetangga
    neighbors = np.argsort(distances, axis=1)[:, 1:k+1]  # [:, 1:k+1] karena indeks pertama adalah titik itu sendiri

    # Membuat DataFrame untuk menampilkan tetangga terdekat dari setiap titik
    df_neighbors = pd.DataFrame({
        "Titik": labels,
        "Tetangga Terdekat": [[labels[n] for n in neighbors[i]] for i in range(n)]
    })
    print("\nK-tetangga terdekat:")
    print(df_neighbors.to_string(index=False))

    # 3. Menghitung Reachability Distance (RD) untuk setiap titik terhadap tetangganya
    rd = np.zeros((n, k))  # Matriks kosong untuk menyimpan nilai RD
    for i in range(n):
        for j in range(k):
            rd[i, j] = max(distances[i, neighbors[i, j]], distances[neighbors[i, j], neighbors[i, j]])
            # RD dihitung sebagai nilai maksimum antara jarak ke tetangga atau k-distance dari tetangga itu sendiri

    # Menampilkan hasil RD dalam format tabel
    df_rd = pd.DataFrame({
        "Titik": labels,
        "RD": [rd[i].mean().round(2) for i in range(n)]  # Rata-rata RD untuk setiap titik
    })
    print("\nReachability Distance (RD):")
    print(df_rd.to_string(index=False))

    # 4. Menghitung Local Reachability Density (LRD)
    lrd = np.zeros(n)  # Array kosong untuk menyimpan nilai LRD
    for i in range(n):
        lrd[i] = k / np.sum(rd[i])  # LRD dihitung sebagai kebalikan dari rata-rata RD

    # Menampilkan hasil LRD dalam format tabel
    df_lrd = pd.DataFrame({
        "Titik": labels,
        "LRD": lrd.round(4)  # Dibulatkan ke 4 desimal
    })
    print("\nLocal Reachability Density (LRD):")
    print(df_lrd.to_string(index=False))

    # 5. Menghitung Local Outlier Factor (LOF)
    lof_scores = np.zeros(n)  # Array kosong untuk menyimpan skor LOF
    for i in range(n):
        lof_scores[i] = np.mean([lrd[neighbor] for neighbor in neighbors[i]]) / lrd[i]
        # LOF dihitung sebagai rata-rata rasio LRD tetangga terhadap LRD titik itu sendiri

    # Menampilkan hasil LOF dalam format tabel
    df_lof = pd.DataFrame({
        "Titik": labels,
        "LOF Score (Manual)": lof_scores.round(4)  # Dibulatkan ke 4 desimal
    })
    print("\nLocal Outlier Factor (LOF):")
    print(df_lof.to_string(index=False))

    return distances, neighbors, rd, lrd, lof_scores

# ==========================
# Menyiapkan Data
# ==========================

# Dataset contoh dengan 10 titik, terdiri dari dua fitur (x, y), termasuk satu outlier
data = np.array([
    [1, 2], [2, 4], [4, 7], [7, 7], [8, 10],
    [9, 12], [11, 14], [14, 17], [35, 35], [120, 120]  # Outlier
])

# Label untuk setiap titik dalam dataset (A, B, C, ...)
labels = list("ABCDEFGHIJ")

# Menjalankan perhitungan LOF secara manual
distances, neighbors, rd, lrd, lof_manual = calculate_lof_manual(data, k=3)

# ==========================
# Menampilkan Ringkasan Hasil
# ==========================

# Membuat tabel yang merangkum hasil perhitungan LOF
df_summary = pd.DataFrame({
    "Titik": labels,
    "Tetangga Terdekat": [[labels[n] for n in neighbors[i]] for i in range(len(data))],
    "RD": [rd[i].mean().round(2) for i in range(len(data))],  # Rata-rata RD setiap titik
    "LRD": lrd.round(4),  # Local Reachability Density
    "LOF Score (Manual)": lof_manual.round(4)  # Skor LOF
})

# Menampilkan ringkasan hasil dalam bentuk tabel
print("\nRingkasan Akhir dalam bentuk tabel:")
print(df_summary.to_string(index=False))



Jarak Euclidean antar titik:
        A       B       C       D       E       F       G       H       I  \
A    0.00    2.24    5.83    7.81   10.63   12.81   15.62   19.85   47.38   
B    2.24    0.00    3.61    5.83    8.49   10.63   13.45   17.69   45.28   
C    5.83    3.61    0.00    3.00    5.00    7.07    9.90   14.14   41.77   
D    7.81    5.83    3.00    0.00    3.16    5.39    8.06   12.21   39.60   
E   10.63    8.49    5.00    3.16    0.00    2.24    5.00    9.22   36.80   
F   12.81   10.63    7.07    5.39    2.24    0.00    2.83    7.07   34.71   
G   15.62   13.45    9.90    8.06    5.00    2.83    0.00    4.24   31.89   
H   19.85   17.69   14.14   12.21    9.22    7.07    4.24    0.00   27.66   
I   47.38   45.28   41.77   39.60   36.80   34.71   31.89   27.66    0.00   
J  167.59  165.47  161.94  159.81  156.98  154.87  152.04  147.80  120.21   

        J  
A  167.59  
B  165.47  
C  161.94  
D  159.81  
E  156.98  
F  154.87  
G  152.04  
H  147.80  
I  120.21  
J 

# **B. Proses Perhitungan LOF dengan Menggunakan Scikit-Learn**

Pada tahap selanjutnya, kita akan memanfaatkan library bawaan Python, yaitu Scikit-Learn, untuk mendeteksi outlier dengan lebih efisien. Dengan bantuan library ini, proses identifikasi outlier yang seharusnya memerlukan banyak baris kode dapat disederhanakan hanya dalam satu baris perintah, seperti yang ditunjukkan pada kode berikut.

In [23]:
import numpy as np
from sklearn.neighbors import LocalOutlierFactor

data = np.array([
    [4, 3], [5, 7], [6, 6], [45, 50], [7, 5],
    [8, 6], [5, 4], [7, 8], [6, 7], [5, 5]
])

lof_model = LocalOutlierFactor(n_neighbors=3, metric='euclidean')

lof_scores = -lof_model.fit_predict(data)
lof_values = -lof_model.negative_outlier_factor_

for i, point in enumerate(data):
    print(f"Indeks-{(i)} → LOF: {lof_values[i]:.4f}")

Indeks-0 → LOF: 1.3172
Indeks-1 → LOF: 0.8670
Indeks-2 → LOF: 1.0126
Indeks-3 → LOF: 29.1113
Indeks-4 → LOF: 0.9832
Indeks-5 → LOF: 1.1050
Indeks-6 → LOF: 1.2690
Indeks-7 → LOF: 1.1160
Indeks-8 → LOF: 1.0579
Indeks-9 → LOF: 0.9781


# **2. Berikut adalah code lain dengan menggunakan library**

In [25]:
import numpy as np
import pandas as pd
from sklearn.neighbors import LocalOutlierFactor

# ==========================
# 1. Menyiapkan Data
# ==========================

# Contoh dataset dengan 10 sampel dan 2 fitur
# Terdapat satu outlier pada titik terakhir (120, 120)
data = np.array([
    [1, 2], [2, 4], [4, 7], [7, 7], [8, 10],
    [9, 12], [11, 14], [14, 17], [35, 35], [120, 120]  # Outlier
])

# Label untuk setiap titik data agar lebih mudah diidentifikasi
labels = list("ABCDEFGHIJ")

# ==========================
# 2. Menerapkan Local Outlier Factor (LOF)
# ==========================

# Inisialisasi model LOF dengan parameter:
# - n_neighbors=3 → Menggunakan 3 tetangga terdekat untuk perhitungan LOF
# - metric='euclidean' → Menggunakan jarak Euclidean untuk menghitung jarak antar titik
lof_model = LocalOutlierFactor(n_neighbors=3, metric='euclidean')

# Melatih model dan menentukan apakah titik termasuk inlier (1) atau outlier (-1)
lof_scores = -lof_model.fit_predict(data)  # Hasil: -1 (outlier), 1 (inlier)

# Mengambil nilai LOF (semakin tinggi, semakin besar kemungkinan sebagai outlier)
lof_values = -lof_model.negative_outlier_factor_

# ==========================
# 3. Menampilkan Hasil dalam Bentuk DataFrame
# ==========================

# Membuat DataFrame untuk menampilkan hasil dengan lebih mudah
df_lof = pd.DataFrame({
    "Titik": labels,  # Nama titik (A, B, C, dst.)
    "LOF Score (sklearn)": lof_values.round(4),  # Nilai LOF dengan 4 desimal
    "Outlier Flag": ["Outlier" if score > 1.5 else "Inlier" for score in lof_values]  # Menandai titik sebagai Outlier/Inlier
})

# Menampilkan hasil dalam format tabel yang rapi
print(df_lof.to_string(index=False))


Titik  LOF Score (sklearn) Outlier Flag
    A               1.1703       Inlier
    B               1.1062       Inlier
    C               0.9841       Inlier
    D               0.9748       Inlier
    E               1.0075       Inlier
    F               0.9201       Inlier
    G               1.1461       Inlier
    H               1.2733       Inlier
    I               5.1208      Outlier
    J              15.2039      Outlier
