# **Deteksi Outlier Menggunakan Local Outlier Factor (LOF) dalam Pemahaman Data**

**Apa Itu LOF?**

Local Outlier Factor (LOF) adalah algoritma yang digunakan untuk mendeteksi anomali atau titik data yang menyimpang dari pola umum dalam suatu dataset. Algoritma ini diperkenalkan oleh Markus M. Breunig, Hans-Peter Kriegel, Raymond T. Ng, dan Jörg Sander pada tahun 2000.

LOF bekerja dengan membandingkan kepadatan lokal suatu titik dengan kepadatan lokal tetangga terdekatnya. Jika sebuah titik memiliki kepadatan yang jauh lebih rendah dibandingkan dengan sekelilingnya, maka besar kemungkinan titik tersebut adalah outlier. Algoritma LOF menggunakan konsep seperti jarak inti (core distance) dan jarak keterjangkauan (reachability distance) yang juga digunakan dalam metode lain seperti DBSCAN dan OPTICS.

**Tahapan Deteksi Outlier dengan LOF**
1. Menentukan Jumlah Tetangga Terdekat (k)

 - Tetapkan nilai k (jumlah tetangga) yang akan digunakan untuk menghitung kepadatan lokal.
 - Contohnya, jika n_neighbors=2, maka setiap titik akan dibandingkan dengan 2 titik terdekatnya.
2. Menghitung Jarak ke k-Tetangga Terdekat

 - Untuk setiap titik dalam dataset, hitung jarak ke k tetangga terdekat.
 - Perhitungan ini membantu menentukan seberapa dekat suatu titik dengan tetangga di sekelilingnya.
3. Mengukur Kepadatan Lokal

 - Kepadatan lokal dihitung berdasarkan jarak keterjangkauan antar titik.
 - Semakin kecil jarak keterjangkauan, semakin tinggi kepadatan suatu titik.
4. Menghitung Nilai LOF (Local Outlier Factor)

 - LOF dihitung dengan membandingkan kepadatan suatu titik dengan kepadatan tetangganya.
 - Jika rasio ini lebih besar dari 1, berarti titik tersebut lebih jarang ditemukan dibandingkan tetangganya, sehingga kemungkinan besar merupakan outlier.
5. Menentukan Outlier Berdasarkan LOF

 - Titik dengan LOF tinggi menandakan bahwa titik tersebut memiliki kepadatan rendah dibandingkan dengan sekitarnya.
 - Biasanya, titik dengan LOF yang melebihi nilai ambang tertentu dianggap sebagai anomali.
6. Membuat Prediksi Outlier

 - Setiap titik dalam dataset akan diberi label:
 - 1 → Titik normal (bukan outlier).
 - -1 → Titik yang terdeteksi sebagai outlier.
   
## CONTOH MENGHITUNG MANUAL LOF
Berikut adalah cara singkat menghitung **Local Outlier Factor (LOF)** untuk satu titik data dengan dua fitur:

Baik! Saya akan memperluas dataset menjadi 10 baris dan menunjukkan langkah-langkah perhitungan **Local Outlier Factor (LOF)** untuk salah satu titik secara manual. Mari kita mulai:  

---

### **1. Dataset Baru (10 Baris)**  
Misalkan kita punya dataset berikut:  

| ID  | Feature1 | Feature2 |
|---- |---------|---------|
| 1   | 5.2     | 7.4     |
| 2   | 10.1    | 12.8    |
| 3   | 15.3    | 17.9    |
| 4   | 20.6    | 22.5    |
| 5   | 25.8    | 27.1    |
| 6   | 30.9    | 32.7    |
| 7   | 35.2    | 37.5    |
| 8   | 40.4    | 42.3    |
| 9   | 45.7    | 47.2    |
| 10  | 50.9    | 52.8    |

Kita akan menghitung **LOF untuk titik 6 (30.9, 32.7)**.

---

### **2. Hitung Jarak Euclidean**
Jarak antara titik **6** ke titik lainnya dihitung menggunakan rumus Euclidean:  

$
d(A, B) = \sqrt{(x_2 - x_1)^2 + (y_2 - y_1)^2}
$

Kita hitung beberapa jarak terdekat:

- **Titik 6 ke Titik 5**:
  $
  d(6,5) = \sqrt{(30.9 - 25.8)^2 + (32.7 - 27.1)^2}
  $
  $
  = \sqrt{(5.1)^2 + (5.6)^2} = \sqrt{26.01 + 31.36} = \sqrt{57.37} \approx 7.58
  $

- **Titik 6 ke Titik 7**:
  $
  d(6,7) = \sqrt{(35.2 - 30.9)^2 + (37.5 - 32.7)^2}
  $
  $
  = \sqrt{(4.3)^2 + (4.8)^2} = \sqrt{18.49 + 23.04} = \sqrt{41.53} \approx 6.45
  $

- **Titik 6 ke Titik 4**:
  $
  d(6,4) = \sqrt{(30.9 - 20.6)^2 + (32.7 - 22.5)^2}
  $
  $
  = \sqrt{(10.3)^2 + (10.2)^2} = \sqrt{106.09 + 104.04} = \sqrt{210.13} \approx 14.49
  $

- **Titik 6 ke Titik 8**:
  $
  d(6,8) = \sqrt{(40.4 - 30.9)^2 + (42.3 - 32.7)^2}
  $
  $
  = \sqrt{(9.5)^2 + (9.6)^2} = \sqrt{90.25 + 92.16} = \sqrt{182.41} \approx 13.51
  $

---

### **3. Tentukan k-Tetangga Terdekat (k=2)**
Dari hasil perhitungan jarak, dua tetangga terdekat titik **6** adalah:

1. **Titik 7** (jarak **6.45**)  
2. **Titik 5** (jarak **7.58**)  

---

### **4. Hitung Reachability Distance**
$
\text{reach-dist}(A, B) = \max(\text{k-dist}(B), d(A,B))
$

- **Titik 6 ke Titik 5**:
  $
  \text{reach-dist}(6,5) = \max(7.58, 7.58) = 7.58
  $

- **Titik 6 ke Titik 7**:
  $
  \text{reach-dist}(6,7) = \max(6.45, 6.45) = 6.45
  $

---

### **5. Hitung Local Reachability Density (LRD)**
$
\text{LRD}(6) = \frac{1}{\frac{1}{k} \sum_{i=1}^{k} \text{reach-dist}(6, i)}
$

$
\text{LRD}(6) = \frac{1}{\frac{1}{2} (7.58 + 6.45)}
$

$
= \frac{1}{\frac{1}{2} (14.03)}
$

$
= \frac{1}{7.015} \approx 0.143
$

---

### **6. Hitung LOF**
$
\text{LOF}(6) = \frac{\sum_{i=1}^{k} \frac{\text{LRD}(i)}{\text{LRD}(6)}}{k}
$

Misalkan **LRD(5) ≈ 0.12** dan **LRD(7) ≈ 0.13**, maka:

$
\text{LOF}(6) = \frac{0.12 / 0.143 + 0.13 / 0.143}{2}
$

$
= \frac{0.839 + 0.909}{2}
$

$
= \frac{1.748}{2} = 0.874
$

---

### **7. Interpretasi**
- Karena **LOF(6) = 0.874 < 1**, titik 6 **tidak** dianggap outlier.  
- Jika LOF lebih besar dari **1.5**, maka titik lebih mencurigakan sebagai outlier.  
- Jika LOF mendekati **1**, titik memiliki kepadatan yang mirip dengan tetangganya.  

Demikian perhitungan manual **LOF** untuk titik **(30.9, 32.7)** dalam dataset 10 baris! 🚀




**Penjelasan Code**

Kode ini menggunakan metode Local Outlier Factor (LOF) dari sklearn.neighbors untuk mendeteksi outlier dalam dataset sederhana yang memiliki dua fitur numerik (Feature1 dan Feature2). LOF menganalisis kepadatan lokal tiap titik data dibandingkan dengan tetangga terdekatnya untuk menentukan apakah titik tersebut merupakan outlier (-1) atau normal (1).

**Langkah-Langkah Kode:**
1. Mengimpor Library yang Dibutuhkan

 - numpy dan pandas digunakan untuk manipulasi data.
 - LocalOutlierFactor dari sklearn.neighbors digunakan untuk mendeteksi outlier.
2. Membuat Dataset

 - Data terdiri dari dua fitur (Feature1 dan Feature2) dengan 5 sampel.
 - Data dikonversi menjadi DataFrame menggunakan pd.DataFrame().
3. Inisialisasi Model LOF

 - Model LOF diinisialisasi dengan n_neighbors=2, artinya setiap titik dibandingkan dengan 2 tetangga terdekatnya.
4. Melatih Model dan Memprediksi Outlier

 - lof.fit_predict(df) memproses dataset dan mengembalikan label:
 - 1 → Titik normal.
 - -1 → Titik outlier.
5. Menambahkan Hasil Prediksi ke DataFrame

 - Kolom baru "LOF Label" ditambahkan ke dalam DataFrame untuk menyimpan hasil deteksi outlier.
6. Menampilkan Hasil Deteksi

 - Menampilkan seluruh data dengan label LOF.
 - Menghitung jumlah outlier menggunakan (lof_labels == -1).sum().
 - Menampilkan data yang terdeteksi sebagai outlier dengan df[df['LOF Label'] == -1].

**Kesimpulan:**

Kode ini mendeteksi outlier dalam dataset berdasarkan kepadatan lokal tiap titik data menggunakan Local Outlier Factor (LOF). Dengan membandingkan titik terhadap 2 tetangga terdekatnya, LOF mengidentifikasi apakah sebuah titik termasuk anomali atau tidak.

## **IMPLEMENTASI PAKAI SKLEARN UNTUK DATA CONTOH**

In [1]:
import numpy as np
import pandas as pd
from sklearn.neighbors import LocalOutlierFactor

# Dataset dengan angka yang sesuai contoh
data = {
    'Feature1': [5.2, 10.1, 15.3, 20.6, 25.8, 30.9, 35.2, 40.4, 45.7, 50.9],
    'Feature2': [7.4, 12.8, 17.9, 22.5, 27.1, 32.7, 37.5, 42.3, 47.2, 52.8]
}

# Membuat DataFrame
df = pd.DataFrame(data)

# Inisialisasi model LOF dengan k=2 (2 tetangga terdekat)
lof = LocalOutlierFactor(n_neighbors=2)

# Fit model LOF dan prediksi label (1 untuk normal, -1 untuk outlier)
lof_labels = lof.fit_predict(df)

# Menambahkan hasil prediksi ke DataFrame
df['LOF Label'] = lof_labels

# Menampilkan hasil
print(df)

# Menampilkan jumlah outlier
num_outliers = (lof_labels == -1).sum()
print(f"\nJumlah outlier: {num_outliers}")

# Menampilkan data outlier
outliers = df[df['LOF Label'] == -1]
print("\nData Outlier:")
print(outliers)


   Feature1  Feature2  LOF Label
0       5.2       7.4          1
1      10.1      12.8          1
2      15.3      17.9          1
3      20.6      22.5          1
4      25.8      27.1          1
5      30.9      32.7          1
6      35.2      37.5          1
7      40.4      42.3          1
8      45.7      47.2          1
9      50.9      52.8          1

Jumlah outlier: 0

Data Outlier:
Empty DataFrame
Columns: [Feature1, Feature2, LOF Label]
Index: []


Langkah awal menjelaskan bawa kode tersebut adalah perintah untuk menginstal dua pustaka libraries pyhton menggunkan pip, yaitu manajer paket untuk python.

- %pip install pymysql : Perintah ini menginstal pustaka pymsql. Pustaka ini digunakan untuk menghubungkan dan berinteraksi dengan database MySQL dari kode Pyhton.

- %pip install psycopg2 : Perintah ini menginstal pustaka psycopg2. Pustaka ini digunakan untuk menghubungkan dan berinteraksi dengan database PostgreSQL dari kode Pyhton.

In [1]:
%pip install pymysql
%pip install psycopg2

Collecting pymysql
  Downloading PyMySQL-1.1.1-py3-none-any.whl.metadata (4.4 kB)
Downloading PyMySQL-1.1.1-py3-none-any.whl (44 kB)
[?25l   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/45.0 kB[0m [31m?[0m eta [36m-:--:--[0m[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m45.0/45.0 kB[0m [31m2.7 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: pymysql
Successfully installed pymysql-1.1.1


**Penjelasan Kode**

Kode ini mengambil data dari dua database yang berbeda (PostgreSQL dan MySQL), menggabungkannya berdasarkan kolom id dan class, lalu mengekstrak fitur numerik untuk analisis lebih lanjut.

**Langkah-Langkah Kode**

1. Mengimpor Library yang Dibutuhkan

 - psycopg2 dan pymysql: Untuk
menghubungkan ke database PostgreSQL dan MySQL.
 - numpy dan pandas: Untuk manipulasi data.
 - seaborn dan matplotlib.pyplot: Untuk visualisasi data (belum digunakan dalam bagian ini).
 - scipy.spatial.distance.euclidean: Untuk perhitungan jarak Euclidean (belum digunakan dalam bagian ini).
2. Mendefinisikan Fungsi get_pg_data()

 - Membuka koneksi ke database PostgreSQL menggunakan psycopg2.
 - Mengeksekusi query SELECT * FROM iris_sepal untuk mengambil semua data dari tabel iris_sepal.
 - Menyimpan hasilnya ke dalam DataFrame pandas dan menutup koneksi database.
3. Mendefinisikan Fungsi get_mysql_data()

 - Membuka koneksi ke database MySQL menggunakan pymysql.
 - Mengeksekusi query SELECT * FROM iris_petal untuk mengambil semua data dari tabel iris_petal.
 - Menyimpan hasilnya ke dalam DataFrame pandas dan menutup koneksi database.
4. Mengambil Data dari Kedua Database

 - Data dari PostgreSQL disimpan dalam df_postgresql.
 - Data dari MySQL disimpan dalam df_mysql.
5. Menggabungkan Data dari Kedua Sumber

 - Data digabungkan berdasarkan kolom "id" dan "class" menggunakan metode inner join (how="inner").
 - Hasil penggabungan disimpan dalam df_merged.
 6. Ekstraksi Fitur Numerik

 - Dipilih fitur numerik: petal_length, petal_width, sepal_length, dan sepal_width.
 - Data fitur ini diubah menjadi array NumPy (data_values) untuk keperluan analisis lebih lanjut.

**Kesimpulan**

Kode ini bertujuan untuk mengambil, menggabungkan, dan menyiapkan data dari dua database yang berbeda sebelum digunakan dalam analisis lebih lanjut, seperti deteksi outlier atau visualisasi.









In [2]:
import psycopg2
import pymysql
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from scipy.spatial.distance import euclidean

def get_pg_data():
    conn = psycopg2.connect(
        host="pg-3a2b4d8e-cahyanti625-f7a8.i.aivencloud.com",
        user="avnadmin",
        password="AVNS_SEwXstfyAuXfxU81qVv",
        database="defaultdb",
        port=22424
    )
    cursor = conn.cursor()
    cursor.execute("SELECT * FROM iris_sepal")
    data = cursor.fetchall()
    columns = [desc[0] for desc in cursor.description]
    cursor.close()
    conn.close()
    return pd.DataFrame(data, columns=columns)

def get_mysql_data():
    conn = pymysql.connect(
        host="mysql-44ea6f9-cahyanti625-f7a8.i.aivencloud.com",
        user="avnadmin",
        password="AVNS_Dp0q1x-sz9BpvjujgPO",
        database="iris",
        port=22424
    )
    cursor = conn.cursor()
    cursor.execute("SELECT * FROM iris_petal")
    data = cursor.fetchall()
    columns = [desc[0] for desc in cursor.description]
    cursor.close()
    conn.close()
    return pd.DataFrame(data, columns=columns)

# Ambil data dari kedua database
df_postgresql = get_pg_data()
df_mysql = get_mysql_data()

# Gabungkan berdasarkan kolom 'id' dan 'Class'
df_merged = pd.merge(df_mysql, df_postgresql, on=["id", "class"], how="inner")

# Ambil data fitur numerik
feature_columns = ["petal_length", "petal_width", "sepal_length", "sepal_width"]
data_values = df_merged[feature_columns].values

Kode diatas hanya untuk menggabungkan data dari 2 database saja

**Penjelasan Code**

Kode ini menggunakan Local Outlier Factor (LOF) untuk mendeteksi outlier dalam dataset gabungan yang berisi fitur panjang dan lebar kelopak (petal) serta panjang dan lebar sepal (sepal) dari data bunga iris. Model LOF akan membandingkan setiap titik data dengan 90 tetangga terdekatnya untuk menentukan apakah titik tersebut merupakan outlier (-1) atau normal (1).

**Langkah-Langkah Kode:**
1. Menggabungkan Data dari Dua Sumber

 - Data dari df_mysql (berisi data petal) dan df_postgresql (berisi data sepal) digabungkan menggunakan pd.merge() berdasarkan kolom "id" dan "class".
 - Metode how="inner" memastikan hanya data yang memiliki id dan class yang sama di kedua dataset yang dipertahankan.
2. Menyiapkan Data untuk LOF

 - Dipilih fitur numerik:
 - petal_length
 - petal_width
 - sepal_length
 - sepal_width
 - Data ini dikonversi menjadi array numpy (data_values) untuk pemrosesan oleh model LOF.
3. Inisialisasi dan Pelatihan Model LOF

 - Model Local Outlier Factor (LocalOutlierFactor) dibuat dengan parameter n_neighbors=90, artinya setiap titik dibandingkan dengan 90 tetangga terdekatnya.
 - Model dilatih menggunakan clf.fit_predict(data_values), menghasilkan label (-1 untuk outlier, 1 untuk normal).
4. Menambahkan Hasil Prediksi ke DataFrame

 - Hasil deteksi outlier (label) ditambahkan ke dalam dataset dengan kolom baru bernama "outlier_label".
5. Mencetak Hasil Deteksi Outlier

 - Menampilkan seluruh data dengan label outlier.
 - Menghitung jumlah outlier menggunakan (label == -1).sum().
 - Menampilkan hanya data yang terdeteksi sebagai outlier menggunakan df_merge[df_merge["outlier_label"] == -1].

**Kesimpulan:**

Kode ini mendeteksi outlier dalam data bunga iris menggunakan metode Local Outlier Factor (LOF). Dengan membandingkan setiap titik terhadap 90 tetangga terdekatnya, model dapat mengidentifikasi data yang menyimpang dari pola umum dalam dataset.















In [3]:
import pandas as pd
from sklearn.neighbors import LocalOutlierFactor

# Gabungkan berdasarkan kolom 'id' dan 'class'
df_merge = pd.merge(df_mysql, df_postgresql, on=["id", "class"], how="inner")

# Ambil data fitur numerik tanpa kolom 'class'
feature_columns = ["petal_length", "petal_width", "sepal_length", "sepal_width"]
data_values = df_merge[feature_columns].values

# Inisialisasi model LOF
clf = LocalOutlierFactor(n_neighbors=90)
label = clf.fit_predict(data_values)

# Tambahkan hasil label ke dataframe
df_merge["outlier_label"] = label

# Cetak hasil dengan ID dan class
print(df_merge.to_string(index=False))

num_outliers = (label == -1).sum()
print(f"\nJumlah outlier: {num_outliers}")

outliers = df_merge[df_merge["outlier_label"] == -1]
print("\nData Outlier:")
print(outliers.to_string(index=False))

 id           class  petal_length  petal_width  sepal_length  sepal_width  outlier_label
  1     Iris-setosa           1.4          0.2           5.1          3.5              1
  2     Iris-setosa          14.0          2.0          40.9         30.0             -1
  3     Iris-setosa           1.3          0.2           4.7          3.2              1
  4     Iris-setosa           1.5          0.2           4.6          3.1              1
  5     Iris-setosa           1.4          0.2           5.0          3.6              1
  6     Iris-setosa           1.7          0.4           5.4          3.9              1
  7     Iris-setosa           1.4          0.3           4.6          3.4              1
  8     Iris-setosa           1.5          0.2           5.0          3.4              1
  9     Iris-setosa           1.4          0.2           4.4          2.9              1
 10     Iris-setosa           1.5          0.1           4.9          3.1              1
 11     Iris-setosa  