# Deteksi Outlier dengan metode Local Outlier Factor (LOF) dalam Data Understanding

## Apa Itu LOF
Local Outlier Factor (LOF) adalah sebuah algoritma yang digunakan untuk mendeteksi outlier (anomali) dalam suatu dataset dengan cara membandingkan kepadatan lokal suatu titik data terhadap kepadatan tetangganya. Algoritma ini pertama kali diperkenalkan oleh Markus M. Breunig, Hans-Peter Kriegel, Raymond T. Ng, dan Jörg Sander pada tahun 2000.

LOF menggunakan prinsip yang mirip dengan algoritma DBSCAN dan OPTICS, yaitu dengan mempertimbangkan konsep jarak inti (core distance) dan jarak keterjangkauan (reachability distance) untuk menentukan kepadatan lokal suatu titik data. Dengan pendekatan ini, LOF dapat mengidentifikasi titik data yang memiliki kepadatan lebih rendah dibandingkan dengan tetangganya, sehingga dapat diklasifikasikan sebagai outlier.

## Tahapan Local Outlier Factor (LOF)
Untuk mendeteksi outlier, LOF melalui beberapa tahapan berikut:

1.Menentukan Jumlah Tetangga (k):
   Tentukan jumlah tetangga terdekat (k) yang akan digunakan dalam perhitungan kepadatan lokal. Nilai k harus dipilih dengan hati-hati, karena mempengaruhi akurasi deteksi outlier. Misalnya, jika n_neighbors = 90, berarti setiap titik data akan dibandingkan dengan 90 tetangga terdekatnya.

2. Menghitung Jarak ke K-Tetangga Terdekat:
   Untuk setiap titik dalam dataset, hitung jarak ke k tetangga terdekat menggunakan metrik seperti Euclidean Distance atau Manhattan Distance. Jarak ini akan digunakan sebagai dasar dalam menilai kepadatan lokal suatu titik data.

3. Menentukan Kepadatan Lokal:
   Hitung kepadatan lokal setiap titik berdasarkan jarak rata-rata ke tetangga terdekatnya. Jika sebuah titik memiliki kepadatan lebih rendah dibandingkan dengan lingkungan sekitarnya, maka besar kemungkinan titik tersebut merupakan outlier.

4. Menghitung Local Outlier Factor (LOF):
   LOF dihitung sebagai rasio antara kepadatan lokal suatu titik dengan kepadatan lokal tetangganya. Jika nilai LOF tinggi, berarti titik tersebut lebih terisolasi dibandingkan dengan titik-titik di sekitarnya, yang mengindikasikan bahwa titik tersebut adalah kandidat outlier.

5. Menentukan Outlier Berdasarkan Nilai LOF:
   Data yang memiliki LOF lebih besar dari ambang batas tertentu akan dikategorikan sebagai outlier. Biasanya, LOF > 1 menunjukkan bahwa titik data tersebut lebih jarang ditemukan di sekitarnya dibandingkan dengan tetangganya, sehingga lebih mungkin dianggap sebagai anomali..

6. Memberikan Label Hasil Deteksi:
Berdasarkan nilai LOF, setiap titik data diberikan label klasifikasi:

 - Label -1 → Titik yang diklasifikasikan sebagai outlier.
 - Label 1 → Titik yang dianggap sebagai data normal.

Dengan pendekatan ini, LOF memungkinkan kita untuk mendeteksi outlier secara lebih efektif dengan mempertimbangkan hubungan kepadatan lokal dibandingkan metode berbasis jarak biasa.
   
## CONTOH MENGHITUNG MANUAL LOF
Berikut adalah cara singkat menghitung **Local Outlier Factor (LOF)** untuk satu titik data dengan dua fitur:

1. **Dataset**:  
   Misalkan data berikut:

| ID  | Feature1 | Feature2 |
|-----|----------|----------|
| 1   | 1.0      | 2.0      |
| 2   | 2.0      | 3.0      |
| 3   | 3.0      | 4.0      |
| 4   | 4.0      | 5.0      |
| 5   | 5.0      | 6.0      |
| 6   | 6.0      | 7.0      |
| 7   | 7.0      | 8.0      |
| 8   | 8.0      | 9.0      |
| 9   | 9.0      | 10.0     |
| 10  | 10.0     | 11.0     |

   Kita akan hitung LOF untuk titik 5 (5.0, 6.0).

2. **Hitung Jarak Euclidean**:  
   Jarak antara titik 3 dan titik lainnya:
   - Titik 5 ke Titik 4: 1.41
   - Titik 5 ke Titik 6: 1.14
   - Titik 5 ke Titik 3: 2.83
   - Titik 5 ke Titik 7: 2.83
   - Titik 5 ke Titik 2: 4.24
   - Titik 5 ke Titik 8: 4.24
   - Titik 5 ke Titik 1: 5.66
   - Titik 5 ke Titik 9: 5.66
   - Titik 5 ke Titik 10: 7.07

3. **Tentukan k-Tetangga Terdekat** (k=2):  
   Dua tetangga terdekat titik 5 adalah:
   - Titik 4 (4.0, 5.0) → jarak 1.41
   - Titik 6 (6.0, 7.0) → jarak 1.41

4. **Hitung Reachability Distance**:  
   Reachability distance antara titik 3 dan tetangga:
   - Titik 5 ke Titik 4: 1.41
   - Titik 5 ke Titik 6: 1.41

5. **Hitung Local Reachability Density (LRD)**:  
 $$
  \text{LRD}(5) = \frac{1}{\frac{1}{2} \times (1.41 + 1.41)}
  $$

  $$
  \text{LRD}(5) = \frac{1}{\frac{1}{2} \times 2.82} = \frac{1}{1.41} = 0.71
  $$

6. **Hitung LOF**:  
  $$
 \text{LOF}(5) = \frac{0.71}{0.71} + \frac{0.71}{0.71} = 2
  $$

7. **Interpretasi**:  
   Karena LOF = 2 (lebih besar dari 1), titik 5 dianggap outlier.

LOF mengukur seberapa terisolasi titik dibandingkan tetangganya. Titik dengan LOF lebih besar dari 1 dianggap outlier.

## Implementasi Pakai Sklearn Untuk Data Contoh

In [2]:
import numpy as np
import pandas as pd
from sklearn.neighbors import LocalOutlierFactor

# Dataset berdasarkan contoh manual
data = {
    'Feature1': [2.0, 3.0, 4.0, 5.0, 6.0, 7.0, 8.0, 9.0, 10.0],
    'Feature2': [3.0, 4.0, 5.0, 6.0, 7.0, 8.0, 9.0, 10.0, 11.0]
}

# Membuat DataFrame
df = pd.DataFrame(data)

# Inisialisasi model LOF dengan k=2 (2 tetangga terdekat)
lof = LocalOutlierFactor(n_neighbors=2)

# Fit model LOF dan prediksi label (1 untuk normal, -1 untuk outlier)
lof_labels = lof.fit_predict(df)

# Menambahkan hasil prediksi ke DataFrame
df['LOF Label'] = lof_labels

# Menampilkan hasil
print(df)

# Menampilkan jumlah outlier
num_outliers = (lof_labels == -1).sum()
print(f"\nJumlah outlier: {num_outliers}")

# Menampilkan data outlier
outliers = df[df['LOF Label'] == -1]
print("\nData Outlier:")
print(outliers)

   Feature1  Feature2  LOF Label
0       2.0       3.0          1
1       3.0       4.0          1
2       4.0       5.0          1
3       5.0       6.0          1
4       6.0       7.0          1
5       7.0       8.0          1
6       8.0       9.0          1
7       9.0      10.0          1
8      10.0      11.0          1

Jumlah outlier: 0

Data Outlier:
Empty DataFrame
Columns: [Feature1, Feature2, LOF Label]
Index: []


In [3]:
%pip install pymysql
%pip install psycopg2

Collecting pymysql
  Downloading PyMySQL-1.1.1-py3-none-any.whl.metadata (4.4 kB)
Downloading PyMySQL-1.1.1-py3-none-any.whl (44 kB)
[?25l   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/45.0 kB[0m [31m?[0m eta [36m-:--:--[0m[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m45.0/45.0 kB[0m [31m1.7 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: pymysql
Successfully installed pymysql-1.1.1


Perintah di atas digunakan untuk menginstal dua pustaka Python, yaitu pymysql dan psycopg2, yang berfungsi sebagai konektor untuk menghubungkan aplikasi Python dengan database.

- pymysql: Digunakan untuk berinteraksi dengan database MySQL atau MariaDB, memungkinkan eksekusi query SQL menggunakan protokol MySQL.
- psycopg2: Digunakan sebagai driver untuk PostgreSQL, menyediakan antarmuka yang efisien dalam mengelola koneksi dan menjalankan perintah SQL di dalam database tersebut.

Perintah ini menggunakan magic command %pip, yang biasanya digunakan dalam Jupyter Notebook agar paket yang diinstal langsung tersedia dalam lingkungan kerja yang sedang berjalan.

In [4]:
import psycopg2
import pymysql
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from scipy.spatial.distance import euclidean

def get_pg_data():
    conn = psycopg2.connect(
        host="pg-382999bb-posgresqlpendataa.g.aivencloud.com",
        user="avnadmin",
        password="AVNS_AwzON_kzF3kYXNu_CrZ",
        database="defaultdb",
        port=11188
    )
    cursor = conn.cursor()
    cursor.execute("SELECT * FROM nabila.postgres;")
    data = cursor.fetchall()
    columns = [desc[0] for desc in cursor.description]
    cursor.close()
    conn.close()
    return pd.DataFrame(data, columns=columns)

def get_mysql_data():
    conn = pymysql.connect(
        host="mysql-9b686fb-pendataa.g.aivencloud.com",
        user="avnadmin",
        password="AVNS_ZuFdVS1OQkmHx4P1Wtp",
        database="defaultdb",
        port=22825
    )
    cursor = conn.cursor()
    cursor.execute("SELECT * FROM irismysql")
    data = cursor.fetchall()
    columns = [desc[0] for desc in cursor.description]
    cursor.close()
    conn.close()
    return pd.DataFrame(data, columns=columns)

# Ambil data dari kedua database
df_postgresql = get_pg_data()
df_mysql = get_mysql_data()

# Gabungkan berdasarkan kolom 'id' dan 'Class'
df_merged = pd.merge(df_mysql, df_postgresql, on=["id", "class"], how="inner")

# Ambil data fitur numerik
feature_columns = ["petal_length", "petal_width", "sepal length", "sepal width"]
data_values = df_merged[feature_columns].values

Kode di atas digunakan untuk mengambil data dari dua database yang berbeda (PostgreSQL dan MySQL), lalu menggabungkannya berdasarkan kolom id dan class.

Berikut penjelasan tiap bagian kode:

1. Mengimpor pustaka yang dibutuhkan

 - psycopg2 dan pymysql → Digunakan untuk menghubungkan Python dengan database PostgreSQL dan MySQL.
 - numpy dan pandas → Digunakan untuk manipulasi data dalam bentuk array dan DataFrame.
 - seaborn dan matplotlib.pyplot → Digunakan untuk visualisasi data.
 - scipy.spatial.distance.euclidean → Digunakan untuk perhitungan jarak Euclidean (belum digunakan dalam kode ini).

2. Fungsi get_pg_data()

 - Membuka koneksi ke database PostgreSQL dan mengambil semua data dari tabel iris_postgresql.
 - Data diambil dalam bentuk list, kemudian dikonversi menjadi DataFrame pandas sebelum dikembalikan.

3. Fungsi get_mysql_data()

 - Mirip dengan fungsi get_pg_data(), tetapi mengambil data dari database MySQL, yaitu tabel irismysql.

4. Mengambil data dari kedua database

 - df_postgresql = get_pg_data() → Menyimpan data dari PostgreSQL dalam DataFrame.
 - df_mysql = get_mysql_data() → Menyimpan data dari MySQL dalam DataFrame.

5. Menggabungkan kedua dataset

 - df_merged = pd.merge(df_mysql, df_postgresql, on=["id", "class"], how="inner")
 - Data dari kedua database digabungkan berdasarkan kolom "id" dan "class" menggunakan metode inner join (hanya menyertakan data yang ada di kedua database).

6. Mengambil fitur numerik untuk analisis lebih lanjut

 - Kolom yang dipilih: petal_length, petal_width, sepal_length, sepal_width.
 - data_values = df_merged[feature_columns].values → Data diubah menjadi array NumPy untuk analisis selanjutnya.

Kesimpulan:

Kode ini hanya berfungsi untuk mengambil dan menggabungkan data dari dua database (PostgreSQL & MySQL). Belum ada proses analisis atau deteksi outlier dalam kode ini.

In [5]:
import pandas as pd
from sklearn.neighbors import LocalOutlierFactor

# Gabungkan berdasarkan kolom 'id' dan 'class'
df_merge = pd.merge(df_mysql, df_postgresql, on=["id", "class"], how="inner")

# Ambil data fitur numerik tanpa kolom 'class'
feature_columns = ["petal_length", "petal_width", "sepal length", "sepal width"]
data_values = df_merge[feature_columns].values

# Inisialisasi model LOF
clf = LocalOutlierFactor(n_neighbors=90)
label = clf.fit_predict(data_values)

# Tambahkan hasil label ke dataframe
df_merge["outlier_label"] = label

# Cetak hasil dengan ID dan class
print(df_merge.to_string(index=False))

num_outliers = (label == -1).sum()
print(f"\nJumlah outlier: {num_outliers}")

outliers = df_merge[df_merge["outlier_label"] == -1]
print("\nData Outlier:")
print(outliers.to_string(index=False))

 id           class  petal_length  petal_width  sepal length  sepal width  outlier_label
  1     Iris-setosa           1.4          0.2           5.1          3.5              1
  2     Iris-setosa          14.0          2.0          40.9         30.0             -1
  3     Iris-setosa           1.3          0.2           4.7          3.2              1
  4     Iris-setosa           1.5          0.2           4.6          3.1              1
  5     Iris-setosa           1.4          0.2           5.0          3.6              1
  6     Iris-setosa           1.7          0.4           5.4          3.9              1
  7     Iris-setosa           1.4          0.3           4.6          3.4              1
  8     Iris-setosa           1.5          0.2           5.0          3.4              1
  9     Iris-setosa           1.4          0.2           4.4          2.9              1
 10     Iris-setosa           1.5          0.1           4.9          3.1              1
 11     Iris-setosa  

Kode di atas menggunakan metode Local Outlier Factor (LOF) untuk mendeteksi outlier pada data yang digabungkan dari dua database, yaitu PostgreSQL dan MySQL. Setelah data digabungkan berdasarkan kolom 'id' dan 'class', kode ini mengekstrak fitur numerik, seperti panjang dan lebar petal serta panjang dan lebar sepal, untuk analisis deteksi outlier lebih lanjut.

Metode LOF bekerja dengan mengidentifikasi outlier berdasarkan kepadatan lokal data. Artinya, LOF menilai seberapa terisolasi suatu titik data dibandingkan dengan titik-titik data sekitarnya. LOF menghitung rasio kepadatan antara suatu titik dan tetangganya; jika titik tersebut memiliki kepadatan yang jauh lebih rendah daripada tetangganya, maka titik tersebut dianggap sebagai outlier. Dalam kode ini, parameter n_neighbors=90 digunakan untuk menentukan bahwa model LOF akan mempertimbangkan 90 tetangga terdekat dalam analisis kepadatan.

Setelah model LOF dilatih menggunakan data fitur yang ada, metode fit_predict digunakan untuk memprediksi apakah setiap data merupakan outlier atau bukan. Hasil prediksi ini berupa label, dengan nilai -1 yang menunjukkan outlier dan 1 yang menunjukkan data normal. Label ini kemudian ditambahkan ke dalam dataframe sebagai kolom baru bernama outlier_label.

Hasil deteksi outlier selanjutnya dicetak, termasuk ID dan kelas data, jumlah outlier yang terdeteksi, serta data outlier itu sendiri. Kode ini juga memisahkan data yang terdeteksi sebagai outlier (dengan label -1) dan menampilkannya secara terpisah.