# **Deteksi Outlier dengan metode Local Outlier Factor (LOF) dalam Data Understanding**
## APA ITU LOF
LOF (Local Outlier Factor) adalah sebuah algoritma yang digunakan untuk mendeteksi outlier atau anomali dalam sebuah dataset. LOF bekerja dengan cara membandingkan kepadatan lokal (local density) dari sebuah titik data dengan kepadatan lokal dari titik-titik di sekitarnya. Algoritma ini pertama kali diperkenalkan oleh Markus M. Breunig dan rekan-rekannya pada tahun 2000.

## BAGAIMANA TAHAPAN LOF
Tahapan dari metode **Local Outlier Factor (LOF)** dalam mendeteksi outlier adalah sebagai berikut:

1. **Menentukan Jumlah Tetangga (k):**
   Tentukan jumlah tetangga terdekat (k-nearest neighbors) yang akan digunakan untuk mengukur kepadatan lokal setiap data. Nilai k ini penting karena memengaruhi hasil deteksi outlier. Biasanya dipilih berdasarkan eksperimen atau domain data.

2. **Hitung Jarak K-Tetangga Terdekat:**
   Untuk setiap data, hitunglah jarak menuju k tetangga terdekatnya. Jarak ini berfungsi untuk mengetahui seberapa rapat atau padat lingkungan sekitar data tersebut.

3. **Menghitung Kepadatan Lokal:**
   Tentukan kepadatan lokal setiap data dengan mengukur seberapa dekat jaraknya dengan tetangga-tetangganya dibandingkan dengan kepadatan tetangga lainnya. Data yang memiliki kepadatan lebih rendah dari sekitarnya akan lebih mungkin terdeteksi sebagai outlier.

4. **Menghitung LOF (Local Outlier Factor):**
   Hitung perbandingan antara kepadatan lokal suatu data dengan kepadatan lokal tetangga-tetangganya. Perbandingan ini dikenal sebagai LOF. Semakin tinggi nilai LOF, semakin menunjukkan bahwa data tersebut lebih terpisah atau memiliki kepadatan lebih rendah dibandingkan tetangganya, sehingga kemungkinan besar merupakan outlier.

5. **Penetapan Outlier:**
   Identifikasi data yang memiliki nilai LOF melebihi batas tertentu sebagai outlier. Umumnya, data dengan LOF di atas 1 dikategorikan sebagai outlier, karena menunjukkan bahwa data tersebut kurang umum atau lebih jarang muncul di wilayah tersebut dibandingkan tetangganya.

6. **Hasil Prediksi:**
   Setiap data akan dilabeli -1 jika terdeteksi sebagai outlier, dan 1 jika diklasifikasikan sebagai data normal.
   
## CONTOH MENGHITUNG MANUAL LOF
Berikut adalah cara singkat menghitung **Local Outlier Factor (LOF)** untuk satu titik data dengan dua fitur:

1. **Dataset**:  
   Misalkan data berikut:

| ID | Feature1 | Feature2 |
|----|----------|----------|
| 1  | 1.2      | 3.5      |
| 2  | 2.1      | 1.8      |
| 3  | 3.3      | 3.0      |
| 4  | 4.0      | 2.2      |
| 5  | 5.5      | 3.8      |
| 6  | 6.1      | 1.5      |
| 7  | 7.3      | 4.5      |
| 8  | 8.0      | 3.0      |
| 9  | 4.5      | 5.5      |
| 10 | 20.0     | 25.0     |

   Kita akan hitung LOF untuk **titik 10** (3.3, 3.0).

2. **Hitung Jarak Euclidean**:  
   Berikut adalah rumus untuk menghitung Jarak Euclidean 
   
   $ 
      \text{Jarak} = \sqrt{(x_2 - x_1)^2 + (y_2 - y_1)^2} 
   $
   
   Jarak antara titik 10 dan titik lainnya:
   - Titik 10 ke Titik 1:  28.36
   - Titik 10 ke Titik 2:  30.29
   - Titik 10 ke Titik 3:  27.62
   - Titik 10 ke Titik 4:  28.48
   - Titik 10 ke Titik 5:  26.09
   - Titik 10 ke Titik 6:  30.40
   - Titik 10 ke Titik 7:  24.78
   - Titik 10 ke Titik 8:  25.54
   - Titik 10 ke Titik 9:  25.01

3. **Tentukan k-Tetangga Terdekat** (k=2):  
   Titik 10 memiliki dua tetangga terdekat: titik 7 dan titik 9.

4. **Hitung Reachability Distance**:  
   Reachability distance antara titik 10 dan tetangga:
   - Titik 10 ke Titik 7: 24.78
   - Titik 10 ke Titik 9: 25.01

5. **Hitung Local Reachability Density (LRD)**:  
   $
   \text{LRD}(10) = \frac{1}{\frac{1}{2} \times (24.78 + 25.01)} = 0.040
   $

6. **Hitung LOF**:  
   $
    \text{LOF}(10) = \frac{1}{2} \left(\frac{0.5}{0.040} + \frac{0.5}{0.040} \right) = 12.5
  $


7. **Interpretasi**:  
   Karena **LOF = 12.5** (lebih besar dari 1), titik 10 dianggap **outlier**.

LOF mengukur seberapa terisolasi titik dibandingkan tetangganya. Titik dengan LOF lebih besar dari 1 dianggap outlier.

## IMPLEMENTASI PAKAI SKLEARN UNTUK DATA CONTOH

In [8]:
import numpy as np
import pandas as pd
from sklearn.neighbors import LocalOutlierFactor

# Dataset contoh (outlier hanya di titik ke-10)
data = {
    'Feature1': [1.2, 2.1, 3.3, 4.0, 5.5, 6.1, 7.3, 8.0, 4.5, 20.0],
    'Feature2': [3.5, 1.8, 3.0, 2.2, 3.8, 1.5, 4.5, 3.0, 5.5, 25.0]
}

# Membuat DataFrame
df = pd.DataFrame(data)

# Inisialisasi model LOF dengan k=2 (2 tetangga terdekat)
lof = LocalOutlierFactor(n_neighbors=2)

# Fit model LOF dan prediksi label (1 untuk normal, -1 untuk outlier)
lof_labels = lof.fit_predict(df)

# Menambahkan hasil prediksi ke DataFrame
df['LOF Label'] = lof_labels

# Menampilkan hasil
print("Dataset dengan LOF Label:")
print(df)

# Menampilkan jumlah outlier
num_outliers = (lof_labels == -1).sum()
print(f"\nJumlah outlier terdeteksi: {num_outliers}")

# Menampilkan data outlier
outliers = df[df['LOF Label'] == -1]
print("\nData Outlier:")
print(outliers)


Dataset dengan LOF Label:
   Feature1  Feature2  LOF Label
0       1.2       3.5          1
1       2.1       1.8          1
2       3.3       3.0          1
3       4.0       2.2          1
4       5.5       3.8          1
5       6.1       1.5          1
6       7.3       4.5          1
7       8.0       3.0          1
8       4.5       5.5          1
9      20.0      25.0         -1

Jumlah outlier terdeteksi: 1

Data Outlier:
   Feature1  Feature2  LOF Label
9      20.0      25.0         -1


In [None]:
%pip install pymysql
%pip install psycopg2



Metode LOF berfungsi mengidentifikasi outlier dengan melihat kepadatan lokal dari data. Maksudnya, LOF menilai seberapa jauh suatu titik data terpisah dari data lain di sekitarnya. LOF menghitung rasio kepadatan antara satu titik data dengan tetangga terdekatnya; apabila titik tersebut memiliki kepadatan jauh lebih rendah dibandingkan tetangganya, maka titik itu dikategorikan sebagai outlier. Pada kode ini, digunakan parameter n_neighbors=90, yang berarti model LOF akan mempertimbangkan 90 tetangga terdekat dalam perhitungan kepadatan.

Setelah model LOF dibentuk berdasarkan fitur-fitur yang ada, fungsi fit_predict dijalankan untuk memprediksi apakah masing-masing titik data termasuk outlier atau bukan. Hasil prediksi tersebut berupa label, di mana -1 menandakan outlier, dan 1 menandakan data normal. Label hasil prediksi ini kemudian dimasukkan ke dalam dataframe sebagai kolom baru bernama outlier_label.

Selanjutnya, hasil deteksi outlier ditampilkan, mencakup ID, kelas data, jumlah outlier yang ditemukan, serta rincian data yang teridentifikasi sebagai outlier. Selain itu, data yang diklasifikasikan sebagai outlier (berlabel -1) dipisahkan dan ditampilkan tersendiri.

In [None]:
import psycopg2
import pymysql
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from scipy.spatial.distance import euclidean

def get_pg_data():
    conn = psycopg2.connect(
        host="farah-postgresqll.l.aivencloud.com",
        user="avnadmin",
        password="AVNS_rVI6WGJ0hdN4E7M2KsB",
        database="defaultdb",
        port=12624
    )
    cursor = conn.cursor()
    cursor.execute("SELECT * FROM farah.postgree")
    data = cursor.fetchall()
    columns = [desc[0] for desc in cursor.description]
    cursor.close()
    conn.close()
    return pd.DataFrame(data, columns=columns)

def get_mysql_data():
    conn = pymysql.connect(
        host="mysql-1db1966d-mmysqll.d.aivencloud.com",
        user="avnadmin",
        password="AVNS_VBsJWG-RQvJ7y8sPwxg",
        database="defaultdb",
        port=11704
    )
    cursor = conn.cursor()
    cursor.execute("SELECT * FROM flowers")
    data = cursor.fetchall()
    columns = [desc[0] for desc in cursor.description]
    cursor.close()
    conn.close()
    return pd.DataFrame(data, columns=columns)

# Ambil data dari kedua database
df_postgresql = get_pg_data()
df_mysql = get_mysql_data()
df_postgresql = df_postgresql.rename(columns={'Class': 'class'})

# Gabungkan berdasarkan kolom 'id' dan 'Class'
df_merged = pd.merge(df_mysql, df_postgresql, on=["id", "class"], how="inner")

# Ambil data fitur numerik
feature_columns = ["petal length", "petal width", "sepal length", "sepal width"]
data_values = df_merged[feature_columns].values

Kode tersebut hanya digunakan untuk menggabungkan data dari dua basis data saja.

In [None]:
import pandas as pd
from sklearn.neighbors import LocalOutlierFactor

# Gabungkan berdasarkan kolom 'id' dan 'class'
df_merge = pd.merge(df_mysql, df_postgresql, on=["id", "class"], how="inner")

# Ambil data fitur numerik tanpa kolom 'class'
feature_columns = ["petal length", "petal width", "sepal length", "sepal width"]
data_values = df_merge[feature_columns].values

# Inisialisasi model LOF
clf = LocalOutlierFactor(n_neighbors=90)
label = clf.fit_predict(data_values)

# Tambahkan hasil label ke dataframe
df_merge["outlier_label"] = label

# Cetak hasil dengan ID dan class
print(df_merge.to_string(index=False))

num_outliers = (label == -1).sum()
print(f"\nJumlah outlier: {num_outliers}")

outliers = df_merge[df_merge["outlier_label"] == -1]
print("\nData Outlier:")
print(outliers.to_string(index=False))

 id           class  petal length  petal width  sepal length  sepal width  outlier_label
  1     Iris-setosa           1.4          0.2           5.1          3.5              1
  2     Iris-setosa          14.0          2.0          40.9         30.0             -1
  3     Iris-setosa           1.3          0.2           4.7          3.2              1
  4     Iris-setosa           1.5          0.2           4.6          3.1              1
  5     Iris-setosa           1.4          0.2           5.0          3.6              1
  6     Iris-setosa           1.7          0.4           5.4          3.9              1
  7     Iris-setosa           1.4          0.3           4.6          3.4              1
  8     Iris-setosa           1.5          0.2           5.0          3.4              1
  9     Iris-setosa           1.4          0.2           4.4          2.9              1
 10     Iris-setosa           1.5          0.1           4.9          3.1              1
 11     Iris-setosa  

Kode tersebut memanfaatkan metode Local Outlier Factor (LOF) untuk mendeteksi outlier pada data yang telah digabung dari dua basis data, yaitu PostgreSQL dan MySQL. Setelah proses penggabungan dilakukan berdasarkan kolom 'id' dan 'class', kode ini mengekstraksi sejumlah fitur numerik, seperti panjang dan lebar petal serta panjang dan lebar sepal, yang digunakan untuk analisis lebih lanjut dalam mendeteksi outlier.

Metode LOF berfungsi mengidentifikasi outlier dengan melihat kepadatan lokal dari data. Maksudnya, LOF menilai seberapa jauh suatu titik data terpisah dari data lain di sekitarnya. LOF menghitung rasio kepadatan antara satu titik data dengan tetangga terdekatnya; apabila titik tersebut memiliki kepadatan jauh lebih rendah dibandingkan tetangganya, maka titik itu dikategorikan sebagai outlier. Pada kode ini, digunakan parameter n_neighbors=90, yang berarti model LOF akan mempertimbangkan 90 tetangga terdekat dalam perhitungan kepadatan.

Setelah model LOF dibentuk berdasarkan fitur-fitur yang ada, fungsi fit_predict dijalankan untuk memprediksi apakah masing-masing titik data termasuk outlier atau bukan. Hasil prediksi tersebut berupa label, di mana -1 menandakan outlier, dan 1 menandakan data normal. Label hasil prediksi ini kemudian dimasukkan ke dalam dataframe sebagai kolom baru bernama outlier_label.

Selanjutnya, hasil deteksi outlier ditampilkan, mencakup ID, kelas data, jumlah outlier yang ditemukan, serta rincian data yang teridentifikasi sebagai outlier. Selain itu, data yang diklasifikasikan sebagai outlier (berlabel -1) dipisahkan dan ditampilkan tersendiri.