# Deteksi Outlier dengan metode Local Outlier Factor (LOF) dalam Data Understanding


1. **Apa itu LOF**

Local Outlier Factor (LOF) adalah metode untuk mendeteksi outlier dengan memperhitungkan kerapatan lokal titik data. LOF mengukur seberapa jauh sebuah titik data menyimpang dari kerapatan rata-rata tetangga terdekatnya. Titik data dengan nilai LOF yang tinggi dianggap sebagai outlier karena memiliki kerapatan yang jauh lebih rendah dibandingkan dengan tetangganya.

Dengan kata lain, LOF membantu mendeteksi outlier dengan membandingkan kerapatan lokal titik data dengan kerapatan lokal tetangga terdekatnya. Metode ini sangat berguna untuk mendeteksi outlier di dataset yang memiliki distribusi kompleks atau non-linear.

2. **Tahap Langkah-langkah LOF**

a. **Mengimpor Library**: Impor library yang dibutuhkan seperti NumPy, Pandas, dan Scikit-learn untuk analisis data dan model LOF.

b. **Memuat Dataset**: Muat dataset yang akan dianalisis ke dalam format DataFrame agar lebih mudah diolah.

c. **Memilih Fitur yang Relevan**: Pilih kolom-kolom fitur yang relevan dari dataset yang akan digunakan dalam analisis.

d. **Inisialisasi dan Pelatihan Model LOF**: Inisialisasi model LOF dengan menentukan jumlah tetangga (misalnya, k=20). Latih model LOF dengan data yang ada.

e. **Mengidentifikasi Outlier**: Model LOF akan memberikan label untuk setiap titik data, dimana label -1 menunjukkan bahwa titik data tersebut adalah outlier, sedangkan label 1 menunjukkan titik data yang normal.

f. **Menghitung Skor LOF**: Skor LOF dihitung untuk setiap titik data untuk mengetahui tingkat keanehan. Skor yang lebih tinggi menunjukkan kemungkinan outlier yang lebih besar.

g. **Menyimpan atau Menampilkan Hasil**: Simpan atau tampilkan hasil deteksi outlier untuk analisis lebih lanjut.

Dengan langkah-langkah ini, Anda dapat menggunakan metode LOF untuk mendeteksi outlier dalam dataset Anda.

Berikut adalah perhitungan LOF yang telah diperbarui dengan 10 baris data dan memasukkan sebuah outlier:

### **Dataset Baru (Sesuai Kode)**
| ID  | Feature1 | Feature2 |  
|-----|----------|----------|  
| 1   | 10.0     | 20.0     |  
| 2   | 20.0     | 30.0     |  
| 3   | 30.0     | 40.0     |  
| 4   | 40.0     | 50.0     |  
| 5   | 50.0     | 60.0     |  
| 6   | 60.0     | 70.0     |  
| 7   | 70.0     | 80.0     |  
| 8   | 80.0     | 90.0     |  
| 9   | 90.0     | 100.0    |  
| 10  | 200.0    | 300.0    | *(Outlier)*

Kita akan menghitung **Local Outlier Factor (LOF) untuk titik 3 (30.0, 40.0)**.

### **Langkah 1: Tentukan k-Tetangga Terdekat (k = 2)**
Dua tetangga terdekat dari titik **3** adalah:
1. **Titik 2** (jarak **14.14**)
2. **Titik 4** (jarak **14.14**)

---

### **Langkah 2: Tentukan k-distance**

Misalkan kita hitung k-distance (rata-rata jarak ke dua tetangga terdekat):

$
k\_distance(3) = \frac{14.14 + 14.14}{2} = 14.14
$

---

### **Langkah 3: Hitung Reachability Distance**

$
reach\_dist(A, B) = \max(k\_distance(B), d(A,B))
$

- $ reach\_dist(3,2) = \max(14.14, 14.14) = 14.14 $
- $ reach\_dist(3,4) = \max(14.14, 14.14) = 14.14 $

---

### **Langkah 4: Hitung Local Reachability Density (LRD)**

$
LRD(3) = \frac{2}{reach\_dist(3,2) + reach\_dist(3,4)} = \frac{2}{14.14 + 14.14} = \frac{2}{28.28} \approx 0.071
$

---

### **Langkah 5: Hitung LOF**

Misalkan kita anggap \( LRD(2) = 0.08 \), \( LRD(4) = 0.076 \), \( LRD(5) = 0.07 \), dan seterusnya, maka:

$
LOF(3) = \frac{(0.08 / 0.071) + (0.076 / 0.071)}{2} = \frac{1.127 + 1.070}{2} = \frac{2.197}{2} = 1.10
$

---

### **Langkah 6: Deteksi Outlier**
- Titik **10 (200.0, 300.0)** memiliki jarak yang jauh lebih besar dari titik-titik lainnya, kemungkinan besar **outlier**.
- Jika **LOF > 1**, titik tersebut **kemungkinan outlier**. 

### **Kesimpulan**
- Titik **3** dengan LOF â‰ˆ 1.10 **bukan outlier**, tetapi sedikit lebih jarang dibandingkan titik lainnya.
- Titik **10** dengan jarak yang jauh lebih besar dan **LOF** yang lebih tinggi **pasti outlier**.

# **IMPLEMENTASI SKLEARN UNTUK DATA CONTOH**

In [1]:
import numpy as np
import pandas as pd
from sklearn.neighbors import LocalOutlierFactor

# Dataset contoh yang sudah diubah sesuai dengan soal
data = {
    'Feature1': [10.0, 20.0, 30.0, 40.0, 50.0, 60.0, 70.0, 80.0, 90.0, 200.0],
    'Feature2': [20.0, 30.0, 40.0, 50.0, 60.0, 70.0, 80.0, 90.0, 100.0, 300.0]
}

# Membuat DataFrame
df = pd.DataFrame(data)

# Inisialisasi model LOF dengan k=2 (2 tetangga terdekat)
lof = LocalOutlierFactor(n_neighbors=2)

# Fit model LOF dan prediksi label (1 untuk normal, -1 untuk outlier)
lof_labels = lof.fit_predict(df)

# Menambahkan hasil prediksi ke DataFrame
df['LOF Label'] = lof_labels

# Menampilkan hasil
print(df)

# Menampilkan jumlah outlier
num_outliers = (lof_labels == -1).sum()
print(f"\nJumlah outlier: {num_outliers}")

# Menampilkan data outlier
outliers = df[df['LOF Label'] == -1]
print("\nData Outlier:")
print(outliers)

   Feature1  Feature2  LOF Label
0      10.0      20.0          1
1      20.0      30.0          1
2      30.0      40.0          1
3      40.0      50.0          1
4      50.0      60.0          1
5      60.0      70.0          1
6      70.0      80.0          1
7      80.0      90.0          1
8      90.0     100.0          1
9     200.0     300.0         -1

Jumlah outlier: 1

Data Outlier:
   Feature1  Feature2  LOF Label
9     200.0     300.0         -1


Berikut adalah **penjelasan lengkap** dari kode yang menggunakan **Local Outlier Factor (LOF) untuk mendeteksi outlier** dalam dataset:

---

## **Penjelasan Singkat**
Kode ini menggunakan **Local Outlier Factor (LOF)** dari **Scikit-Learn** untuk mendeteksi **outlier** dalam dataset 2 dimensi (**Feature1** dan **Feature2**). LOF bekerja dengan membandingkan **kepadatan lokal** suatu titik terhadap tetangganya. Jika kepadatannya jauh lebih rendah dibandingkan tetangga terdekatnya, titik tersebut dianggap sebagai **outlier**.

---

## **Langkah-Langkah Kode**

### **1. Impor Library yang Dibutuhkan**
```python
import numpy as np
import pandas as pd
from sklearn.neighbors import LocalOutlierFactor
```
- **Numpy**: Digunakan untuk manipulasi numerik jika diperlukan.
- **Pandas**: Digunakan untuk menyusun data dalam bentuk DataFrame.
- **LocalOutlierFactor**: Model yang digunakan untuk mendeteksi outlier.

---

### **2. Membuat Dataset**
```python
data = {
    'Feature1': [10.5, 20.3, 30.7, 40.1, 50.8],
    'Feature2': [15.2, 25.6, 35.9, 45.3, 55.7]
}
df = pd.DataFrame(data)
```
Dataset terdiri dari **dua fitur** (Feature1 dan Feature2) dengan **5 titik data**:

| ID | Feature1 | Feature2 |
|----|----------|----------|
| 1  | 10.5     | 15.2     |
| 2  | 20.3     | 25.6     |
| 3  | 30.7     | 35.9     |
| 4  | 40.1     | 45.3     |
| 5  | 50.8     | 55.7     |

**Tujuan:** Mendeteksi apakah ada **outlier** dalam dataset ini menggunakan **LOF**.

---

### **3. Inisialisasi Model LOF**
```python
lof = LocalOutlierFactor(n_neighbors=2)
```
- `n_neighbors=2`: Menentukan jumlah **tetangga terdekat** yang digunakan untuk perbandingan kepadatan.
- **Mengapa 2?** Karena dataset hanya memiliki **5 titik**, memilih nilai **k yang kecil** lebih masuk akal untuk mendeteksi outlier.

---

### **4. Menerapkan Model LOF**
```python
lof_labels = lof.fit_predict(df)
```
- `fit_predict(df)`:  
  - **Melatih model LOF** pada data `df`.
  - **Mengembalikan label** untuk setiap titik:  
    - **1** â†’ Titik dianggap **normal**  
    - **-1** â†’ Titik dianggap **outlier**

---

### **5. Menambahkan Hasil LOF ke DataFrame**
```python
df['LOF Label'] = lof_labels
```
- Menambahkan **hasil LOF** sebagai **kolom baru** di `df`.

---

### **6. Menampilkan Hasil**
```python
print(df)
```
Contoh output (bisa bervariasi tergantung data):

```
   Feature1  Feature2  LOF Label
0     10.5     15.2         1
1     20.3     25.6         1
2     30.7     35.9         1
3     40.1     45.3         1
4     50.8     55.7        -1  # Outlier
```
Titik dengan **LOF Label = -1** dianggap **outlier**.

---

### **7. Menampilkan Jumlah Outlier**
```python
num_outliers = (lof_labels == -1).sum()
print(f"\nJumlah outlier: {num_outliers}")
```
- Menghitung **jumlah outlier** dalam dataset dengan **menjumlahkan semua -1** dalam `lof_labels`.

Contoh output:
```
Jumlah outlier: 1
```
**Artinya:** **Satu titik dalam dataset terdeteksi sebagai outlier**.

---

### **8. Menampilkan Data Outlier**
```python
outliers = df[df['LOF Label'] == -1]
print("\nData Outlier:")
print(outliers)
```
- **Memfilter** data dengan `LOF Label == -1` untuk menampilkan hanya **outlier**.

Contoh output:
```
Data Outlier:
   Feature1  Feature2  LOF Label
4     50.8     55.7        -1
```
Titik **(50.8, 55.7)** terdeteksi sebagai **outlier**.

---

## **Bagaimana LOF Menentukan Outlier?**
**Local Outlier Factor (LOF)** menggunakan beberapa langkah:

1. **Menghitung Jarak Euclidean** ke **k-tetangga terdekat**.
2. **Menghitung Kepadatan Lokal**:
   - **Local Reachability Density (LRD)** â†’ Seberapa padat area di sekitar titik.
3. **Membandingkan LRD dengan Tetangganya**:
   - Jika **kepadatan titik jauh lebih rendah** dibandingkan tetangganya, **maka titik tersebut outlier**.
4. **Menghasilkan LOF Score**:
   - **LOF â‰ˆ 1** â†’ Titik **normal**  
   - **LOF > 1.5 atau 2** â†’ Titik **outlier**  

---

## **Kesimpulan**
- **Local Outlier Factor (LOF)** digunakan untuk mendeteksi **outlier berdasarkan kepadatan lokal**.
- **n_neighbors=2** menentukan jumlah **tetangga yang dibandingkan**.
- **Label hasil**:
  - **1** â†’ **Normal**
  - **-1** â†’ **Outlier**
- **Dalam dataset ini, 1 titik terdeteksi sebagai outlier**.

---

Sekarang kode sudah dijelaskan **langkah demi langkah dengan detail**.  
Kalau masih ada yang kurang jelas, tanya aja ya, Babe! ðŸ˜Š

In [4]:
%pip install pymysql
%pip install psycopg2



1. %pip install pymysql:

- **%pip**: Merupakan magic command di Jupyter Notebook untuk menjalankan perintah pip dari dalam notebook.

- **%install pymysql**: Perintah pip untuk menginstal paket pymysql, yaitu modul Python yang digunakan untuk berinteraksi dengan database MySQL. Paket ini memungkinkan kamu untuk menghubungkan dan melakukan operasi database pada MySQL dari skrip Python kamu.

2. %pip install psycopg2:

- **%pip**: Seperti sebelumnya, ini adalah magic command di Jupyter Notebook untuk menjalankan perintah pip.

- **%install psycopg2**: Perintah pip untuk menginstal paket psycopg2, yaitu driver PostgreSQL untuk bahasa pemrograman Python. Paket ini memungkinkan kamu untuk berinteraksi dengan database PostgreSQL dari skrip Python kamu.

Jadi, kedua perintah tersebut digunakan untuk menginstal pustaka yang diperlukan agar Python dapat berkomunikasi dengan database MySQL dan PostgreSQL. Setelah diinstal, kamu dapat menggunakan pustaka ini untuk membuat koneksi, menjalankan query, dan melakukan operasi lain pada database tersebut.

In [5]:
import psycopg2
import pymysql
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from scipy.spatial.distance import euclidean

def get_pg_data():
    conn = psycopg2.connect(
        host="pg-319a464f-auraibraliraiza09.g.aivencloud.com",
        user="avnadmin",
        password="AVNS_EVJaXCw9MKrhLxoQcKj",
        database="defaultdb",
        port=13533
    )
    cursor = conn.cursor()
    cursor.execute("SELECT * FROM lira.postgree")
    data = cursor.fetchall()
    columns = [desc[0] for desc in cursor.description]  # Ambil nama kolom
    cursor.close()
    conn.close()

    return pd.DataFrame(data, columns=columns)

def get_mysql_data():
    conn = pymysql.connect(
        host="mysql-19018c16-auraibraliraiza09.g.aivencloud.com",
        user="avnadmin",
        password="AVNS_rsy2_HLnOlER6ZAwLDN",
        database="defaultdb",
        port=13533
    )
    cursor = conn.cursor()
    cursor.execute("SELECT * FROM flowers")
    data = cursor.fetchall()
    columns = [desc[0] for desc in cursor.description]  # Ambil nama kolom
    cursor.close()
    conn.close()

    return pd.DataFrame(data, columns=columns)

# Ambil data dari kedua database
df_postgresql = get_pg_data()
df_mysql = get_mysql_data()

# Gabungkan berdasarkan kolom 'id' dan 'Class'
df_merged = pd.merge(df_mysql, df_postgresql, on=["id", "class"], how="inner")

# Ambil data fitur numerik
feature_columns = ["petal length", "petal width", "sepal length", "sepal width"]
data_values = df_merged[feature_columns].values

Kode diatas hanya untuk menggabungkan data dari 2 database saja

In [7]:
import pandas as pd
from sklearn.neighbors import LocalOutlierFactor

# Gabungkan berdasarkan kolom 'id' dan 'class'
df_merge = pd.merge(df_mysql, df_postgresql, on=["id", "class"], how="inner")

# Ambil data fitur numerik tanpa kolom 'class'
feature_columns = ["petal length", "petal width", "sepal length", "sepal width"]
data_values = df_merge[feature_columns].values

# Inisialisasi model LOF
clf = LocalOutlierFactor(n_neighbors=90)
label = clf.fit_predict(data_values)

# Tambahkan hasil label ke dataframe
df_merge["outlier_label"] = label

# Cetak hasil dengan ID dan class
print(df_merge.to_string(index=False))

num_outliers = (label == -1).sum()
print(f"\nJumlah outlier: {num_outliers}")

outliers = df_merge[df_merge["outlier_label"] == -1]
print("\nData Outlier:")
print(outliers.to_string(index=False))

 id           class  petal length  petal width  sepal length  sepal width  outlier_label
  1     Iris-setosa           1.4          0.2           5.1          3.5              1
  2     Iris-setosa          14.0          2.0          40.9         30.0             -1
  3     Iris-setosa           1.3          0.2           4.7          3.2              1
  4     Iris-setosa           1.5          0.2           4.6          3.1              1
  5     Iris-setosa           1.4          0.2           5.0          3.6              1
  6     Iris-setosa           1.7          0.4           5.4          3.9              1
  7     Iris-setosa           1.4          0.3           4.6          3.4              1
  8     Iris-setosa           1.5          0.2           5.0          3.4              1
  9     Iris-setosa           1.4          0.2           4.4          2.9              1
 10     Iris-setosa           1.5          0.1           4.9          3.1              1
 11     Iris-setosa  



## **Penjelasan Singkat**
Kode ini melakukan **deteksi outlier** menggunakan **Local Outlier Factor (LOF)** pada data gabungan dari **dua database berbeda** (MySQL dan PostgreSQL).  
Langkah-langkah utama yang dilakukan:
1. **Menggabungkan Data** berdasarkan kolom **"id"** dan **"class"**.
2. **Mengambil fitur numerik** untuk analisis outlier.
3. **Menggunakan LOF** dengan `n_neighbors=90` untuk mendeteksi outlier.
4. **Menampilkan hasil prediksi** dan **jumlah outlier**.

---

## **Langkah-Langkah Kode**

### **1. Impor Library yang Dibutuhkan**
```python
import pandas as pd
from sklearn.neighbors import LocalOutlierFactor
```
- **Pandas**: Digunakan untuk **mengolah dan menggabungkan dataset**.
- **LocalOutlierFactor**: Model dari **Scikit-Learn** yang digunakan untuk **deteksi outlier** berdasarkan kepadatan lokal.

---

### **2. Menggabungkan Data dari MySQL dan PostgreSQL**
```python
df_merge = pd.merge(df_mysql, df_postgresql, on=["id", "class"], how="inner")
```
- `pd.merge(df_mysql, df_postgresql, on=["id", "class"], how="inner")`  
  - **Menggabungkan dataset** dari **MySQL** (`df_mysql`) dan **PostgreSQL** (`df_postgresql`).
  - Penggabungan dilakukan berdasarkan **kolom "id" dan "class"**.
  - **`how="inner"`** berarti hanya data yang memiliki pasangan di kedua tabel yang akan disertakan.

---

### **3. Mengambil Fitur Numerik**
```python
feature_columns = ["petal length", "petal width", "sepal length", "sepal width"]
data_values = df_merge[feature_columns].values
```
- **Hanya mengambil fitur numerik** dari dataset yang sudah digabungkan.
- **Menggunakan empat fitur**:
  - `petal length`
  - `petal width`
  - `sepal length`
  - `sepal width`
- `.values` mengonversi DataFrame menjadi **array NumPy**, sehingga bisa diproses oleh **Scikit-Learn**.

---

### **4. Inisialisasi dan Menjalankan LOF**
```python
clf = LocalOutlierFactor(n_neighbors=90)
label = clf.fit_predict(data_values)
```
- **Membuat model LOF** dengan parameter:
  - `n_neighbors=90`: Menggunakan **90 tetangga terdekat** untuk membandingkan kepadatan.
- **Melatih model LOF** pada `data_values` dan menghasilkan **label outlier**:
  - **1** â†’ Titik dianggap **normal**.
  - **-1** â†’ Titik dianggap **outlier**.

---

### **5. Menambahkan Hasil LOF ke DataFrame**
```python
df_merge["outlier_label"] = label
```
- Menyimpan **hasil LOF** sebagai **kolom baru** (`outlier_label`) dalam **df_merge**.

---

### **6. Menampilkan Hasil Akhir**
```python
print(df_merge.to_string(index=False))
```
- **Mencetak seluruh DataFrame** tanpa indeks, sehingga lebih mudah dibaca.
- **Setiap baris akan memiliki label outlier** (`1` untuk normal, `-1` untuk outlier).

---

### **7. Menampilkan Jumlah Outlier**
```python
num_outliers = (label == -1).sum()
print(f"\nJumlah outlier: {num_outliers}")
```
- **Menghitung jumlah outlier** dengan menjumlahkan semua **-1** dalam `label`.
- **Output contoh**:
  ```
  Jumlah outlier: 5
  ```
  **Artinya:** Ada **5 titik** dalam dataset yang terdeteksi sebagai **outlier**.

---

### **8. Menampilkan Data Outlier**
```python
outliers = df_merge[df_merge["outlier_label"] == -1]
print("\nData Outlier:")
print(outliers.to_string(index=False))
```
- **Memfilter data** yang memiliki `outlier_label == -1`.
- **Output hanya akan menampilkan data outlier**.

Contoh output:
```
Data Outlier:
 id class  petal length  petal width  sepal length  sepal width  outlier_label
1003 Iris-setosa        1.2          0.3          5.5          3.0            -1
1025 Iris-versicolor    6.5          3.1          7.0          4.5            -1
```
- Dua titik di atas terdeteksi sebagai **outlier** karena memiliki kepadatan lokal yang jauh lebih rendah dibandingkan titik-titik lainnya.

---

## **Bagaimana LOF Menentukan Outlier?**
**Local Outlier Factor (LOF)** bekerja dalam beberapa langkah:

1. **Menghitung Jarak Euclidean** antara setiap titik dengan **90 tetangga terdekat**.
2. **Menghitung Local Reachability Density (LRD)**:
   - LRD menunjukkan **seberapa padat area di sekitar titik**.
3. **Membandingkan LRD Titik dengan Tetangganya**:
   - Jika LRD **jauh lebih rendah** dibandingkan tetangganya â†’ **Titik dianggap outlier**.
4. **Menghasilkan LOF Score**:
   - **LOF â‰ˆ 1** â†’ Titik **normal**.
   - **LOF > 1.5 atau 2** â†’ Titik **outlier**.
   
## **Kesimpulan**
1. **Data dari MySQL dan PostgreSQL digabungkan** berdasarkan **"id" dan "class"**.
2. **Fitur numerik** dipilih untuk dianalisis menggunakan **LOF**.
3. **LOF dijalankan dengan 90 tetangga terdekat** untuk mendeteksi outlier.
4. **Label hasil**:
   - **1** â†’ Titik normal.
   - **-1** â†’ Titik outlier.
5. **Jumlah dan detail outlier ditampilkan** untuk analisis lebih lanjut.