# Local Outlier Factor (LOF) 

`LOF(Local Outlier Factor)` 알고리즘은 이웃과 관련하여 주어진 데이터 포인트의 로컬 밀도 편차를 계산하는 비지도 학습 이상 탐지 방법입니다. 

- 각 데이터 포인트의 로컬 밀도를 인접 데이터 포인트와 비교하고 밀도가 낮은 데이터 포인트를 비정상 또는 특이값으로 식별합니다.

다음을 학습 합니다.

- 특이치 검출(novelty detection)과 outlier detection의 차이점  
- 특이치 검출(novelty detection)을 위해 LOF(Local Outlier Factor)를 사용하는 방법
- 비정상(anomaly) 또는 이상치(outlier) 탐지를 위해 LOF(Local Outlier Factor)를 사용하는 방법

### 불균형 데이터세트 만들기 
- 서로 다른 mechanism 으로 생성된 두가지 data 를 하나로 섞어서 생성

In [None]:
# 정상 데이터(inlier) 생성
# 평균 0, 표준편차 0.3인 정규분포를 따르는 2000개의 2차원 데이터 생성
# 이상치 데이터(outlier) 생성
# 범위 -4에서 0 사이의 균등분포를 따르는 200개의 2차원 데이터 생성
# inlier와 outlier 데이터를 하나의 배열로 결합
# 이상치(outlier)의 개수
# 정상 데이터는 0, 이상치는 1로 레이블을 부여
# 전체 데이터에서 이상치가 차지하는 비율을 출력

- data 시각화

In [None]:
# Inliers (정상 데이터) 플롯
# X_inliers의 첫 번째 열과 두 번째 열 데이터를 사용하여 산점도를 그립니다.
# Outliers (이상치 데이터) 플롯
# X_outliers의 첫 번째 열과 두 번째 열 데이터를 사용하여 산점도를 그립니다.
# 범례를 추가하여 각 데이터의 레이블을 표시합니다.

In [None]:
# Train test split

## Outlier/anomaly Detection Vs. Novelty Detection

- LOF(Local Outlier Factor) 알고리즘은 이상치 검출(outlier/anomaly detection) 및 특이치 검출(Novelty Detection)에 모두 사용할 수 있습니다. Outlier / Anomaly Detection 및 Novelty Detection의 차이점은 훈련 데이터 세트에 있습니다.  

    - Outlier/anomaly detection에는 훈련 데이터 세트의 이상치가 포함됩니다. 이 알고리즘은 고밀도 데이터가 있는 영역에 적합하고 outlier 및 anomaly를 무시합니다.

    - Novelty Detection에는 모델을 훈련할 때 normal data point 만 포함됩니다. 그런 다음 모델은 예측을 위해 Outlier/Anomaly가 포함되어 있는 새 데이터 세트를 사용합니다. Novelty Detection의 이상값을 novelty (특이치) 라고도 합니다.
    

- outlier label 이 있는 데이터 세트가 있는 경우 두가지 모두에 사용할 수 있습니다. 그렇지 않으면 정상 데이터만으로 이루어진 훈련 데이터 세트를 얻을 수 없기 때문에 outlier detection 만 사용할 수 있습니다.


- 고려되는 neighbor 수 (파라미터 n_neighbors)를 몇개로 하는지 정해진 것은 없으며 n_neighbors = 20을 사용하면 일반적으로 잘 작동하는 것으로 보입니다.

### 1. Local Outlier Factor (LOF) 를 사용한 특이치 검출 (Novelty Detection)

- Novelty Detection을 사용하려면 LOF 의 novelty 파라미터를 True로 설정해야 합니다. 
```
LocalOutlierFactor(n_neighbors=20, novelty=True)
```
- normal data로만 구성된 train set으로 모델을 fitting 하고 outlier를 포함하는 test dataset을 predict 합니다.

In [None]:
# 훈련 데이터 세트에서 normal (정상) 데이터만 유지
# y_train이 0인 인덱스를 찾아 해당 인덱스의 X_train 데이터를 선택합니다.
# 정상 데이터만으로 Local Outlier Factor (LOF) 모델을 생성 및 학습
# n_neighbors=20: 각 포인트의 이웃을 20개로 설정
# novelty=True: 새 데이터의 이상치 여부를 예측하기 위해 사용
# 정상 데이터만 사용하여 LOF 모델을 학습시킵니다.

In [None]:
# test dataset 에서 novelty 예측

In [None]:
# prediction_novelty 리스트에서 각 요소를 확인하고, -1이면 1로, 그렇지 않으면 0으로 변경합니다.
# -1은 이상치를 나타내고, 0은 정상 데이터를 나타냅니다. 
# 이를 0과 1로 변환하여 이상치 예측 결과를 보다 직관적으로 해석할 수 있도록 합니다.
# prediction_novelty 리스트의 처음 10개 요소를 출력합니다.

In [None]:
# model 성능 측정

### 2. LOF(Local Outlier Factor)를 사용한 이상치 감지 (outlier detection) 
- 위와 동일한 데이터 세트에서 outlier detection을 훈련하고 예측하기 위한 LOF(Local Outlier Factor).   
- normal 과 outlier 가 섞여 있는 dataset 으로 fit_predict 해야 합니다.
- Outlier Detection algorithm을 활성화하려면 novelty=`False`로 설정해야 합니다. 
```
LocalOutlierFactor(n_neighbors=5, novelty=False)  
```
- X_test 로 측정한 모델간 비교를 위해 X_test 사용

In [None]:
# 이상치 감지를 위한 LOF(Local Outlier Factor) 모델 생성
# n_neighbors=20: 각 포인트의 이웃을 20개로 설정
# novelty=False: 기존 데이터에서 이상치를 감지하기 위해 사용
# 정상 데이터와 이상치 데이터가 섞인 테스트 데이터를 사용하여 예측
# fit_predict 메서드는 모델을 학습시키고 이상치 여부를 예측합니다.
# -1은 이상치(outlier)를, 1은 정상 데이터(inlier)를 나타냅니다.
# 예측 결과의 처음 100개 요소를 출력합니다.

In [None]:
# -1 을 0으로, 1을 0으로 변경
# model 성능 측정

- 시각화를 통한 특이치 검축 / 이상치 검출 결과 비교

In [None]:
# 시각화를 위해 X_test, y_test를 DataFrame으로 변환

In [None]:
# 원본 데이터 (정상 + 이상치)
# 산점도 그리기 (정상 데이터는 0, 이상치는 1)
# LOF 특이치 검출 결과
# 산점도 그리기 (예측된 특이치)
# LOF 이상치 검출 결과
# 산점도 그리기 (예측된 이상치)
# 범례 항목 생성
# 각 축에 범례 추가

- Novelty Detection model 에서는 minoriy observation 들을 특이치로 분류  
- Anomaly Detection model 에서는 저밀도 영역을 정상으로 분류하고 밀도가 다른 영역을 이상치로 분류