# Anomaly Detection

## 1. 이상치란? 이상치에 관심을 두는 이유

&nbsp;&nbsp; - 이상치는 데이터 세트에서 다른 데이터 포인트들과 현저히 다르게 나타나 극단적인 위치에 있는 값을 의미합니다.

&nbsp;&nbsp; - 데이터 입력 오류, 자연적인 변동, 실험적 오류, 희귀 사건 등으로 발생할 수 있습니다.

&nbsp;&nbsp; - 데이터 분석에 큰 영향을 미치기에 전반적인 데이터의 품질 개선 혹은 모델 성능 향상을 위해서 이상치를 탐지하고 적절히 처리하는 과정이 필요할 수 있습니다.

## 2. 이상치 탐지 방법

### 1)시각화 기반

&nbsp;&nbsp; -Box Plot이나 Scatter Plot을 활용한 방법입니다.

### 2)통계 기반

&nbsp;&nbsp; **(1)Z-Score**

&nbsp;&nbsp;&nbsp; - 각 데이터 포인트가 평균에서 얼마나 떨어져 있는지를 표준편차로 나타내서 이상치를 탐지하는 방법입니다.

&nbsp;&nbsp;&nbsp; - Z-Score는 다음과 같이 정의됩니다:

$$ z = \frac{(X - \mu)}{\sigma} $$

&nbsp;&nbsp;&nbsp;&nbsp; - X는 개별 데이터 포인트입니다.

&nbsp;&nbsp;&nbsp;&nbsp; - μ는 데이터의 평균입니다.

&nbsp;&nbsp;&nbsp;&nbsp; - σ는 데이터의 표준편차입니다.

&nbsp;&nbsp;&nbsp; - Z-점수의 해석

&nbsp;&nbsp;&nbsp;&nbsp; - **Z-Score가 0**이면 해당 데이터 포인트는 평균과 같습니다.

&nbsp;&nbsp;&nbsp;&nbsp; - **Z-Score가 양수**이면 해당 데이터 포인트는 평균보다 큰 값입니다.

&nbsp;&nbsp;&nbsp;&nbsp; - **Z-Score가 음수**이면 해당 데이터 포인트는 평균보다 작은 값입니다.

&nbsp;&nbsp;&nbsp;&nbsp; - **Z-Score의 절대값이 크면 클수록** 해당 데이터 포인트는 평균에서 멀리 떨어져 있는 이상치일 가능성이 높습니다. 일반적으로 Z-점수가 3 이상이거나 -3 이하인 데이터 포인트는 이상치로 간주됩니다.

&nbsp;&nbsp; (2)IQR(Interquartile Range, 사분위 범위)

&nbsp;&nbsp;&nbsp; - 데이터의 분포를 기반으로 이상치를 탐지하는 방식으로, IQR은 데이터의 중앙(50%)를 의미합니다.

&nbsp;&nbsp;&nbsp; - IQR은 'Q3 - Q1'으로 정의하는데, 여기서 Q1(제1사분위수)는 데이터의 하위 25%, Q2는 상위 25%를 의미합니다.

&nbsp;&nbsp;&nbsp; - 일반적으로 데이터의 정상범위 하한을 'Q1 - 1.5 * IQR'로, 상한을 'Q3+1.5 * IQR'로 두고, 이 범위를 벗어나면 이상치로 간주합니다.


### 3)머신러닝 기반

&nbsp;&nbsp; (1)Isolation Forest

![](https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FqutnS%2Fbtsf6GTXfSk%2FGznUobqZWrTmBvk5eSMVu1%2Fimg.png)

&nbsp;&nbsp;&nbsp; - 이상치는 이상치가 아닌 데이터에 비해 이진 탐색 나무(Binary Tree)로 고립이 더욱 쉬게 될 것이라는 아이디어에 착안하여 개발된 알고리즘입니다.

&nbsp;&nbsp;&nbsp; - 랜덤으로 피처를 선택하고, 그 피처가 가질 수 있는 최대값과 최소값 사이의 랜덤 값으로 분리를 진행합니다.

&nbsp;&nbsp;&nbsp; - 보통 '(a)사전에 설정한 최대 깊이에 도달한 경우', '(b)자식 노드에 데이터가 하나만 포함되는 경우', '(c)분리 했을 때 자식 노드에 데이터 값이 모두 같은 경우' 세 가지 조건 중 하나를 충족할 때까지 가지치기를 진행합니다.

&nbsp;&nbsp; (2)One-Class SVM : 데이터 대부분을 포함하는 초평면을 통해 데이터의 경계를 설정하고, 경계 바깥의 데이터 포인트를 이상치로 간주합니다.

&nbsp;&nbsp; (3)KNN : 각 데이터 포인트에 대해 K개의 가장 가까운 이웃까지의 평균 거리를 계산한 뒤, 거리가 큰 데이터 포인트를 이상치로 간주합니다.

&nbsp;&nbsp; (4)클러스터링 활용 : K-Means, DBScan 등을 활용해 클러스터의 중심에서 멀리 떨어진 데이터 포인트를 이상치로 간주합니다.

### 4)밀도기반

&nbsp;&nbsp; (1)LOF(Local Outlier Factor)

&nbsp;&nbsp;&nbsp; - 데이터 포인트의 지역 밀도를 측정하여 이상치를 탐지하는 방법으로, 상대적으로 밀도가 낮은 위치의 데이터 포인트를 이상치로 간주합니다.

&nbsp;&nbsp;&nbsp; - 각 데이터 포인트의 로컬 밀도는 해당 포인트와 K-최근접 이웃 간의 거리의 역수로 구합니다. 그 후 각 데이터 포인트의 로컬 밀도를 주변 포인트의 로컬 밀도와 비교하여 계산합니다.

&nbsp;&nbsp;&nbsp; - LOF 점수가 높을수록 해당 포인트가 이상치일 가능성이 커집니다.

&nbsp;&nbsp; (2)Gaussian Density Estimation : 데이터 포인트의 밀도를 추정하기 위해 가우시안 분포를 사용하는 방법입니다. 이 방법은 각 데이터 포인트 주변의 밀도를 가우시안 커널로 모델링합니다. 밀도가 낮은 데이터 포인트는 이상치로 간주될 수 있습니다.

&nbsp;&nbsp; (3)Mixture of Gaussian Density Estimation : 여러 개의 가우시안 분포를 결합하여 데이터의 밀도 분포를 모델링하는 방법입니다. 각 가우시안 분포는 데이터의 클러스터를 나타내며, 전체 데이터는 여러 개의 가우시안 분포의 혼합으로 표현됩니다.

&nbsp;&nbsp; (4)Kernel Density Estimation : 데이터의 밀도 분포를 추정하기 위해 커널 함수를 사용하는 비모수적 방법입니다. KDE는 각 데이터 포인트에 대해 커널 함수를 적용하고, 이들을 합산하여 밀도 함수를 추정합니다.

&nbsp;&nbsp; (5)Parzen Window Density Estimation : KDE의 일종으로, 데이터 포인트 주변에 "윈도우"를 설정하고 그 윈도우 내의 밀도를 계산합니다. 윈도우의 형태와 크기에 따라 데이터 밀도를 추정합니다.

## 3. 참고자료

&nbsp;&nbsp; https://modulabs.co.kr/blog/outlier-detection/

&nbsp;&nbsp; https://velog.io/@euisuk-chung/%EB%A8%B8%EC%8B%A0%EB%9F%AC%EB%8B%9D%EC%B0%A8%EC%9B%90%EC%B6%95%EC%86%8C-%EC%9D%B4%EC%83%81%EC%B9%98-%ED%83%90%EC%A7%80-%EA%B8%B0%EB%B2%95-%EB%B0%80%EB%8F%84%EA%B8%B0%EB%B0%98-%EC%9D%B4%EC%83%81%EC%B9%98-%ED%83%90%EC%A7%80

&nbsp;&nbsp; https://zephyrus1111.tistory.com/474

## 4. 코드실습

&nbsp;&nbsp; 참고 : https://www.kaggle.com/code/gauravduttakiit/local-outlier-factor

In [2]:
import pandas as pd
data = pd.read_csv('/content/nyc_taxi.csv')
data['timestamp'] = pd.to_datetime(data['timestamp'])

data.head()

Unnamed: 0,timestamp,value
0,2014-07-01 00:00:00,10844
1,2014-07-01 00:30:00,8127
2,2014-07-01 01:00:00,6210
3,2014-07-01 01:30:00,4656
4,2014-07-01 02:00:00,3820


In [3]:
# create moving-averages
data['MA60'] = data['value'].rolling(60).mean()
data['MA365'] = data['value'].rolling(365).mean()
data.tail()

Unnamed: 0,timestamp,value,MA60,MA365
10315,2015-01-31 21:30:00,24670,19638.816667,13308.419178
10316,2015-01-31 22:00:00,25721,19807.8,13361.350685
10317,2015-01-31 22:30:00,27309,20017.633333,13415.520548
10318,2015-01-31 23:00:00,26591,20168.0,13460.742466
10319,2015-01-31 23:30:00,26288,20255.916667,13501.473973


In [3]:
# plot
import plotly.express as px
fig = px.line(data, x="timestamp", y=['value', 'MA60', 'MA365'], title='NYC Taxi Trips', template = 'plotly_dark')
fig.show()

  v = v.dt.to_pydatetime()


In [4]:
# drop moving-average columns
data.drop(['MA60', 'MA365'], axis=1, inplace=True)
data.head()

Unnamed: 0,timestamp,value
0,2014-07-01 00:00:00,10844
1,2014-07-01 00:30:00,8127
2,2014-07-01 01:00:00,6210
3,2014-07-01 01:30:00,4656
4,2014-07-01 02:00:00,3820


In [5]:
# set timestamp to index
data.set_index('timestamp', drop=True, inplace=True)
data.head()

Unnamed: 0_level_0,value
timestamp,Unnamed: 1_level_1
2014-07-01 00:00:00,10844
2014-07-01 00:30:00,8127
2014-07-01 01:00:00,6210
2014-07-01 01:30:00,4656
2014-07-01 02:00:00,3820


In [6]:
# resample timeseries to hourly
data = data.resample('H').sum()
data.head()

Unnamed: 0_level_0,value
timestamp,Unnamed: 1_level_1
2014-07-01 00:00:00,18971
2014-07-01 01:00:00,10866
2014-07-01 02:00:00,6693
2014-07-01 03:00:00,4433
2014-07-01 04:00:00,4379


In [7]:
# creature features from date
data['day'] = [i.day for i in data.index]
data['day_name'] = [i.day_name() for i in data.index]
data['day_of_year'] = [i.dayofyear for i in data.index]
data['week_of_year'] = [i.weekofyear for i in data.index]
data['hour'] = [i.hour for i in data.index]
data['is_weekday'] = [i.isoweekday() for i in data.index]
data.head()

Unnamed: 0_level_0,value,day,day_name,day_of_year,week_of_year,hour,is_weekday
timestamp,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
2014-07-01 00:00:00,18971,1,Tuesday,182,27,0,2
2014-07-01 01:00:00,10866,1,Tuesday,182,27,1,2
2014-07-01 02:00:00,6693,1,Tuesday,182,27,2,2
2014-07-01 03:00:00,4433,1,Tuesday,182,27,3,2
2014-07-01 04:00:00,4379,1,Tuesday,182,27,4,2


## pycaret 라이브러리
### - setup()과 models(), create_model(), plot_model() 세트로 사용함. 중요!

In [8]:
# 데이터프레임을 기반으로 PyCaret의 이상치 탐지 환경을 설정합니다.
# 설정 과정에서 day_name 열을 순서형 변수로 처리하고, is_weekday 열을 수치형 변수로 처리합니다.
# 세션 ID는 42로 설정되어 동일한 결과를 재현할 수 있도록 합니다.
# PyCaret의 setup 함수는 이러한 설정을 기반으로 데이터 전처리, 피처 엔지니어링, 스케일링 등을 자동으로 수행합니다.
from pycaret.anomaly import *
s = setup(data, session_id = 42,
          ordinal_features = {'day_name' : ['Monday', 'Tuesday', 'Wednesday', 'Thursday',
       'Friday','Sunday','Saturday',]},
          numeric_features=['is_weekday'])

Unnamed: 0,Description,Value
0,Session id,42
1,Original data shape,"(5160, 7)"
2,Transformed data shape,"(5160, 13)"
3,Ordinal features,1
4,Numeric features,1
5,Categorical features,1
6,Preprocess,True
7,Imputation type,simple
8,Numeric imputation,mean
9,Categorical imputation,mode


In [9]:
# check list of available models
# models() : setup() 함수를 쓴 뒤 어떤 모델을 사ㅏ용할 수 있는지 리스트를 보여주는 함수
models()

Unnamed: 0_level_0,Name,Reference
ID,Unnamed: 1_level_1,Unnamed: 2_level_1
abod,Angle-base Outlier Detection,pyod.models.abod.ABOD
cluster,Clustering-Based Local Outlier,pycaret.internal.patches.pyod.CBLOFForceToDouble
cof,Connectivity-Based Local Outlier,pyod.models.cof.COF
iforest,Isolation Forest,pyod.models.iforest.IForest
histogram,Histogram-based Outlier Detection,pyod.models.hbos.HBOS
knn,K-Nearest Neighbors Detector,pyod.models.knn.KNN
lof,Local Outlier Factor,pyod.models.lof.LOF
svm,One-class SVM detector,pyod.models.ocsvm.OCSVM
pca,Principal Component Analysis,pyod.models.pca.PCA
mcd,Minimum Covariance Determinant,pyod.models.mcd.MCD


In [10]:
# train model
lof = create_model('lof')
lof_results = assign_model(lof)
lof_results.head()

Processing:   0%|          | 0/3 [00:00<?, ?it/s]

Unnamed: 0_level_0,value,day,day_name,day_of_year,week_of_year,hour,is_weekday,Anomaly,Anomaly_Score
timestamp,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
2014-07-01 00:00:00,18971,1,Tuesday,182,27,0,2,0,1.070078
2014-07-01 01:00:00,10866,1,Tuesday,182,27,1,2,0,0.984749
2014-07-01 02:00:00,6693,1,Tuesday,182,27,2,2,0,1.011035
2014-07-01 03:00:00,4433,1,Tuesday,182,27,3,2,0,1.033525
2014-07-01 04:00:00,4379,1,Tuesday,182,27,4,2,0,1.039746


In [11]:
# check anomalies
lof_results[lof_results['Anomaly'] == 1].head()

Unnamed: 0_level_0,value,day,day_name,day_of_year,week_of_year,hour,is_weekday,Anomaly,Anomaly_Score
timestamp,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
2014-09-06 23:00:00,58837,6,Saturday,249,36,23,6,1,3.36278
2014-10-18 23:00:00,56507,18,Saturday,291,42,23,6,1,1.719059
2014-11-02 01:00:00,74409,2,Sunday,306,44,1,7,1,17.388441
2014-11-22 23:00:00,56598,22,Saturday,326,47,23,6,1,1.783031
2015-01-01 01:00:00,58584,1,Thursday,1,1,1,4,1,3.146948


In [15]:
import plotly.graph_objects as go
# plot value on y-axis and date on x-axis
fig = px.line(lof_results, x=lof_results.index, y="value", title='NYC TAXI TRIPS - UNSUPERVISED ANOMALY DETECTION', template = 'plotly_dark')
# create list of outlier_dates
outlier_dates = lof_results[lof_results['Anomaly'] == 1].index
# obtain y value of anomalies to plot
y_values = [lof_results.loc[i]['value'] for i in outlier_dates]
fig.add_trace(go.Scatter(x=outlier_dates, y=y_values, mode = 'markers',
                name = 'Anomaly',
                marker=dict(color='red',size=5)))

fig.show()

In [16]:
plot_model(lof)

In [34]:
!pip uninstall umap-learn

!pip install umap-learn

Found existing installation: umap-learn 0.5.6
Uninstalling umap-learn-0.5.6:
  Would remove:
    /usr/local/lib/python3.10/dist-packages/umap/*
    /usr/local/lib/python3.10/dist-packages/umap_learn-0.5.6.dist-info/*
  Would not remove (might be manually added):
    /usr/local/lib/python3.10/dist-packages/umap/__pycache__/layouts.rdist-30.py310.1.nbc
    /usr/local/lib/python3.10/dist-packages/umap/__pycache__/layouts.rdist-30.py310.nbi
Proceed (Y/n)? y
  Successfully uninstalled umap-learn-0.5.6
Collecting umap-learn
  Using cached umap_learn-0.5.6-py3-none-any.whl.metadata (21 kB)
Using cached umap_learn-0.5.6-py3-none-any.whl (85 kB)
Installing collected packages: umap-learn
Successfully installed umap-learn-0.5.6


In [12]:
import umap

plot_model(lof, plot = 'umap')