# Anomaly Detection

#### Contents
- Overview
##### Density based Anomaly Detection
- Gaussian Density based Anomaly Detection
- MoG (Mixture of Gaussians)
- Parzen Window Density Estimation
- Local Outlier Factor

##### Model based Anomaly Detection
- Auto-Encoders
- Support Vector based Anomaly Detection
- Isolation Forests

## Overview

<p align="center">
    <img src="anomaly_images/blacksheep.png" width="400"/>
</p>


> Novel data are observations that deviate so much from other observations that they appear to ?have been generated by a different mechanism. - Hawkins, 1980

Anomaly detection, 즉 이상치 탐지는 정상 범주에서 벗어난 데이터를 탐지하는 Unsupervised 머신러닝의 task 중 하나이다. 이때 이상치와 노이즈 데이터는 엄밀히 구분되어야 한다. 이상치는 정상 데이터와 다른 분포를 가지고 있으며, 노이즈는 측정 과정에서의 무작위성에서 기반된다. 데이터셋 속 이상치는 대부분 엄청난 class imbalance 를 가지고 있으며, 이는 이상치 탐지의 어려움을 더욱 높인다.

<p align="center">
    <img src="anomaly_images/classvsanom.png" width="400"/>
</p>


위와 같은 예시를 보면, 분류 문제와 이상치 탐지의 차이점을 쉽게 이해할 수 있다. 분류 문제에서 데이터포인트 A 와 B 는 정상 범주로 분류되며, 이상치 탐지에서는 이상치로 분류된다. 즉, 이상치 탐지는 충분히 일반화 할 수 있는 정상범주를 정의하는 문제이며, 해당 범주를 벗어난 데이터를 이상치로 분류하는 것이다.

<p align="center">
    <img src="anomaly_images/applications.png" width="400"/>
</p>


이상치 탐지는 굉장히 다양한 산업 분야에서 사용되며, 이에 다양한 방법론들 또한 존재한다. 이상치 탐지 방법론들은 크게 밀도 기반 방법론과 모델 기반 방법론으로 분류되며, 먼저 밀도 기반 방법론부터 알아보고자 한다.

## Density based Anomaly Detection

밀도 기반 이상치 탐지는 데이터의 밀도를 이용하여 이상치를 탐지하는 방법론이다. 이상치는 정상 데이터와 다른 분포를 가지고 있으며, 이를 이용하여 이상치를 탐지한다. 이상치 탐지는 정상 데이터의 분포를 정의하는 것이 중요하며, 이를 위해 다양한 방법론들이 존재한다.

In [5]:
import pandas as pd
import numpy as np

import matplotlib
import seaborn
import matplotlib.dates as md
from matplotlib import pyplot as plt

df = pd.read_csv('ambient_temperature_system_failure.csv')

#### Gaussian Density Estimation

In [6]:
df

Unnamed: 0,timestamp,value
0,2013-07-04 00:00:00,69.880835
1,2013-07-04 01:00:00,71.220227
2,2013-07-04 02:00:00,70.877805
3,2013-07-04 03:00:00,68.959400
4,2013-07-04 04:00:00,69.283551
...,...,...
7262,2014-05-28 11:00:00,72.370206
7263,2014-05-28 12:00:00,72.172956
7264,2014-05-28 13:00:00,72.046565
7265,2014-05-28 14:00:00,71.825226
