## 1.2 The Data Model is Everything
---

- 모든 이상탐지 알고리즘은 데이터의 정상 패턴 모델을 생성한 다음, 정상 데이터의 패턴의 편차를 기반으로 데이터의 이상치 점수를 계산한다.
    - 예를 들어, 가우시안 혼합 모형, 회귀 기반 모형, 근접(proximity) 기반의 모형일 수 있다.
    - 이들은 "정상"의 동작에 대해 서로 다른 가정을 한다.
    - 이 후, 데이터와 모형과의 적합한 품질을 평가해 이상치 점수를 계산한다.
    - 대부분의 경우 모형은 알고리즘적으로 정의할 수 잇다.
        - 근접 이웃기반의 알고리즘인 K-NN은 K개의 가장 가까운 이웃의 거리의 분포 측면에서 데이터의 이상치 경향을 모델링한다.
        - 이는 이상치는 대부분의 데이터와 먼 거리에 위치한다고 가정하는 것이다.
    
    
- 데이터 모델의 선택은 중요하다.
    - 예시
        - GMM과 같은 생성모형을 선택한 경우
            - 데이터가 generative assumtion과 맞지 않거나, GMM을 학습하기 위한 충분하지 않은 데이터인 경우 잘 동작하지 않을 수 있다.
        - 회귀 기반의 생성모형을 선택한 경우
            - 데이터가 임의로 군집화된 경우, 모형의 가정에 적합하지 않아 이상치를 잘못 파악할 수 있다.
    - **이상치 탐지는 특정 데이터에 대해 자동화된 방식으로 가장 좋은 모형을 선택할 수 없는 비지도 기반의 문제이다.**
        - 지도학습에서의 모델 선택과 같은 과정을 할 수 없다는 것을 말한다.
    - 이상치 탐지는 이러한 측면에서 레이블이 있는 분류와 같은 다른 지도학습의 데이터 마이닝 문제보다 어려운 경향이 있다.
    - **현실에서 분석가는 애플리케이션에 맞는 편차 유형의 이해를 바탕으로 이상치 탐지모형을 선택한다.**
        - 위치별 온도를 측정하는 애플리케이션에서, 이상치를 위치별 편차에 따라 정하는 것이 합리적일 것이다.
    - **고차원의 데이터의 경우 데이터의 희소성(sparsity)으로 인해, 데이터의 인접성의 정의가 잘못 될 수 있다.**
        - 따라서, 데이터 모델은 도메인에 따라 신중한 평가로 결정해야 한다.
    
    
- 모형의 영향력을 이해하기 위해 Z 값 검정을 살펴보자.
    - 1차원의 연속형 변수 $X_{1}, ... ,X_{N} \sim N(\mu, \sigma^{2})$ 일 때, Z-값은 아래와 같이 정의된다.
        - $Z_{i} = {{|X_{i}- \mu|}\over{\sigma}}$
    - Z-값 검정은 데이터가 평균으로 부터 떨어져 잇는 표준편차 값을 나타내며, 이상치 점수의 좋은 예시이다.
    - 암시적인 가정은 데이터가 정규분포를 따른 다는 것이며, 따라서 Z값은 평균 0, unit variance를 따른다.
    - 분포의 평균과 표준편차를 정확하게 추정할 수 있는 경우, Z값을 활용할 수 있는 좋은 방안은 $Z \ge 3$을 사용하는 것이다.
        - 분포가 적은 경우, 정규분포가 아닌 t-분포를 사용하며 Z값 검정 결괄르 보다 신중하게 해석한다. 이는 2장에서 추가로 다룬다.


- Z-검정은 데이터의 정규성을 가정한다. 이러한 가정이 깨지는 경우 결과를 해석하기 어려울 수 있다.
    - 예시 1.
        - <img style="float:left; margin-right:100%; margin-bottom:1.5%;margin-top:1.5%;" width="500" src="./img/fig_1-3.png">
        - 위 그림은 $N(10, 2^{2})$인 분포와 1/i인 지프 분포에서 샘플링한 히스토그램이다.
            - 지프분포의 평균과 표준편차는 각각 5.24, 5.56이다.
        - 정규분포의 경우 Z검정이 잘 작동하지만, 지프 분포에서 Z검정은 매우 빈도수가 높은 20이 이상치로 여겨질 수있다.
        - 결론적으로 데이터가 지프분포처럼 있는 경우에는 Z값 검정은 확률론적 해석의 관점에서 큰 의미가 없다.
            - 이렇듯 Z검정은 휴리스틱으로 사용되나, 해석의 관점에서는 신중해야 한다.
    - 예시 2.
        - <img style="float:left; margin-right:100%; margin-bottom:1.5%;margin-top:1.5%;" width="500" src="./img/fig_1-1.png">
        - 위의 왼쪽 그림과 같이 데이터가 분포한 경우에는 점 A는 이상치로 간주되지 않는다.
        - 이런 경우에는 근접이웃 기반의 이상치 모형이 보다 합리적일 수 있다.


- 데이터 모델링에서 가장 중요한 것은 데이터에 기반하며, 데이터 자체에 대한 이해가 중요하다.
    - <img style="float:left; margin-right:100%; margin-bottom:1.5%;margin-top:1.5%;" width="500" src="./img/fig_1-4.png">
    - 위와 같이, 회귀 기반의 모델은 데부분 데이터가 선형 상관 평면을 따라 분포되어 있는 그림에서 이상치를 찾는 것이 적합하다.
    - 반면 1.1 그림은 클러스터링 기반의 모델에서 이상치를 선별하는 것이 적합하다.


- 데이터 모델의 선택에는 많은 trade-off가 있다. 
    - 파라미터가 많은 매우 복잡한 모형의 경우 데이터를 과적합 가능성이 높지만, 이상치가 피팅되는 경우도 있다.
    - 데이터를 직관적으로 잘 이해하고 분석가가 원하는 것을 이해하는 간단한 모델은 더 나은 결과로 이어질 가능성도 높다.
        - 하지만 지나친 단순화 모형은 정상 패턴을 특이치로 간주할 수 있다.




### 1.2.1 Connection with Supervised Models
---

- 이상치 탐지 문제는 정상 비정상이 관찰되지 않는 분류문제의 변형으로 볼 수 있다.
    - 따라서 정상 데이터가 비정상적인 데이터보다 훨씬 많다는 사실 때문에, 전체 데이터가 노이즈가 있는 정상 클래스로 가정하고 모형을 만들 수 있다.
    - 그리고 정상데이터에서의 편차는 이상치 점수로 처리된다. 
        - 많은 이론과 방법들이 분류문제를 이상치 검출모형으로 일반화했기 때문에 이러한 연결성은 중요하다.
    - 이상치에 대해 레이블이나 이상치 점수가 관찰되지 않기 때문에, 비지도학습으로 볼 수 있다.
    - 이상 레이블이 있는 경우에는, 데이터 불균형인 분류문제로 단순화하여 해결하며 이는 7장에서 알아본다.


- 분류나 추천에서와 같이, 이상치 탐지에서도 explicit generalization 방안이 아닌, instance-based learning 방안이 있을 수 있다.
    - 인스턴스 기반 방법에서 훈련 모델은 처음에 구성되지 않는다. 주어진 테스트 인스턴스에 대해 학습 데이터의 가장 관련성이 높은(가장 가까운) 인스턴스를 계산해 테스트 인스턴스에 대한 예측을 한다.
        - 따라서, lazy learner, 추천시스템에서는 memory-based 방안으로 불린다.
    - 이는 단순하고 직관적이기 때문에 이상치 탐지에도 많이 사용한다.
    - KNN과 LOF와 같은 것은 가장 대중적이고 성공적인 방안이며 4장에서 자세히 다룬다.


- 인스턴스 기반의 인기가 좋기 때문에, 종종 지도학습 기반(explicit generalization 방안)의 이상치 분석을 간과할 수 있다.
    - Explicit Generalization 방안은 아래 두 단계로 이루어진다.
        - 정상데이터만을 사용한 One-class 모형을 만든다. 예를 들어, 위 그림 1.4(b)에서 모든 정상데이터에 대한 초평면을 학습해 만든다. 
        - 이 후, 해당 초평면에서 모든 거리를 계산해 거리를 특이치 점수로 확인할 수 있다.
    - Explicit Generalization 방안의 문제점은 학습 데이터와 점수를 계산하는 데이터가 같다는 것이다.
        - 인스턴스 기반 방안과 달리 특정 데이터를 평가 데이터로 점수를 계산하는 것이 어렵기 때문이다.
        - 비지도학습에서는 사용 가능한 라벨이 없기 때문에, 일반적인 분류문제처럼 학습과 평가데이터로 분할하기 어려우며, 학습/평가를 같이 사용하는 경우 과적합이 일어날 수 있다.
    - 하지만, Explicit Generalization 방안은 데이터 셋에 대한 요약(일반화된) 표현을 하기 때문에, 개별 포인트에 대한 영향은 작을 수 있다.
        - 따라서, 모든 클래스는 정상이라는 가정하에 학습데이터의 이상치 점수를 확인한다.
        - 과적합을 줄이기 위한 효과적인 방안은 무작위로 학습과 평가데이터를 반복적으로 분할해 특이치 점수를 평균화 할 수 있다. 자세한 내용은 이후에 나온다.


- 모든 분류 모델은 one-class로 적절히 변형해 이상탐지 모형으로 일반화 할 수 있다.
    - 예를 들어, 선형회귀, PCA, EM 모형, 군집화모형, One-class SVM, MF, One-class Neural Netwokrs 등이 있다.
    - 분류모델과 이상탐지를 위한 one-class analog를 비교하면 아래와 같다.
        - 지도 학습과 비지도 학습 사이의 연결은 매우 깊으며, 7장에서는 회귀와 이상치탐지의 연결성을 설명한다. 이러한 연결성을 이용해, 수백 개의 회귀모형을 이용해 비지도 기반의 이상치 탐지를 하는 방안도 있다.
        - <img style="float:left; margin-right:100%; margin-bottom:1.5%;margin-top:1.5%;" width="500" src="./img/table_1-1.png">
    
