## Chapter 1. An Introduction to Outlier Analysis

## 1.1 Introduction
---
- Hawkins의 outlier
    - **“An outlier is an observation which deviates so much from the other observations as to arouse suspicions that it was generated by a different mechanism.”**
    - 이상치: 다른 관측치와 너무 많이 떨어져 다른 메커니즘에 생성되었다는 의심을 불러일으키는 관측치
    
    
- **abnormalities, discordants, deviants, or anomalies** 로도 부른다.


- 시스템의 활동과 엔티티를 수집하는 관측들을 반영하는 대부분의 현실 데이터는 하나 이상의 생성 프로세스에 의해 생성된다.
- **생성과정이 일반적으로 다르게 생성된다면, 이상치로부터 생성되었다고 볼 수 있다.**
- 따라서, 이상치는 생성과정에 영향을 미치는 시스템과 엔티티의 비정상적인 특성에 대한 유용한 정보를 포함하며, 애플리케이션별 통찰력을 제공한다.


- 예시:
    - 해킹 탐지
    - 신용카드 사기
    - 센서 이벤트
    - 의료진단: MRI, PET, ECG 등의 비정상적 패턴은 일반적으로 질병을 반영
    - 금융거래/보험사기: 범죄 주체의 행동에 의해 생성된 데이터의 비정상적 패턴
    - 지구과학: 날씨 패턴, 기후변화, 등
    

- 위 예시에서, 데이터들은 정상인 모형(normal model)이 있고 이상치는 이러한 정상 모형에서 벗어난 것으로 인식되는 것이다.
    - 정상인 데이터를 inliers라고 부르기도한다.
    - 해킹이나 사기 탐지와 같은 경우에는, 이상치는 시퀀스일 수 있다.
        - 이러한 이상치는 시퀀스에서 집단적으로만 추론할 수 있기 때문에, collective anomaly라 한다.
        - collective anomaly는 비정상적(anomalous) 활동 패턴을 생성하는 비정상(unusual)적인 사건의 결과이다.


- 이 책에서는 다양한 유형의 이상치를 다룰 것이며, 이상치 알고리즘의 출력은 아래 2 가지 유형 중 하나일 수 있다.
    - **Outlier scores**: 
        - 이상치 수준을 정량화하는 점수를 출력.
    - **Binary labels**:
        - 이진 레이블을 직접 반환. 이상치 점수에 임계값을 부여해 반환.


- 어떤 데이터가 이상치로 판단하기에 얼마나 떨어져야하는가를 판단하는 것은 주관적인 판단일 수 있다.
    - 실제 애플리케이션에서 데이터는 상당한 노이즈가 포함될 수 있으며, 분석가는 관심이 없을 수 있다.
        - 일반적으로 관심을 갖는 것은 흥미로운 편차이다.
    - 이를 설명하기 위한 아래 그림을 확인해보자.
        - <img style="float:left; margin-right:100%; margin-bottom:1.5%;margin-top:1.5%;" width="600" src="./img/fig_1-1.png">
        - a에서의 A점은 주 군집과 유의한 차이가 있으며 명백한 이상치이다.
        - b에서는 보다 주관적일 수 있다. 랜덤하게 분포된 잡음을 나타낼 가능성이 높아보인다.
    - <U>이 책에서 **outlier**는 노이즈 또는 비정상으로 간주 될 수 있는 데이터를 의미하며(b), **anomly**는 분석가에게 흥미로운 특별한 종류의 이상치를 의미한다.</U>
    

- **noise는 정상 데이터와 anomaly의 의미론적 경계(semantic boundary)를 나타낸다.**
    - noise는 약한 형태의 outlier로 충분히 특이하지(anomalous) 않거나 관심을 끌지 않는 것이다.
    - 예를 들어, 군집의 경계에 있는 데이터들은 노이즈로 볼 수 있다.
        - 많은 이상치 탐지 알고리즘은 **영역의 밀도나, 근접 이웃간의 거리, 데이터 분포를 이용해, 데이터의 outlierness를 측정한다.**
    - <img style="float:left; margin-right:100%; margin-bottom:1.5%;margin-top:1.5%;" width="500" src="./img/fig_1-2.png">
    - 모든 데이터는 위 그림과 같이 정상데이터에서 noise, anomaly까지 연속된 스펙트럼에 놓여있다.
        - 위와 같은 스펙트럼은 서로 다른 영역의 분리는 정확하게 정의 되기 어려우며, 애플리케이션별 기준에 따라 임의로 선택된다.
        - noise와 anomaly의 분리는 pure하지 않으며, **노이즈가 많은 생성 프로세스에 의해 생성된 데이터포인트는 이상치 점수(Outlier Score)에 기초해 이상치로 해석할 수 있을 정도로 충분한 편차가 있을 수 있다.**
        - <U>**따라서, 이상치는 일반적으로 노이즈보다 훨씬 높은 이상치 점수(Outlier Score)를 갖지만, 이는 정의의 문제로서 둘 사이의 구별 요소가 아니다. 오히려 noise와 anomaly를 구별하는 정하는 것이 분석가로서 더 좋다.**</U>
    - 어떤 저자는 noise와 anomly를 구분하기 위해 weak outliers, strong outliers로 부르기도 한다.


- 데이터에서 노이즈를 감지하는 것은 많은 응용프그램에서 사용된다.
    - 노이즈를 제거하면, 더 깨끗한 데이터가 생성되어 훨씬 깨끗한 데이터가 생성되어 데이터 마이닝 알고리즘을 사용할 수 있다.
    - 노이즈 자체는 흥미롭지 않지만, 노이즈의 제거와 식별은 데이터 마이닝에서 굉장히 중요한 문제이다.
        - 따라서, 이 책은 노이즈와 이상치를 탐지하는 것은 이 책에서 굉장히 중요하게 다룬다.
    - 책에 전반에 걸쳐, 이상치 감지와 노이즈를 제거와 관련된 방법을 알아볼 것이다.
        - 이상치와 노이즈는 의미적인 경계에 있기 때문에 두 문제에 모두 적용할 수 있다.
        

- 소음과 이상치의 의미론적 구분은 분석가이 관심을 기반으로 하기 때문에, 이상치를 발견하고 이를 소음과 구별하는 가장 좋은 방안은 이전에 알려진 관심 이상치 사례를 사용하는 것이다.
    - 이러한 방법은 신용카드 사기 탐지와 같은 애플리케이션에서 자주 사용한다.
    - 이를 통해 정상 패턴과 비정상 데이터를 구분하는 모델 학습에 사용할 수 있다.
    - 지도학습기반의 이상치 탐지 알고리즘은 일반적으로 효과적이다.
        - 이전 데이터의 특성을 사용해 보다 관련성이 높은 이상치의 검색을 정밀하게 하기 때문이다.
    - Outlier는 데이터에서 여러가지 방안으로 정의할 수 있으며, 대부분은 흥미롭지 않기 때문에 중요하다.
        - 예를 들어, 그림 1.1(a)와 (b)에서 크게 기록된 것만이 이상치로 처리한다고 정의해보자.
        - **이 경우 A는 모두 노이즈며, (b)의 B점만이 이상치이다.**
    - **여기서 중요한 점은, 이상치가 흥미로운 방식으로 비정상적이여야 한다는 것이며, 지도학습은 흥미롭다고 생각할 수 있는 것을 다시 정의하는 방안인 것이다.**
        - 일반적으로 비지도학습 방안은 노이즈제거나 이상탐지에 사용하며, 지도학습은 이상탐지에 특화되었다.
        - 비지도학습 방안은 종종 EDA과정에서 사용해, 애플리케이션을 추가로 검사하기 위해 사용할 수 있다.


- supervision을 사용할 때 몇 가지 경우로 나누어 생각해볼 수 있다.
    - 완전한 지도학습에서는, 완전히 정상데이터와 비정상 데이터가 나누어진 경우가 있을 수 있다.
    - 또 다른 경우로 정상데이터에도 이상치가 알 수 없는 비율로 outlier를 포함하는 경우다. 이는 positive와 unlabeled data를 활용한 분류 문제이다.
    - 준지도학습에서는 몇 개의 정상과 비정상 데이터가 사용 가능하다.


- 데이터의 표현은 애플리케이션마다 크게 다를 수 있다.
    - 데이터는 다차원으로 점들과의 관계가 없을 수 잇고, 시간에 따라 순차적이거나, 임의적인 관계를 갖는 네트워크의 형태일 수 있다.
    - 데이터의 feature들은 연속형, 이산형, 혼합형일 수 있다. 
    - 이상치 탐지에서는 해당 데이터에 기반한 데이터의 feature들과 데이터와의 관계에 민감해야한다.
        - 실제로 관계 자체에는 보통 함께 발생하지 않는 엔티티간 연결의 형태로 이상치 탐지 기준을 정할 수 있다.
        - 이러한 이상치를 문맥적 이상치(contextual outliers)라 하며, 보통 소셜 네트워크 분석의 연결 이상치 탐지에 사용한다.


- 1장 구성
    - 1.2: 이상치 분석에서 데이터 모델링의 중오성
    - 1.3: 이상치 탐지를 위한 기본 이상치 모델
    - 1.4: 이상치 앙상블
    - 1.5: 분석에 사용되는 기본 데이터 유형
    - 1.6: 데이터 분석을 위한 지도학습 기반의 이상치 모델
    - 1.7: 이상치 탐지 알고리즘 평가
    - 1.8: 결론





