# Semi-Supervised Anomaly Detection Survey
https://www.kaggle.com/matheusfacure/semi-supervised-anomaly-detection-survey

몇 가지 이상 탐지 기술의 작동 방식, 장점 및 단점이 무엇인지에 대해 살펴보겠습니다.

이상 탐지 문제가 무엇이고 어떤 타입들이 있는지, 어떤 문제에 당면해있는지 등을 살펴보고 여기에 사용된 데이터셋의 특성에 대해 설명할 것입니다.

여기서의 데이터셋은 이상 행위 탐지라는 한 종류의 탐지 업무에만 한정되지만, 우리는 여기에 국한되지 않고 더 일반적인 것처럼 다룰 예정입니다.

우리의 의도는 부정 행위 탐지에 맞춤화되지 않더라도 주요한 이상 탐지 기술 중 일부를 어떻게 구현할 수 있는지에 대해 실질적인 조사를 제공하는 것입니다. 그럼에도 불구하고 우리는 언제 어떤 방법을 선호해야 하는지에 대해 토론할 것이고, 그 과정에서 어떤 방법이 어떤 경우에 다른 방법보다 더 좋은 결과를 낳는지 정당화할 것입니다.

## What is an anomaly
> "이상 징후는 정상 동작에 대해 정의된 개념에 부합하지 않는 데이터 패턴입니다."-(Chandola et al, 2009)

즉, 대부분의 관측치로부터 온 데이터가 아닌 다른 생성 프로세스에서 가져온 데이터라고 생각할 수 있습니다. 예를 들어, 설문 조사에서 얻은 아래 이미지에서 (O_1) 및 (O_2) (O는 이상치입니다.)는 다른 점들과 분리된 것을 볼 수 있습니다. 이것은 두 점이 두 차원에서의 이상 징후라는 매우 강력한 신호입니다.
![outlier](A-simple-example-of-anomalies-in-a-2-dimensional-data-set.png)

또한 (O_3)영역의 점들도 이상 징후입니다. 데이터끼리 인접영역에 속해있어도 정규 데이터가 있는 (N_1) 및 (N_2)로 표시된 분포가 아닌 다른 분포에서 발생하기 때문입니다.

이상 징후는 여러 가지 이유로 발생할 수 있습니다. 일부 예로는 신용카드 사기, 기계 또는 센서의 오작동, 정부 부패, 경제 위기 또는 질병으로 부터 증상 발현 등이 있습니다.

이상 징후에는 세 가지 유형이 있습니다. 첫 번째는 점 이상, 즉 "개별 데이터 인스턴스는 나머지 데이터에 대해 비정상적으로 간주될 수 있습니다"(idem) 위의 이미지에서 인스턴스(o_1)과 (o_2) 및 (O_3)의 모든 인스턴스는 정규 영역 외부에 있으므로 점 이상 징후입니다. 또 다른 예로 사용된 금액에 대한 정보만을 포함한 신용카드 거래 데이터를 생각해본다면 특정 개인에 대한 나머지 거래액과 비교하여 높은 거래액은 이상적입니다.

두 번째 유형의 이상 징후는 상황에 따라 다릅니다. 이 경우 데이터에는 일부 상황별 특성(예: 시간, 공간)과 관련된 기능과 동작 속성과 관련된 일부 기능이 있어야 합니다.
이 문제는 지정된 문맥에서 결정된 것이 아닙니다. 신용카드 거래로 다시 예를 들면, 모든 연월일에 대한 지출 금액을 알고 있을 때 크리스마스 전 주에 고액 거래가 일어났다면 정상으로 여겨질 수 있습니다. 그러나 7월에 같은 액수의 거래가 일어난다면 의심스러울 수 있습니다. 거래할 때 휴가 때 처럼 집에서 멀리 떨어진 곳에서 높은 금액의 거래가 이루어질 수 있다고 위치 정보를 통해 예상할 수도 있습니다.

마지막 이상 징후 유형은 집합적입니다. 이 경우 일부 관련된 데이터 인스턴스는 전체 데이터 세트에 대해 이상적이지만, 각 개별 인스턴스는 이상치로 간주되지 않을 수 있습니다. 예를 들어, 소매업체가 판매하는 물품의 재고를 고려해보겠습니다. 재고는 시간에 따라 변동하고, 재고가 많았다면 재고가 적을 때도 있습니다. 그러나 장기간 재고가 없는 것은 이례적입니다. 재고의 수량이 아닌 지속성이라는 점에 유의하십시오.

2,3 유형은 데이터 인스턴스 간의 일부 관계를 가정합니다. 즉 데이터 인스턴스 간에 독립적으로 분산되지 않습니다. 현재는 신용카드 거래 정보가 있으며 시간도 특징 중 하나이므로 이 문제를 상황별 이상 감지로 처리할 수 있습니다. 그러나 유용한 시간적 기준을 결정하는 것은 거의 불가능하기 때문에 우리는 단지 며칠간의 데이터만 있으면 됩니다. 따라서 문맥을 정의하는 추가 작업의 부담을 피하기 위해 점 이상 기법만 고려할 것입니다. 그렇지만 문맥정보가 필요할 때를 대비해 여전히 시간을 피쳐로 가져갈 것입니다.

마지막으로 고려해야할 사항은 여기서는 기계학습에 대한 준지도적 접근법만 고려한다는 것입니다. 

## Challenges
이상 징후 탐지에 대한 한 가지 간단한 방법은 단순히 영역을 정의하는 것입니다. 일반적인 거짓 데이터와 해당 영역의 모든 것을 이상 징후로 분류하는 것입니다. 이 문제는 이상 탐지 문제에서 종종 발생하는 몇 가지 주요 문제가 있습니다.
- 모든 정상 동작을 포착하는 정상 영역의 모델링은 매우 어렵고 정상과 이상 간의 경계가 흐려지는 경우가 많습니다.
- 이상 징후는 악의적인 행동의 결과일 수 있습니다. 그보다 악의적인 행동은 항상 비정상적 관찰이 정상처럼 보이게 하려고 노력합니다.
- 정상적인 행동이 변화할 수 있으며, 현재의 정상이 미래에 아닐 수도 있습니다.
- 이상 징후 개념은 도메인에 따라 다르며, 모든 이상을 동일하게 잘 처리할 수 있는 알고리즘은 없습니다.
- 이상 탐지 기법에 의해 사용되는 모델의 훈련/검증을 위한 라벨링 데이터는 일반적으로 매우 부족하거나 존재하지 않는 주요 문제입니다.
- 데이터에 노이즈가 많이 포함되어 있으면 노이즈가 많은 인스턴스와 이상 징후를 구분하기 어렵습니다.

In [2]:
import pandas as pd
import numpy as np
from matplotlib import pyplot as plt, style
import seaborn as sns
from sklearn.metrics import fbeta_score, precision_score, recall_score, confusion_matrix
import itertools
import warnings
warnings.filterwarnings('ignore')

style.use('ggplot')
np.random.seed(42)

def plot_confusion_matrix(cm, classes,
                          normalize=False,
                          title='Confusion matrix',
                          cmap=plt.cm.Blues):
    """
    혼동 매트릭스를 그리는 함수.
    정규화는 normalize=True로 활성화 가능
    """
    plt.figure()
    plt.imshow(cm, interpolation='nearest', cmap=cmap)
    plt.title(title)
    plt.colorbar()
    tick_marks = np.arange(len(classes))
    plt.xticks(tick_marks, classes, rotation=0)
    plt.yticks(tick_marks, classes)
    
    thresh = cm.max() / 2.
    for i, j in itertools.product(range(cm.shape[0]), range(cm.shape[1])):
        plt.text(j, i, cm[i, j],
                 horizontalalignment='center',
                 color='white' if cm[i, j] > thresh else "black")
        
    plt.tight_layout()
    plt.ylabel('True label')
    plt.xlabel('Predicted label')
    plt.show()

## Dataset
제공된 설명은 다음과 같습니다. "데이터셋에는 2013년 9월 유럽 카드 소유자에 의해 수행된 신용카드에 의한 거래가 포함됩니다. 이 데이터셋에는 284,807건의 거래중 492건의 사기 건이 발생했습니다. 데이터 셋은 매우 불균형적이며, 양의 클래스(사기)가 모든 거래의 0.172%를 차지합니다.

여기에는 PCA 변환의 결과인 숫자 입력 변수만 포함됩니다. 피쳐 V1, V2, ... V28은 PCA로 부터 얻어진 주성분이고, PCA로 변환되지 않은 유일한 피쳐는 'Time'과 'Amount'입니다. 피쳐 'Time'은 각 거래와 데이터 집합의 첫 번째 거래 사이에 경과된 시간(초)가 포함됩니다. 'Amount' 피쳐는 거래 금액이며, 이 피쳐는 예를 들어 비용 의존적인 학습에 사용할 수 있습니다. 'Class'피쳐는 반응 변수이며, 부정 행위 발생 시 1이고 아니면 0입니다."

앞서 말했듯이, 우리는 훈련 데이터가 정상 클래스에 대해서만 인스턴스에 레이블을 지정했다고 가정할 때 준지도 테크닉을 고려할 것입니다. 이 경우 일반적으로 정상 동작만 포착하고 레이블이 지정된 검증 셋에서 모델 복잡성을 조정하고 레이블이 동일한 테스트 세트에서 모델을 평가하도록 모델을 구축합니다. 더 형식적으로 훈련하는 동안, 정상 데이터의 확률 P(X)만 모델링 합니다. 테스트 할 때는 확률이 매우 낮은 이상 인스턴스로 분류합니다. 이러한 확률을 모형에 직접 사용할 수 없는 경우에도 대부분의 경우 해당 확률에 비례하는 점수 함수를 정의할 수 있습니다. 검증 세트를 사용하여 해당 인스턴스를 이상 징후로 분류할 확률 또는 점수에 대한 임계값을 조정할 수 있습니다.

피쳐가 모두 정규분포인 경우 일부 기술이 더 효과적이라고 생각되므로, Amount 및 Time 피쳐를 변환하여 사용할 것입니다. 간단히 로그를 취함으로써 변활할 수 있습니다. 일부 피쳐에는 0이 있으므로 1을 더한 후 로그를 취합니다.

In [3]:
dataset = pd.read_csv('./input/creditcard.csv')

dataset['Amount'] = np.log(dataset['Amount']+1)
dataset['Time'] = np.log(dataset['Time']+1)
normal = dataset[dataset['Class'] == 0]
anomaly = dataset[dataset['Class'] == 1]
print(normal.shape)
print(anomaly.shape)

(284315, 31)
(492, 31)


데이터를 분할하기 위해 정상 인스턴스의 50%을 훈련을 위해 남겨놓습니다. 나머지 정상 데이터는 검증과 테스트셋에 똑같이 나뉩니다. 이상 인스턴스 또한 동일하게 검증과 테스트셋으로 나눌 것입니다.

In [6]:
from sklearn.model_selection import train_test_split

train, normal_test, _, _, = train_test_split(normal, normal, test_size=.2, random_state=42)

normal_valid, normal_test, _, _ = train_test_split(normal_test, normal_test, test_size=.5, random_state=42)
anormal_valid, anormal_test, _, _ = train_test_split(anomaly, anomaly, test_size=.5, random_state=42)

train = train.reset_index(drop=True)
valid = normal_valid.append(anormal_valid).sample(frac=1).reset_index(drop=True)
test = normal_test.append(anormal_test).sample(frac=1).reset_index(drop=True)

print('Train shape: ', train.shape)
print('Proportion os anomaly in training set: %.2f\n'%train['Class'].mean())
print('Valid shape:', valid.shape)
print('Proportion os anomaly in validation set: %.2f\n'%valid['Class'].mean())
print('Test shape:', test.shape)
print('Proportion os anomaly in test set: %.2f\n'%test['Class'].mean())

Train shape:  (227452, 31)
Proportion os anomaly in training set: 0.00

Valid shape: (28677, 31)
Proportion os anomaly in validation set: 0.01

Test shape: (28678, 31)
Proportion os anomaly in test set: 0.01



정상 인스턴스를 두개로 분할했어도, 이상 비율이 아직 매우 작음을 알 수 있습니다.

## Evaluation Metrics
데이터가 크게 불균형적이기 때문에, 항상 정상 클래스를 예측하는 단순한 모델은 99%이상의 정확도를 얻을 수 있기 때문에 단순 정확도를 평가 지표로 사용할 수 없습니다. 따라서 정밀도 측정 및 리콜 측정 기준을 사용할 것입니다. 

"리콜은 높지만 정밀도가 낮은 시스템은 많은 결과를 반환하지만 예측된 레이블은 훈련된 레이블과 비교할 때 대부분 정확하지 않습니다. 정밀도가 높지만 리콜이 낮은 시스템은 정반대로 매우 적은 결과를 반환하지만 예측된 레이블은 훈련용 레이블과 비교할 때 대부분 정확합니다. 정밀도가 높고 리콜이 높은 이상적인 시스템은 많은 결과를 반환하며, 모든 결과에는 올바른 레이블이 지정됩니다.

정확도(P)는 true positive(T_p)을 true positive + false positive(F_p)로 나눈 값입니다:

$P=T_p/(T_p + F_p)$

리콜(R)은 T_p를 T_p + false negative(F_n)으로 나눈 값입니다:

$R = T_p / (T_p + F_n)$

이들은 F_1 스코어와 연관이 있습니다."

신용카드 부정 행위 적발 시나리오이기 때문에 부정 행위를 탐지하지 못하면 일반 거래를 부정 행위로 지정하는 것보다 비용이 더 많이 듭니다. 따라서 우리는 높은 리콜 평가 지표에 관심이 있습니다. 이는 비록 몇 가지 잘못된 긍정을 얻어도 시스템이 지속적으로 부정행위를 탐지할 수 있기 때문입니다. 그럼에도 불구하고 부정 행위자로 할당된 많은 거래를 확인하는 데 비용이 들기 때문에 잘못된 양성 오류가 많이 발생하는 것을 원치는 않습니다.

따라서 우리는 모델의 성능을 단일 평가 지표로 요약할 수 있습니다. F_2 스코어는 정밀도보다 리콜이 더 중요합니다. 공식적으로는 다음과 같이 정의됩니다:

$$F_2 = {(1+2^2)}{P*R\over2^2*P+R}$$

또한 오류가 어떻게 분포되는지 더 잘 이해하기 위해 혼돈 매트릭스를 살펴볼 것입니다.

## Benchmarks
벤치마크로써, joparga3의 노트북을 사용합니다. 최종 결과는 TN 85284개, TP 91개, FN 56개, FP 12개였습니다. 이로 인해 다음과 같은 평가 지표가 생성됩니다.

$$P = 0.883 \\ R = 0.619 \\ F_2 = 0.658$$

## Statistical Anomaly Detection Techniques
정상 데이터 인스턴스는 확률 모델의 높은 확률 영역에서 발생하는 반면, 이상 징후는 확률 모델의 낮은 확률 영역에서 발생하는 것으로 가정합니다. 통계 모델 기법에서 우리는 통계 모델을 적합시키고 추론을 수행하여 보이지 않는 관측치가 분포 모형에서 오는지의 여부를 결정합니다. 이 방법의 한 가지 이점은 각 예측에 신뢰 구간을 연결할 수 있다는 점입니다. 이러한 신뢰 구간은 이상 징후를 처리하기 위한 행동 방침을 결정할 때 도움이 될 수 있습니다. 또 다른 장점은 모델이 이상 징후를 잘 견디는 경우 레이블이 지정된 데이터가 필요 없이 비지도 방식으로 사용할 수 있다는 것입니다.