# 시계열 데이터의 Anomaly Detection 방법 비교

- RNN을 이용한 지도학습 방법 - 이진 분류
- Autoencoder 사용 방법 - 재구성 오류 측정
- Variational Autoencoder 사용 방법 - 재구성 오류 측정

- 이 연습문제에서는 RNN, 자동 인코더 및 변형 자동 인코더를 사용하여 [ECG5000 데이터 세트](http://www.timeseriesclassification.com/description.php?Dataset=ECG5000)에서 이상을 감지합니다.  이 데이터 세트에는 각각 140개의 데이터 포인트가 있는 5,000개의 심전도가 포함되어 있습니다. 각 예제에 0(비정상 리듬에 해당) 또는 1(정상 리듬에 해당)로 레이블이 지정된 데이터 세트의 단순화된 버전을 사용할 것입니다. 우리는 비정상적인 리듬을 식별하는 데 관심이 있습니다.   

- "ECG5000"의 원본 데이터세트는 Physionet에서 다운로드한 20시간 길이의 ECG입니다. 이름은 BIDMC 울혈성 심부전 데이터베이스(chfdb)이고 레코드 "chf07"입니다.

## Load and prepare ECG data

In [None]:
# Dataset Download

In [None]:
# 데이터프레임의 마지막 열에 해당하는 레이블(정답)을 가져옵니다.
# 심전도 데이터의 특성(feature) 값들을 가져옵니다.

normal, abnormal data 분리

정상 ECG 시각화

In [None]:
# 한 줄에 10개의 서브플롯을 생성합니다.
# 각 서브플롯에 대해 ECG 데이터를 플롯합니다.

비정상 ECG 시각화

In [None]:
# 각 서브플롯에 대해 ECG 데이터를 플롯합니다.

### 이상 탐지를 위한 RNN
데이터 세트의 레이블에 액세스할 수 있으므로 이상 감지를 이진 분류 지도 학습 문제로 설정할 수 있습니다.

In [None]:
# RNN 모델 생성

In [None]:
# Test set 정상/비정상 분류
# metric 계산

### 이상 감지를 위한 오토인코더
autoencoder의 목적은 주어진 입력의 재구성 오류를 최소화하는 것입니다. 따라서 우리는 최소한의 오류로 이러한 예를 재구성할 수 있도록 정상 심전도 시퀀스에 대해서만 자동 인코더를 훈련할 것입니다.   
비정상적인 리듬은 정상 시퀀스보다 재구성 오류가 더 높아야 하므로 재구성 오류가 고정 임계값보다 높은 경우의 리듬을 이상으로 분류할 수 있습니다.

In [None]:
class AnomalyDetectorAE(Model):
    def __init__(self):
        # encoder network
        # decoder network
    def call(self, x):

오토인코더는 정상 ECG만 사용하여 훈련됩니다.

정상 데이터를 오토인코더로 인코딩과 디코딩을 한 후의 신호를 살펴봅니다.

비정상적 데이터 예제에 대한 유사한 플롯 만들기:

### 이상 감지
재구성 손실이 고정 임계값보다 큰지 여부를 계산하여 이상을 감지합니다. 이를 위해 훈련 세트의 정상 예제에 대한 평균 평균 오류를 계산한 다음 재구성 오류가 훈련 세트의 표준 편차보다 높으면 미래 예제를 비정상적인 것으로 분류합니다.

훈련 세트의 정상 ECG에 대한 재구성 오류를 시각화 합니다.

평균 + 1 표준편차인 임계값을 선택합니다.

테스트 세트의 대부분의 비정상 example은 임계값보다 재구성 오류가 더 큽니다. 임계값을 변경하여 분류기의 정밀도와 재현율을 조정할 수 있습니다.

재구성 오류가 임계값보다 큰 경우 ECG를 이상으로 분류합니다.  
재구성 오류를 이용한 이상치 예측과 label 을 비교하여 performance 를 측정합니다.

In [None]:
def predict(model, data, threshold):
def print_stats(predictions, labels):

### 이상 감지를 위한 Variational Autoencoder
오토인코더는 훈련 데이터에 과적합되는 경향이 강합니다. 이 문제를 완화하도록 설계된 VAE를 사용합니다.

### Sampling Class

먼저 'Sampling' 클래스를 빌드합니다. 이것은 인코더 출력의 평균 (mu) 및 표준 편차 (sigma)와 함께 가우스 노이즈 입력을 제공하는 맞춤형 Keras 레이어입니다. 실제로 이 레이어의 출력은 다음 방정식으로 제공됩니다.

$$z = \mu + e^{0.5\sigma} * \epsilon  $$

여기서 $\mu$ = mean, $\sigma$ = standard deviation, $\epsilon$ = random sample

In [None]:
class Sampling(tf.keras.layers.Layer):
    def call(self, inputs):
        # 인코더의 출력을 분해합니다.
        # 배치의 크기와 차원을 얻습니다.
        # 무작위 텐서를 생성합니다.
        # 재매개변수화 기법을 적용합니다.

### Kullback–Leibler Divergence
모델의 생성 능력을 향상 시키려면 잠재 공간에 도입된 랜덤 정규 분포를 고려해야 합니다. 이를 위해 [Kullback–Leibler Divergence](https://arxiv.org/abs/2002.07514)가 계산되어 재구성 손실에 추가됩니다. 공식은 아래 함수에서 정의됩니다.

In [None]:
def kl_reconstruction_loss(inputs, outputs, mu, sigma):
    # KLD 계산 공식 적용
    # 배치 내 평균을 계산하고 -0.5를 곱하여 최종 KLD 손실을 계산

이제 전체 VAE 모델을 정의할 수 있습니다. KL reconstruction loss를 추가하기 위해 `model.add_loss()`를 사용합니다. 이 손실을 계산하는 것은 `y_true`와 `y_pred`를 사용하지 않으므로 `model.compile()`에서 사용할 수 없습니다.

- add_loss() 메서드 : 손실이 있는 경우, 자동으로 합산되어 주 손실에 추가

In [None]:
# 인코더를 통과시켜 평균(mu), 표준 편차(sigma), 그리고 잠재 공간의 벡터(z)를 얻습니다.
# 디코더를 사용하여 잠재 공간의 벡터(z)로부터 입력을 재구성
# 입력과 재구성된 값을 사용하여 VAE 모델을 생성
# Kullback-Leibler 발산을 계산하는 함수를 사용하여 손실을 추가합니다. 이는 잠재 공간의 분포가
# 우리가 원하는 분포(예: 표준 정규 분포)에 가까워지도록 돕습니다.
# add_loss는 사용자 정의 손실을 추가하는 메서드

In [None]:
# 학습 과정에서의 평균 손실을 추적
# 평균 제곱 오차 손실 함수를 사용합니다.

In [None]:
def train_step(x_batch_train):
        # VAE 모델에 배치 입력을 공급하여 재구성된 결과를 얻음
        # 재구성 손실을 계산
        # KLD 정규화 손실을 추가
    # 그라디언트를 계산하고 가중치 업데이트
# 테스트 스텝 추가
def test_step(x_batch_test):
# 손실 지표를 두 개로 분리
    # 에포크 시작 시 지표 리셋
        # 훈련 스텝
        # 테스트 스텝
        # 매 500 스텝마다 결과 표시

## Reconstruction Error 시각화

이전과 마찬가지로 평균 절대 오차에 표준 편차 1을 더한 값에서 임계값을 계산합니다.

재구성 오류가 임계값보다 큰 경우 ECG를 이상으로 분류합니다.

variational autoencoder

- autoencoder

RNN 이진 분류 모델