# [ LG에너지솔루션 DX Expert 양성과정 - Auto-Encoder #1]

Auto-Encoder를 활용한 tabular anomaly detection

## 강의 복습
강의자료: Deep Auto-Encoder
- `Auto-Encoder`: 입력과 출력이 동일한 인공 신경망 구조, 정보를 축약하는 파트를 인코더(Encoder)라 부르고 다시 복원하는 파트를 디코더(Decoder)라 부름

<img src="https://github.com/hwk0702/2024_LG_ES_External_Lecture/blob/main/240702_Deep_Auto_Encoder/image/AE01.png?raw=true" width="600">

## 실습 요약

1. 본 실습에서는 Auto-Encoder를 활용하여 tabular 데이터의 이상 탐지를 수행합니다.

---

## 데이터 준비하기

In [None]:
# Google Drive 파일 다운로드를 위한 gdown 패키지 설치
!pip install gdown

# 데이터 저장을 위한 디렉토리 생성
!mkdir -p ./data

# gdown을 사용하여 파일 다운로드
import gdown

# 다운로드할 파일의 Google Drive 파일 ID와 저장할 경로 설정
file_id = "1e541AXa81DqeD-XpPhNWnWlewo8yjbOa"
output = "./data/creditcard.csv"

# 파일 다운로드 수행
gdown.download(id=file_id, output=output, quiet=False)

## Import modules

In [None]:
# 필요 라이브러리 import
import numpy as np
import pandas as pd
import os
import random

import torch
import torch.nn as nn
import torch.nn.functional as F

from torch.utils.data import TensorDataset, DataLoader
from torch.optim import Adam, SGD

from sklearn.metrics import roc_auc_score
from sklearn.preprocessing import MinMaxScaler
from sklearn.model_selection import train_test_split

import matplotlib.pyplot as plt
import seaborn as sns

# Seaborn을 사용한 플롯 스타일 설정
custom_params = {"axes.spines.right": False, "axes.spines.top": False}
sns.set_theme(style="ticks", rc=custom_params)

## Functions

In [None]:
def torch_seed(random_seed: int):
    """Torch 및 기타 라이브러리의 시드를 고정하여 재현성을 확보합니다."""
    torch.manual_seed(random_seed)
    torch.cuda.manual_seed(random_seed)
    torch.cuda.manual_seed_all(random_seed)  # if using multi-GPU
    torch.backends.cudnn.deterministic = True
    torch.backends.cudnn.benchmark = False
    np.random.seed(random_seed)
    random.seed(random_seed)
    os.environ['PYTHONHASHSEED'] = str(random_seed)


def train(
    model: torch.nn.Module, dataloader: torch.utils.data.DataLoader, 
    criterion: torch.nn.Module, optimizer: torch.optim.Optimizer, 
    log_interval: int, device: str
) -> float:
    """모델을 학습시키고 평균 손실을 반환합니다."""

    total_loss = []

    model.train()
    for i, (inputs, _) in enumerate(dataloader):

        # convert device
        inputs = inputs.to(device)

        # model outputs
        outputs = model(inputs)

        # loss
        loss = criterion(inputs, outputs).mean()
        total_loss.append(loss.item())

        # calculate gradients
        loss.backward()

        # update model weights
        optimizer.step()
        optimizer.zero_grad()

        # log learning history
        if i % log_interval == 0 or (i+1) == len(dataloader):
            print(f"{'TRAIN':5s} [{i+1:5d}/{len(dataloader):5d}] loss: {np.mean(total_loss):.4f}")

    # average loss
    avg_loss = np.mean(total_loss)

    return avg_loss

def test(
    model: torch.nn.Module, dataloader: torch.utils.data.DataLoader, 
    criterion: torch.nn.Module, log_interval: int, device: str
) -> tuple:
    """모델을 평가하고 AUROC 점수 및 예측 결과를 반환합니다."""

    # for auroc
    total_loss = []
    total_inputs = []
    total_targets = []
    total_outputs = []

    torch_seed(72)
    model.eval()

    with torch.no_grad():
        for i, (inputs, targets) in enumerate(dataloader):
            # get inputs and targets
            total_inputs.extend(inputs.numpy())
            total_targets.extend(targets.numpy())

            # convert device
            inputs = inputs.to(device)

            # model outputs
            outputs = model(inputs)
            total_outputs.extend(outputs.cpu().numpy())

            # loss
            loss = criterion(inputs, outputs).max(dim=-1)[0]
            total_loss.extend(loss.cpu().numpy())

            # log learning history
            if i % log_interval == 0 or (i+1) == len(dataloader):
                print(f"{'TSET':5s} [{i+1:5d}/{len(dataloader):5d}] loss: {np.mean(total_loss):.4f}")

    # total inputs, outputs, targets and loss
    total_inputs = np.concatenate(total_inputs, axis=0)
    total_outputs = np.concatenate(total_outputs, axis=0)
    total_targets = np.array(total_targets).reshape(-1)
    total_loss = np.array(total_loss).reshape(-1)

    # auroc
    if sum(total_targets) == 0:
        auroc = 1.
    else:
        auroc = roc_auc_score(total_targets, total_loss)

    # return
    return auroc, total_inputs, total_outputs, total_loss


def fit(
    model: torch.nn.Module, trainloader: torch.utils.data.DataLoader, 
    testloader: torch.utils.data.DataLoader, criterion: torch.nn.Module, 
    optimizer: torch.optim.Optimizer, epochs: int, log_interval: int, 
    device: str
) -> tuple:
    """모델을 학습하고 테스트하여 학습 손실 및 테스트 AUROC 히스토리를 반환합니다."""

    train_history = []
    test_history_auroc = []

    # fitting model
    for i in range(epochs):
        print(f'\nEpoch: [{i+1}/{epochs}]')
        train_loss = train(
            model        = model,
            dataloader   = trainloader,
            criterion    = criterion,
            optimizer    = optimizer,
            log_interval = log_interval,
            device       = device
        )

        test_auroc, total_inputs, total_outputs, total_loss = test(
            model        = model,
            dataloader   = testloader,
            criterion    = criterion,
            log_interval = log_interval,
            device       = device
        )

        print(f'\nTest AUROC: {test_auroc:.4f}')

        train_history.append(train_loss)
        test_history_auroc.append(test_auroc)

    return train_history, test_history_auroc


def plot_history(
    all_train_history: list, all_test_history_auroc: list, all_exp_name: list
) -> None:
    """학습 손실 및 테스트 AUROC 히스토리를 시각화합니다."""

    fig, ax = plt.subplots(1, 2, figsize=(10,4))

    # train line plot
    for i, (train_h, exp_name) in enumerate(zip(all_train_history, all_exp_name)):
        sns.lineplot(
            x     = range(1, len(train_h)+1),
            y     = train_h,
            label = exp_name,
            ax    = ax[0]
        )

    # test AUROC lineplot
    for i, (test_h, exp_name) in enumerate(zip(all_test_history_auroc, all_exp_name)):
        sns.lineplot(
            x     = range(1, len(test_h)+1),
            y     = test_h,
            label = exp_name,
            ax    = ax[1]
        )

    # set y axis label
    ax[0].set_ylabel('MSE Loss')
    ax[1].set_ylabel('AUROC')

    # set x axis label
    ax[0].set_xlabel('Epochs')
    ax[1].set_xlabel('Epochs')

    # set title
    ax[0].set_title('Train loss history')
    ax[1].set_title('Test AUROC history')

    # set y value limit
    max_train = np.max(all_train_history)

    ax[0].set_ylim(0, max_train+0.01)
    ax[1].set_ylim(0, 1)

    # set legend
    ax[0].legend(loc='upper left')
    ax[1].legend(loc='upper left')
    plt.tight_layout()
    plt.show()

## Configuration for experiments

In [None]:
class Config:
    """
    설정 클래스
    """

    # dataset 관련 parameters
    datapath = './data/creditcard.csv'  # 데이터 파일 경로

    # training 관련 parameters
    epochs = 15                        # 총 학습 에폭 수
    batch_size = 512                   # 학습 데이터 배치 크기
    test_batch_size = 128              # 테스트 데이터 배치 크기
    learning_rate = 0.001              # 학습률
    num_workers = 2                    # 데이터 로딩을 위한 워커 수
    log_interval = 2000                # 학습 로그를 출력할 간격

    # device
    device = 'cuda'                    # 학습을 위한 디바이스 (cuda 또는 cpu)

    # seed
    seed = 72                          # 시드 값 (재현성 확보를 위해 고정)

# Config 클래스의 인스턴스를 생성
cfg = Config()

## Load dataset and dataloader

**Feature Description**
- **Time**: Number of seconds elapsed between this transaction and the first transaction in the dataset
- **V{ID}**: PCA results
- **Amount**: Transaction amount
- **Class**: 1 for fraudulent transactions, 0 otherwise

In [None]:
df = pd.read_csv(cfg.datapath)
print('df.shape: ',df.shape)
df.head()

In [None]:
df.isna().sum(axis=0)

In [None]:
# drop NaN
df = df.dropna()
print('df.shape: ',df.shape)

In [None]:
# target
pd.concat([df['Class'].value_counts(), df['Class'].value_counts(normalize=True)], axis=1)

### Split dataset into train and test dataset

In [None]:
# 'Class'가 0인 인덱스를 추출하고, 이를 학습용 인덱스와 나머지 인덱스로 분할
# 이 과정에서 전체 데이터셋 중 10%를 테스트셋으로 분할
train_idx, _ = train_test_split(
    df[df['Class'] == 0].index.values, 
    test_size=0.1, 
    random_state=cfg.seed
)

# 결과 출력 (optional)
print(f"Number of training indices: {len(train_idx)}")

In [None]:
# 학습용 데이터프레임과 테스트용 데이터프레임을 생성
df_train = df.iloc[train_idx, :]  # 학습용 인덱스를 사용하여 학습용 데이터프레임을 생성
df_test = df.drop(train_idx, axis=0)  # 학습용 인덱스를 제외한 나머지 데이터로 테스트용 데이터프레임을 생성

# 학습용 데이터셋에서 특징 행렬(X)과 라벨 벡터(y)를 분리
X_train = df_train.drop('Class', axis=1).values  # 'Class' 열을 제외한 나머지 열을 특징 행렬로 사용
y_train = df_train['Class'].values  # 'Class' 열을 라벨 벡터로 사용

# 테스트용 데이터셋에서 특징 행렬(X)과 라벨 벡터(y)를 분리
X_test = df_test.drop('Class', axis=1).values  # 'Class' 열을 제외한 나머지 열을 특징 행렬로 사용
y_test = df_test['Class'].values  # 'Class' 열을 라벨 벡터로 사용

# 데이터셋의 크기를 출력
print('X_train.shape: ', X_train.shape)  # 학습용 특징 행렬의 크기를 출력
print('y_train.shape: ', y_train.shape)  # 학습용 라벨 벡터의 크기를 출력
print('X_test.shape: ', X_test.shape)  # 테스트용 특징 행렬의 크기를 출력
print('y_test.shape: ', y_test.shape)  # 테스트용 라벨 벡터의 크기를 출력

### Scaling

In [None]:
# MinMaxScaler를 사용하여 특징 행렬을 [0, 1] 범위로 정규화
scaler = MinMaxScaler()

# 학습용 데이터의 특징 행렬을 정규화
X_train = scaler.fit_transform(X_train)

# 테스트용 데이터의 특징 행렬을 학습용 데이터의 스케일에 맞춰 정규화
X_test = scaler.transform(X_test)

In [None]:
# TensorDataset을 사용하여 학습용 및 테스트용 텐서 데이터셋 생성
trainset = TensorDataset(torch.Tensor(X_train), torch.Tensor(y_train))
testset = TensorDataset(torch.Tensor(X_test), torch.Tensor(y_test))

# DataLoader를 사용하여 학습용 및 테스트용 데이터로더 생성
trainloader = DataLoader(
    trainset, 
    batch_size=cfg.batch_size, 
    shuffle=True, 
    num_workers=cfg.num_workers
)
testloader = DataLoader(
    testset, 
    batch_size=cfg.test_batch_size, 
    shuffle=False, 
    num_workers=cfg.num_workers
)

## Auto-Encoder

In [None]:
class AutoEncoder(nn.Module):
    def __init__(self, input_dim: int, dims: list):
        """
        AutoEncoder 클래스 초기화.
        :param input_dim: 입력 데이터의 차원
        :param dims: 인코더 및 디코더의 각 층의 노드 수 리스트
        """
        super(AutoEncoder, self).__init__()

        # 인코더와 디코더의 층 크기를 설정
        dims = [input_dim] + dims

        # 인코더 및 디코더 생성
        self.enc = nn.Sequential(*self.build_layer(dims=dims))  # 인코더 층
        self.dec = nn.Sequential(*self.build_layer(dims=dims[::-1], up=True))  # 디코더 층
        self.output = nn.Linear(in_features=dims[0], out_features=input_dim)  # 최종 출력층

    def build_layer(self, dims, up=False):
        """
        인코더 또는 디코더 층을 생성하는 함수.
        :param dims: 각 층의 노드 수 리스트
        :param up: 디코더 층 생성을 위한 플래그
        :return: 생성된 층 리스트
        """
        layers = []

        for i in range(1, len(dims)):
            layer = [
                nn.Linear(
                    in_features=dims[i - 1],
                    out_features=dims[i]
                ),
                nn.ReLU()
            ]
            layers.extend(layer)

        return layers

    def encoder(self, x):
        """
        인코더를 통해 입력 데이터를 변환.
        :param x: 입력 데이터
        :return: 인코더를 거친 출력
        """
        return self.enc(x)

    def decoder(self, x):
        """
        디코더를 통해 인코더 출력 데이터를 원래 차원으로 변환.
        :param x: 인코더 출력 데이터
        :return: 디코더를 거친 최종 출력
        """
        x = self.dec(x)
        x = self.output(x)
        x = torch.sigmoid(x)  # sigmoid 활성화 함수 사용
        return x

    def forward(self, x):
        """
        순전파 함수.
        :param x: 입력 데이터
        :return: AutoEncoder의 최종 출력
        """
        x = self.encoder(x)
        x = self.decoder(x)
        return x

In [None]:
# 시드 설정
torch_seed(cfg.seed)

# AutoEncoder 모델 생성
ae = AutoEncoder(input_dim=X_train.shape[1], dims=[64, 32, 16])

# 모델을 지정된 장치(CPU 또는 GPU)로 이동
ae.to(cfg.device)

# 모델 로드 메시지 출력
print('Load Auto-Encoder')

# 모델 파라미터의 총 개수를 출력
print('The number of model parameters: ', sum(p.numel() for p in ae.parameters()))

# 손실 함수 설정
# MSELoss (Mean Squared Error Loss) 함수를 사용하며, reduction을 'none'으로 설정하여 개별 손실 값을 유지
criterion = nn.MSELoss(reduction='none')

# 옵티마이저 설정
# Adam 옵티마이저를 사용하며, 학습률은 cfg에서 설정된 learning_rate를 사용
optimizer = Adam(ae.parameters(), lr=cfg.learning_rate)

In [None]:
ae

In [None]:
# trainloader에서 첫 번째 배치의 데이터를 가져옴
inputs, targets = next(iter(trainloader))

# 입력 데이터를 지정된 장치(CPU 또는 GPU)로 이동
inputs = inputs.to(cfg.device)

# 입력 데이터의 형태를 출력
print('inputs.shape: ', inputs.shape)

# 모델에 입력 데이터를 전달하여 출력을 계산
outputs = ae(inputs)

# 출력 데이터의 형태를 출력
print('outputs.shape: ', outputs.shape)

In [None]:
# 시드 설정
torch_seed(cfg.seed)

# AutoEncoder 모델 학습 및 평가
train_history, test_history_auroc = fit(
    model        = ae,                 # 학습할 모델
    trainloader  = trainloader,        # 학습 데이터 로더
    testloader   = testloader,         # 테스트 데이터 로더
    criterion    = criterion,          # 손실 함수
    optimizer    = optimizer,          # 옵티마이저
    epochs       = cfg.epochs,         # 학습 에폭 수
    log_interval = cfg.log_interval,   # 로그 출력 간격
    device       = cfg.device          # 학습에 사용할 디바이스
)

# 학습 결과 출력
print("Training completed.")
print("Train History: ", train_history)
print("Test AUROC History: ", test_history_auroc)

In [None]:
# 학습 및 테스트 히스토리를 리스트에 추가
all_train_history = [train_history]
all_test_history_auroc = [test_history_auroc]
all_exp_name = ['AE']

# 학습 및 테스트 히스토리 시각화
plot_history(
    all_train_history      = all_train_history,
    all_test_history_auroc = all_test_history_auroc,
    all_exp_name           = all_exp_name
)

In [None]:
# 학습된 모델을 사용하여 테스트 데이터에 대한 평가 수행
test_auroc, total_inputs, total_outputs, total_loss = test(
    model        = ae,                 # 평가할 모델
    dataloader   = testloader,         # 테스트 데이터 로더
    criterion    = criterion,          # 손실 함수
    log_interval = cfg.log_interval,   # 로그 출력 간격
    device       = cfg.device          # 평가에 사용할 디바이스
)

# 테스트 결과 출력
print(f"Test AUROC: {test_auroc:.4f}")

In [None]:
# MinMax 스케일링 함수 정의
def minmax(x):
    """
    입력된 값들을 Min-Max 스케일링하여 [0, 1] 범위로 변환합니다.
    :param x: 입력 데이터
    :return: 스케일링된 데이터
    """
    return (x - x.min()) / (x.max() - x.min())

# 테스트 데이터프레임에 예측된 이상 점수를 추가
df_test['pred'] = minmax(total_loss)

# Boxplot을 사용하여 클래스별 이상 점수 분포 시각화
sns.boxplot(x='Class', y='pred', hue='Class', data=df_test)

# 그래프 제목 및 레이블 설정
plt.title('Anomaly Score Distribution')
plt.xticks([0, 1], ['Normal', 'Abnormal'])
plt.ylabel('Anomaly Score')

---