In [1]:
import torch
import torch.nn as nn
import torch.optim as optim
import pandas as pd
from torch.utils.data import Dataset, DataLoader
from Models.AutoEncoder import AutoEncoder, AutoEncoderDataset
from utils.utils import *
from tqdm import tqdm

# Auto Encoder Test

## Base Setup

In [2]:
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
print(device)

cuda


In [3]:
num_epochs = 50
batch_size = 128
lr = 1e-4

In [4]:
# Feature Selection
cat_features = ['Gender', 'Card Brand', 'Card Type', 'Expires', 'Has Chip', 'Year PIN last Changed', 'Whether Security Chip is Used', 'Day', 'Error Message']

num_features = ['Current Age', 'Retirement Age', 'Per Capita Income - Zipcode', 'Yearly Income', 'Total Debt', 'Credit Score', 'Credit Limit', 'Amount','Since Open Month']

discarded = ['User', 'Birth Year', 'Birth Month', 'Card', 'Card Number', 'Zipcode', 'Merchandise Code', 'Acct Open Date', 'Year', 'Month']


In [5]:
# 데이터 전처리
data_path = 'Data/[24-2 DS_Project2] Data.csv'
(train_cat_X, train_num_X, train_y), (valid_cat_X, valid_num_X, valid_y), label_encoders = process_data(
    data_path,
    cat_features,
    num_features,
    discarded
)

TRANSITION
IQR
SPLIT
DISCARD
SCALE
ENCODE
TARGET
UNLABEL
TRAIN CAT/NUM
VALID CAT/NUM
RETURN


In [6]:
train_cat_X,
train_num_X,
train_y,
valid_cat_X,
valid_num_X,
valid_y,
label_encoders

{'Gender': LabelEncoder(),
 'Card Brand': LabelEncoder(),
 'Card Type': LabelEncoder(),
 'Expires': LabelEncoder(),
 'Has Chip': LabelEncoder(),
 'Year PIN last Changed': LabelEncoder(),
 'Whether Security Chip is Used': LabelEncoder(),
 'Day': LabelEncoder(),
 'Error Message': LabelEncoder()}

In [7]:
train_dataset = AutoEncoderDataset(train_cat_X, train_num_X, device)
valid_dataset = AutoEncoderDataset(valid_cat_X, valid_num_X, device)
train_loader = DataLoader(train_dataset, batch_size=128, shuffle=True)
valid_loader = DataLoader(valid_dataset, batch_size=128, shuffle=False)

In [8]:
model = AutoEncoder(encoding_dim=16, cat_features=cat_features, num_features=num_features).to(device)
optimizer = optim.Adam(model.parameters(), lr=0.001)
criterion = nn.MSELoss()

In [10]:
for epoch in range(100):
    model.train()
    train_loss = 0
    for batch_idx, (cat_features, num_features) in tqdm(enumerate(train_loader), total=len(train_loader), desc=f'에포크 {epoch+1}', bar_format='{l_bar}{bar:20}{r_bar}'):
        optimizer.zero_grad()
        y_hat, y = model(cat_features, num_features)
        loss = criterion(y_hat, y)
        loss.backward()
        optimizer.step()
        train_loss += loss.item()

    avg_train_loss = train_loss / len(train_loader)
    print(f'에포크 {epoch+1}/100 | 평균 학습 손실: {avg_train_loss:.6f}')

에포크 1: 100%|████████████████████| 7003/7003 [00:28<00:00, 247.97it/s]


에포크 1/100 | 평균 학습 손실: 0.148131


에포크 2: 100%|████████████████████| 7003/7003 [00:32<00:00, 212.21it/s]


에포크 2/100 | 평균 학습 손실: 0.092741


에포크 3: 100%|████████████████████| 7003/7003 [00:33<00:00, 208.84it/s]


에포크 3/100 | 평균 학습 손실: 0.092726


에포크 4: 100%|████████████████████| 7003/7003 [00:32<00:00, 212.45it/s]


에포크 4/100 | 평균 학습 손실: 0.092721


에포크 5: 100%|████████████████████| 7003/7003 [00:32<00:00, 214.14it/s]


에포크 5/100 | 평균 학습 손실: 0.092716


에포크 6: 100%|████████████████████| 7003/7003 [00:32<00:00, 213.30it/s]


에포크 6/100 | 평균 학습 손실: 0.092713


에포크 7: 100%|████████████████████| 7003/7003 [00:32<00:00, 212.78it/s]


에포크 7/100 | 평균 학습 손실: 0.092711


에포크 8: 100%|████████████████████| 7003/7003 [00:32<00:00, 214.51it/s]


에포크 8/100 | 평균 학습 손실: 0.092709


에포크 9: 100%|████████████████████| 7003/7003 [00:33<00:00, 212.16it/s]


에포크 9/100 | 평균 학습 손실: 0.092706


에포크 10: 100%|████████████████████| 7003/7003 [00:33<00:00, 211.25it/s]


에포크 10/100 | 평균 학습 손실: 0.092705


에포크 11: 100%|████████████████████| 7003/7003 [00:33<00:00, 212.01it/s]


에포크 11/100 | 평균 학습 손실: 0.092705


에포크 12: 100%|████████████████████| 7003/7003 [00:32<00:00, 212.21it/s]


에포크 12/100 | 평균 학습 손실: 0.092704


에포크 13: 100%|████████████████████| 7003/7003 [00:32<00:00, 213.01it/s]


에포크 13/100 | 평균 학습 손실: 0.092703


에포크 14: 100%|████████████████████| 7003/7003 [00:32<00:00, 212.31it/s]


에포크 14/100 | 평균 학습 손실: 0.092703


에포크 15: 100%|████████████████████| 7003/7003 [00:32<00:00, 215.26it/s]


에포크 15/100 | 평균 학습 손실: 0.092701


에포크 16: 100%|████████████████████| 7003/7003 [00:32<00:00, 212.58it/s]


에포크 16/100 | 평균 학습 손실: 0.092701


에포크 17: 100%|████████████████████| 7003/7003 [00:32<00:00, 214.10it/s]


에포크 17/100 | 평균 학습 손실: 0.092701


에포크 18: 100%|████████████████████| 7003/7003 [00:32<00:00, 213.28it/s]


에포크 18/100 | 평균 학습 손실: 0.092700


에포크 19: 100%|████████████████████| 7003/7003 [00:33<00:00, 211.20it/s]


에포크 19/100 | 평균 학습 손실: 0.092700


에포크 20: 100%|████████████████████| 7003/7003 [00:32<00:00, 215.44it/s]


에포크 20/100 | 평균 학습 손실: 0.092700


에포크 21: 100%|████████████████████| 7003/7003 [00:32<00:00, 212.24it/s]


에포크 21/100 | 평균 학습 손실: 0.092699


에포크 22: 100%|████████████████████| 7003/7003 [00:32<00:00, 212.88it/s]


에포크 22/100 | 평균 학습 손실: 0.092699


에포크 23: 100%|████████████████████| 7003/7003 [00:32<00:00, 213.08it/s]


에포크 23/100 | 평균 학습 손실: 0.092700


에포크 24: 100%|████████████████████| 7003/7003 [00:32<00:00, 212.66it/s]


에포크 24/100 | 평균 학습 손실: 0.092699


에포크 25: 100%|████████████████████| 7003/7003 [00:32<00:00, 212.98it/s]


에포크 25/100 | 평균 학습 손실: 0.092698


에포크 26: 100%|████████████████████| 7003/7003 [00:33<00:00, 211.66it/s]


에포크 26/100 | 평균 학습 손실: 0.092698


에포크 27: 100%|████████████████████| 7003/7003 [00:32<00:00, 213.24it/s]


에포크 27/100 | 평균 학습 손실: 0.092698


에포크 28: 100%|████████████████████| 7003/7003 [00:32<00:00, 212.76it/s]


에포크 28/100 | 평균 학습 손실: 0.092700


에포크 29: 100%|████████████████████| 7003/7003 [00:32<00:00, 213.40it/s]


에포크 29/100 | 평균 학습 손실: 0.092697


에포크 30: 100%|████████████████████| 7003/7003 [00:32<00:00, 212.55it/s]


에포크 30/100 | 평균 학습 손실: 0.084363


에포크 31: 100%|████████████████████| 7003/7003 [00:32<00:00, 213.31it/s]


에포크 31/100 | 평균 학습 손실: 0.083816


에포크 32: 100%|████████████████████| 7003/7003 [00:33<00:00, 212.13it/s]


에포크 32/100 | 평균 학습 손실: 0.083815


에포크 33: 100%|████████████████████| 7003/7003 [00:32<00:00, 213.08it/s]


에포크 33/100 | 평균 학습 손실: 0.083816


에포크 34: 100%|████████████████████| 7003/7003 [00:32<00:00, 213.78it/s]


에포크 34/100 | 평균 학습 손실: 0.083815


에포크 35: 100%|████████████████████| 7003/7003 [00:33<00:00, 211.13it/s]


에포크 35/100 | 평균 학습 손실: 0.083816


에포크 36: 100%|████████████████████| 7003/7003 [00:32<00:00, 215.65it/s]


에포크 36/100 | 평균 학습 손실: 0.083816


에포크 37: 100%|████████████████████| 7003/7003 [00:33<00:00, 211.75it/s]


에포크 37/100 | 평균 학습 손실: 0.083815


에포크 38: 100%|████████████████████| 7003/7003 [00:32<00:00, 213.87it/s]


에포크 38/100 | 평균 학습 손실: 0.083815


에포크 39: 100%|████████████████████| 7003/7003 [00:32<00:00, 213.49it/s]


에포크 39/100 | 평균 학습 손실: 0.083817


에포크 40: 100%|████████████████████| 7003/7003 [00:33<00:00, 210.36it/s]


에포크 40/100 | 평균 학습 손실: 0.083815


에포크 41: 100%|████████████████████| 7003/7003 [00:32<00:00, 216.12it/s]


에포크 41/100 | 평균 학습 손실: 0.083815


에포크 42: 100%|████████████████████| 7003/7003 [00:33<00:00, 211.60it/s]


에포크 42/100 | 평균 학습 손실: 0.083815


에포크 43: 100%|████████████████████| 7003/7003 [00:32<00:00, 214.12it/s]


에포크 43/100 | 평균 학습 손실: 0.083814


에포크 44: 100%|████████████████████| 7003/7003 [00:32<00:00, 212.24it/s]


에포크 44/100 | 평균 학습 손실: 0.083813


에포크 45: 100%|████████████████████| 7003/7003 [00:32<00:00, 212.60it/s]


에포크 45/100 | 평균 학습 손실: 0.083814


에포크 46: 100%|████████████████████| 7003/7003 [00:32<00:00, 214.27it/s]


에포크 46/100 | 평균 학습 손실: 0.083814


에포크 47: 100%|████████████████████| 7003/7003 [00:32<00:00, 213.30it/s]


에포크 47/100 | 평균 학습 손실: 0.083814


에포크 48: 100%|████████████████████| 7003/7003 [00:33<00:00, 212.06it/s]


에포크 48/100 | 평균 학습 손실: 0.083814


에포크 49: 100%|████████████████████| 7003/7003 [00:33<00:00, 211.63it/s]


에포크 49/100 | 평균 학습 손실: 0.083814


에포크 50: 100%|████████████████████| 7003/7003 [00:32<00:00, 213.68it/s]


에포크 50/100 | 평균 학습 손실: 0.083814


에포크 51: 100%|████████████████████| 7003/7003 [00:32<00:00, 214.02it/s]


에포크 51/100 | 평균 학습 손실: 0.083813


에포크 52: 100%|████████████████████| 7003/7003 [00:32<00:00, 213.05it/s]


에포크 52/100 | 평균 학습 손실: 0.083814


에포크 53: 100%|████████████████████| 7003/7003 [00:32<00:00, 212.31it/s]


에포크 53/100 | 평균 학습 손실: 0.083812


에포크 54: 100%|████████████████████| 7003/7003 [00:32<00:00, 214.36it/s]


에포크 54/100 | 평균 학습 손실: 0.083814


에포크 55: 100%|████████████████████| 7003/7003 [00:32<00:00, 212.53it/s]


에포크 55/100 | 평균 학습 손실: 0.083813


에포크 56: 100%|████████████████████| 7003/7003 [00:33<00:00, 211.42it/s]


에포크 56/100 | 평균 학습 손실: 0.083813


에포크 57: 100%|████████████████████| 7003/7003 [00:32<00:00, 214.16it/s]


에포크 57/100 | 평균 학습 손실: 0.083813


에포크 58: 100%|████████████████████| 7003/7003 [00:33<00:00, 210.45it/s]


에포크 58/100 | 평균 학습 손실: 0.083813


에포크 59: 100%|████████████████████| 7003/7003 [00:32<00:00, 213.09it/s]


에포크 59/100 | 평균 학습 손실: 0.083813


에포크 60: 100%|████████████████████| 7003/7003 [00:32<00:00, 213.31it/s]


에포크 60/100 | 평균 학습 손실: 0.083813


에포크 61: 100%|████████████████████| 7003/7003 [00:33<00:00, 210.61it/s]


에포크 61/100 | 평균 학습 손실: 0.083813


에포크 62: 100%|████████████████████| 7003/7003 [00:32<00:00, 215.18it/s]


에포크 62/100 | 평균 학습 손실: 0.083813


에포크 63: 100%|████████████████████| 7003/7003 [00:32<00:00, 212.42it/s]


에포크 63/100 | 평균 학습 손실: 0.083813


에포크 64: 100%|████████████████████| 7003/7003 [00:32<00:00, 213.63it/s]


에포크 64/100 | 평균 학습 손실: 0.083813


에포크 65: 100%|████████████████████| 7003/7003 [00:32<00:00, 212.89it/s]


에포크 65/100 | 평균 학습 손실: 0.083813


에포크 66: 100%|████████████████████| 7003/7003 [00:33<00:00, 210.63it/s]


에포크 66/100 | 평균 학습 손실: 0.083813


에포크 67: 100%|████████████████████| 7003/7003 [00:32<00:00, 215.27it/s]


에포크 67/100 | 평균 학습 손실: 0.083815


에포크 68: 100%|████████████████████| 7003/7003 [00:33<00:00, 209.41it/s]


에포크 68/100 | 평균 학습 손실: 0.083812


에포크 69: 100%|████████████████████| 7003/7003 [00:33<00:00, 211.79it/s]


에포크 69/100 | 평균 학습 손실: 0.083813


에포크 70: 100%|████████████████████| 7003/7003 [00:32<00:00, 212.89it/s]


에포크 70/100 | 평균 학습 손실: 0.083813


에포크 71: 100%|████████████████████| 7003/7003 [00:33<00:00, 211.89it/s]


에포크 71/100 | 평균 학습 손실: 0.083812


에포크 72: 100%|████████████████████| 7003/7003 [00:32<00:00, 213.53it/s]


에포크 72/100 | 평균 학습 손실: 0.083812


에포크 73: 100%|████████████████████| 7003/7003 [00:33<00:00, 209.78it/s]


에포크 73/100 | 평균 학습 손실: 0.083814


에포크 74: 100%|████████████████████| 7003/7003 [00:34<00:00, 202.51it/s]


에포크 74/100 | 평균 학습 손실: 0.083812


에포크 75: 100%|████████████████████| 7003/7003 [00:34<00:00, 203.59it/s]


에포크 75/100 | 평균 학습 손실: 0.083813


에포크 76: 100%|████████████████████| 7003/7003 [00:34<00:00, 205.75it/s]


에포크 76/100 | 평균 학습 손실: 0.083813


에포크 77: 100%|████████████████████| 7003/7003 [00:34<00:00, 205.65it/s]


에포크 77/100 | 평균 학습 손실: 0.083813


에포크 78: 100%|████████████████████| 7003/7003 [00:33<00:00, 207.50it/s]


에포크 78/100 | 평균 학습 손실: 0.083813


에포크 79: 100%|████████████████████| 7003/7003 [00:35<00:00, 199.41it/s]


에포크 79/100 | 평균 학습 손실: 0.083814


에포크 80: 100%|████████████████████| 7003/7003 [00:31<00:00, 224.65it/s]


에포크 80/100 | 평균 학습 손실: 0.083812


에포크 81: 100%|████████████████████| 7003/7003 [00:35<00:00, 197.15it/s]


에포크 81/100 | 평균 학습 손실: 0.083812


에포크 82: 100%|████████████████████| 7003/7003 [00:37<00:00, 187.13it/s]


에포크 82/100 | 평균 학습 손실: 0.083814


에포크 83: 100%|████████████████████| 7003/7003 [00:36<00:00, 189.67it/s]


에포크 83/100 | 평균 학습 손실: 0.083812


에포크 84: 100%|████████████████████| 7003/7003 [00:37<00:00, 185.44it/s]


에포크 84/100 | 평균 학습 손실: 0.083812


에포크 85: 100%|████████████████████| 7003/7003 [00:38<00:00, 184.21it/s]


에포크 85/100 | 평균 학습 손실: 0.083812


에포크 86: 100%|████████████████████| 7003/7003 [00:35<00:00, 198.56it/s]


에포크 86/100 | 평균 학습 손실: 0.083813


에포크 87: 100%|████████████████████| 7003/7003 [00:35<00:00, 196.44it/s]


에포크 87/100 | 평균 학습 손실: 0.083812


에포크 88: 100%|████████████████████| 7003/7003 [00:45<00:00, 155.53it/s]


에포크 88/100 | 평균 학습 손실: 0.083812


에포크 89: 100%|████████████████████| 7003/7003 [00:46<00:00, 152.01it/s]


에포크 89/100 | 평균 학습 손실: 0.083812


에포크 90: 100%|████████████████████| 7003/7003 [00:39<00:00, 178.99it/s]


에포크 90/100 | 평균 학습 손실: 0.083812


에포크 91: 100%|████████████████████| 7003/7003 [00:41<00:00, 168.01it/s]


에포크 91/100 | 평균 학습 손실: 0.083812


에포크 92: 100%|████████████████████| 7003/7003 [00:33<00:00, 210.72it/s]


에포크 92/100 | 평균 학습 손실: 0.083813


에포크 93: 100%|████████████████████| 7003/7003 [00:39<00:00, 176.56it/s]


에포크 93/100 | 평균 학습 손실: 0.083812


에포크 94: 100%|████████████████████| 7003/7003 [00:48<00:00, 144.66it/s]


에포크 94/100 | 평균 학습 손실: 0.083813


에포크 95: 100%|████████████████████| 7003/7003 [00:45<00:00, 152.35it/s]


에포크 95/100 | 평균 학습 손실: 0.083812


에포크 96: 100%|████████████████████| 7003/7003 [00:44<00:00, 156.52it/s]


에포크 96/100 | 평균 학습 손실: 0.083812


에포크 97: 100%|████████████████████| 7003/7003 [00:41<00:00, 168.89it/s]


에포크 97/100 | 평균 학습 손실: 0.083813


에포크 98: 100%|████████████████████| 7003/7003 [00:40<00:00, 171.17it/s]


에포크 98/100 | 평균 학습 손실: 0.083812


에포크 99: 100%|████████████████████| 7003/7003 [00:43<00:00, 161.96it/s]


에포크 99/100 | 평균 학습 손실: 0.083812


에포크 100: 100%|████████████████████| 7003/7003 [00:41<00:00, 167.59it/s]


에포크 100/100 | 평균 학습 손실: 0.083812
