## 기본 베이지 DNN

In [23]:
import pandas as pd
import numpy as np
import torch
import torch.nn as nn
from sklearn.preprocessing import MinMaxScaler
from tensorflow.python.keras.models import Sequential
from tensorflow.python.keras.layers import Dense,Dropout,Activation
from torch.utils.data import TensorDataset, DataLoader
from tensorflow.python.keras import metrics
from tensorflow.python import keras
import tensorflow as tf
import matplotlib.pyplot as plt
import os
from imblearn.over_sampling import SMOTE
import math
import matplotlib.pyplot as plt
%matplotlib inline



In [24]:
%matplotlib inline

In [25]:
df=pd.read_excel('./optimal_data3_1/'+'Continous_2weeks_2day_1term.xlsx')
df.head()
X=df.iloc[:,[1,3,4,5,6,7]]
y=df.iloc[:,-1]


from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split

scaler = StandardScaler()
X_scaler = scaler.fit_transform(X)
smote = SMOTE(random_state=0)
X_train_over,y_train_over = smote.fit_resample(X_scaler,y)
print('SMOTE 적용 전 학습용 피처/레이블 데이터 세트: ', X_scaler.shape, y.shape)
print('SMOTE 적용 후 학습용 피처/레이블 데이터 세트: ', X_train_over.shape, y_train_over.shape)
print('SMOTE 적용 전 레이블 값 분포: \n', pd.Series(y).value_counts())
print('SMOTE 적용 후 레이블 값 분포: \n', pd.Series(y_train_over).value_counts())

SMOTE 적용 전 학습용 피처/레이블 데이터 세트:  (58825, 6) (58825,)
SMOTE 적용 후 학습용 피처/레이블 데이터 세트:  (166896, 6) (166896,)
SMOTE 적용 전 레이블 값 분포: 
 0    55632
1     2010
2     1183
Name: 8, dtype: int64
SMOTE 적용 후 레이블 값 분포: 
 0    55632
1    55632
2    55632
Name: 8, dtype: int64


In [26]:
X_train, X_test, y_train, y_test = train_test_split(X_train_over, y_train_over, test_size=0.20, stratify=y_train_over)

# X_train = scaler.fit_transform(X_train)
# X_test = scaler.transform(X_test)


X_train = torch.FloatTensor(X_train)
X_test = torch.FloatTensor(X_test)
y_train = torch.LongTensor(y_train.to_numpy())
y_test = torch.LongTensor(y_test.to_numpy())

train_dataset = TensorDataset(X_train, y_train)
test_dataset=TensorDataset(X_test, y_test)

train_dataloader = DataLoader(train_dataset, batch_size=16,shuffle=False)
test_dataloader = DataLoader(test_dataset, batch_size=16,shuffle=False)

import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim

In [27]:
class DNNModel(nn.Module):
    def __init__(self):
        super(DNNModel, self).__init__()
        self.input_layer = nn.Linear(6, 128)
        self.hidden_layer1 = nn.Linear(128, 256)
        self.hidden_layer2 = nn.Linear(256, 128)
        self.output_layer   = nn.Linear(128,3)
        self.relu = nn.ReLU()



    def forward(self, x):
        out =  self.relu(self.input_layer(x))
        out =  self.relu(self.hidden_layer1(out))
        out =  self.relu(self.hidden_layer2(out))
        out =  self.output_layer(out)
        return out 



# device 설정 (cuda:0 혹은 cpu)
device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
model = DNNModel() # Model 생성
model.to(device)   # device 에 로드 (cpu or cuda)

# 옵티마이저를 정의합니다. 옵티마이저에는 model.parameters()를 지정해야 합니다.
optimizer = optim.Adam(model.parameters(), lr=0.001)

# 손실함수(loss function)을 지정합니다. Multi-Class Classification 이기 때문에 CrossEntropy 손실을 지정하였습니다.
loss_fn = nn.CrossEntropyLoss()

In [28]:
from tqdm import tqdm  # Progress Bar 출력

def model_train(model, data_loader, loss_fn, optimizer, device):
    # 모델을 훈련모드로 설정합니다. training mode 일 때 Gradient 가 업데이트 됩니다. 반드시 train()으로 모드 변경을 해야 합니다.
    model.train()
    # loss와 accuracy 계산을 위한 임시 변수 입니다. 0으로 초기화합니다.
    running_loss = 0
    corr = 0

    # 예쁘게 Progress Bar를 출력하면서 훈련 상태를 모니터링 하기 위하여 tqdm으로 래핑합니다.
    prograss_bar = tqdm(data_loader)

    # mini-batch 학습을 시작합니다.
    for data, lbl in prograss_bar:
        # image, label 데이터를 device에 올립니다.
        data, lbl = data.to(device), lbl.to(device)
        # 누적 Gradient를 초기화 합니다.
        optimizer.zero_grad()

        # Forward Propagation을 진행하여 결과를 얻습니다.
        output = model(data)
        lbl = lbl.squeeze()
        # 손실함수에 output, label 값을 대입하여 손실을 계산합니다.
        loss = loss_fn(output, lbl)
        # 오차역전파(Back Propagation)을 진행하여 미분 값을 계산합니다.
        loss.backward()

        # 계산된 Gradient를 업데이트 합니다.
        optimizer.step()

        # output의 max(dim=1)은 max probability와 max index를 반환합니다.
        # max probability는 무시하고, max index는 pred에 저장하여 label 값과 대조하여 정확도를 도출합니다.
        _, pred = output.max(dim=1)
        # pred.eq(lbl).sum() 은 정확히 맞춘 label의 합계를 계산합니다. item()은 tensor에서 값을 추출합니다.
        # 합계는 corr 변수에 누적합니다.
        corr += pred.eq(lbl).sum().item()
        
        # loss 값은 1개 배치의 평균 손실(loss) 입니다. data.size(0)은 배치사이즈(batch size) 입니다.
        # loss 와 data.size(0)를 곱하면 1개 배치의 전체 loss가 계산됩니다.
        # 이를 누적한 뒤 Epoch 종료시 전체 데이터셋의 개수로 나누어 평균 loss를 산출합니다.
        running_loss += loss.item() * data.size(0)

    # 누적된 정답수를 전체 개수로 나누어 주면 정확도가 산출됩니다.
    acc = corr / len(data_loader.dataset)
    # 평균 손실(loss)과 정확도를 반환합니다.
    # train_loss, train_acc
    return running_loss / len(data_loader.dataset), acc

In [29]:
def model_evaluate(model, data_loader, loss_fn, device):
    # model.eval()은 모델을 평가모드로 설정을 바꾸어 줍니다. 
    # dropout과 같은 layer의 역할 변경을 위하여 evaluation 진행시 꼭 필요한 절차 입니다.
    model.eval()
    # Gradient가 업데이트 되는 것을 방지 하기 위하여 반드시 필요합니다.
    with torch.no_grad():
        # loss와 accuracy 계산을 위한 임시 변수 입니다. 0으로 초기화합니다.
        corr = 0
        running_loss = 0

        # 배치별 evaluation을 진행합니다.
        for data, lbl in data_loader:
            # device에 데이터를 올립니다.
            data, lbl = data.to(device), lbl.to(device)

            # 모델에 Forward Propagation을 하여 결과를 도출합니다.
            output = model(data)

            # output의 max(dim=1)은 max probability와 max index를 반환합니다.
            # max probability는 무시하고, max index는 pred에 저장하여 label 값과 대조하여 정확도를 도출합니다.
            _, pred = output.max(dim=1)
            lbl = lbl.squeeze()

            # pred.eq(lbl).sum() 은 정확히 맞춘 label의 합계를 계산합니다. item()은 tensor에서 값을 추출합니다.
            # 합계는 corr 변수에 누적합니다.
            corr += torch.sum(pred.eq(lbl)).item()
            
            # loss 값은 1개 배치의 평균 손실(loss) 입니다. data.size(0)은 배치사이즈(batch size) 입니다.
            # loss 와 data.size(0)를 곱하면 1개 배치의 전체 loss가 계산됩니다.
            # 이를 누적한 뒤 Epoch 종료시 전체 데이터셋의 개수로 나누어 평균 loss를 산출합니다.
            running_loss += loss_fn(output, lbl).item() * data.size(0)

        # validation 정확도를 계산합니다.
        # 누적한 정답숫자를 전체 데이터셋의 숫자로 나누어 최종 accuracy를 산출합니다.
        acc = corr / len(data_loader.dataset)

        # 결과를 반환합니다.
        # val_loss, val_acc
        return running_loss / len(data_loader.dataset), acc

In [30]:
def model_test(model, data_loader, loss_fn, device):
    # model.eval()은 모델을 평가모드로 설정을 바꾸어 줍니다. 
    # dropout과 같은 layer의 역할 변경을 위하여 evaluation 진행시 꼭 필요한 절차 입니다.
    model.eval()
    pred_list=[]
    # Gradient가 업데이트 되는 것을 방지 하기 위하여 반드시 필요합니다.
    with torch.no_grad():
        # loss와 accuracy 계산을 위한 임시 변수 입니다. 0으로 초기화합니다.
        corr = 0
        running_loss = 0

        # 배치별 evaluation을 진행합니다.
        for data, lbl in data_loader:
            # device에 데이터를 올립니다.
            data, lbl = data.to(device), lbl.to(device)
            lbl = lbl.squeeze()
            # 모델에 Forward Propagation을 하여 결과를 도출합니다.
            output = model(data)

            # output의 max(dim=1)은 max probability와 max index를 반환합니다.
            # max probability는 무시하고, max index는 pred에 저장하여 label 값과 대조하여 정확도를 도출합니다.
            _, pred = output.max(dim=1)
            pred_array = pred.tolist()
            pred_list.append(pred_array) # confusion matrix를 위해 pred 리턴 값
            # pred.eq(lbl).sum() 은 정확히 맞춘 label의 합계를 계산합니다. item()은 tensor에서 값을 추출합니다.
            # 합계는 corr 변수에 누적합니다.
            corr += torch.sum(pred.eq(lbl)).item()
            
            # loss 값은 1개 배치의 평균 손실(loss) 입니다. data.size(0)은 배치사이즈(batch size) 입니다.
            # loss 와 data.size(0)를 곱하면 1개 배치의 전체 loss가 계산됩니다.
            # 이를 누적한 뒤 Epoch 종료시 전체 데이터셋의 개수로 나누어 평균 loss를 산출합니다.
            running_loss += loss_fn(output, lbl).item() * data.size(0)

        # validation 정확도를 계산합니다.
        # 누적한 정답숫자를 전체 데이터셋의 숫자로 나누어 최종 accuracy를 산출합니다.
        acc = corr / len(data_loader.dataset)

        # 결과를 반환합니다.
        # val_loss, val_acc
        return running_loss / len(data_loader.dataset), acc, pred_list

In [None]:
# 최대 Epoch을 지정합니다.
num_epochs = 100
min_loss = 9999999999999
loss_list=[]
acc_list=[]
# Epoch 별 훈련 및 검증을 수행합니다.
for epoch in range(num_epochs):
    # Model Training
    # 훈련 손실과 정확도를 반환 받습니다.
    train_loss, train_acc = model_train(model, train_dataloader, loss_fn, optimizer, device)
    
    # 검증 손실과 검증 정확도를 반환 받습니다.
    val_loss, val_acc = model_evaluate(model, test_dataloader, loss_fn, device)   

    # val_loss 가 개선되었다면 min_loss를 갱신하고 model의 가중치(weights)를 저장합니다.
    if val_loss < min_loss:
            print(f'[INFO] val_acc has been improved from {min_loss:.5f} to {val_loss:.5f}. Saving Model!')
            min_loss = val_loss
            torch.save(model.state_dict(), 'DNNModel.pth')

    # Epoch 별 결과를 출력합니다.
    print(f'epoch {epoch+1:02d}, loss: {train_loss:.5f}, acc: {train_acc:.5f}, val_loss: {val_loss:.5f}, val_accuracy: {val_acc:.5f}')
    loss_list.append(train_loss)
    acc_list.append(train_acc)
## 저장한 가중치 로드 후 검증 성능 측정

# 모델에 저장한 가중치를 로드합니다.
model.load_state_dict(torch.load('DNNModel.pth'))

# 최종 검증 손실(validation loss)와 검증 정확도(validation accuracy)를 산출합니다.
final_loss, final_acc, pred_list = model_test(model, test_dataloader, loss_fn, device)
print(f'evaluation loss: {final_loss:.5f}, evaluation accuracy: {final_acc:.5f}')


100%|█████████████████████████████████████████████████████████████████████████████| 8345/8345 [00:21<00:00, 390.08it/s]


[INFO] val_acc has been improved from 9999999999999.00000 to 0.78710. Saving Model!
epoch 01, loss: 0.87676, acc: 0.56752, val_loss: 0.78710, val_accuracy: 0.64059


100%|█████████████████████████████████████████████████████████████████████████████| 8345/8345 [00:21<00:00, 392.94it/s]


[INFO] val_acc has been improved from 0.78710 to 0.66267. Saving Model!
epoch 02, loss: 0.68585, acc: 0.70064, val_loss: 0.66267, val_accuracy: 0.72337


100%|█████████████████████████████████████████████████████████████████████████████| 8345/8345 [00:21<00:00, 383.64it/s]


[INFO] val_acc has been improved from 0.66267 to 0.58691. Saving Model!
epoch 03, loss: 0.58312, acc: 0.75804, val_loss: 0.58691, val_accuracy: 0.76019


100%|█████████████████████████████████████████████████████████████████████████████| 8345/8345 [00:21<00:00, 395.45it/s]


[INFO] val_acc has been improved from 0.58691 to 0.52938. Saving Model!
epoch 04, loss: 0.52443, acc: 0.78698, val_loss: 0.52938, val_accuracy: 0.78670


100%|█████████████████████████████████████████████████████████████████████████████| 8345/8345 [00:21<00:00, 393.43it/s]


[INFO] val_acc has been improved from 0.52938 to 0.50127. Saving Model!
epoch 05, loss: 0.48544, acc: 0.80506, val_loss: 0.50127, val_accuracy: 0.80237


100%|█████████████████████████████████████████████████████████████████████████████| 8345/8345 [00:21<00:00, 390.20it/s]


[INFO] val_acc has been improved from 0.50127 to 0.48120. Saving Model!
epoch 06, loss: 0.45789, acc: 0.81725, val_loss: 0.48120, val_accuracy: 0.80986


100%|█████████████████████████████████████████████████████████████████████████████| 8345/8345 [00:21<00:00, 394.43it/s]


[INFO] val_acc has been improved from 0.48120 to 0.46606. Saving Model!
epoch 07, loss: 0.43712, acc: 0.82564, val_loss: 0.46606, val_accuracy: 0.81902


100%|█████████████████████████████████████████████████████████████████████████████| 8345/8345 [00:21<00:00, 391.83it/s]


[INFO] val_acc has been improved from 0.46606 to 0.44712. Saving Model!
epoch 08, loss: 0.42056, acc: 0.83343, val_loss: 0.44712, val_accuracy: 0.82493


100%|█████████████████████████████████████████████████████████████████████████████| 8345/8345 [00:21<00:00, 388.67it/s]


[INFO] val_acc has been improved from 0.44712 to 0.43693. Saving Model!
epoch 09, loss: 0.40661, acc: 0.83935, val_loss: 0.43693, val_accuracy: 0.83023


100%|█████████████████████████████████████████████████████████████████████████████| 8345/8345 [00:21<00:00, 388.90it/s]


[INFO] val_acc has been improved from 0.43693 to 0.41167. Saving Model!
epoch 10, loss: 0.39417, acc: 0.84391, val_loss: 0.41167, val_accuracy: 0.84050


100%|█████████████████████████████████████████████████████████████████████████████| 8345/8345 [00:21<00:00, 389.94it/s]


[INFO] val_acc has been improved from 0.41167 to 0.40270. Saving Model!
epoch 11, loss: 0.38376, acc: 0.84925, val_loss: 0.40270, val_accuracy: 0.84539


100%|█████████████████████████████████████████████████████████████████████████████| 8345/8345 [00:21<00:00, 381.42it/s]


[INFO] val_acc has been improved from 0.40270 to 0.39348. Saving Model!
epoch 12, loss: 0.37445, acc: 0.85287, val_loss: 0.39348, val_accuracy: 0.84748


100%|█████████████████████████████████████████████████████████████████████████████| 8345/8345 [00:21<00:00, 390.18it/s]


epoch 13, loss: 0.36612, acc: 0.85735, val_loss: 0.39924, val_accuracy: 0.85015


100%|█████████████████████████████████████████████████████████████████████████████| 8345/8345 [00:21<00:00, 392.42it/s]


epoch 14, loss: 0.35882, acc: 0.85944, val_loss: 0.39376, val_accuracy: 0.84772


100%|█████████████████████████████████████████████████████████████████████████████| 8345/8345 [00:20<00:00, 399.48it/s]


[INFO] val_acc has been improved from 0.39348 to 0.38172. Saving Model!
epoch 15, loss: 0.35178, acc: 0.86238, val_loss: 0.38172, val_accuracy: 0.85590


100%|█████████████████████████████████████████████████████████████████████████████| 8345/8345 [00:24<00:00, 343.16it/s]


[INFO] val_acc has been improved from 0.38172 to 0.37268. Saving Model!
epoch 16, loss: 0.34570, acc: 0.86547, val_loss: 0.37268, val_accuracy: 0.85851


100%|█████████████████████████████████████████████████████████████████████████████| 8345/8345 [00:26<00:00, 318.56it/s]


epoch 17, loss: 0.34005, acc: 0.86722, val_loss: 0.37564, val_accuracy: 0.85767


100%|█████████████████████████████████████████████████████████████████████████████| 8345/8345 [00:25<00:00, 329.47it/s]


epoch 18, loss: 0.33619, acc: 0.86885, val_loss: 0.37319, val_accuracy: 0.85518


100%|█████████████████████████████████████████████████████████████████████████████| 8345/8345 [00:23<00:00, 351.17it/s]


[INFO] val_acc has been improved from 0.37268 to 0.36603. Saving Model!
epoch 19, loss: 0.33166, acc: 0.87070, val_loss: 0.36603, val_accuracy: 0.86159


100%|█████████████████████████████████████████████████████████████████████████████| 8345/8345 [00:24<00:00, 335.47it/s]


[INFO] val_acc has been improved from 0.36603 to 0.35497. Saving Model!
epoch 20, loss: 0.32657, acc: 0.87315, val_loss: 0.35497, val_accuracy: 0.86429


100%|█████████████████████████████████████████████████████████████████████████████| 8345/8345 [00:20<00:00, 406.47it/s]


[INFO] val_acc has been improved from 0.35497 to 0.35197. Saving Model!
epoch 21, loss: 0.32274, acc: 0.87451, val_loss: 0.35197, val_accuracy: 0.86459


 79%|████████████████████████████████████████████████████████████▊                | 6593/8345 [00:16<00:04, 394.51it/s]

In [None]:
pred_list

In [None]:
listarray=[]
for i in pred_list:
    for j in i:
        listarray.append(j)

In [None]:
listarray

## 그래프 그리기

In [None]:
train_loss_list = torch.tensor(loss_list)
train_acc_list = torch.tensor(acc_list)

In [None]:

plt.plot(train_loss_list, label='train loss',color='red')
plt.xlabel("epoch")
plt.ylabel("loss")
plt.legend()
plt.show()

In [None]:
plt.plot(train_acc_list, label='train accuracy',color='blue')
plt.xlabel("epoch")
plt.ylabel("accuracy")
plt.legend()
plt.show()

## Confusion matrix

In [None]:
from sklearn.metrics import confusion_matrix
from sklearn.metrics import confusion_matrix, ConfusionMatrixDisplay

confusion_matrix(y_test, listarray)

cm = confusion_matrix(y_test, listarray, labels=[0,1,2],normalize="true")
disp = ConfusionMatrixDisplay(confusion_matrix=cm,display_labels=[0,1,2])
disp.plot()
plt.show()

In [None]:
from sklearn.metrics import f1_score ## F1 Score 구하기
from sklearn.metrics import accuracy_score
f1 = f1_score(y_test,listarray,pos_label='positive', average='micro')
accuracy_score=accuracy_score(y_test, listarray) * 100
print(f1)
print("정확도: {}".format(accuracy_score))

In [None]:

print('SMOTE 적용 후 테스트용 피처/레이블 데이터 세트: ', X_test.shape, y_test.shape)
# print('SMOTE 적용 전 레이블 값 분포: \n', pd.Series(y).value_counts())
print('SMOTE 적용 후 레이블 값 분포: \n', pd.Series(y_test).value_counts())

In [None]:
from collections import Counter
result = Counter(listarray)

In [None]:
result

### AUC

In [None]:
from sklearn import preprocessing
def multiclass_roc_auc_score(y_test, y_pred, average="macro"):
    lb = preprocessing.LabelBinarizer()
    lb.fit(y_test)
    y_test = lb.transform(y_test)
    y_pred = lb.transform(y_pred)
    return roc_auc_score(y_test, y_pred, average=average)

In [None]:
from sklearn.datasets import make_classification
from sklearn.metrics import roc_curve, auc, roc_auc_score

from sklearn.naive_bayes import GaussianNB
from sklearn.multiclass import OneVsRestClassifier
from sklearn.preprocessing import label_binarize
from sklearn.model_selection import train_test_split
import matplotlib.pyplot as plt

# make sample data
n_classes = 3


print("roc_auc_score: ", multiclass_roc_auc_score(y_test, listarray))