In [1]:
import numpy as np
import random
import torch
import json
import os
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics import confusion_matrix, accuracy_score, precision_score, recall_score, fbeta_score, f1_score
from PyKomoran import *
from model.utils import set_seed
komoran=Komoran("EXP")
set_seed()

In [2]:
from model.MLP import Perceptron

In [3]:
#label list, mapping dict
label_list=['opening', 'request', 'wh-question', 'yn-question', 'inform', 'affirm', 'ack', 'expressive']
label_map = {label: i for i, label in enumerate(label_list)}

train_tfidf_list=list()
train_label_list=list()
test_tifdif_list=list()
test_label_list=list()

# Define Dataset and Dataloader for train and test
- 이 부분은 기존 코드로 사용하실 경우 함수화 해주시면 좋을 것 같습니다.
- 아래와 같이 itertools.chain과 zip을 활용하면, 데이터를 좀 더 직관적으로 빠르게 불러올 수 있습니다.
    - 파이썬에서는 왠만해서는 explicit하게 반복문을 안쓰는 것이 좋습니다. 
    - 특히, 딥러닝 하시면, 파이썬 코드를 최대한 효율적으로 짜는게 좋긴합니다. 경우에 따라서 5분이면 돌아갈 것이, 2~3시간 걸릴 수가 있습니다.
    - `itertools`는 파이썬 기본 라이브러리입니다.
    
> 학습에 사용할 데이터 형태에 따라서 이 부분은 정말 다양하게 만들 수 있습니다. 다양한 모델 코드 돌려보면서 Dataset과 Dataloader부분을 정의하는 다양한 방식을 습득하는 것이 중요합니다.

In [4]:
from itertools import chain

In [5]:
# load json data
train_path = 'data/SpeechAct_tr.json'
test_path = 'data/SpeechAct_te.json'

with open(train_path) as json_file:
    tr_json_data=json.load(json_file)
    
with open(test_path) as json_file:
    te_json_data=json.load(json_file)

- komoran tokenizer에서 tag_list를 제외했습니다.
    - 딥러닝할 때는 전체 품사를 다 넣는 것이 좋습니다. 
    - Information loss로 성능하락의 원인이 될 수 있습니다.
- TfidfVectorizer의 tokenizer로 사용하시는 토크나이저를 넘겨줬습니다.
- tfidf를 list로 굳이 변환하지 않았습니다.

In [6]:
## date preprocess and tfidfvectorizer
# train
# dictionary item에 대한 zip
_ ,tr_corpus = list(zip(*tr_json_data.items()))

# chain후 zip을 통해 sentence list, label list 분리.
_, tr_corpus, train_label_list = list(zip(*chain(*tr_corpus))) 

# label index화
train_label_list = [label_map[l] for l in train_label_list]

# tfidf 정의
tfidfvect = TfidfVectorizer(tokenizer=komoran.get_morphes_by_tags)

# fit, transform, fit_transform의 차이를 이해하세요.
train_tfidf_list = tfidfvect.fit_transform(tr_corpus).toarray().tolist()

In [7]:
# test
_ ,te_corpus = list(zip(*te_json_data.items()))
_, te_corpus, test_label_list = list(zip(*chain(*te_corpus)))
test_label_list = [label_map[l] for l in test_label_list]
test_tfidf_list = tfidfvect.transform(te_corpus).toarray().tolist() # transform

In [8]:
# to tensor
train_tfidf_tensor = torch.tensor(train_tfidf_list)
train_label_tensor = torch.tensor(train_label_list)
test_tfidf_tensor = torch.tensor(test_tfidf_list)
test_label_tensor = torch.tensor(test_label_list)

In [9]:
print(train_tfidf_tensor.shape)
print(train_label_tensor.shape)
print(test_tfidf_tensor.shape)
print(test_label_tensor.shape)

torch.Size([5825, 1117])
torch.Size([5825])
torch.Size([6671, 1117])
torch.Size([6671])


- batch_size는 되도록이면 크게
- test set은 shuffle 안함

In [10]:
bs = 256
vocab_size = train_tfidf_tensor.shape[1]

#데이터 묶기
Train_dataset = torch.utils.data.TensorDataset(train_tfidf_tensor, train_label_tensor)
Test_dataset = torch.utils.data.TensorDataset(test_tfidf_tensor, test_label_tensor)

#batch size 가져와서 학습
train_DataLoader = torch.utils.data.DataLoader(Train_dataset, shuffle=True, batch_size=bs, num_workers=2)
test_DataLoader = torch.utils.data.DataLoader(Test_dataset, batch_size=bs, num_workers=2)

# Define Model

- hidden layer의 activation function은 특별한 이유가 없으면 ReLU가 좋습니다.
- 항상 evaluate 기능을 만들어 두세요.
    - 그래야지 overfitting이 발생하지 않는 최적의 지점을 찾을 수 있습니다.
- 주의)
    - 여기서는 test set으로 evaluate를 진행했는데, 원래 정석은 train set에서 일정 부분을 쪼개서 dev(validation) set을 구성해야됩니다.

In [11]:
device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
model = Perceptron(vocab_size = vocab_size, label=len(label_list))
model.to(device)
criterion = torch.nn.CrossEntropyLoss()
optimizer = torch.optim.Adam(model.parameters(), lr=0.001)

In [13]:
epochs = 20

In [14]:
model.zero_grad()
for epoch in range(epochs):
    tr_loss = 0.
    tr_y_pred = np.array([])
    tr_y_true = np.array([])
    model.train()
    for step, batch in enumerate(train_DataLoader):
        
        inputs = batch[0].to(device)
        labels = batch[1].to(device)
        
        y_pred = model(inputs)
        loss = criterion(y_pred, labels)
        loss.backward()
        
        tr_loss += loss.item()
        tr_y_pred = np.concatenate((tr_y_pred, y_pred.argmax(axis=1).numpy()))
        tr_y_true = np.concatenate((tr_y_true, labels.numpy()))
        optimizer.step()
        model.zero_grad()
    
    # train summary
    tr_loss /= (step + 1)
    
    # calculate validation
    val_loss = 0.
    val_y_pred = np.array([])
    val_y_true = np.array([])
    model.eval()
    for step, batch in enumerate(test_DataLoader):
        inputs = batch[0].to(device)
        labels = batch[1].to(device)
        
        with torch.no_grad():
            y_pred = model(inputs)
            loss = criterion(y_pred, labels)
            
        val_loss += loss.item()
        val_y_pred = np.concatenate((val_y_pred, y_pred.argmax(axis=1).numpy()))
        val_y_true = np.concatenate((val_y_true, labels.numpy()))
    
    val_loss /= (step + 1)
    
    tr_acc = accuracy_score(tr_y_true, tr_y_pred)
    val_acc = accuracy_score(val_y_true, val_y_pred)
    tr_f1 = f1_score(tr_y_true, tr_y_pred, average='macro')
    val_f1 = f1_score(val_y_true, val_y_pred, average='macro')
    
    print(f"{epoch} epoch - tr_loss : {tr_loss:.4f} tr_acc {tr_acc:.4f} tr_f1 {tr_f1:.4f}  / val_loss : {val_loss:.4f} val_acc {val_acc:.4f} val_f1 {val_f1:.4f}")

add_(Number alpha, Tensor other)
Consider using one of the following signatures instead:
add_(Tensor other, Number alpha)
addcmul_(Number value, Tensor tensor1, Tensor tensor2)
Consider using one of the following signatures instead:
addcmul_(Tensor tensor1, Tensor tensor2, Number value)
addcdiv_(Number value, Tensor tensor1, Tensor tensor2)
Consider using one of the following signatures instead:
addcdiv_(Tensor tensor1, Tensor tensor2, Number value)


0 epoch - tr_loss : 1.8723 tr_acc 0.3653 tr_f1 0.1272  / val_loss : 1.5118 val_acc 0.3869 val_f1 0.0697


  'precision', 'predicted', average, warn_for)


1 epoch - tr_loss : 1.2299 tr_acc 0.5538 tr_f1 0.2745  / val_loss : 0.8779 val_acc 0.8108 val_f1 0.5276
2 epoch - tr_loss : 0.6509 tr_acc 0.8414 tr_f1 0.5488  / val_loss : 0.4779 val_acc 0.8579 val_f1 0.5605
3 epoch - tr_loss : 0.4066 tr_acc 0.8668 tr_f1 0.5754  / val_loss : 0.3589 val_acc 0.8750 val_f1 0.6070
4 epoch - tr_loss : 0.3221 tr_acc 0.8910 tr_f1 0.7107  / val_loss : 0.2941 val_acc 0.9059 val_f1 0.7776
5 epoch - tr_loss : 0.2673 tr_acc 0.9114 tr_f1 0.7888  / val_loss : 0.2525 val_acc 0.9174 val_f1 0.7960
6 epoch - tr_loss : 0.2357 tr_acc 0.9226 tr_f1 0.8293  / val_loss : 0.2297 val_acc 0.9231 val_f1 0.8146
7 epoch - tr_loss : 0.2139 tr_acc 0.9310 tr_f1 0.8441  / val_loss : 0.2190 val_acc 0.9306 val_f1 0.8541
8 epoch - tr_loss : 0.2021 tr_acc 0.9324 tr_f1 0.8668  / val_loss : 0.2101 val_acc 0.9282 val_f1 0.8610
9 epoch - tr_loss : 0.1916 tr_acc 0.9351 tr_f1 0.8700  / val_loss : 0.1985 val_acc 0.9358 val_f1 0.8692
10 epoch - tr_loss : 0.1782 tr_acc 0.9408 tr_f1 0.8777  / val_lo

---

# 개선 방향
- tensorboard를 적용해서 learning curve를 시각화해보세요.
- early stopping을 적용해서 최적의 하이퍼파라미터를 찾아보세요.
- 가장 좋은 성능을 보이는 모델을 저장해보세요.
- inference.py를 만들어보세요.
- 본인만의 딥러닝 템플릿을 만들어보세요.