Numpy 버전 issue로 1.23으로 downgrade\
참고: https://github.com/NVIDIA/TensorRT/issues/2567

In [7]:
# requirement 다운로드
!pip install mxnet
!pip install gluonnlp pandas tqdm
!pip install sentencepiece
!pip install transformers
!pip install torch
!pip install numpy==1.23

Collecting mxnet
  Downloading mxnet-1.9.1-py3-none-manylinux2014_x86_64.whl (49.1 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m49.1/49.1 MB[0m [31m15.7 MB/s[0m eta [36m0:00:00[0m
Collecting graphviz<0.9.0,>=0.8.1 (from mxnet)
  Downloading graphviz-0.8.4-py2.py3-none-any.whl (16 kB)
Installing collected packages: graphviz, mxnet
  Attempting uninstall: graphviz
    Found existing installation: graphviz 0.20.3
    Uninstalling graphviz-0.20.3:
      Successfully uninstalled graphviz-0.20.3
Successfully installed graphviz-0.8.4 mxnet-1.9.1
Collecting gluonnlp
  Downloading gluonnlp-0.10.0.tar.gz (344 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m344.5/344.5 kB[0m [31m2.2 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
Building wheels for collected packages: gluonnlp
  Building wheel for gluonnlp (setup.py) ... [?25l[?25hdone
  Created wheel for gluonnlp: filename=gluonnlp-0.10.0-cp310-cp310-li

Azure에서 serving하던 모델 다운로드 서비스 문제로 hugging face를 통한 모델 다운로드 버전의 코드 변경\
참고1: https://github.com/SKTBrain/KoBERT/issues/102 \
참고2: https://github.com/SKTBrain/KoBERT/issues/67 \
아래에 있는 KoBERT 관련 코드들도 이에 맞게 수정

In [1]:
# colab과 google drive 연동
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [2]:
# KoBERT를 github에서 colab으로 다운로드

# 변경 전)
# !pip install git+https://github.com/SKTBrain/KoBERT.git@master

# 변경 후)
!pip install 'git+https://github.com/SKTBrain/KoBERT.git#egg=kobert_tokenizer&subdirectory=kobert_hf'

Collecting kobert_tokenizer
  Cloning https://github.com/SKTBrain/KoBERT.git to /tmp/pip-install-80smk1ry/kobert-tokenizer_1b3edd2b98e944659316d573a75c74f8
  Running command git clone --filter=blob:none --quiet https://github.com/SKTBrain/KoBERT.git /tmp/pip-install-80smk1ry/kobert-tokenizer_1b3edd2b98e944659316d573a75c74f8
  Resolved https://github.com/SKTBrain/KoBERT.git to commit 47a69af87928fc24e20f571fe10c3cc9dd9af9a3
  Preparing metadata (setup.py) ... [?25l[?25hdone


In [3]:
# KoBERT 관련 library import

# 변경 전)
# from kobert.utils import get_tokenizer
# from kobert.pytorch_kobert import get_pytorch_kobert_model

# 변경 후)
from kobert_tokenizer import KoBERTTokenizer
from transformers import BertModel

In [4]:
# Transformers 관련 libary import
from transformers import AdamW
from transformers.optimization import get_cosine_schedule_with_warmup

In [5]:
# Setting Library
import torch
from torch import nn
import torch.nn.functional as F
import torch.optim as optim
from torch.utils.data import Dataset, DataLoader
import numpy as np
import gluonnlp as nlp
from tqdm import tqdm, tqdm_notebook
import pandas as pd

In [6]:
print(torch.cuda.is_available())

True


In [7]:
# colab GPU 사용, 실패 시 CPU로 대체
if torch.cuda.is_available():
  device = torch.device("cuda:0")
else:
  device = torch.device("cpu")

In [8]:
# 관련 데이터를 save/load할 path
myDrivePath = '/MyDrive/2024-1/AI 프로젝트 입문/colab/'

In [9]:
# 감성대화 말뭉치 dataset (https://aihub.or.kr/aidata/7978)
train_data = pd.read_excel("/content/drive/" + myDrivePath + "/감성대화말뭉치(최종데이터)_Training.xlsx")
valid_data = pd.read_excel("/content/drive/" + myDrivePath + "/감성대화말뭉치(최종데이터)_Validation.xlsx")

In [10]:
# NULL value를 ""로 변경
train_data = train_data.fillna("")
valid_data = valid_data.fillna("")

In [11]:
# 감성대화 말뭉치에서의 각 사람의 문장을 하나로 합침(감정은 동일)
train_data["문장"] = train_data["사람문장1"].astype(str) + train_data["사람문장2"].astype(str) + train_data["사람문장3"].astype(str)
valid_data["문장"] = valid_data["사람문장1"].astype(str) + valid_data["사람문장2"].astype(str) + valid_data["사람문장3"].astype(str)

In [12]:
# 모든 데이터를 하나로 묶음
concat_data = pd.concat([train_data, valid_data])

In [13]:
# 데이터 중 발화 문장과 감정이 대분류를 제외한 나머지 열을 버림
concat_data = concat_data[["문장", "감정_대분류"]]

In [14]:
# column의 이름 변경 및 data cleaning
concat_data = concat_data.rename({"감정_대분류" : "감정"},axis=1)
concat_data["감정"] = concat_data["감정"].apply(lambda x:x.strip())

In [15]:
# 각 감정별 개수 확인
concat_data["감정"].value_counts()

감정
불안    10433
분노    10417
상처    10150
슬픔    10128
당황     9804
기쁨     7339
Name: count, dtype: int64

In [16]:
# 정리한 데이터 예제
concat_data.sample(n=10)

Unnamed: 0,문장,감정
24555,친구가 많이 힘든 상황에 있는데 연락이 없어져서 불안해.아무래도 무슨 일이 생긴 것...,불안
49651,우울증 때문에 남자 친구를 괴롭게 하는 내가 싫어. 난 왜 다른 사람을 괴롭게 하는...,당황
20955,부모님께 받은 학원 비를 옷 사는데 쓰고 학원 등록을 하지 않았는데 걸릴까봐 불안해...,불안
17817,아내와 이혼한지 얼마 안 됐는데 전 아내가 재혼한다는 소식을 들었어.재혼이 안 되는...,분노
40673,은퇴한 이후 무료한 시간을 보내다가 우연히 인터넷 게임을 시작했는데 나 자신도 모...,당황
8482,내 앞에서 온갖 친한 척을 다 하던 직장 동료가 뒤에서는 내 뒷담이나 하고 있었어....,분노
27854,붉은 반점이 올라오는 병이 뭐가 있는지 모르겠어. 집사람이 큰 병에 걸릴 걸까 걱정...,불안
25549,세상 모든 사람이 나보다 경제적으로 풍족하고 행복하게 사는 것 같아.나만 힘들게 사...,당황
20011,노인 일자리 센터에서 소개해준 곳에서 고혈압이 있다고 채용을 취소하겠다네.출근하라고...,상처
16139,아침부터 저녁까지 매일 같이 화만 내니 남편이랑 더 이상 같이 못 살겠어!별일 아닌...,분노


In [17]:
# 각 감정을 array로 변경
emotion_array = concat_data["감정"].unique()

In [18]:
# 감정의 개수 및 종류 확인(이후 class의 개수를 정할 때 사용)
print(emotion_array)

['분노' '기쁨' '불안' '당황' '슬픔' '상처']


In [19]:
# column이 string type의 특정 감정에 해당하는 경우, array에서의 해당 감정에 대한 index로 변경
for index, emotion in enumerate(emotion_array):
  concat_data.loc[(concat_data["감정"] == emotion), "감정"] = index

In [20]:
# 감정이 인덱스에 맞게 변경된 것을 확인
concat_data["감정"].value_counts()

감정
2    10433
0    10417
5    10150
4    10128
3     9804
1     7339
Name: count, dtype: int64

In [21]:
# 각 문장과 감정을 묶어 string으로 구성된 list로 만듦
data_list = []
for q, label in zip(concat_data['문장'], concat_data['감정'])  :
    data = []
    data.append(q)
    data.append(str(label))

    data_list.append(data)

In [22]:
# data_list의 format 확인(2차원 list로 각각 string type의 문장과 감정 인덱스 저장)
data_list[:5]

[['일은 왜 해도 해도 끝이 없을까? 화가 난다.그냥 내가 해결하는 게 나아. 남들한테 부담 주고 싶지도 않고.', '0'],
 ['이번 달에 또 급여가 깎였어! 물가는 오르는데 월급만 자꾸 깎이니까 너무 화가 나.최대한 지출을 억제해야겠어. 월급이 줄어들었으니 고정지출을 줄일 수밖에 없을 것 같아.',
  '0'],
 ['회사에 신입이 들어왔는데 말투가 거슬려. 그런 애를 매일 봐야 한다고 생각하니까 스트레스 받아. 잘 안 맞는 사람이랑 억지로 잘 지내는 것보단 조금은 거리를 두고 예의를 갖춰서 대하는 게 덜 스트레스받을 것 같아.',
  '0'],
 ['직장에서 막내라는 이유로 나에게만 온갖 심부름을 시켜. 일도 많은 데 정말 분하고 섭섭해.직장 사람들과 솔직하게 이야기해보고 싶어. 일하는 데에 방해된다고.',
  '0'],
 ['얼마 전 입사한 신입사원이 나를 무시하는 것 같아서 너무 화가 나.상사인 나에게 먼저 인사하지 않아서 매일 내가 먼저 인사한다고!',
  '0']]

In [23]:
# train할 데이터와 test로 쓸 데이터 분리
from sklearn.model_selection import train_test_split

dataset_train, dataset_test = train_test_split(data_list, test_size=0.2, shuffle=True, random_state=1)

In [24]:
# 분리된 데이터 개수 및 비율 확인
print("train data:", len(dataset_train))
print("test data:", len(dataset_test))
# 위에서 정의한 test_size와 비슷하게 나옴
print("ratio:", len(dataset_test) / (len(dataset_test) + len(dataset_train)))

train data: 46616
test data: 11655
ratio: 0.2000137289560845


In [25]:
# BERTSentenceTransform를 변경된 KoBERT tokenizer에 맞게 수정
# docs: https://nlp.gluon.ai/api/data.html#gluonnlp.data.BERTSentenceTransform
# 원래 코드: https://nlp.gluon.ai/_modules/gluonnlp/data/transforms.html#BERTSentenceTransform
class KoBERTSentenceTransform:
    r"""BERT style data transformation.

    Parameters
    ----------
    tokenizer : BERTTokenizer.
        Tokenizer for the sentences.
    max_seq_length : int.
        Maximum sequence length of the sentences.
    vocab : Vocab
        The vocabulary which has cls_token and sep_token registered.
        If vocab.cls_token is not present, vocab.bos_token is used instead.
        If vocab.sep_token is not present, vocab.eos_token is used instead.
    pad : bool, default True
        Whether to pad the sentences to maximum length.
    pair : bool, default True
        Whether to transform sentences or sentence pairs.
    """

    def __init__(self, tokenizer, max_seq_length, vocab=None, pad=True, pair=True):
        self._tokenizer = tokenizer
        self._max_seq_length = max_seq_length
        self._pad = pad
        self._pair = pair
        self._vocab = self._tokenizer.vocab if vocab is None else vocab
        # RoBERTa does not register CLS token and SEP token
        if hasattr(self._vocab, 'cls_token'):
            self._cls_token = self._vocab.cls_token
        else:
            self._cls_token = self._vocab.bos_token
        if hasattr(self._vocab, 'sep_token'):
            self._sep_token = self._vocab.sep_token
        else:
            self._sep_token = self._vocab.eos_token
        self._padding_token = self._vocab.padding_token

    def __call__(self, line):
        """Perform transformation for sequence pairs or single sequences.

        The transformation is processed in the following steps:
        - tokenize the input sequences
        - insert [CLS], [SEP] as necessary
        - generate type ids to indicate whether a token belongs to the first
        sequence or the second sequence.
        - generate valid length

        For sequence pairs, the input is a tuple of 2 strings:
        text_a, text_b.

        Inputs:
            text_a: 'is this jacksonville ?'
            text_b: 'no it is not'
        Tokenization:
            text_a: 'is this jack ##son ##ville ?'
            text_b: 'no it is not .'
        Processed:
            tokens: '[CLS] is this jack ##son ##ville ? [SEP] no it is not . [SEP]'
            type_ids: 0     0  0    0    0     0       0 0     1  1  1  1   1 1
            valid_length: 14

        For single sequences, the input is a tuple of single string:
        text_a.

        Inputs:
            text_a: 'the dog is hairy .'
        Tokenization:
            text_a: 'the dog is hairy .'
        Processed:
            text_a: '[CLS] the dog is hairy . [SEP]'
            type_ids: 0     0   0   0  0     0 0
            valid_length: 7

        If vocab.cls_token and vocab.sep_token are not present,
        vocab.bos_token and vocab.eos_token are used instead.

        Parameters
        ----------
        line: tuple of str
            Input strings. For sequence pairs, the input is a tuple of 2 strings:
            (text_a, text_b). For single sequences, the input is a tuple of single
            string: (text_a,).

        Returns
        -------
        np.array: input token ids in 'int32', shape (batch_size, seq_length)
        np.array: valid length in 'int32', shape (batch_size,)
        np.array: input token type ids in 'int32', shape (batch_size, seq_length)

        """

        # convert to unicode
        text_a = line[0]
        if self._pair:
            assert len(line) == 2
            text_b = line[1]

        # 수정된 부분(https://github.com/SKTBrain/KoBERT/issues/104#issuecomment-1544185148)
        # tokenize를 사용하지 않으면 tokenize와 vocabulary encoding이 같이 일어남
        # 이 경우의 결과가 dictionary이므로, key 값에 대해 encoding이 한 번 더 일어나, 결과가 [2, 0, 0, 0, 3]으로 고정됨
        # 후에 encoding을 한 번 더 하지 않는 방법도 있으나, padding을 위해 초기에 tokenize만 하는 방식으로 수정

        # 변경 전)
        # tokens_a = self._tokenizer(text_a)
        # 변경 후)
        tokens_a = self._tokenizer.tokenize(text_a)
        tokens_b = None

        if self._pair:
            tokens_b = self._tokenizer(text_b)

        if tokens_b:
            # Modifies `tokens_a` and `tokens_b` in place so that the total
            # length is less than the specified length.
            # Account for [CLS], [SEP], [SEP] with "- 3"
            self._truncate_seq_pair(tokens_a, tokens_b,
                                    self._max_seq_length - 3)
        else:
            # Account for [CLS] and [SEP] with "- 2"
            if len(tokens_a) > self._max_seq_length - 2:
                tokens_a = tokens_a[0:(self._max_seq_length - 2)]

        # The embedding vectors for `type=0` and `type=1` were learned during
        # pre-training and are added to the wordpiece embedding vector
        # (and position vector). This is not *strictly* necessary since
        # the [SEP] token unambiguously separates the sequences, but it makes
        # it easier for the model to learn the concept of sequences.

        # For classification tasks, the first vector (corresponding to [CLS]) is
        # used as as the "sentence vector". Note that this only makes sense because
        # the entire model is fine-tuned.
        tokens = []
        tokens.append(self._cls_token)
        tokens.extend(tokens_a)
        tokens.append(self._sep_token)
        segment_ids = [0] * len(tokens)

        if tokens_b:
            tokens.extend(tokens_b)
            tokens.append(self._sep_token)
            segment_ids.extend([1] * (len(tokens) - len(segment_ids)))

        input_ids = self._vocab[tokens]

        # The valid length of sentences. Only real  tokens are attended to.
        valid_length = len(input_ids)

        if self._pad:
            # Zero-pad up to the sequence length.
            padding_length = self._max_seq_length - valid_length
            # use padding tokens for the rest
            input_ids.extend([self._vocab[self._padding_token]] * padding_length)
            segment_ids.extend([0] * padding_length)

        return np.array(input_ids, dtype='int32'), np.array(valid_length, dtype='int32'),\
            np.array(segment_ids, dtype='int32')

In [26]:
# BERT data set
class BERTDataset(Dataset):
    def __init__(self, dataset, sent_idx, label_idx, bert_tokenizer, vocab, max_len, pad, pair):
        # 위에서 KoBERT에 맞게 재정의한 BERTSentenceTransform을 사용
        transform = KoBERTSentenceTransform(bert_tokenizer, max_seq_length=max_len, vocab=vocab, pad=pad, pair=pair)

        # 각각의 문장과 그 감정의 인덱스를 feature와 label로서 저장
        self.sentences = [transform([i[sent_idx]]) for i in dataset]
        self.labels = [np.int32(i[label_idx]) for i in dataset]

    def __getitem__(self, i):
        return (self.sentences[i] + (self.labels[i], ))

    def __len__(self):
        return (len(self.labels))

In [27]:
#Setting parameters
max_len = 64
batch_size = 64
warmup_ratio = 0.1

# epoch 수정 파트
num_epochs = 5

max_grad_norm = 1
log_interval = 200
learning_rate =  5e-5

In [28]:
# BERT 모델, Vocabulary 불러오기

# 변경 전)
# tokenizer = get_tokenizer()
# bertmodel, vocab = get_pytorch_kobert_model()

# 변경 후)
tokenizer = KoBERTTokenizer.from_pretrained('skt/kobert-base-v1')
bertmodel = BertModel.from_pretrained('skt/kobert-base-v1', return_dict=False)
vocab = nlp.vocab.BERTVocab.from_sentencepiece(tokenizer.vocab_file, padding_token='[PAD]')

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


tokenizer_config.json:   0%|          | 0.00/432 [00:00<?, ?B/s]

spiece.model:   0%|          | 0.00/371k [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/244 [00:00<?, ?B/s]

The tokenizer class you load from this checkpoint is not the same type as the class this function is called from. It may result in unexpected tokenization. 
The tokenizer class you load from this checkpoint is 'XLNetTokenizer'. 
The class this function is called from is 'KoBERTTokenizer'.


config.json:   0%|          | 0.00/535 [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/369M [00:00<?, ?B/s]

In [29]:
# sentence piece tokenize and vocabulary encoding
data_train = BERTDataset(dataset_train, 0, 1, tokenizer, vocab, max_len, True, False)
data_test = BERTDataset(dataset_test, 0, 1, tokenizer, vocab, max_len, True, False)

In [30]:
# sentence piece에 대해 tokenize한 결과와 이를 vocabulary에 의해 encoding된 결과 확인
print(data_train[0])

(array([   2, 1986, 6328, 1369, 5770, 1655, 6896, 4656, 6116, 2010, 5782,
       5330, 5760, 4688, 3818, 1407,  862,  832,   54, 6875, 6036, 1952,
       4074, 6745, 6706, 7096, 4593, 7819, 3155, 4656, 6079, 1655, 5017,
       5838, 2856, 7096, 3084, 6060,   54, 5649, 5770, 6142, 4656, 6150,
       2010, 7318, 3149,  777, 5788, 7828,  517, 6539, 5920, 7044, 7483,
       6006, 4461, 6183, 6856, 5405, 6855,   54,    3,    1], dtype=int32), array(63, dtype=int32), array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
      dtype=int32), 2)


In [31]:
# data loader: data set을 mini batch 단위로 쪼갬
train_dataloader = torch.utils.data.DataLoader(data_train, batch_size=batch_size, num_workers=4)
test_dataloader = torch.utils.data.DataLoader(data_test, batch_size=batch_size, num_workers=4)



In [32]:
# KoBERT에서 제공하는 BERT classifier class
# 참고: https://github.com/SKTBrain/KoBERT/blob/master/scripts/NSMC/naver_review_classifications_pytorch_kobert.ipynb

# torch의 nn.Module를 상속(inheritence) 받음
class BERTClassifier(nn.Module):
    def __init__(self,
                        bert,
                        hidden_size = 768,
                        num_classes=2,    # 감정 개수만큼 클래스 수 조정
                        dr_rate=None,
                        params=None):
        # nn.Module의 property를 parameter로 초기화
        super(BERTClassifier, self).__init__()
        self.bert = bert
        self.dr_rate = dr_rate

        self.classifier = nn.Linear(hidden_size, num_classes)
        if dr_rate:
            self.dropout = nn.Dropout(p=dr_rate)

    # forward에서 사용할 padding을 구분하는 mask를 생성하는 함수
    def gen_attention_mask(self, token_ids, valid_length):
        attention_mask = torch.zeros_like(token_ids)
        for i, v in enumerate(valid_length):
            attention_mask[i][:v] = 1
        return attention_mask.float()

    # nn.Module의 forward 함수 override (함수의 parameter는 data loader의 data set 참고)
    def forward(self, token_ids, valid_length, segment_ids):
        attention_mask = self.gen_attention_mask(token_ids, valid_length)

        #bert model returns 'last_hidden_state' and 'pooler_output'
        pooler = self.bert(input_ids = token_ids, token_type_ids = segment_ids.long(), attention_mask = attention_mask.float().to(token_ids.device))[1]

        if self.dr_rate:
            out = self.dropout(pooler)
        return self.classifier(out)

In [33]:
# 위에서 정의한 BERT classifier model(device는 위에서 설정한 GPU 혹은 CPU)
# class의 수는 emotion의 종류의 개수로, 위에서 저장한 emotion array를 사용
model = BERTClassifier(bertmodel,  num_classes=len(emotion_array), dr_rate=0.5).to(device)

In [34]:
#optimizer와 schedule 설정

# adamW에서의 weight decay 설정
no_decay = ['bias', 'LayerNorm.weight']
optimizer_grouped_parameters = [
    {'params': [p for n, p in model.named_parameters() if not any(nd in n for nd in no_decay)], 'weight_decay': 0.01},
    {'params': [p for n, p in model.named_parameters() if any(nd in n for nd in no_decay)], 'weight_decay': 0.0}
]

# optimizer와 loss function 설정(각각 AdamW와 cross entropy)
optimizer = AdamW(optimizer_grouped_parameters, lr=learning_rate)
loss_fn = nn.CrossEntropyLoss()

# early over-fitting을 줄이기 위해 warm up 설정
t_total = len(train_dataloader) * num_epochs
warmup_step = int(t_total * warmup_ratio)

# learning rate를 cos함수를 통해 변경(scheduling)
# cosine decay를 활용하면 learning rate가 급격히 변해, saddle point로 빠르게 빠져나올 수 있음
scheduler = get_cosine_schedule_with_warmup(optimizer, num_warmup_steps=warmup_step, num_training_steps=t_total)



In [35]:
#정확도 측정을 위한 함수 정의
def calc_accuracy(X,Y):
    max_vals, max_indices = torch.max(X, 1)
    train_acc = (max_indices == Y).sum().data.cpu().numpy()/max_indices.size()[0]
    return train_acc

In [36]:
best_acc=0.0
best_loss=99999999
ckpt_path="/content/drive/" + myDrivePath
ckpt_name=ckpt_path+"saved_model.pt"

In [37]:
# 모델 학습

# num_epochs는 위에서 설정
for e in range(num_epochs):
    train_acc = 0.0
    test_acc = 0.0

    # model을 train mode로 설정(model이 Dropout이나 BatNorm2d를 사용하는 경우, 이를 사용하도록 설정)
    model.train()
    for batch_id, (token_ids, valid_length, segment_ids, label) in enumerate(tqdm_notebook(train_dataloader)):
        # iteration 시작 시, gradient를 0으로 초기화(이전 step에서의 변화를 누적하지 않음)
        optimizer.zero_grad()

        # forward propagation
        token_ids = token_ids.long().to(device)
        segment_ids = segment_ids.long().to(device)
        valid_length = valid_length
        label = label.long().to(device)
        out = model(token_ids, valid_length, segment_ids)

        # loss_function: cross entropy
        loss = loss_fn(out, label)

        # back propagation

        # loss를 back propagation하고, 그 변화의 정도를 PyTorch에서 저장(loss.data 혹은 loss.detach에서 확인 가능)
        loss.backward()
        # gradient clipping(https://sanghyu.tistory.com/87)
        torch.nn.utils.clip_grad_norm_(model.parameters(), max_grad_norm)

        # 앞서 저장한, loss의 변화를 바탕으로 parameter update
        optimizer.step()
        # optimizer에서의 step에 따라, learning rate schedule도 update
        scheduler.step()
        # 현재 정확도를 저장 후, 전체 정확도에 합산(이후 출력시에는 batch size로 나누어 평균으로 출력)
        train_acc += calc_accuracy(out, label)

        # 위에서 정한 log 분기마다 loss와 accuracy 출력
        if batch_id % log_interval == 0:
            print(" epoch: {}, batch id: {}, loss: {}, train acc: {}".format(e+1, batch_id+1, loss.data.cpu().numpy(), train_acc / (batch_id+1)))
    print("epoch: {} train acc: {}".format(e+1, train_acc / (batch_id+1)))

    # model을 eval mode로 설정(model이 Dropout이나 BatNorm2d를 사용하는 경우, evaluation 시에는 이를 사용하지 않도록 설정)
    model.eval()
    for batch_id, (token_ids, valid_length, segment_ids, label) in enumerate(tqdm_notebook(test_dataloader)):
        # forward propagation로 입력에 대한 model의 결과 계산(과정은 train 때와 동일)
        token_ids = token_ids.long().to(device)
        segment_ids = segment_ids.long().to(device)
        valid_length = valid_length
        label = label.long().to(device)
        out = model(token_ids, valid_length, segment_ids)

        # 현재 정확도를 저장 후, 전체 정확도에 합산(이후 출력시에는 batch size로 나누어 평균으로 출력)
        test_acc += calc_accuracy(out, label)
    print("epoch: {} test acc: {}".format(e+1, test_acc / (batch_id+1)))

Please use `tqdm.notebook.tqdm` instead of `tqdm.tqdm_notebook`
  for batch_id, (token_ids, valid_length, segment_ids, label) in enumerate(tqdm_notebook(train_dataloader)):


  0%|          | 0/729 [00:00<?, ?it/s]

 epoch: 1, batch id: 1, loss: 1.8829915523529053, train acc: 0.25
 epoch: 1, batch id: 201, loss: 1.2084702253341675, train acc: 0.28661380597014924
 epoch: 1, batch id: 401, loss: 0.9990329742431641, train acc: 0.44314993765586036
 epoch: 1, batch id: 601, loss: 1.041885495185852, train acc: 0.5077995008319468
epoch: 1 train acc: 0.532114483310471


Please use `tqdm.notebook.tqdm` instead of `tqdm.tqdm_notebook`
  for batch_id, (token_ids, valid_length, segment_ids, label) in enumerate(tqdm_notebook(test_dataloader)):


  0%|          | 0/183 [00:00<?, ?it/s]

epoch: 1 test acc: 0.6466627634660421


  0%|          | 0/729 [00:00<?, ?it/s]

 epoch: 2, batch id: 1, loss: 0.7789875864982605, train acc: 0.703125
 epoch: 2, batch id: 201, loss: 0.9044623970985413, train acc: 0.652363184079602
 epoch: 2, batch id: 401, loss: 0.9034685492515564, train acc: 0.6638481920199502
 epoch: 2, batch id: 601, loss: 0.895724356174469, train acc: 0.6737208818635607
epoch: 2 train acc: 0.6783050411522634


  0%|          | 0/183 [00:00<?, ?it/s]

epoch: 2 test acc: 0.666044594067135


  0%|          | 0/729 [00:00<?, ?it/s]

 epoch: 3, batch id: 1, loss: 0.5975338816642761, train acc: 0.796875
 epoch: 3, batch id: 201, loss: 0.7588786482810974, train acc: 0.7124533582089553
 epoch: 3, batch id: 401, loss: 0.7166846394538879, train acc: 0.7229192643391521
 epoch: 3, batch id: 601, loss: 0.777839720249176, train acc: 0.7326071131447587
epoch: 3 train acc: 0.738547382258802


  0%|          | 0/183 [00:00<?, ?it/s]

epoch: 3 test acc: 0.6788397736143638


  0%|          | 0/729 [00:00<?, ?it/s]

 epoch: 4, batch id: 1, loss: 0.5573669672012329, train acc: 0.78125
 epoch: 4, batch id: 201, loss: 0.6291278004646301, train acc: 0.7699782338308457
 epoch: 4, batch id: 401, loss: 0.5576983690261841, train acc: 0.779925187032419
 epoch: 4, batch id: 601, loss: 0.6208622455596924, train acc: 0.7897254575707154
epoch: 4 train acc: 0.7940529263831734


  0%|          | 0/183 [00:00<?, ?it/s]

epoch: 4 test acc: 0.6852434621389539


  0%|          | 0/729 [00:00<?, ?it/s]

 epoch: 5, batch id: 1, loss: 0.5177686214447021, train acc: 0.8125
 epoch: 5, batch id: 201, loss: 0.5233592391014099, train acc: 0.8212064676616916
 epoch: 5, batch id: 401, loss: 0.5575588345527649, train acc: 0.8271119077306733
 epoch: 5, batch id: 601, loss: 0.5081973671913147, train acc: 0.8314007903494176
epoch: 5 train acc: 0.8337191358024691


  0%|          | 0/183 [00:00<?, ?it/s]

epoch: 5 test acc: 0.6855118071818891


In [38]:
# 모델 저장(save)
torch.save(model.state_dict(), ckpt_name)

In [39]:
# 모델 불러오기(load)
# model = TheModelClass(*args, **kwargs)
# model.load_state_dict(torch.load(PATH))
# model.eval()

In [40]:
# 모델 검증(inference)
def predict(predict_sentence):
    # 2차원 배열임에 주의
    data_set = [[predict_sentence, '0']]

    # tokenize 및 data_loader 설정
    test_set = BERTDataset(data_set, 0, 1, tokenizer, vocab, max_len, True, False)
    test_dataloader = torch.utils.data.DataLoader(test_set, batch_size=batch_size, num_workers=4)

    # model을 evaluate mode로 설정
    model.eval()
    # loss에서의 backward와 같은 gradient 연산을 Tensor에 기록하는 것을 중단(연산 속도 증가)
    with torch.no_grad():
        # iteration은 data set이 1개이므로, 1회만 수행
        for batch_id, (token_ids, valid_length, segment_ids, label) in enumerate(test_dataloader):
            # forward propagation
            token_ids = token_ids.long().to(device)
            segment_ids = segment_ids.long().to(device)
            valid_length= valid_length
            label = label.long().to(device)
            out = model(token_ids, valid_length, segment_ids)

            # test 결과 저장
            test_eval=[]
            for i in out:
                # 결과를 index로 출력
                logits = i.detach().cpu().numpy()
                # index에 해당하는 감정 저장
                test_eval.append(emotion_array[np.argmax(logits)])

            # test 결과 출력
            print(">> 입력하신 내용에서 " + test_eval[0] + "(이)가 느껴집니다.")

In [50]:
# TEST
sentences = [
    "교수님 사랑합니다",
    "시험을 망쳤어",
    "친구랑 싸웠어",
    "프로그래밍 좋아",
    "여친과 헤어졌어",
    "면접을 잘 본 것 같아",
    "퀴즈에서 좋은 점수를 얻지 못할까봐 너무나도 불안해",
    "합격자 명단에 내 이름이 없었어",
    "내가 지병이 있다는 이유로 회사에서 불합격 통보를 내렸어"
]

for sentence in sentences:
  print(sentence)
  predict(sentence)

교수님 사랑합니다
>> 입력하신 내용에서 기쁨(이)가 느껴집니다.
시험을 망쳤어
>> 입력하신 내용에서 분노(이)가 느껴집니다.
친구랑 싸웠어
>> 입력하신 내용에서 슬픔(이)가 느껴집니다.
프로그래밍 좋아
>> 입력하신 내용에서 기쁨(이)가 느껴집니다.
여친과 헤어졌어
>> 입력하신 내용에서 슬픔(이)가 느껴집니다.
면접을 잘 본 것 같아
>> 입력하신 내용에서 기쁨(이)가 느껴집니다.
퀴즈에서 좋은 점수를 얻지 못할까봐 너무나도 불안해
>> 입력하신 내용에서 불안(이)가 느껴집니다.
합격자 명단에 내 이름이 없었어
>> 입력하신 내용에서 당황(이)가 느껴집니다.
내가 지병이 있다는 이유로 회사에서 불합격 통보를 내렸어
>> 입력하신 내용에서 분노(이)가 느껴집니다.
