<a href="https://colab.research.google.com/github/sssanghn/AI-Emotion-Diary/blob/main/KoBERT_Finetuning.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# KoBERT 감정 다중분류모델

> KoBERT를 이용하여 한국어 문장을 여러 클래스로 분류하는 모델을 만들어 보려고 한다.
</br>
공포, 놀람, 분노, 슬픔, 중립, 기쁨, 혐오와 같은 감정이 느껴지는 대화 텍스트를 각각 어떠한 감정의 텍스트인지 분류하는 모델을 만드는 것이다. </br>
AIHUB에서 가져온 데이터셋으로 KoBERT 모델을 FineTuning하여 </br>
AI 감정일기 어플리케이션에서 작성한 일기 텍스트에서 감정을 추출하기 위한 목적으로 프로젝트를 진행하였다.

**KoBERT란?**

> BERT는 약 33억 개의 단어로 pretrain 되어 있는 기계번역 모델이다. </br>
하지만 외국에서 만든 것이다 보니 영어에 대해서는 정확도는 높고, 한국어에 대해서는 정확도가 떨어진다.</br>
따라서 BERT 모델을 한국어에도 잘 활용할 수 있도록 만들어진 것이 KoBERT이다. </br>
KoBERT는 BERT 모델에서 한국어 데이터를 추가로 학습시킨 모델로, 한국어 위키에서 5백만개의 문장과 5천4백만개의 단어를 학습시킨 모델이다. </br>
따라서 한국어 데이터에 대해서도 높은 정확도를 낼 수 있다고 한다. </br>
한국어의 불규칙한 언어 변화의 특성을 반영하기 위해 데이터 기반 토큰화 (Tokenization) 기법을 적용하여 기존 대비 27%의 토큰만으로 2.6% 이상의 성능 향상을 이끌어 낸 모델이다. </br>

# 1. 프로젝트 설명

**KoBERT 파인튜닝**
> BERT 모델은 자신의 사용 목적에 따라 파인튜닝(FineTuning)이 가능하다. </br>
따라서 Output layer만 추가로 달아주면 원하는 결과를 출력해내는 기계번역 모델을 만들어 낼 수 있다. </br>
이 점을 활용하여 KoBERT 모델을 FineTuning하여 최종적으로 일기 텍스트에서 감정을 추출해내는 모델을 새로 만들어 보려고 한다.

# 2. 데이터 수집

**데이터 수집**
> 이번 프로젝트를 위해 사용한 한국어 대화 문장 데이터셋은 총 2개이다. </br>
</br>
1. 감성 대화 말뭉치
* 한국어 감성 데이터셋을 상세한 감정 라벨링(감정 대분류와 소분류로 구분)과 함께 제공하는 AIHub의 공공 데이터셋
* 약 4만 건의 데이터 셋 (기쁨, 슬픔, 당황, 분노, 불안, 상처의 6개 감정)
* 데이터 병합을 위해 감정 대분류와 대화 문장을 남기고, 감정 소분류는 누락
</br>
</br>
2. 감정 분류를 위한 대화 음성 데이터셋
* 감성대화 어플리케이션을 이용해 수집한 AIHUB의 공공 데이터셋
* 약 2만 건의 데이터 셋 (기쁨, 슬픔, 놀람, 분노, 공포, 혐오, 중립의 7개 감정)

# 3. 데이터 전처리

**데이터 전처리**
>

감정 분류를 위한 대화 음성 데이터셋 (7) </br>
: 공포 놀람 분노 슬픔 중립 행복 혐오 </br>
감성 대화 말뭉치 (6) </br>
: 기쁨 당황 분노 불안 상처 슬픔 </br>
</br>
<병합된 결과> </br>
: 공포 놀람 분노 행복 슬픔   중립 혐오 (7) </br>
: 불안 (----)  분노 기쁨 슬픔,상처 (5) </br>


데이터셋을 살펴본 결과, 감성 대화 말뭉치의 '당황' 감정은 감정 분류를 위한 대화 음성 데이터셋의 '공포', '놀람' 감정과 중복된다. </br>
따라서 데이터셋을 병합하고, 겹치지 않는 '당황' 감정은 제거하였다.


In [None]:
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [None]:
data1_train = pd.read_excel('/content/drive/MyDrive/dataset/감성대화말뭉치Training.xlsx')

data1_train.head()

Unnamed: 0.1,Unnamed: 0,연령,성별,상황키워드,신체질환,감정_대분류,감정_소분류,사람문장1,시스템문장1,사람문장2,시스템문장2,사람문장3,시스템문장3
0,1,청년,여성,"진로,취업,직장",해당없음,분노,노여워하는,일은 왜 해도 해도 끝이 없을까? 화가 난다.,많이 힘드시겠어요. 주위에 의논할 상대가 있나요?,그냥 내가 해결하는 게 나아. 남들한테 부담 주고 싶지도 않고.,혼자 해결하기로 했군요. 혼자서 해결하기 힘들면 주위에 의논할 사람을 찾아보세요.,,
1,2,청년,여성,"진로,취업,직장",해당없음,분노,노여워하는,이번 달에 또 급여가 깎였어! 물가는 오르는데 월급만 자꾸 깎이니까 너무 화가 나.,급여가 줄어 속상하시겠어요. 월급이 줄어든 것을 어떻게 보완하실 건가요?,최대한 지출을 억제해야겠어. 월급이 줄어들었으니 고정지출을 줄일 수밖에 없을 것 같아.,월급이 줄어든 만큼 소비를 줄일 계획이군요.,,
2,3,청년,여성,"진로,취업,직장",해당없음,분노,노여워하는,회사에 신입이 들어왔는데 말투가 거슬려. 그런 애를 매일 봐야 한다고 생각하니까 스...,회사 동료 때문에 스트레스를 많이 받는 것 같아요. 문제 해결을 위해 어떤 노력을 ...,잘 안 맞는 사람이랑 억지로 잘 지내는 것보단 조금은 거리를 두고 예의를 갖춰서 대...,스트레스받지 않기 위해선 인간관계에 있어 약간의 거리를 두는 게 좋겠군요.,,
3,4,청년,여성,"진로,취업,직장",해당없음,분노,노여워하는,직장에서 막내라는 이유로 나에게만 온갖 심부름을 시켜. 일도 많은 데 정말 분하고 ...,관련 없는 심부름을 모두 하게 되어서 노여우시군요. 어떤 것이 상황을 나아질 수 있...,직장 사람들과 솔직하게 이야기해보고 싶어. 일하는 데에 방해된다고.,직장 사람들과 이야기를 해 보겠다고 결심하셨군요.,,
4,5,청년,여성,"진로,취업,직장",해당없음,분노,노여워하는,얼마 전 입사한 신입사원이 나를 무시하는 것 같아서 너무 화가 나.,무시하는 것 같은 태도에 화가 나셨군요. 상대방의 어떤 행동이 그런 감정을 유발하는...,상사인 나에게 먼저 인사하지 않아서 매일 내가 먼저 인사한다고!,항상 먼저 인사하게 되어 화가 나셨군요. 어떻게 하면 신입사원에게 화났음을 표현할 ...,,


In [None]:
data2 = pd.read_csv('/content/drive/MyDrive/dataset/대화음성데이터셋.csv')

data2.head()

Unnamed: 0,wav_id,발화문,상황,1번 감정,1번 감정세기,2번 감정,2번 감정세기,3번 감정,3번 감정세기,4번 감정,4번감정세기,5번 감정,5번 감정세기,나이,성별
0,5f4141e29dd513131eacee2f,헐! 나 이벤트에 당첨 됐어.,happiness,angry,2,surprise,2,happiness,2,happiness,2,happiness,2,48,female
1,5f4141f59dd513131eacee30,내가 좋아하는 인플루언서가 이벤트를 하더라고. 그래서 그냥 신청 한번 해봤지.,happiness,neutral,0,happiness,2,happiness,2,happiness,2,happiness,2,48,female
2,5f4142119dd513131eacee31,"한 명 뽑는 거였는데, 그게 바로 내가 된 거야.",happiness,angry,2,happiness,2,happiness,2,happiness,2,happiness,2,48,female
3,5f4142279dd513131eacee32,"당연히 마음에 드는 선물이니깐, 이벤트에 내가 신청 한번 해본 거지. 비싼 거야. ...",happiness,angry,2,happiness,2,happiness,2,happiness,2,happiness,1,48,female
4,5f3c9ed98a3c1005aa97c4bd,에피타이저 정말 좋아해. 그 것도 괜찮은 생각인 것 같애.,neutral,happiness,2,happiness,1,happiness,2,happiness,1,happiness,1,48,female


In [None]:
import pandas as pd

data1_train = pd.read_excel('/content/drive/MyDrive/dataset/감성대화말뭉치Training.xlsx')
data1_validation = pd.read_excel('/content/drive/MyDrive/dataset/감성대화말뭉치Validation.xlsx')
data2 = pd.read_csv('/content/drive/MyDrive/dataset/대화음성데이터셋.csv')

data1 = pd.concat([data1_train, data1_validation])


# 감성 레이블을 정수로 변환 (0, 2, 3, 5)
data1.loc[(data1['감정_대분류'] == "불안"), '감정_대분류'] = 0 #불안 => 0
data1.loc[(data1['감정_대분류'] == "분노"), '감정_대분류'] = 2 #분노 => 2
data1.loc[(data1['감정_대분류'] == "슬픔"), '감정_대분류'] = 3 #슬픔 => 3
data1.loc[(data1['감정_대분류'] == "상처"), '감정_대분류'] = 3 #상처 => 3
data1.loc[(data1['감정_대분류'] == "기쁨"), '감정_대분류'] = 5 #기쁨 => 5

# 데이터셋에서 나누어져있는 '사람문장1, 사람문장2, 사람문장3'을 병합, 당황 감정 제거
data1 = data1.drop(data1[data1['감정_대분류'] == '당황'].index)
data1['사람문장'] = data1['사람문장1'].astype(str) + data1['사람문장2'].astype(str) + data1['사람문장3'].astype(str)

# 병합한 '사람문장1, 사람문장2, 사람문장3'에서 더해진 결측치 값을 제거
data1['사람문장'] = data1['사람문장'].str.replace('nan', '')

data1_list = []
for q, label in zip(data1['사람문장'], data1['감정_대분류'])  :
    data = []
    data.append(q)
    data.append(str(label))

    data1_list.append(data)

# 감성 레이블을 정수로 변환 (0~6)
data2.loc[(data2['상황'] == "fear"), '상황'] = 0       #공포 => 0
data2.loc[(data2['상황'] == "surprise"), '상황'] = 1   #놀람 => 1
data2.loc[(data2['상황'] == "angry"), '상황'] = 2      #분노 => 2
data2.loc[(data2['상황'] == "sadness"), '상황'] = 3    #슬픔 => 3
data2.loc[(data2['상황'] == "neutral"), '상황'] = 4    #중립 => 4
data2.loc[(data2['상황'] == "happiness"), '상황'] = 5  #행복 => 5
data2.loc[(data2['상황'] == "disgust"), '상황'] = 6    #혐오 => 6

data2_list = []
for q, label in zip(data2['발화문'], data2['상황'])  :
    data = []
    data.append(q)
    data.append(str(label))

    data2_list.append(data)

merge_data = data1_list + data2_list

# Colab 환경 설정

> 모델을 구현하기에 앞서 코랩 환경설정을 진행하려고 한다. </br>
해당 사양은 KoBERT 오픈소스 내 requirements.txt를 참고하였다.

In [1]:
# Colab 환경 설정
# requirements : https://github.com/SKTBrain/KoBERT/blob/master/kobert_hf/requirements.txt
!pip install mxnet
!pip install gluonnlp
!pip install sentencepiece
!pip install transformers
!pip install torch
!pip install tqdm pandas

Collecting mxnet
  Downloading mxnet-1.9.1-py3-none-manylinux2014_x86_64.whl (49.1 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m49.1/49.1 MB[0m [31m21.7 MB/s[0m eta [36m0:00:00[0m
Collecting graphviz<0.9.0,>=0.8.1 (from mxnet)
  Downloading graphviz-0.8.4-py2.py3-none-any.whl (16 kB)
Installing collected packages: graphviz, mxnet
  Attempting uninstall: graphviz
    Found existing installation: graphviz 0.20.1
    Uninstalling graphviz-0.20.1:
      Successfully uninstalled graphviz-0.20.1
Successfully installed graphviz-0.8.4 mxnet-1.9.1
Collecting gluonnlp
  Downloading gluonnlp-0.10.0.tar.gz (344 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m344.5/344.5 kB[0m [31m5.8 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
Building wheels for collected packages: gluonnlp
  Building wheel for gluonnlp (setup.py) ... [?25l[?25hdone
  Created wheel for gluonnlp: filename=gluonnlp-0.10.0-cp310-cp310-li

> 다음으로 깃허브 내 파일을 Colab으로 가져온다.

In [2]:
# https://github.com/SKTBrain/KoBERT의 파일들을 Colab으로 다운로드
!pip install 'git+https://github.com/SKTBrain/KoBERT.git#egg=kobert_tokenizer&subdirectory=kobert_hf'

Collecting kobert_tokenizer
  Cloning https://github.com/SKTBrain/KoBERT.git to /tmp/pip-install-y9f1cxhu/kobert-tokenizer_5aefe605790748a6a4711439c4b34006
  Running command git clone --filter=blob:none --quiet https://github.com/SKTBrain/KoBERT.git /tmp/pip-install-y9f1cxhu/kobert-tokenizer_5aefe605790748a6a4711439c4b34006
  Resolved https://github.com/SKTBrain/KoBERT.git to commit 47a69af87928fc24e20f571fe10c3cc9dd9af9a3
  Preparing metadata (setup.py) ... [?25l[?25hdone
Building wheels for collected packages: kobert_tokenizer
  Building wheel for kobert_tokenizer (setup.py) ... [?25l[?25hdone
  Created wheel for kobert_tokenizer: filename=kobert_tokenizer-0.1-py3-none-any.whl size=4632 sha256=fcb9ca09c2c71188b805f015e7dade9b502e907b9e1e9c8664bff0697ffc30b3
  Stored in directory: /tmp/pip-ephem-wheel-cache-05g_32se/wheels/e9/1a/3f/a864970e8a169c176befa3c4a1e07aa612f69195907a4045fe
Successfully built kobert_tokenizer
Installing collected packages: kobert_tokenizer
Successfully ins

> 그 다음으로는 해당 라이브러리들을 import 해준다.

In [3]:
# KoBERT
from kobert_tokenizer import KoBERTTokenizer

# Transformers
from transformers import BertModel
from transformers import AdamW
from transformers.optimization import get_cosine_schedule_with_warmup

# Setting Library
import torch
from torch import nn
import torch.nn.functional as F
import torch.optim as optim
from torch.utils.data import Dataset, DataLoader
import gluonnlp as nlp
import numpy as np
from tqdm.notebook import tqdm
import pandas as pd
from sklearn.model_selection import train_test_split

In [4]:
device = torch.device("cuda:0")

In [5]:
tokenizer = KoBERTTokenizer.from_pretrained('skt/kobert-base-v1')
bertmodel = BertModel.from_pretrained('skt/kobert-base-v1', return_dict=False)
vocab = nlp.vocab.BERTVocab.from_sentencepiece(tokenizer.vocab_file, padding_token='[PAD]')

# Setting parameters
max_len = 64
batch_size = 64
warmup_ratio = 0.1
num_epochs = 5
max_grad_norm = 1
log_interval = 200
learning_rate =  5e-5

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


tokenizer_config.json:   0%|          | 0.00/432 [00:00<?, ?B/s]

spiece.model:   0%|          | 0.00/371k [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/244 [00:00<?, ?B/s]

The tokenizer class you load from this checkpoint is not the same type as the class this function is called from. It may result in unexpected tokenization. 
The tokenizer class you load from this checkpoint is 'XLNetTokenizer'. 
The class this function is called from is 'KoBERTTokenizer'.


config.json:   0%|          | 0.00/535 [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/369M [00:00<?, ?B/s]

In [6]:
class BERTSentenceTransform:
    r"""BERT style data transformation.

    Parameters
    ----------
    tokenizer : BERTTokenizer.
        Tokenizer for the sentences.
    max_seq_length : int.
        Maximum sequence length of the sentences.
    pad : bool, default True
        Whether to pad the sentences to maximum length.
    pair : bool, default True
        Whether to transform sentences or sentence pairs.
    """

    def __init__(self, tokenizer, max_seq_length, vocab, pad=True, pair=True):
        self._tokenizer = tokenizer
        self._max_seq_length = max_seq_length
        self._pad = pad
        self._pair = pair
        self._vocab = vocab

    def __call__(self, line):
        """Perform transformation for sequence pairs or single sequences.

        The transformation is processed in the following steps:
        - tokenize the input sequences
        - insert [CLS], [SEP] as necessary
        - generate type ids to indicate whether a token belongs to the first
        sequence or the second sequence.
        - generate valid length

        For sequence pairs, the input is a tuple of 2 strings:
        text_a, text_b.

        Inputs:
            text_a: 'is this jacksonville ?'
            text_b: 'no it is not'
        Tokenization:
            text_a: 'is this jack ##son ##ville ?'
            text_b: 'no it is not .'
        Processed:
            tokens: '[CLS] is this jack ##son ##ville ? [SEP] no it is not . [SEP]'
            type_ids: 0     0  0    0    0     0       0 0     1  1  1  1   1 1
            valid_length: 14

        For single sequences, the input is a tuple of single string:
        text_a.

        Inputs:
            text_a: 'the dog is hairy .'
        Tokenization:
            text_a: 'the dog is hairy .'
        Processed:
            text_a: '[CLS] the dog is hairy . [SEP]'
            type_ids: 0     0   0   0  0     0 0
            valid_length: 7

        Parameters
        ----------
        line: tuple of str
            Input strings. For sequence pairs, the input is a tuple of 2 strings:
            (text_a, text_b). For single sequences, the input is a tuple of single
            string: (text_a,).

        Returns
        -------
        np.array: input token ids in 'int32', shape (batch_size, seq_length)
        np.array: valid length in 'int32', shape (batch_size,)
        np.array: input token type ids in 'int32', shape (batch_size, seq_length)

        """

        # convert to unicode
        text_a = line[0]
        if self._pair:
            assert len(line) == 2
            text_b = line[1]

        tokens_a = self._tokenizer.tokenize(text_a)
        tokens_b = None

        if self._pair:
            tokens_b = self._tokenizer(text_b)

        if tokens_b:
            # Modifies `tokens_a` and `tokens_b` in place so that the total
            # length is less than the specified length.
            # Account for [CLS], [SEP], [SEP] with "- 3"
            self._truncate_seq_pair(tokens_a, tokens_b,
                                    self._max_seq_length - 3)
        else:
            # Account for [CLS] and [SEP] with "- 2"
            if len(tokens_a) > self._max_seq_length - 2:
                tokens_a = tokens_a[0:(self._max_seq_length - 2)]

        # The embedding vectors for `type=0` and `type=1` were learned during
        # pre-training and are added to the wordpiece embedding vector
        # (and position vector). This is not *strictly* necessary since
        # the [SEP] token unambiguously separates the sequences, but it makes
        # it easier for the model to learn the concept of sequences.

        # For classification tasks, the first vector (corresponding to [CLS]) is
        # used as as the "sentence vector". Note that this only makes sense because
        # the entire model is fine-tuned.
        #vocab = self._tokenizer.vocab
        vocab = self._vocab
        tokens = []
        tokens.append(vocab.cls_token)
        tokens.extend(tokens_a)
        tokens.append(vocab.sep_token)
        segment_ids = [0] * len(tokens)

        if tokens_b:
            tokens.extend(tokens_b)
            tokens.append(vocab.sep_token)
            segment_ids.extend([1] * (len(tokens) - len(segment_ids)))

        input_ids = self._tokenizer.convert_tokens_to_ids(tokens)

        # The valid length of sentences. Only real  tokens are attended to.
        valid_length = len(input_ids)

        if self._pad:
            # Zero-pad up to the sequence length.
            padding_length = self._max_seq_length - valid_length
            # use padding tokens for the rest
            input_ids.extend([vocab[vocab.padding_token]] * padding_length)
            segment_ids.extend([0] * padding_length)

        return np.array(input_ids, dtype='int32'), np.array(valid_length, dtype='int32'),\
            np.array(segment_ids, dtype='int32')

In [7]:
class BERTDataset(Dataset):
    def __init__(self, dataset, sent_idx, label_idx, bert_tokenizer, vocab, max_len,
                 pad, pair):

        transform = BERTSentenceTransform(bert_tokenizer, max_seq_length=max_len,vocab=vocab, pad=pad, pair=pair)

        self.sentences = [transform([i[sent_idx]]) for i in dataset]
        self.labels = [np.int32(i[label_idx]) for i in dataset]

    def __getitem__(self, i):
        return (self.sentences[i] + (self.labels[i], ))

    def __len__(self):
        return (len(self.labels))

> BERT 데이터셋을 구성하는 라벨의 개수를 num_classes로 설정할 수 있다.

In [8]:
# class BERTClassifier
class BERTClassifier(nn.Module):
    def __init__(self,
                 bert,
                 hidden_size = 768,
                 num_classes=7,
                 dr_rate=None,
                 params=None):
        super(BERTClassifier, self).__init__()
        self.bert = bert
        self.dr_rate = dr_rate

        self.classifier = nn.Linear(hidden_size , num_classes)
        if dr_rate:
            self.dropout = nn.Dropout(p=dr_rate)

    def gen_attention_mask(self, token_ids, valid_length):
        attention_mask = torch.zeros_like(token_ids)
        for i, v in enumerate(valid_length):
            attention_mask[i][:v] = 1
        return attention_mask.float()

    def forward(self, token_ids, valid_length, segment_ids):
        attention_mask = self.gen_attention_mask(token_ids, valid_length)

        _, pooler = self.bert(input_ids = token_ids, token_type_ids = segment_ids.long(), attention_mask = attention_mask.float().to(token_ids.device), return_dict=False)
        if self.dr_rate:
            out = self.dropout(pooler)
        return self.classifier(out)

In [15]:
def predict(sentence):
    dataset = [[sentence, '0']]
    test = BERTDataset(dataset, 0, 1, tokenizer, vocab, max_len, True, False)
    test_dataloader = torch.utils.data.DataLoader(test, batch_size=batch_size, num_workers=2)
    model.eval()
    answer = 0
    for batch_id, (token_ids, valid_length, segment_ids, label) in enumerate(test_dataloader):
        token_ids = token_ids.long().to(device)
        segment_ids = segment_ids.long().to(device)
        valid_length= valid_length
        label = label.long().to(device)
        out = model(token_ids, valid_length, segment_ids)

        test_eval=[]
        for i in out:
            logits=i
            logits = logits.detach().cpu().numpy()

            if np.argmax(logits) == 0:
                test_eval.append("공포")
            elif np.argmax(logits) == 1:
                test_eval.append("놀람")
            elif np.argmax(logits) == 2:
                test_eval.append("분노")
            elif np.argmax(logits) == 3:
                test_eval.append("슬픔")
            elif np.argmax(logits) == 4:
                test_eval.append("중립")
            elif np.argmax(logits) == 5:
                test_eval.append("행복")
            elif np.argmax(logits) == 6:
                test_eval.append("혐오가")
        print(test_eval[0])

In [None]:
train_set, test_set = train_test_split(merge_data, test_size=0.2, shuffle=True, random_state=20)

data_train = BERTDataset(train_set, 0, 1, tokenizer, vocab, max_len, True, False)
data_test = BERTDataset(test_set, 0, 1, tokenizer, vocab, max_len, True, False)
train_dataloader = torch.utils.data.DataLoader(data_train, batch_size=batch_size, num_workers=2)
test_dataloader = torch.utils.data.DataLoader(data_test, batch_size=batch_size, num_workers=2)

In [None]:
model = BERTClassifier(bertmodel, dr_rate=0.5).to(device)
# Prepare optimizer and schedule (linear warmup and decay)
no_decay = ['bias', 'LayerNorm.weight']
optimizer_grouped_parameters = [
    {'params': [p for n, p in model.named_parameters() if not any(nd in n for nd in no_decay)], 'weight_decay': 0.01},
    {'params': [p for n, p in model.named_parameters() if any(nd in n for nd in no_decay)], 'weight_decay': 0.0}
]
optimizer = torch.optim.AdamW(optimizer_grouped_parameters, lr=learning_rate)
loss_fn = nn.CrossEntropyLoss()
t_total = len(train_dataloader) * num_epochs
warmup_step = int(t_total * warmup_ratio)
scheduler = get_cosine_schedule_with_warmup(optimizer, num_warmup_steps=warmup_step, num_training_steps=t_total)

# 정확도 측정을 위한 함수 정의
def calc_accuracy(X,Y):
    max_vals, max_indices = torch.max(X, 1)
    train_acc = (max_indices == Y).sum().data.cpu().numpy()/max_indices.size()[0]
    return train_acc

for e in range(num_epochs):
    train_acc = 0.0
    test_acc = 0.0
    model.train()
    for batch_id, (token_ids, valid_length, segment_ids, label) in enumerate(tqdm(train_dataloader)):
        optimizer.zero_grad()
        token_ids = token_ids.long().to(device)
        segment_ids = segment_ids.long().to(device)
        valid_length= valid_length
        label = label.long().to(device)
        out = model(token_ids, valid_length, segment_ids)
        loss = loss_fn(out, label)
        loss.backward()
        torch.nn.utils.clip_grad_norm_(model.parameters(), max_grad_norm)
        optimizer.step()
        scheduler.step()  # Update learning rate schedule
        train_acc += calc_accuracy(out, label)
        if batch_id % log_interval == 0:
            print("epoch {} batch id {} loss {} train acc {}".format(e+1, batch_id+1, loss.data.cpu().numpy(), train_acc / (batch_id+1)))
    print("epoch {} train acc {}".format(e+1, train_acc / (batch_id+1)))
    model.eval()
    for batch_id, (token_ids, valid_length, segment_ids, label) in enumerate(tqdm(test_dataloader)):
        token_ids = token_ids.long().to(device)
        segment_ids = segment_ids.long().to(device)
        valid_length= valid_length
        label = label.long().to(device)
        out = model(token_ids, valid_length, segment_ids)
        test_acc += calc_accuracy(out, label)
    print("epoch {} test acc {}".format(e+1, test_acc / (batch_id+1)))

  0%|          | 0/827 [00:00<?, ?it/s]

epoch 1 batch id 1 loss 2.012917995452881 train acc 0.09375
epoch 1 batch id 201 loss 1.0730708837509155 train acc 0.39070273631840796
epoch 1 batch id 401 loss 0.7279976010322571 train acc 0.55143391521197
epoch 1 batch id 601 loss 0.4912458658218384 train acc 0.6234141014975042
epoch 1 batch id 801 loss 0.5901473164558411 train acc 0.6624726903870163
epoch 1 train acc 0.6661674178300538


  0%|          | 0/207 [00:00<?, ?it/s]

epoch 1 test acc 0.8010371025727446


  0%|          | 0/827 [00:00<?, ?it/s]

epoch 2 batch id 1 loss 0.4009115993976593 train acc 0.890625
epoch 2 batch id 201 loss 0.4728536009788513 train acc 0.7947761194029851
epoch 2 batch id 401 loss 0.4345678389072418 train acc 0.8015897755610972
epoch 2 batch id 601 loss 0.3402273654937744 train acc 0.8096661813643927
epoch 2 batch id 801 loss 0.4670604169368744 train acc 0.8152114544319601
epoch 2 train acc 0.8158235544685061


  0%|          | 0/207 [00:00<?, ?it/s]

epoch 2 test acc 0.8128879479833727


  0%|          | 0/827 [00:00<?, ?it/s]

epoch 3 batch id 1 loss 0.3067738115787506 train acc 0.921875
epoch 3 batch id 201 loss 0.3875201940536499 train acc 0.8406405472636815
epoch 3 batch id 401 loss 0.3146767020225525 train acc 0.8466334164588528
epoch 3 batch id 601 loss 0.27603641152381897 train acc 0.8549032861896838
epoch 3 batch id 801 loss 0.3819194436073303 train acc 0.8592774656679151
epoch 3 train acc 0.8598593629768054


  0%|          | 0/207 [00:00<?, ?it/s]

epoch 3 test acc 0.8144713374901696


  0%|          | 0/827 [00:00<?, ?it/s]

epoch 4 batch id 1 loss 0.20622311532497406 train acc 0.953125
epoch 4 batch id 201 loss 0.2495175302028656 train acc 0.8783426616915423
epoch 4 batch id 401 loss 0.22104023396968842 train acc 0.8874688279301746
epoch 4 batch id 601 loss 0.1460481584072113 train acc 0.8965526206322796
epoch 4 batch id 801 loss 0.27743229269981384 train acc 0.9005539950062422
epoch 4 train acc 0.9007262009453666


  0%|          | 0/207 [00:00<?, ?it/s]

epoch 4 test acc 0.8241717924952252


  0%|          | 0/827 [00:00<?, ?it/s]

epoch 5 batch id 1 loss 0.1467338502407074 train acc 0.953125
epoch 5 batch id 201 loss 0.1735110580921173 train acc 0.910136815920398
epoch 5 batch id 401 loss 0.1955634504556656 train acc 0.9170822942643392
epoch 5 batch id 601 loss 0.11730929464101791 train acc 0.9237468801996672
epoch 5 batch id 801 loss 0.3796509802341461 train acc 0.9258739076154806
epoch 5 train acc 0.9257310102231505


  0%|          | 0/207 [00:00<?, ?it/s]

epoch 5 test acc 0.8210769857319402


In [None]:
torch.save(model, f'/content/drive/MyDrive/Colab Notebooks/SentimentAnalysisKOBert.pt')
torch.save(model.state_dict(), f'/content/drive/MyDrive/Colab Notebooks/SentimentAnalysisKOBert_StateDict.pt')

In [10]:
torch.load('/content/drive/MyDrive/Colab Notebooks/SentimentAnalysisKOBert.pt')
model = BERTClassifier(bertmodel, dr_rate=0.5).to(device)
model.load_state_dict(torch.load('/content/drive/MyDrive/Colab Notebooks/SentimentAnalysisKOBert_StateDict.pt'))

<All keys matched successfully>

In [None]:
# 질문 반복하기. 0 입력시 종료
end = 1
while end == 1 :
    sentence = input("일기 쓰기 : ")
    if sentence == 0 :
        break
    predict(sentence)

일기 쓰기 : 오늘은 화사하고 따뜻한 날씨에 기분이 좋았어요. 아침 햇살이 창문을 통해 들어와 마치 마음도 밝아지는 느낌이었어요. 일어나서 차 한 잔에 노래 한 곡으로 하루를 시작했는데, 그 순간이 정말 특별했어요. 나무 그늘 아래 산책을 하면서 새소리가 귀에 쏙쏙 들어와 마치 대화하고 있는 듯한 기분이었어요.  오후에는 오랜만에 친구들과 모여 시간을 보냈어요. 웃음소리가 가득한 대화와 함께 맛있는 음식을 나누면서 나의 소중한 순간이 더욱 풍성해졌어요. 함께한 순간들은 마치 작은 행복의 조각들이 모여 큰 그림을 완성하는 것 같아 행복한 느낌이 배가 되었어요.  저녁에는 책을 읽으면서 차분한 시간을 보냈어요. 좋은 이야기에 몰입하면서 마음이 편안해지고, 새로운 지식을 얻는 즐거움을 느꼈어요. 오늘은 정말 풍성하고 행복한 하루였다. 눈을 감고 하루를 돌아보니 마음이 따뜻해지고 내일에 대한 기대감이 생겨 행복한 미소가 떠올랐어요.
행복
일기 쓰기 : 하늘이 어둠에 가려져 마치 내 마음을 반영하는 것처럼 슬픈 날이었다. 아침 햇살은 나의 무기력함과 상반되게 밝게 비쳤지만, 나는 어느새 그 빛 속에 묻혀 있었다. 머릿속에서는 어지러운 감정이 소용돌이쳐서 나를 휩쓸고 있었다.  일상의 조각들이 의미 없이 조잡하게 얽혀가는 듯한 느낌이 들었다. 창밖으로 바라보면 비가 내리고 있는데, 마치 내 마음의 구름이 흐려져 있어 눈물처럼 흐르고 있는 듯했다. 무력함과 외로움이 더해져 일상의 소리도 마음에 닿지 않았다.  사소한 일들이 가슴에 남아 아프게 다가왔다. 음악 속에는 어둠과 슬픔이 섞여 흘러나오고, 혼자만의 시간이 더욱 쓸쓸하게 느껴졌다. 어떤 말로도 표현할 수 없는 쓰린 감정이 마음을 감싸 안아 놓지 않았다.  저녁이 되면서도 내 마음의 그림자는 더 깊어져갔다. 하루를 마감하는 순간에도 마음의 안팎이 허전함으로 가득 차 있었다. 슬픔의 무게를 감당하면서 새로운 하루를 기다리는 게 참 어려운 순간이었다.
슬픔
일기 쓰기 : 오늘은 마치 불타는 듯한 분노에 휩싸인 날이었다. 