In [1]:
#신영

In [2]:
# Hugging Face의 트랜스포머 모델을 설치
!pip install transformers



In [3]:
import tensorflow as tf
import torch

from transformers import BertTokenizer
from transformers import BertForSequenceClassification, AdamW, BertConfig
from transformers import get_linear_schedule_with_warmup
from torch.utils.data import TensorDataset, DataLoader, RandomSampler, SequentialSampler
from keras.preprocessing.sequence import pad_sequences
from sklearn.model_selection import train_test_split

import pandas as pd
import numpy as np
import random
import time
import datetime

In [4]:
df=pd.read_csv("test_data1.tsv", sep="\t", header=None, encoding="UTF-8", names=['label','document',])

In [5]:
#중복 제거
possible_labels = df.label.unique()

label_dict = {}
for index, possible_label in enumerate(possible_labels):
    label_dict[possible_label] = index

df['label'] = df.label.replace(label_dict)

In [6]:
# 판다스로 훈련셋과 테스트셋 데이터 로드
train = df[:1100]
test = df[1100:]

print(train.shape)
print(test.shape)

(1100, 2)
(266, 2)


In [7]:
# 훈련셋의 앞부분 출력
train.head(10)

Unnamed: 0,label,document
0,0,오예 오늘 휴강이다!!!
1,1,"사랑한다. 이 세상 하나뿐인 내 아내와 아들, 딸"
2,2,오늘 감기에 걸렸다..
3,0,놀이공원 놀러왔다 신난다! >_<
4,2,아 외롭다..ㅜ
5,3,와 진짜 억울하다 프로젝트 다 짰는데 날렸다.... 미친거 아냐?? 아...
6,0,아싸 시험 100점 ^^
7,2,오늘 키우던 개가 죽었어...
8,4,헐 벌써 4월이야? 시간이 너무 빠르다!
9,0,대박 길 걷다가 만원 주웠다 ㅋㅋㅋ


In [8]:
# 리뷰 문장 추출
sentences = train['document']
sentences[:10]

0                                 오예 오늘 휴강이다!!!
1                   사랑한다. 이 세상 하나뿐인 내 아내와 아들, 딸
2                                  오늘 감기에 걸렸다..
3                            놀이공원 놀러왔다 신난다! >_<
4                                      아 외롭다..ㅜ
5    와 진짜 억울하다 프로젝트 다 짰는데 날렸다.... 미친거 아냐?? 아...
6                                 아싸 시험 100점 ^^
7                              오늘 키우던 개가 죽었어...
8                        헐 벌써 4월이야? 시간이 너무 빠르다!
9                           대박 길 걷다가 만원 주웠다 ㅋㅋㅋ
Name: document, dtype: object

In [9]:
# BERT의 입력 형식에 맞게 변환
sentences = ["[CLS] " + str(sentence) + " [SEP]" for sentence in sentences]
sentences[:10]

['[CLS] 오예 오늘 휴강이다!!! [SEP]',
 '[CLS] 사랑한다. 이 세상 하나뿐인 내 아내와 아들, 딸 [SEP]',
 '[CLS] 오늘 감기에 걸렸다.. [SEP]',
 '[CLS] 놀이공원 놀러왔다 신난다! >_< [SEP]',
 '[CLS] 아 외롭다..ㅜ [SEP]',
 '[CLS] 와 진짜 억울하다 프로젝트 다 짰는데 날렸다.... 미친거 아냐?? 아... [SEP]',
 '[CLS] 아싸 시험 100점 ^^ [SEP]',
 '[CLS] 오늘 키우던 개가 죽었어... [SEP]',
 '[CLS] 헐 벌써 4월이야? 시간이 너무 빠르다! [SEP]',
 '[CLS] 대박 길 걷다가 만원 주웠다 ㅋㅋㅋ [SEP]']

In [10]:
train['label'].value_counts()

0    498
2    233
3    120
6    115
4     79
1     37
5     17
7      1
Name: label, dtype: int64

In [11]:
# 라벨 추출
labels = train['label'].values
labels

array([0, 1, 2, ..., 0, 0, 4])

In [12]:
# BERT의 토크나이저로 문장을 토큰으로 분리
tokenizer = BertTokenizer.from_pretrained('bert-base-multilingual-cased', do_lower_case=False)
tokenized_texts = [tokenizer.tokenize(sent) for sent in sentences]

print (sentences[0])
print (tokenized_texts[0])

[CLS] 오예 오늘 휴강이다!!! [SEP]
['[CLS]', '오', '##예', '오', '##늘', '휴', '##강', '##이다', '!', '!', '!', '[SEP]']


In [13]:
# 입력 토큰의 최대 시퀀스 길이
MAX_LEN = 256

# 토큰을 숫자 인덱스로 변환
input_ids = [tokenizer.convert_tokens_to_ids(x) for x in tokenized_texts]

# 문장을 MAX_LEN 길이에 맞게 자르고, 모자란 부분을 패딩 0으로 채움
input_ids = pad_sequences(input_ids, maxlen=MAX_LEN, dtype="long", truncating="post", padding="post")

input_ids[0]

array([   101,   9580,  96279,   9580, 118762,  10013,  47181,  11925,
          106,    106,    106,    102,      0,      0,      0,      0,
            0,      0,      0,      0,      0,      0,      0,      0,
            0,      0,      0,      0,      0,      0,      0,      0,
            0,      0,      0,      0,      0,      0,      0,      0,
            0,      0,      0,      0,      0,      0,      0,      0,
            0,      0,      0,      0,      0,      0,      0,      0,
            0,      0,      0,      0,      0,      0,      0,      0,
            0,      0,      0,      0,      0,      0,      0,      0,
            0,      0,      0,      0,      0,      0,      0,      0,
            0,      0,      0,      0,      0,      0,      0,      0,
            0,      0,      0,      0,      0,      0,      0,      0,
            0,      0,      0,      0,      0,      0,      0,      0,
            0,      0,      0,      0,      0,      0,      0,      0,
      

In [14]:
# 어텐션 마스크 초기화
attention_masks = []

# 어텐션 마스크를 패딩이 아니면 1, 패딩이면 0으로 설정
# 패딩 부분은 BERT 모델에서 어텐션을 수행하지 않아 속도 향상
for seq in input_ids:
    seq_mask = [float(i>0) for i in seq]
    attention_masks.append(seq_mask)

print(attention_masks[0])

[1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0,

In [15]:
# 훈련셋과 검증셋으로 분리
train_inputs, validation_inputs, train_labels, validation_labels = train_test_split(input_ids,
                                                                                    labels, 
                                                                                    random_state=41, 
                                                                                    test_size=0.1)

# 어텐션 마스크를 훈련셋과 검증셋으로 분리
train_masks, validation_masks, _, _ = train_test_split(attention_masks, 
                                                       input_ids,
                                                       random_state=41, 
                                                       test_size=0.1)

# 데이터를 파이토치의 텐서로 변환
train_inputs = torch.tensor(train_inputs)
train_labels = torch.tensor(train_labels)
train_masks = torch.tensor(train_masks)
validation_inputs = torch.tensor(validation_inputs)
validation_labels = torch.tensor(validation_labels)
validation_masks = torch.tensor(validation_masks)				

print(train_inputs[0])
print(train_labels[0])
print(train_masks[0])
print(validation_inputs[0])
print(validation_labels[0])
print(validation_masks[0])

tensor([   101,   9580, 118762,   8985,  49212,   9004,  32537,   9685,  11903,
           106,    106,    106,   9113,  48446,  12965,   9360,  10739,   9594,
         16439, 106154,   9389,  12692,   9343, 118691,   9946,  14867,   9685,
        118632,  11903,    100,   9429, 118873,  11903,    106,    102,      0,
             0,      0,      0,      0,      0,      0,      0,      0,      0,
             0,      0,      0,      0,      0,      0,      0,      0,      0,
             0,      0,      0,      0,      0,      0,      0,      0,      0,
             0,      0,      0,      0,      0,      0,      0,      0,      0,
             0,      0,      0,      0,      0,      0,      0,      0,      0,
             0,      0,      0,      0,      0,      0,      0,      0,      0,
             0,      0,      0,      0,      0,      0,      0,      0,      0,
             0,      0,      0,      0,      0,      0,      0,      0,      0,
             0,      0,      0,      0, 

In [16]:
# 배치 사이즈
batch_size = 32

# 파이토치의 DataLoader로 입력, 마스크, 라벨을 묶어 데이터 설정
# 학습시 배치 사이즈 만큼 데이터를 가져옴
train_data = TensorDataset(train_inputs, train_masks, train_labels)
train_sampler = RandomSampler(train_data)
train_dataloader = DataLoader(train_data, sampler=train_sampler, batch_size=batch_size)

validation_data = TensorDataset(validation_inputs, validation_masks, validation_labels)
validation_sampler = SequentialSampler(validation_data)
validation_dataloader = DataLoader(validation_data, sampler=validation_sampler, batch_size=batch_size)

In [17]:
# 리뷰 문장 추출
sentences = test['document']
sentences[:10]

1100                                           수고했어, 지훈아!
1101                         행복요정이라더니..행복(부수기)요정인가...?(환장
1102         ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ ㅁㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ이것이 흥개님의 사랑법,,♡ 
1103    까우와 까우맘이 좋아해 가끔 부산에 출장 갈 때마다한번도 잊지 않고 어묵을 산 곳인...
1104                     헐.. 메일 보내셨구나.. 메일 귀찮아서 안보냈어요 ㅋㅋㅋ
1105              ㅌㅌㅋㅋ몽이가일케기엽ㅂ습니다..자식자랑나라사랑..(저유령계정댓나바요ㅠ 
1106                   헐 당연하죠😊🙏🙏 꼬옥 남겨줄테니 다음에도 찍어주기~~~^^🤙
1107                         헐 슬로건ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㄴㅋㄴㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ
1108    ㅠㅠㅠㅠㅠㅠ 아 개 넘한 ㅠㅠㅠㅠㅠㅠㅠㅠㅠ 헐 ㅠㅠㅠㅠㅠㅠ 아 진짜 넘해요,,,,,...
1109                            헉헉헉 대박!!! 박성진!! 깜짝 놀랐어😨😨 
Name: document, dtype: object

In [18]:
# BERT의 입력 형식에 맞게 변환
sentences = ["[CLS] " + str(sentence) + " [SEP]" for sentence in sentences]
sentences[:10]

['[CLS] 수고했어, 지훈아! [SEP]',
 '[CLS] 행복요정이라더니..행복(부수기)요정인가...?(환장 [SEP]',
 '[CLS] ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ ㅁㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ이것이 흥개님의 사랑법,,♡  [SEP]',
 '[CLS] 까우와 까우맘이 좋아해 가끔 부산에 출장 갈 때마다한번도 잊지 않고 어묵을 산 곳인데.. 이제는 이런 소소한 행복과 추억 마저 안녕이네... ㅜ.  [SEP]',
 '[CLS] 헐.. 메일 보내셨구나.. 메일 귀찮아서 안보냈어요 ㅋㅋㅋ [SEP]',
 '[CLS] ㅌㅌㅋㅋ몽이가일케기엽ㅂ습니다..자식자랑나라사랑..(저유령계정댓나바요ㅠ  [SEP]',
 '[CLS] 헐 당연하죠😊🙏🙏 꼬옥 남겨줄테니 다음에도 찍어주기~~~^^🤙 [SEP]',
 '[CLS] 헐 슬로건ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㄴㅋㄴㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ [SEP]',
 '[CLS] ㅠㅠㅠㅠㅠㅠ 아 개 넘한 ㅠㅠㅠㅠㅠㅠㅠㅠㅠ 헐 ㅠㅠㅠㅠㅠㅠ 아 진짜 넘해요,,,,,,ㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠ [SEP]',
 '[CLS] 헉헉헉 대박!!! 박성진!! 깜짝 놀랐어😨😨  [SEP]']

In [19]:
# 라벨 추출
labels = test['label'].values
labels

array([0, 0, 0, 2, 0, 0, 0, 0, 2, 4, 0, 2, 0, 1, 2, 2, 0, 0, 4, 0, 6, 4,
       2, 4, 3, 4, 4, 3, 2, 1, 2, 4, 1, 0, 0, 4, 0, 0, 0, 2, 4, 4, 2, 0,
       0, 0, 2, 0, 2, 0, 3, 2, 0, 0, 0, 4, 3, 1, 2, 3, 2, 0, 6, 0, 2, 0,
       3, 6, 0, 3, 3, 2, 6, 3, 0, 2, 0, 6, 1, 2, 3, 3, 2, 3, 6, 3, 0, 2,
       3, 0, 3, 2, 3, 3, 2, 2, 2, 3, 6, 4, 0, 0, 0, 0, 2, 4, 2, 6, 1, 2,
       0, 4, 4, 4, 2, 1, 1, 6, 0, 0, 2, 1, 0, 2, 6, 4, 6, 0, 0, 6, 6, 6,
       0, 0, 0, 0, 0, 0, 0, 5, 0, 2, 4, 2, 0, 2, 1, 4, 6, 6, 4, 4, 4, 1,
       6, 1, 6, 6, 2, 0, 0, 0, 6, 0, 4, 4, 4, 4, 2, 1, 2, 0, 0, 4, 1, 2,
       4, 2, 0, 3, 0, 0, 2, 0, 3, 2, 6, 0, 2, 0, 2, 0, 0, 4, 1, 5, 6, 0,
       6, 4, 3, 3, 6, 0, 2, 0, 2, 0, 6, 0, 3, 3, 0, 3, 2, 6, 2, 0, 2, 0,
       3, 0, 6, 0, 0, 3, 2, 2, 2, 3, 0, 0, 0, 2, 6, 2, 2, 2, 2, 0, 0, 0,
       2, 3, 6, 0, 6, 0, 3, 2, 0, 3, 6, 0, 2, 0, 0, 1, 5, 3, 3, 2, 0, 4,
       6, 3])

In [20]:
# BERT의 토크나이저로 문장을 토큰으로 분리
tokenizer = BertTokenizer.from_pretrained('bert-base-multilingual-cased', do_lower_case=False)
tokenized_texts = [tokenizer.tokenize(sent) for sent in sentences]

print (sentences[0])
print (tokenized_texts[0])

[CLS] 수고했어, 지훈아! [SEP]
['[CLS]', '수', '##고', '##했', '##어', ',', '지', '##훈', '##아', '!', '[SEP]']


In [21]:
# 입력 토큰의 최대 시퀀스 길이
MAX_LEN = 128

# 토큰을 숫자 인덱스로 변환
input_ids = [tokenizer.convert_tokens_to_ids(x) for x in tokenized_texts]

# 문장을 MAX_LEN 길이에 맞게 자르고, 모자란 부분을 패딩 0으로 채움
input_ids = pad_sequences(input_ids, maxlen=MAX_LEN, dtype="long", truncating="post", padding="post")

input_ids[0]

array([   101,   9460,  11664, 119424,  12965,    117,   9706,  75965,
        16985,    106,    102,      0,      0,      0,      0,      0,
            0,      0,      0,      0,      0,      0,      0,      0,
            0,      0,      0,      0,      0,      0,      0,      0,
            0,      0,      0,      0,      0,      0,      0,      0,
            0,      0,      0,      0,      0,      0,      0,      0,
            0,      0,      0,      0,      0,      0,      0,      0,
            0,      0,      0,      0,      0,      0,      0,      0,
            0,      0,      0,      0,      0,      0,      0,      0,
            0,      0,      0,      0,      0,      0,      0,      0,
            0,      0,      0,      0,      0,      0,      0,      0,
            0,      0,      0,      0,      0,      0,      0,      0,
            0,      0,      0,      0,      0,      0,      0,      0,
            0,      0,      0,      0,      0,      0,      0,      0,
      

In [22]:
# 어텐션 마스크 초기화
attention_masks = []

# 어텐션 마스크를 패딩이 아니면 1, 패딩이면 0으로 설정
# 패딩 부분은 BERT 모델에서 어텐션을 수행하지 않아 속도 향상
for seq in input_ids:
    seq_mask = [float(i>0) for i in seq]
    attention_masks.append(seq_mask)

print(attention_masks[0])

[1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0]


In [23]:
# 데이터를 파이토치의 텐서로 변환
test_inputs = torch.tensor(input_ids)
test_labels = torch.tensor(labels)
test_masks = torch.tensor(attention_masks)

print(test_inputs[0])
print(test_labels[0])
print(test_masks[0])

tensor([   101,   9460,  11664, 119424,  12965,    117,   9706,  75965,  16985,
           106,    102,      0,      0,      0,      0,      0,      0,      0,
             0,      0,      0,      0,      0,      0,      0,      0,      0,
             0,      0,      0,      0,      0,      0,      0,      0,      0,
             0,      0,      0,      0,      0,      0,      0,      0,      0,
             0,      0,      0,      0,      0,      0,      0,      0,      0,
             0,      0,      0,      0,      0,      0,      0,      0,      0,
             0,      0,      0,      0,      0,      0,      0,      0,      0,
             0,      0,      0,      0,      0,      0,      0,      0,      0,
             0,      0,      0,      0,      0,      0,      0,      0,      0,
             0,      0,      0,      0,      0,      0,      0,      0,      0,
             0,      0,      0,      0,      0,      0,      0,      0,      0,
             0,      0,      0,      0, 

In [24]:
# 배치 사이즈
batch_size = 32

# 파이토치의 DataLoader로 입력, 마스크, 라벨을 묶어 데이터 설정
# 학습시 배치 사이즈 만큼 데이터를 가져옴
test_data = TensorDataset(test_inputs, test_masks, test_labels)
test_sampler = RandomSampler(test_data)
test_dataloader = DataLoader(test_data, sampler=test_sampler, batch_size=batch_size)

모델 생성

In [25]:
# GPU 디바이스 이름 구함
device_name = tf.test.gpu_device_name()

# GPU 디바이스 이름 검사
if device_name == '/device:GPU:0':
    print('Found GPU at: {}'.format(device_name))
else:
    raise SystemError('GPU device not found')

Found GPU at: /device:GPU:0


In [26]:
# 디바이스 설정
if torch.cuda.is_available():    
    device = torch.device("cuda")
    print('There are %d GPU(s) available.' % torch.cuda.device_count())
    print('We will use the GPU:', torch.cuda.get_device_name(0))
else:
    device = torch.device("cpu")
    print('No GPU available, using the CPU instead.')

There are 1 GPU(s) available.
We will use the GPU: Tesla T4


In [27]:
# 분류를 위한 BERT 모델 생성
model = BertForSequenceClassification.from_pretrained("bert-base-multilingual-cased", num_labels=len(label_dict))
model.cuda()

Some weights of the model checkpoint at bert-base-multilingual-cased were not used when initializing BertForSequenceClassification: ['cls.predictions.bias', 'cls.predictions.transform.dense.weight', 'cls.predictions.transform.dense.bias', 'cls.predictions.decoder.weight', 'cls.seq_relationship.weight', 'cls.seq_relationship.bias', 'cls.predictions.transform.LayerNorm.weight', 'cls.predictions.transform.LayerNorm.bias']
- This IS expected if you are initializing BertForSequenceClassification from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPretraining model).
- This IS NOT expected if you are initializing BertForSequenceClassification from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).
Some weights of BertForSequenceClassification were not initialized from the model ch

BertForSequenceClassification(
  (bert): BertModel(
    (embeddings): BertEmbeddings(
      (word_embeddings): Embedding(119547, 768, padding_idx=0)
      (position_embeddings): Embedding(512, 768)
      (token_type_embeddings): Embedding(2, 768)
      (LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
      (dropout): Dropout(p=0.1, inplace=False)
    )
    (encoder): BertEncoder(
      (layer): ModuleList(
        (0): BertLayer(
          (attention): BertAttention(
            (self): BertSelfAttention(
              (query): Linear(in_features=768, out_features=768, bias=True)
              (key): Linear(in_features=768, out_features=768, bias=True)
              (value): Linear(in_features=768, out_features=768, bias=True)
              (dropout): Dropout(p=0.1, inplace=False)
            )
            (output): BertSelfOutput(
              (dense): Linear(in_features=768, out_features=768, bias=True)
              (LayerNorm): LayerNorm((768,), eps=1e-12, elemen

In [28]:
# 옵티마이저 설정
optimizer = AdamW(model.parameters(),
                  lr = 2e-5, # 학습률
                  eps = 1e-8 # 0으로 나누는 것을 방지하기 위한 epsilon 값
                )

# 에폭수
epochs = 4

# 총 훈련 스텝 : 배치반복 횟수 * 에폭
total_steps = len(train_dataloader) * epochs

# 학습률을 조금씩 감소시키는 스케줄러 생성
scheduler = get_linear_schedule_with_warmup(optimizer, 
                                            num_warmup_steps = 0,
                                            num_training_steps = total_steps)

모델 학습


In [29]:
# 정확도 계산 함수
def flat_accuracy(preds, labels):
    
    pred_flat = np.argmax(preds, axis=1).flatten()
    labels_flat = labels.flatten()

    return np.sum(pred_flat == labels_flat) / len(labels_flat)

In [30]:
# 시간 표시 함수
def format_time(elapsed):

    # 반올림
    elapsed_rounded = int(round((elapsed)))
    
    # hh:mm:ss으로 형태 변경
    return str(datetime.timedelta(seconds=elapsed_rounded))

In [31]:
# 재현을 위해 랜덤시드 고정
seed_val = 19
random.seed(seed_val)
np.random.seed(seed_val)
torch.manual_seed(seed_val)
torch.cuda.manual_seed_all(seed_val)

# 그래디언트 초기화
model.zero_grad()

# 에폭만큼 반복
for epoch_i in range(0, epochs):
    
    # ========================================
    #               Training
    # ========================================
    
    print("")
    print('======== Epoch {:} / {:} ========'.format(epoch_i + 1, epochs))
    print('Training...')

    # 시작 시간 설정
    t0 = time.time()

    # 로스 초기화
    total_loss = 0

    # 훈련모드로 변경
    model.train()
        
    # 데이터로더에서 배치만큼 반복하여 가져옴
    for step, batch in enumerate(train_dataloader):
        # 경과 정보 표시
        if step % 500 == 0 and not step == 0:
            elapsed = format_time(time.time() - t0)
            print('  Batch {:>5,}  of  {:>5,}.    Elapsed: {:}.'.format(step, len(train_dataloader), elapsed))

        # 배치를 GPU에 넣음
        batch = tuple(t.to(device) for t in batch)
        
        # 배치에서 데이터 추출
        b_input_ids, b_input_mask, b_labels = batch

        # Forward 수행                
        outputs = model(b_input_ids, 
                        token_type_ids=None, 
                        attention_mask=b_input_mask, 
                        labels=b_labels)
        
        # 로스 구함
        loss = outputs[0]

        # 총 로스 계산
        total_loss += loss.item()

        # Backward 수행으로 그래디언트 계산
        loss.backward()

        # 그래디언트 클리핑
        torch.nn.utils.clip_grad_norm_(model.parameters(), 1.0)

        # 그래디언트를 통해 가중치 파라미터 업데이트
        optimizer.step()

        # 스케줄러로 학습률 감소
        scheduler.step()

        # 그래디언트 초기화
        model.zero_grad()

    # 평균 로스 계산
    avg_train_loss = total_loss / len(train_dataloader)            

    print("")
    print("  Average training loss: {0:.2f}".format(avg_train_loss))
    print("  Training epcoh took: {:}".format(format_time(time.time() - t0)))
        
    # ========================================
    #               Validation
    # ========================================

    print("")
    print("Running Validation...")

    #시작 시간 설정
    t0 = time.time()

    # 평가모드로 변경
    model.eval()

    # 변수 초기화
    eval_loss, eval_accuracy = 0, 0
    nb_eval_steps, nb_eval_examples = 0, 0

    # 데이터로더에서 배치만큼 반복하여 가져옴
    for batch in validation_dataloader:
        # 배치를 GPU에 넣음
        batch = tuple(t.to(device) for t in batch)
        
        # 배치에서 데이터 추출
        b_input_ids, b_input_mask, b_labels = batch
        
        # 그래디언트 계산 안함
        with torch.no_grad():     
            # Forward 수행
            outputs = model(b_input_ids, 
                            token_type_ids=None, 
                            attention_mask=b_input_mask)
        
        # 로스 구함
        logits = outputs[0]

        # CPU로 데이터 이동
        logits = logits.detach().cpu().numpy()
        label_ids = b_labels.to('cpu').numpy()
        
        # 출력 로짓과 라벨을 비교하여 정확도 계산
        tmp_eval_accuracy = flat_accuracy(logits, label_ids)
        eval_accuracy += tmp_eval_accuracy
        nb_eval_steps += 1

    print("  Accuracy: {0:.2f}".format(eval_accuracy/nb_eval_steps))
    print("  Validation took: {:}".format(format_time(time.time() - t0)))

print("")
print("Training complete!")


Training...

  Average training loss: 1.62
  Training epcoh took: 0:00:46

Running Validation...
  Accuracy: 0.47
  Validation took: 0:00:02

Training...

  Average training loss: 1.43
  Training epcoh took: 0:00:45

Running Validation...
  Accuracy: 0.54
  Validation took: 0:00:02

Training...

  Average training loss: 1.28
  Training epcoh took: 0:00:46

Running Validation...
  Accuracy: 0.56
  Validation took: 0:00:02

Training...

  Average training loss: 1.16
  Training epcoh took: 0:00:45

Running Validation...
  Accuracy: 0.58
  Validation took: 0:00:02

Training complete!


테스트셋 평가

In [32]:
#시작 시간 설정
t0 = time.time()

# 평가모드로 변경
model.eval()

# 변수 초기화
eval_loss, eval_accuracy = 0, 0
nb_eval_steps, nb_eval_examples = 0, 0

# 데이터로더에서 배치만큼 반복하여 가져옴
for step, batch in enumerate(test_dataloader):
    # 경과 정보 표시
    if step % 100 == 0 and not step == 0:
        elapsed = format_time(time.time() - t0)
        print('  Batch {:>5,}  of  {:>5,}.    Elapsed: {:}.'.format(step, len(test_dataloader), elapsed))

    # 배치를 GPU에 넣음
    batch = tuple(t.to(device) for t in batch)
    
    # 배치에서 데이터 추출
    b_input_ids, b_input_mask, b_labels = batch
    
    # 그래디언트 계산 안함
    with torch.no_grad():     
        # Forward 수행
        outputs = model(b_input_ids, 
                        token_type_ids=None, 
                        attention_mask=b_input_mask)
    
    # 로스 구함
    logits = outputs[0]

    # CPU로 데이터 이동
    logits = logits.detach().cpu().numpy()
    label_ids = b_labels.to('cpu').numpy()
    
    # 출력 로짓과 라벨을 비교하여 정확도 계산
    tmp_eval_accuracy = flat_accuracy(logits, label_ids)
    eval_accuracy += tmp_eval_accuracy
    nb_eval_steps += 1

print("")
print("Accuracy: {0:.2f}".format(eval_accuracy/nb_eval_steps))
print("Test took: {:}".format(format_time(time.time() - t0)))


Accuracy: 0.50
Test took: 0:00:02


새로운 문장 테스트¶

In [33]:
# 입력 데이터 변환
def convert_input_data(sentences):

    # BERT의 토크나이저로 문장을 토큰으로 분리
    tokenized_texts = [tokenizer.tokenize(sent) for sent in sentences]

    # 입력 토큰의 최대 시퀀스 길이
    MAX_LEN = 256

    # 토큰을 숫자 인덱스로 변환
    input_ids = [tokenizer.convert_tokens_to_ids(x) for x in tokenized_texts]
    
    # 문장을 MAX_LEN 길이에 맞게 자르고, 모자란 부분을 패딩 0으로 채움
    input_ids = pad_sequences(input_ids, maxlen=MAX_LEN, dtype="long", truncating="post", padding="post")

    # 어텐션 마스크 초기화
    attention_masks = []

    # 어텐션 마스크를 패딩이 아니면 1, 패딩이면 0으로 설정
    # 패딩 부분은 BERT 모델에서 어텐션을 수행하지 않아 속도 향상
    for seq in input_ids:
        seq_mask = [float(i>0) for i in seq]
        attention_masks.append(seq_mask)

    # 데이터를 파이토치의 텐서로 변환
    inputs = torch.tensor(input_ids)
    masks = torch.tensor(attention_masks)

    return inputs, masks

In [34]:
# 문장 테스트
def test_sentences(sentences):

    # 평가모드로 변경
    model.eval()

    # 문장을 입력 데이터로 변환
    inputs, masks = convert_input_data(sentences)

    # 데이터를 GPU에 넣음
    b_input_ids = inputs.to(device)
    b_input_mask = masks.to(device)
            
    # 그래디언트 계산 안함
    with torch.no_grad():     
        # Forward 수행
        outputs = model(b_input_ids, 
                        token_type_ids=None, 
                        attention_mask=b_input_mask)

    # 로스 구함
    logits = outputs[0]

    # CPU로 데이터 이동
    logits = logits.detach().cpu().numpy()

    return logits

In [35]:
logits = test_sentences(['열심히 일하고 만족을 미루는 것이 내가 할 수 있는 전부다!'])

husky=np.argmax(logits)
print(possible_labels[husky])


neutral


In [36]:
logits = test_sentences(['시작은 미약해도 그 끝은 창대할 수 있다.'])

husky=np.argmax(logits)
print(possible_labels[husky])

sadness


In [37]:

logits = test_sentences(['우리 팀의 팀훈(?) ❗️워라밸❗️을 위해 체계적으로 진행하려고 스크럼도 하고 그랬는데, 워라밸을 떠나서 매끄럽게 진행되고있다. 매우 행복하고 만족스럽다!\(//∇//)\
SNS(페이스북, 인스타그램 등) 데이터 가져오는 것이 매우 걱정했는데 성공했다. 이게 행복이지. 이맛에 코딩하는건가?(°▽°)❗️ 짜릿해 오늘 팀플의 기분은 행복함, 그리고 평화로움이다.'])
husky=np.argmax(logits)
print(possible_labels[husky])

joy


In [38]:
logits = test_sentences(['갓난 아이 때 보육원에 와서 여섯 살 때 그 집으로 입양됐어요. 좋은 집에서 잘 먹고 편하게 살았지만 또 마냥 행복한 것만은 아니었어요. 그 때 홍콩엔 친엄마를 만나러 갔던 거예요. 죽기 전에 널 보고 싶다.. 전화가 왔었거든.. 날 만나고 그날 밤에 엄마는 돌아가셨어요. 끔찍했죠.. 엄마는 형편이 나아지는 대로 날 다시 데려가겠다 했는데 돈 많은 교수부부 집에 간 걸 알고 마음을 접으셨대요.대신 우유배달부로, 요구르트 아줌마로 늘 내 곁을 맴돌면서 사셨다고..비 오는 날 학교에서 우산을 건네줬던 요구르트 아줌마가 있었는데.. 엄마였대요.그 때 한번 손이라도 잡아볼 껄..'])
husky=np.argmax(logits)
print(possible_labels[husky])

# sadness를 예상했으나 joy가..

joy


In [39]:
logits = test_sentences(['난 당신하구 결혼하면서 내 인생을 송두리째 포기한거야! 거기다 대고 뭘 양보했냐고?'])
husky=np.argmax(logits)
print(possible_labels[husky])

# 오.. 잘나왔다

anger


In [40]:
logits = test_sentences(['아버지가가방에들어가신다'])
husky=np.argmax(logits)
print(possible_labels[husky])

joy


In [41]:
logits = test_sentences(['철수는 울면서 떠나는 영희를 배웅했다.'])
husky=np.argmax(logits)
print(possible_labels[husky])

# ...

joy


In [42]:
logits = test_sentences(['하기야, 육지에서는 나를 몰라보는 이가 없소이다마는, 용궁에까지 소문이 났다 하니 조금은 놀랍소.'])
husky=np.argmax(logits)
print(possible_labels[husky])

anger
