# **네이버 영화리뷰 감정분석 with Hugging Face BERT**

BERT(Bidirectional Encoder Representations from Transformers)는 구글이 개발한 사전훈련(pre-training) 모델입니다. 위키피디아 같은 텍스트 코퍼스를 사용해서 미리 학습을 하면, 언어의 기본적인 패턴을 이해한 모델이 만들어집니다. 이를 기반으로 새로운 문제에 적용하는 전이학습(transfer learning)을 수행합니다. 좀 더 적은 데이터로 보다 빠르게 학습이 가능하다는 장점이 있습니다. 그래서 최근 자연어처리의 핵심 기법으로 떠오르고 있습니다.

이 예제에서는 한글 NLP의 Hello world라고 할 수 있는 네이버 영화리뷰 감정분석을 구현해보겠습니다. 가장 유명한 모델 중 하나인 Hugging Face의 PyTorch BERT를 사용하였습니다. 아래의 Chris McCormick의 블로그를 참조하여 한글에 맞게 수정하였음을 미리 알려드립니다.

< BERT Fine-Tuning Tutorial with PyTorch ><br>
-> https://mccormickml.com/2019/07/22/BERT-fine-tuning
<br>
<br>
<br>
BERT에 대해서 좀 더 자세한 설명은 박상길님과 Jay Alammar의 블로그를 참조하시기 바랍니다.

< BERT 톺아보기 ><br>
-> http://docs.likejazz.com/bert/

< The Illustrated BERT, ELMo, and co. (How NLP Cracked Transfer Learning) ><br>
-> http://jalammar.github.io/illustrated-bert/
<br>
<br>


<br>
<br>

# **준비 사항**

In [1]:
# Hugging Face의 트랜스포머 모델을 설치
!pip install transformers



In [2]:
import tensorflow as tf
import torch

from transformers import BertTokenizer
from transformers import BertForSequenceClassification, AdamW, BertConfig
from transformers import get_linear_schedule_with_warmup
from torch.utils.data import TensorDataset, DataLoader, RandomSampler, SequentialSampler
from tensorflow.keras.preprocessing.sequence import pad_sequences
from sklearn.model_selection import train_test_split

import pandas as pd
import numpy as np
import random
import time
import datetime

<br>
<br>

# **데이터 로드**

In [3]:
# 네이버 영화리뷰 감정분석 데이터 다운로드
#!git clone https://github.com/e9t/nsmc.git

박은정님의 네이버 영화리뷰 감정분석 데이터를 Github에서 다운로드 합니다. 아래와 같이 nsmc 디렉토리에 있는 ratings_train.txt와 ratings_test.txt를 사용하겠습니다.
<br>
<br>
<br>

In [4]:
# 디렉토리의 파일 목록
#!ls nsmc -la

In [5]:
# 판다스로 훈련셋과 테스트셋 데이터 로드
train = pd.read_csv("train.txt", sep='\t')
test = pd.read_csv("test.txt", sep='\t')

print(train.shape)
print(test.shape)

(60043, 3)
(60102, 3)


훈련셋 150,000개와 테스트셋 50,000개의 데이터가 존재합니다.
<br>
<br>
<br>

In [6]:
# 훈련셋의 앞부분 출력
train.head(10)

Unnamed: 0,id,document,label
0,0,산이 있어 겨울에 춥긴 하지만 여름에는 시원하며 대단지라 관리비가 적게 듬,1
1,1,단지 내가 조용하고 깨끗하여 산책하기 좋다. 무엇보다 아파트 자체가 굉장히 조용하여...,1
2,2,아파트가 조금 돼서 그런지 확실히 방음처리는 약하다고 생각이 들어요. 그래도 이 ...,1
3,3,가까이에 롯데 백화점 지하철역 음식점도 많고 문화생활이라던지 일상생활에 불편하지 않...,1
4,4,"초등학교 아이 두고 계신 부모님이 보고 계신다면 바로 여기입니다. 다만, 중/고등학...",1
5,5,남동향 집. 겨울에 따뜻함. 아이가 뛸경우 층간소음 발생. 현관앞 공간이 넓음.,1
6,6,"베란다가 넓으며, 우리가 사는 동은 서향인데도 불구하고 덥지 않고, 산과 인접해 있...",1
7,7,이 동네에서 그래도 최근에 지어진 아파트라 공간 활용이 잘 되어 있다,1
8,9,"그냥 완벽합니다 뭐 더 설명할 필요가 없어요. 빨리 계약하세요. 교통 편리하지, 아...",1
9,10,교대역 전철 2호선 3호선 환승 가능 역세권이며 도보로 7분 정도 소요 강남역도 마...,1


id는 회원정보, document는 리뷰 문장입니다. label이 0이면 부정, 1이면 긍정으로 분류됩니다. id는 사용하지 않기 때문에 document와 label만 추출하겠습니다.

<br>
<br>

# **전처리 - 훈련셋**

In [7]:
# 리뷰 문장 추출
sentences = train['document']
sentences[:10]

0            산이 있어 겨울에 춥긴 하지만 여름에는 시원하며 대단지라 관리비가 적게 듬
1    단지 내가 조용하고 깨끗하여 산책하기 좋다. 무엇보다 아파트 자체가 굉장히 조용하여...
2    아파트가 조금 돼서 그런지 확실히 방음처리는 약하다고 생각이 들어요.  그래도 이 ...
3    가까이에 롯데 백화점 지하철역 음식점도 많고 문화생활이라던지 일상생활에 불편하지 않...
4    초등학교 아이 두고 계신 부모님이 보고 계신다면 바로 여기입니다. 다만, 중/고등학...
5         남동향 집. 겨울에 따뜻함. 아이가 뛸경우 층간소음 발생. 현관앞 공간이 넓음.
6    베란다가 넓으며, 우리가 사는 동은 서향인데도 불구하고 덥지 않고, 산과 인접해 있...
7               이 동네에서 그래도 최근에 지어진 아파트라 공간 활용이 잘 되어 있다
8    그냥 완벽합니다 뭐 더 설명할 필요가 없어요. 빨리 계약하세요. 교통 편리하지, 아...
9    교대역 전철 2호선 3호선 환승 가능 역세권이며 도보로 7분 정도 소요 강남역도 마...
Name: document, dtype: object

In [8]:
# BERT의 입력 형식에 맞게 변환
sentences = ["[CLS] " + str(sentence) + " [SEP]" for sentence in sentences]
sentences[:10]

['[CLS] 산이 있어 겨울에 춥긴 하지만 여름에는 시원하며 대단지라 관리비가 적게 듬 [SEP]',
 '[CLS] 단지 내가 조용하고 깨끗하여 산책하기 좋다. 무엇보다 아파트 자체가 굉장히 조용하여 괜히 조용히 하게 된다. 놀이터도 많아 아이들이 놀기에도 좋으며 시설도 굉장히 잘되어있다. 아파트 내에 독서실이 있어 학생들이 공부하기도 좋다. [SEP]',
 '[CLS] 아파트가 조금 돼서 그런지 확실히 방음처리는 약하다고 생각이 들어요.  그래도 이 정도면 공기 좋고 언덕 위에 위치해서 조용하고  살기 좋은 편이라고 생각이 들어요. [SEP]',
 '[CLS] 가까이에 롯데 백화점 지하철역 음식점도 많고 문화생활이라던지 일상생활에 불편하지 않아 살기 좋아요 [SEP]',
 '[CLS] 초등학교 아이 두고 계신 부모님이 보고 계신다면 바로 여기입니다. 다만, 중/고등학교 학군은 조금 아쉽습니다. [SEP]',
 '[CLS] 남동향 집. 겨울에 따뜻함. 아이가 뛸경우 층간소음 발생. 현관앞 공간이 넓음. [SEP]',
 '[CLS] 베란다가 넓으며, 우리가 사는 동은 서향인데도 불구하고 덥지 않고, 산과 인접해 있어 엄청 시원하고, 겨울에는 따뜻함. [SEP]',
 '[CLS] 이 동네에서 그래도 최근에 지어진 아파트라 공간 활용이 잘 되어 있다 [SEP]',
 '[CLS] 그냥 완벽합니다 뭐 더 설명할 필요가 없어요. 빨리 계약하세요. 교통 편리하지, 아파트 이쁘지, 독서실, 노인정, 헬스클럽, 골프연습장 다 있어요. 단지 내에 녹지도 많아서 봄, 여름에 상당히 이쁩니다 [SEP]',
 '[CLS] 교대역 전철 2호선 3호선 환승 가능 역세권이며 도보로 7분 정도 소요 강남역도 마을버스로 아파트 앞에서 타고 출퇴근 편리함 자가용으로 고속도로 타기도 편리함 [SEP]']

![대체 텍스트](https://mino-park7.github.io/images/2019/02/bert-input-representation.png)

BERT의 입력은 위의 그림과 같은 형식입니다. Classification을 뜻하는 [CLS] 심볼이 제일 앞에 삽입됩니다. 파인튜닝시 출력에서 이 위치의 값을 사용하여 분류를 합니다. [SEP]은 Seperation을 가리키는데, 두 문장을 구분하는 역할을 합니다. 이 예제에서는 문장이 하나이므로 [SEP]도 하나만 넣습니다.
<br>
<br>
<br>

In [9]:
# 라벨 추출
labels = train['label'].values
labels

array([1, 1, 1, ..., 1, 1, 1], dtype=int64)

In [10]:
# BERT의 토크나이저로 문장을 토큰으로 분리
tokenizer = BertTokenizer.from_pretrained('bert-base-multilingual-cased', do_lower_case=False)
tokenized_texts = [tokenizer.tokenize(sent) for sent in sentences]

print (sentences[0])
print (tokenized_texts[0])

[CLS] 산이 있어 겨울에 춥긴 하지만 여름에는 시원하며 대단지라 관리비가 적게 듬 [SEP]
['[CLS]', '산', '##이', '있어', '겨', '##울', '##에', '[UNK]', '하지만', '여', '##름', '##에는', '시', '##원', '##하며', '대', '##단', '##지', '##라', '관', '##리', '##비', '##가', '적', '##게', '듬', '[SEP]']


BERT는 형태소분석으로 토큰을 분리하지 않습니다. WordPiece라는 통계적인 방식을 사용합니다. 한 단어내에서 자주 나오는 글자들을 붙여서 하나의 토큰으로 만듭니다. 이렇게 하면 언어에 상관없이 토큰을 생성할 수 있다는 장점이 있습니다. 또한 신조어 같이 사전에 없는 단어를 처리하기도 좋습니다.

위의 결과에서 ## 기호는 앞 토큰과 이어진다는 표시입니다. 토크나이저는 여러 언어의 데이터를 기반으로 만든 'bert-base-multilingual-cased'를 사용합니다. 그래서 한글도 처리가 가능합니다.
<br>
<br>
<br>

In [11]:
# 입력 토큰의 최대 시퀀스 길이
MAX_LEN = 128

# 토큰을 숫자 인덱스로 변환
input_ids = [tokenizer.convert_tokens_to_ids(x) for x in tokenized_texts]

# 문장을 MAX_LEN 길이에 맞게 자르고, 모자란 부분을 패딩 0으로 채움
input_ids = pad_sequences(input_ids, maxlen=MAX_LEN, dtype="long", truncating="post", padding="post")

input_ids[0]

array([  101,  9407, 10739, 45893,  8877, 78123, 10530,   100, 32775,
        9565, 49543, 15303,  9485, 14279, 22766,  9069, 24989, 12508,
       17342,  8900, 12692, 29455, 11287,  9664, 14153,  9118,   102,
           0,     0,     0,     0,     0,     0,     0,     0,     0,
           0,     0,     0,     0,     0,     0,     0,     0,     0,
           0,     0,     0,     0,     0,     0,     0,     0,     0,
           0,     0,     0,     0,     0,     0,     0,     0,     0,
           0,     0,     0,     0,     0,     0,     0,     0,     0,
           0,     0,     0,     0,     0,     0,     0,     0,     0,
           0,     0,     0,     0,     0,     0,     0,     0,     0,
           0,     0,     0,     0,     0,     0,     0,     0,     0,
           0,     0,     0,     0,     0,     0,     0,     0,     0,
           0,     0,     0,     0,     0,     0,     0,     0,     0,
           0,     0,     0,     0,     0,     0,     0,     0,     0,
           0,     0]

보통 딥러닝 모델에는 토큰 자체를 입력으로 넣을 수 없습니다. 임베딩 레이어에는 토큰을 숫자로 된 인덱스로 변환하여 사용합니다. BERT의 토크나이저는 {단어토큰:인덱스}로 구성된 단어사전을 가지고 있습니다. 이를 참조하여 토큰을 인덱스로 바꿔줍니다.
<br>
<br>
<br>

In [12]:
# 어텐션 마스크 초기화
attention_masks = []

# 어텐션 마스크를 패딩이 아니면 1, 패딩이면 0으로 설정
# 패딩 부분은 BERT 모델에서 어텐션을 수행하지 않아 속도 향상
for seq in input_ids:
    seq_mask = [float(i>0) for i in seq]
    attention_masks.append(seq_mask)

print(attention_masks[0])

[1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0]


In [13]:
# 훈련셋과 검증셋으로 분리
train_inputs, validation_inputs, train_labels, validation_labels = train_test_split(input_ids,
                                                                                    labels,
                                                                                    random_state=2018,
                                                                                    test_size=0.1)

# 어텐션 마스크를 훈련셋과 검증셋으로 분리
train_masks, validation_masks, _, _ = train_test_split(attention_masks,
                                                       input_ids,
                                                       random_state=2018,
                                                       test_size=0.1)

# 데이터를 파이토치의 텐서로 변환
train_inputs = torch.tensor(train_inputs)
train_labels = torch.tensor(train_labels)
train_masks = torch.tensor(train_masks)
validation_inputs = torch.tensor(validation_inputs)
validation_labels = torch.tensor(validation_labels)
validation_masks = torch.tensor(validation_masks)

print(train_inputs[0])
print(train_labels[0])
print(train_masks[0])
print(validation_inputs[0])
print(validation_labels[0])
print(validation_masks[0])

tensor([   101,   9603,  21386,  23160,   9638,  23811,  15184,   8888,  43962,
         21876,  22458,  49881,  25387,  24982,  21611,  63218,  18227,  34907,
          9421,  11261,  15891, 118666,   9638,  24974,   9924,  12692,  33188,
         48345,    102,      0,      0,      0,      0,      0,      0,      0,
             0,      0,      0,      0,      0,      0,      0,      0,      0,
             0,      0,      0,      0,      0,      0,      0,      0,      0,
             0,      0,      0,      0,      0,      0,      0,      0,      0,
             0,      0,      0,      0,      0,      0,      0,      0,      0,
             0,      0,      0,      0,      0,      0,      0,      0,      0,
             0,      0,      0,      0,      0,      0,      0,      0,      0,
             0,      0,      0,      0,      0,      0,      0,      0,      0,
             0,      0,      0,      0,      0,      0,      0,      0,      0,
             0,      0,      0,      0, 

In [14]:
# 배치 사이즈
batch_size = 32

# 파이토치의 DataLoader로 입력, 마스크, 라벨을 묶어 데이터 설정
# 학습시 배치 사이즈 만큼 데이터를 가져옴
train_data = TensorDataset(train_inputs, train_masks, train_labels)
train_sampler = RandomSampler(train_data)
train_dataloader = DataLoader(train_data, sampler=train_sampler, batch_size=batch_size)

validation_data = TensorDataset(validation_inputs, validation_masks, validation_labels)
validation_sampler = SequentialSampler(validation_data)
validation_dataloader = DataLoader(validation_data, sampler=validation_sampler, batch_size=batch_size)

<br>
<br>

# **전처리 - 테스트셋**

In [15]:
# 리뷰 문장 추출
sentences = test['document']
sentences[:10]

0    10단지 거주중인데 바로 앞에 버스정류장 있음  역으로 나가는 버스가 많다  배차가...
1          충간소음이 심해서 피해를 자주 본다 윗집에 시끄럽다고 알려줘도 줄어들지 않는다
2    지하철 역으로 너흴 수 있는 버스가 4318 단 한대뿐인데 상습정체구간을 운향 하는...
3    우선 단지 주변으로 어린이집, 유치원, 초등학교, 중학교가 있어서 아이들 키우기에 ...
4    동간 간격이 좁지 않아 채광이나 난방비도 대단지라 다른 곳보다 적게 드는 편 소음은...
5    역사에 소규모 상가가 있고 마트와 잡화점이 있어 대형마트 가지않고도 충분히 장 볼수...
6    신정네거리역 도보 5분 , 신정역 도보 10분 정도  마을버스 양천 04 양천 03...
7    차 소리가 거의 들리지 않아서 아파트가 매우 조용하다. 아파트 단지 내에 사우나와 ...
8    베란다가 없는 게 단점인 것 같다, 바람이 덜 들어와 여름에는 에어컨을 항상 켜야 한다.
9                 관리비가 적절하게 나오며 택배도 경비실에 수 관리해 주어 편리하다
Name: document, dtype: object

In [16]:
# BERT의 입력 형식에 맞게 변환
sentences = ["[CLS] " + str(sentence) + " [SEP]" for sentence in sentences]
sentences[:10]

['[CLS] 10단지 거주중인데 바로 앞에 버스정류장 있음  역으로 나가는 버스가 많다  배차가 길지 않다 [SEP]',
 '[CLS] 충간소음이 심해서 피해를 자주 본다 윗집에 시끄럽다고 알려줘도 줄어들지 않는다 [SEP]',
 '[CLS] 지하철 역으로 너흴 수 있는 버스가 4318 단 한대뿐인데 상습정체구간을 운향 하는 노선이 긴 버그라 출퇴근 시간 버스가 배차시간이 심할 땐 25분이나 된다. 천호역 강동구청역 도보 10~15분 거리이며 올림픽 댜로를 바로 탈 수 있어 자가용 소지자는 편하다 [SEP]',
 '[CLS] 우선 단지 주변으로 어린이집, 유치원, 초등학교, 중학교가 있어서 아이들 키우기에 좋습니다.  물론 문화센터 같은 여가활동도 가능한 곳이라 편하고요..  시내 나갈 일 있을 때 버스 환승만 잠깐 하면 장한평역도 가깝고 버스 중앙차선에 노선이 많아서 접근성이 좋습니다.  무엇보다 단지 내 관리가 여전히 잘 되고 있어서 오래된 아파트 같지 않고 깨끗합니다. [SEP]',
 '[CLS] 동간 간격이 좁지 않아 채광이나 난방비도 대단지라 다른 곳보다 적게 드는 편 소음은 어느 정도 있을 수 있으나 크게 소음으로 스트레스받은 적은 없다 [SEP]',
 '[CLS] 역사에 소규모 상가가 있고 마트와 잡화점이 있어 대형마트 가지않고도 충분히 장 볼수있으며 안양천 도보 10분이내로 도착,  자전거나 산책 가능. 인근 유수지 생태공원이 있음 [SEP]',
 '[CLS] 신정네거리역 도보 5분 , 신정역 도보 10분 정도  마을버스 양천 04 양천 03 다녀서 편하고요. 주차장 넓어서 좋아요. 주변에 주택가 골목길로 들어올 땐 좁아서 큰 킬로 오려고 돌아올 때도 있어요 [SEP]',
 '[CLS] 차 소리가 거의 들리지 않아서 아파트가 매우 조용하다. 아파트 단지 내에 사우나와 헬스클럽이 있어서 매우 편리하게 목욕이나 체력단련을 할 수 있다. [SEP]',
 '[CLS] 베란다가 없는 게 단점인 것 같다, 바람이 덜 들어와 여름에는 에어컨을 항상 켜야 한

In [17]:
# 라벨 추출
labels = test['label'].values
labels

array([1, 0, 0, ..., 0, 1, 0], dtype=int64)

In [18]:
# BERT의 토크나이저로 문장을 토큰으로 분리
tokenizer = BertTokenizer.from_pretrained('bert-base-multilingual-cased', do_lower_case=False)
tokenized_texts = [tokenizer.tokenize(sent) for sent in sentences]

print (sentences[0])
print (tokenized_texts[0])

[CLS] 10단지 거주중인데 바로 앞에 버스정류장 있음  역으로 나가는 버스가 많다  배차가 길지 않다 [SEP]
['[CLS]', '10', '##단', '##지', '거', '##주', '##중', '##인', '##데', '바로', '앞', '##에', '버', '##스', '##정', '##류', '##장', '있', '##음', '역', '##으로', '나', '##가는', '버', '##스', '##가', '많다', '배', '##차', '##가', '길', '##지', '않', '##다', '[SEP]']


In [19]:
# 입력 토큰의 최대 시퀀스 길이
MAX_LEN = 128

# 토큰을 숫자 인덱스로 변환
input_ids = [tokenizer.convert_tokens_to_ids(x) for x in tokenized_texts]

# 문장을 MAX_LEN 길이에 맞게 자르고, 모자란 부분을 패딩 0으로 채움
input_ids = pad_sequences(input_ids, maxlen=MAX_LEN, dtype="long", truncating="post", padding="post")

input_ids[0]

array([   101,  10150,  24989,  12508,   8863,  16323,  41693,  12030,
        28911,  71433,   9531,  10530,   9336,  12605,  16605,  46520,
        13890,   9647,  32158,   9566,  11467,   8982,  68828,   9336,
        12605,  11287, 100313,   9330,  23466,  11287,   8934,  12508,
         9523,  11903,    102,      0,      0,      0,      0,      0,
            0,      0,      0,      0,      0,      0,      0,      0,
            0,      0,      0,      0,      0,      0,      0,      0,
            0,      0,      0,      0,      0,      0,      0,      0,
            0,      0,      0,      0,      0,      0,      0,      0,
            0,      0,      0,      0,      0,      0,      0,      0,
            0,      0,      0,      0,      0,      0,      0,      0,
            0,      0,      0,      0,      0,      0,      0,      0,
            0,      0,      0,      0,      0,      0,      0,      0,
            0,      0,      0,      0,      0,      0,      0,      0,
      

In [20]:
# 어텐션 마스크 초기화
attention_masks = []

# 어텐션 마스크를 패딩이 아니면 1, 패딩이면 0으로 설정
# 패딩 부분은 BERT 모델에서 어텐션을 수행하지 않아 속도 향상
for seq in input_ids:
    seq_mask = [float(i>0) for i in seq]
    attention_masks.append(seq_mask)

print(attention_masks[0])

[1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0]


In [21]:
# 데이터를 파이토치의 텐서로 변환
test_inputs = torch.tensor(input_ids)
test_labels = torch.tensor(labels)
test_masks = torch.tensor(attention_masks)

print(test_inputs[0])
print(test_labels[0])
print(test_masks[0])

tensor([   101,  10150,  24989,  12508,   8863,  16323,  41693,  12030,  28911,
         71433,   9531,  10530,   9336,  12605,  16605,  46520,  13890,   9647,
         32158,   9566,  11467,   8982,  68828,   9336,  12605,  11287, 100313,
          9330,  23466,  11287,   8934,  12508,   9523,  11903,    102,      0,
             0,      0,      0,      0,      0,      0,      0,      0,      0,
             0,      0,      0,      0,      0,      0,      0,      0,      0,
             0,      0,      0,      0,      0,      0,      0,      0,      0,
             0,      0,      0,      0,      0,      0,      0,      0,      0,
             0,      0,      0,      0,      0,      0,      0,      0,      0,
             0,      0,      0,      0,      0,      0,      0,      0,      0,
             0,      0,      0,      0,      0,      0,      0,      0,      0,
             0,      0,      0,      0,      0,      0,      0,      0,      0,
             0,      0,      0,      0, 

In [22]:
# 배치 사이즈
batch_size = 32

# 파이토치의 DataLoader로 입력, 마스크, 라벨을 묶어 데이터 설정
# 학습시 배치 사이즈 만큼 데이터를 가져옴
test_data = TensorDataset(test_inputs, test_masks, test_labels)
test_sampler = RandomSampler(test_data)
test_dataloader = DataLoader(test_data, sampler=test_sampler, batch_size=batch_size)

<br>
<br>

# **모델 생성**

In [23]:
# GPU 디바이스 이름 구함
device_name = tf.test.gpu_device_name()

# GPU 디바이스 이름 검사
if device_name == '/device:GPU:0':
    print('Found GPU at: {}'.format(device_name))
else:
    raise SystemError('GPU device not found')

Found GPU at: /device:GPU:0


In [24]:
# 디바이스 설정
if torch.cuda.is_available():
    device = torch.device("cuda")
    print('There are %d GPU(s) available.' % torch.cuda.device_count())
    print('We will use the GPU:', torch.cuda.get_device_name(0))
else:
    device = torch.device("cpu")
    print('No GPU available, using the CPU instead.')

There are 1 GPU(s) available.
We will use the GPU: NVIDIA GeForce RTX 3070 Ti


In [25]:
# 분류를 위한 BERT 모델 생성
model = BertForSequenceClassification.from_pretrained("bert-base-multilingual-cased", num_labels=2)
model.cuda()

Some weights of the model checkpoint at bert-base-multilingual-cased were not used when initializing BertForSequenceClassification: ['cls.seq_relationship.bias', 'cls.predictions.transform.LayerNorm.weight', 'cls.predictions.transform.dense.weight', 'cls.seq_relationship.weight', 'cls.predictions.transform.dense.bias', 'cls.predictions.bias', 'cls.predictions.transform.LayerNorm.bias']
- This IS expected if you are initializing BertForSequenceClassification from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertForSequenceClassification from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).
Some weights of BertForSequenceClassification were not initialized from the model checkpoint at bert-base-multilingual

BertForSequenceClassification(
  (bert): BertModel(
    (embeddings): BertEmbeddings(
      (word_embeddings): Embedding(119547, 768, padding_idx=0)
      (position_embeddings): Embedding(512, 768)
      (token_type_embeddings): Embedding(2, 768)
      (LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
      (dropout): Dropout(p=0.1, inplace=False)
    )
    (encoder): BertEncoder(
      (layer): ModuleList(
        (0-11): 12 x BertLayer(
          (attention): BertAttention(
            (self): BertSelfAttention(
              (query): Linear(in_features=768, out_features=768, bias=True)
              (key): Linear(in_features=768, out_features=768, bias=True)
              (value): Linear(in_features=768, out_features=768, bias=True)
              (dropout): Dropout(p=0.1, inplace=False)
            )
            (output): BertSelfOutput(
              (dense): Linear(in_features=768, out_features=768, bias=True)
              (LayerNorm): LayerNorm((768,), eps=1e-12

![대체 텍스트](http://www.mccormickml.com/assets/BERT/padding_and_mask.png)

사전훈련된 BERT는 다양한 문제로 전이학습이 가능합니다. 여기서는 위의 그림과 같이 한 문장을 분류하는 방법을 사용합니다. 영화리뷰 문장이 입력으로 들어가면, 긍정/부정으로 구분합니다. 모델의 출력에서 [CLS] 위치인 첫 번째 토큰에 새로운 레이어를 붙여서 파인튜닝을 합니다. Huggning Face는 BertForSequenceClassification() 함수를 제공하기 때문에 쉽게 구현할 수 있습니다.
<br>
<br>
<br>

In [26]:
# 옵티마이저 설정
optimizer = AdamW(model.parameters(),
                  lr = 2e-5, # 학습률
                  eps = 1e-8 # 0으로 나누는 것을 방지하기 위한 epsilon 값
                )

# 에폭수
epochs = 4

# 총 훈련 스텝 : 배치반복 횟수 * 에폭
total_steps = len(train_dataloader) * epochs

# 처음에 학습률을 조금씩 변화시키는 스케줄러 생성
scheduler = get_linear_schedule_with_warmup(optimizer,
                                            num_warmup_steps = 0,
                                            num_training_steps = total_steps)



<br>
<br>

# **모델 학습**

In [27]:
# 정확도 계산 함수
def flat_accuracy(preds, labels):

    pred_flat = np.argmax(preds, axis=1).flatten()
    labels_flat = labels.flatten()

    return np.sum(pred_flat == labels_flat) / len(labels_flat)

In [28]:
# 시간 표시 함수
def format_time(elapsed):

    # 반올림
    elapsed_rounded = int(round((elapsed)))

    # hh:mm:ss으로 형태 변경
    return str(datetime.timedelta(seconds=elapsed_rounded))

In [29]:
# 재현을 위해 랜덤시드 고정
seed_val = 42
random.seed(seed_val)
np.random.seed(seed_val)
torch.manual_seed(seed_val)
torch.cuda.manual_seed_all(seed_val)

# 그래디언트 초기화
model.zero_grad()

# 에폭만큼 반복
for epoch_i in range(0, epochs):

    # ========================================
    #               Training
    # ========================================

    print("")
    print('======== Epoch {:} / {:} ========'.format(epoch_i + 1, epochs))
    print('Training...')

    # 시작 시간 설정
    t0 = time.time()

    # 로스 초기화
    total_loss = 0

    # 훈련모드로 변경
    model.train()

    # 데이터로더에서 배치만큼 반복하여 가져옴
    for step, batch in enumerate(train_dataloader):
        # 경과 정보 표시
        if step % 500 == 0 and not step == 0:
            elapsed = format_time(time.time() - t0)
            print('  Batch {:>5,}  of  {:>5,}.    Elapsed: {:}.'.format(step, len(train_dataloader), elapsed))

        # 배치를 GPU에 넣음
        batch = tuple(t.to(device) for t in batch)

        # 배치에서 데이터 추출
        b_input_ids, b_input_mask, b_labels = batch

        # Forward 수행
        outputs = model(b_input_ids,
                        token_type_ids=None,
                        attention_mask=b_input_mask,
                        labels=b_labels)

        # 로스 구함
        loss = outputs[0]

        # 총 로스 계산
        total_loss += loss.item()

        # Backward 수행으로 그래디언트 계산
        loss.backward()

        # 그래디언트 클리핑
        torch.nn.utils.clip_grad_norm_(model.parameters(), 1.0)

        # 그래디언트를 통해 가중치 파라미터 업데이트
        optimizer.step()

        # 스케줄러로 학습률 감소
        scheduler.step()

        # 그래디언트 초기화
        model.zero_grad()

    # 평균 로스 계산
    avg_train_loss = total_loss / len(train_dataloader)

    print("")
    print("  Average training loss: {0:.2f}".format(avg_train_loss))
    print("  Training epcoh took: {:}".format(format_time(time.time() - t0)))

    # ========================================
    #               Validation
    # ========================================

    print("")
    print("Running Validation...")

    #시작 시간 설정
    t0 = time.time()

    # 평가모드로 변경
    model.eval()

    # 변수 초기화
    eval_loss, eval_accuracy = 0, 0
    nb_eval_steps, nb_eval_examples = 0, 0

    # 데이터로더에서 배치만큼 반복하여 가져옴
    for batch in validation_dataloader:
        # 배치를 GPU에 넣음
        batch = tuple(t.to(device) for t in batch)

        # 배치에서 데이터 추출
        b_input_ids, b_input_mask, b_labels = batch

        # 그래디언트 계산 안함
        with torch.no_grad():
            # Forward 수행
            outputs = model(b_input_ids,
                            token_type_ids=None,
                            attention_mask=b_input_mask)

        # 출력 로짓 구함
        logits = outputs[0]

        # CPU로 데이터 이동
        logits = logits.detach().cpu().numpy()
        label_ids = b_labels.to('cpu').numpy()

        # 출력 로짓과 라벨을 비교하여 정확도 계산
        tmp_eval_accuracy = flat_accuracy(logits, label_ids)
        eval_accuracy += tmp_eval_accuracy
        nb_eval_steps += 1

    print("  Accuracy: {0:.2f}".format(eval_accuracy/nb_eval_steps))
    print("  Validation took: {:}".format(format_time(time.time() - t0)))

print("")
print("Training complete!")


Training...
  Batch   500  of  1,689.    Elapsed: 0:02:12.
  Batch 1,000  of  1,689.    Elapsed: 0:04:18.
  Batch 1,500  of  1,689.    Elapsed: 0:06:24.

  Average training loss: 0.22
  Training epcoh took: 0:07:12

Running Validation...
  Accuracy: 0.94
  Validation took: 0:00:14

Training...
  Batch   500  of  1,689.    Elapsed: 0:02:07.
  Batch 1,000  of  1,689.    Elapsed: 0:04:17.
  Batch 1,500  of  1,689.    Elapsed: 0:06:42.

  Average training loss: 0.17
  Training epcoh took: 0:07:35

Running Validation...
  Accuracy: 0.94
  Validation took: 0:00:16

Training...
  Batch   500  of  1,689.    Elapsed: 0:02:17.
  Batch 1,000  of  1,689.    Elapsed: 0:04:35.
  Batch 1,500  of  1,689.    Elapsed: 0:06:56.

  Average training loss: 0.13
  Training epcoh took: 0:07:51

Running Validation...
  Accuracy: 0.94
  Validation took: 0:00:17

Training...
  Batch   500  of  1,689.    Elapsed: 0:02:29.
  Batch 1,000  of  1,689.    Elapsed: 0:04:47.
  Batch 1,500  of  1,689.    Elapsed: 0:07:0

에폭마다 훈련셋과 검증셋을 반복하여 학습을 수행합니다.

<br>
<br>

# **테스트셋 평가**

In [30]:
#시작 시간 설정
t0 = time.time()

# 평가모드로 변경
model.eval()

# 변수 초기화
eval_loss, eval_accuracy = 0, 0
nb_eval_steps, nb_eval_examples = 0, 0

# 데이터로더에서 배치만큼 반복하여 가져옴
for step, batch in enumerate(test_dataloader):
    # 경과 정보 표시
    if step % 100 == 0 and not step == 0:
        elapsed = format_time(time.time() - t0)
        print('  Batch {:>5,}  of  {:>5,}.    Elapsed: {:}.'.format(step, len(test_dataloader), elapsed))

    # 배치를 GPU에 넣음
    batch = tuple(t.to(device) for t in batch)

    # 배치에서 데이터 추출
    b_input_ids, b_input_mask, b_labels = batch

    # 그래디언트 계산 안함
    with torch.no_grad():
        # Forward 수행
        outputs = model(b_input_ids,
                        token_type_ids=None,
                        attention_mask=b_input_mask)

    # 출력 로짓 구함
    logits = outputs[0]

    # CPU로 데이터 이동
    logits = logits.detach().cpu().numpy()
    label_ids = b_labels.to('cpu').numpy()

    # 출력 로짓과 라벨을 비교하여 정확도 계산
    tmp_eval_accuracy = flat_accuracy(logits, label_ids)
    eval_accuracy += tmp_eval_accuracy
    nb_eval_steps += 1

print("")
print("Accuracy: {0:.2f}".format(eval_accuracy/nb_eval_steps))
print("Test took: {:}".format(format_time(time.time() - t0)))

  Batch   100  of  1,879.    Elapsed: 0:00:10.
  Batch   200  of  1,879.    Elapsed: 0:00:19.
  Batch   300  of  1,879.    Elapsed: 0:00:28.
  Batch   400  of  1,879.    Elapsed: 0:00:37.
  Batch   500  of  1,879.    Elapsed: 0:00:47.
  Batch   600  of  1,879.    Elapsed: 0:00:56.
  Batch   700  of  1,879.    Elapsed: 0:01:05.
  Batch   800  of  1,879.    Elapsed: 0:01:14.
  Batch   900  of  1,879.    Elapsed: 0:01:23.
  Batch 1,000  of  1,879.    Elapsed: 0:01:32.
  Batch 1,100  of  1,879.    Elapsed: 0:01:41.
  Batch 1,200  of  1,879.    Elapsed: 0:01:50.
  Batch 1,300  of  1,879.    Elapsed: 0:01:59.
  Batch 1,400  of  1,879.    Elapsed: 0:02:08.
  Batch 1,500  of  1,879.    Elapsed: 0:02:17.
  Batch 1,600  of  1,879.    Elapsed: 0:02:25.
  Batch 1,700  of  1,879.    Elapsed: 0:02:34.
  Batch 1,800  of  1,879.    Elapsed: 0:02:43.

Accuracy: 0.94
Test took: 0:02:50


테스트셋의 정확도가 87%입니다. <BERT 톺아보기> 블로그에서는 같은 데이터로 88.7%를 달성하였습니다. 거기서는 한글 코퍼스로 사전훈련을 하여 새로운 모델을 만들었습니다. 반면에 우리는 BERT의 기본 모델인 bert-base-multilingual-cased를 사용했기 때문에 더 성능이 낮은 것 같습니다.

<br>
<br>

# **새로운 문장 테스트**

In [31]:
# 입력 데이터 변환
def convert_input_data(sentences):

    # BERT의 토크나이저로 문장을 토큰으로 분리
    tokenized_texts = [tokenizer.tokenize(sent) for sent in sentences]

    # 입력 토큰의 최대 시퀀스 길이
    MAX_LEN = 128

    # 토큰을 숫자 인덱스로 변환
    input_ids = [tokenizer.convert_tokens_to_ids(x) for x in tokenized_texts]

    # 문장을 MAX_LEN 길이에 맞게 자르고, 모자란 부분을 패딩 0으로 채움
    input_ids = pad_sequences(input_ids, maxlen=MAX_LEN, dtype="long", truncating="post", padding="post")

    # 어텐션 마스크 초기화
    attention_masks = []

    # 어텐션 마스크를 패딩이 아니면 1, 패딩이면 0으로 설정
    # 패딩 부분은 BERT 모델에서 어텐션을 수행하지 않아 속도 향상
    for seq in input_ids:
        seq_mask = [float(i>0) for i in seq]
        attention_masks.append(seq_mask)

    # 데이터를 파이토치의 텐서로 변환
    inputs = torch.tensor(input_ids)
    masks = torch.tensor(attention_masks)

    return inputs, masks

In [32]:
# 문장 테스트
def test_sentences(sentences):

    # 평가모드로 변경
    model.eval()

    # 문장을 입력 데이터로 변환
    inputs, masks = convert_input_data(sentences)

    # 데이터를 GPU에 넣음
    b_input_ids = inputs.to(device)
    b_input_mask = masks.to(device)

    # 그래디언트 계산 안함
    with torch.no_grad():
        # Forward 수행
        outputs = model(b_input_ids,
                        token_type_ids=None,
                        attention_mask=b_input_mask)

    # 출력 로짓 구함
    logits = outputs[0]

    # CPU로 데이터 이동
    logits = logits.detach().cpu().numpy()

    return logits

In [33]:
logits = test_sentences(['연기는 별로지만 재미 하나는 끝내줌!'])

print(logits)
print(np.argmax(logits))

[[-1.2045699  1.3623537]]
1


In [35]:
logits = test_sentences(['주연배우가 아깝다. 총체적 난국...'])

print(logits)
print(np.argmax(logits))

[[-1.8833537  1.848144 ]]
1


In [45]:
logits = test_sentences(['''
                         주차공간 매우부족함. 지대가 평평하지 않고 단지가 넓지 않아서 주차 불편함. 1동의 택배를 1층 엘리베이터 앞에 쌓아두어 널려있는 보기 드문 광경이 연출됨.
                         '''])

print(logits)
print(np.argmax(logits))

[[ 1.0614929 -0.9803375]]
0


In [37]:
torch.save(model, f"./BERTmodel_finetuned_05-06.pt")

학습한 모델을 가지고 실제 문장을 넣어봤습니다. 출력 로짓은 소프트맥스가 적용되지 않은 상태입니다. argmax로 더 높은 값의 위치를 라벨로 설정하면 됩니다. 0은 부정, 1은 긍정입니다. 위와 같이 새로운 문장에도 잘 분류를 하고 있습니다.
<br>
<br>
<br>

< 챗봇 개발자 모임 ><br>
- 페이스북 그룹에 가입하시면 챗봇에 대한 최신 정보를 쉽게 받으실 수 있습니다.
- https://www.facebook.com/groups/ChatbotDevKR/