In [None]:
!pip install mxnet
!pip install gluonnlp pandas tqdm
!pip install sentencepiece
!pip install transformers==3.0.2
!pip install torch

#깃허브에서 KoBERT 파일 로드
!pip install git+https://git@github.com/SKTBrain/KoBERT.git@master
import torch
from torch import nn
import torch.nn.functional as F
import torch.optim as optim
from torch.utils.data import Dataset, DataLoader
import gluonnlp as nlp
import numpy as np
from tqdm import tqdm, tqdm_notebook

#kobert
from kobert.utils import get_tokenizer
from kobert.pytorch_kobert import get_pytorch_kobert_model

#transformers
from transformers import AdamW
from transformers.optimization import get_cosine_schedule_with_warmup

#GPU 사용
device = torch.device("cuda:0")

#BERT 모델, Vocabulary 불러오기
bertmodel, vocab = get_pytorch_kobert_model()

Collecting mxnet
  Downloading mxnet-1.9.0-py3-none-manylinux2014_x86_64.whl (47.3 MB)
[K     |████████████████████████████████| 47.3 MB 2.1 MB/s 
Collecting graphviz<0.9.0,>=0.8.1
  Downloading graphviz-0.8.4-py2.py3-none-any.whl (16 kB)
Installing collected packages: graphviz, mxnet
  Attempting uninstall: graphviz
    Found existing installation: graphviz 0.10.1
    Uninstalling graphviz-0.10.1:
      Successfully uninstalled graphviz-0.10.1
Successfully installed graphviz-0.8.4 mxnet-1.9.0
Collecting gluonnlp
  Downloading gluonnlp-0.10.0.tar.gz (344 kB)
[K     |████████████████████████████████| 344 kB 5.1 MB/s 
Building wheels for collected packages: gluonnlp
  Building wheel for gluonnlp (setup.py) ... [?25l[?25hdone
  Created wheel for gluonnlp: filename=gluonnlp-0.10.0-cp37-cp37m-linux_x86_64.whl size=595741 sha256=462d304d453ceae2c77bcac72a5711b7f6e15580321936fc4b431d0a72b06260
  Stored in directory: /root/.cache/pip/wheels/be/b4/06/7f3fdfaf707e6b5e98b79c041e023acffbe395d7

In [None]:
import pandas as pd

chatbot_data = pd.read_excel('./한국어_단발성_대화_데이터셋.xlsx')
chatbot_data.sample(n=10)

Unnamed: 0,Sentence,Emotion,Unnamed: 2,Unnamed: 3,Unnamed: 4,공포,5468
27580,히히 안녕하세요,행복,,,,,
10888,우리나라였음 조선족 베트공 등 이놈들눈에 뛰었으면 통구이되었을걸,놀람,,,,,
5873,이란의 흰색 유니폼에 치타가 그려져 있을 줄이야.. ㄷㄷ,놀람,,,,,
10993,샘송의 몰락..이정도되면 애플에서 손쓴거아니냐,놀람,,,,,
16440,우리나라도 담배꽁초를 마구 버리는 사람들이 많다...쫌!,분노,,,,,
26502,원룸살고 빨래 자주하고 방에 너니까 건조한줄 모르겠다 원룸 살아라,중립,,,,,
14533,장기집권을위해서 지마누라도 총살시키는박정희.,분노,,,,,
16505,아무나 다 상주드만,분노,,,,,
13812,라멜라 개삽질한거 바탕깔면 아시아는 찬밥신세,분노,,,,,
1864,시험 1달도안남았는데 아..0,공포,,,,,


In [None]:
chatbot_data.loc[(chatbot_data['Emotion'] == "공포"), 'Emotion'] = 0  #공포 => 0
chatbot_data.loc[(chatbot_data['Emotion'] == "놀람"), 'Emotion'] = 0  #놀람 => 1
chatbot_data.loc[(chatbot_data['Emotion'] == "분노"), 'Emotion'] = 1  #분노 => 2
chatbot_data.loc[(chatbot_data['Emotion'] == "슬픔"), 'Emotion'] = 1  #슬픔 => 3
chatbot_data.loc[(chatbot_data['Emotion'] == "중립"), 'Emotion'] = 0  #중립 => 4
chatbot_data.loc[(chatbot_data['Emotion'] == "행복"), 'Emotion'] = 2  #행복 => 5
chatbot_data.loc[(chatbot_data['Emotion'] == "혐오"), 'Emotion'] = 1  #혐오 => 6

data_list = []
for q, label in zip(chatbot_data['Sentence'], chatbot_data['Emotion'])  :
    data = []
    data.append(q)
    data.append(str(label))

    data_list.append(data)

print(data_list[0])
print(data_list[6000])
print(data_list[12000])
print(data_list[18000])
print(data_list[24000])
print(data_list[30000])
print(data_list[-1])

['언니 동생으로 부르는게 맞는 일인가요..??', '0']
['기술적으로도 아직도 해체해서 다시 완벽히 돌려놓는게 어려운데 해체를한다고?', '1']
['당연히 그렇게 해야지 우리나라도 판매를 중단하라', '2']
['그거들은 뒤부터 미치겠어요...', '3']
['최악의 상황중 그나마 나은 방법이네. 기분은 잡치겠지만', '4']
['  요리하는것이 숙제하는것처럼 힘든저에게 용기나게 해주시고 할수 있을것같은 희망을 주셔서감사합니다!!', '5']
['와이프도 그렇고 댓글 다 볼텐데 이휘재 좀 하차 하라고 전해주세요', '6']


In [None]:
#train & test 데이터로 나누기
from sklearn.model_selection import train_test_split
                                                         
dataset_train, dataset_test = train_test_split(data_list, test_size=0.25, random_state=0)
print(len(dataset_train))
print(len(dataset_test))

28945
9649


In [None]:
class BERTDataset(Dataset):
    def __init__(self, dataset, sent_idx, label_idx, bert_tokenizer, max_len,
                 pad, pair):
        transform = nlp.data.BERTSentenceTransform(
            bert_tokenizer, max_seq_length=max_len, pad=pad, pair=pair)

        self.sentences = [transform([i[sent_idx]]) for i in dataset]
        self.labels = [np.int32(i[label_idx]) for i in dataset]

    def __getitem__(self, i):
        return (self.sentences[i] + (self.labels[i], ))

    def __len__(self):
        return (len(self.labels))

In [None]:
# Setting parameters
max_len = 64
batch_size = 64
warmup_ratio = 0.1
num_epochs = 5
max_grad_norm = 1
log_interval = 200
learning_rate =  5e-5

In [None]:
#토큰화
tokenizer = get_tokenizer()
tok = nlp.data.BERTSPTokenizer(tokenizer, vocab, lower=False)

data_train = BERTDataset(dataset_train, 0, 1, tok, max_len, True, False)
data_test = BERTDataset(dataset_test, 0, 1, tok, max_len, True, False)

using cached model. /content/.cache/kobert_news_wiki_ko_cased-1087f8699e.spiece


In [None]:
train_dataloader = torch.utils.data.DataLoader(data_train, batch_size=batch_size, num_workers=5)
test_dataloader = torch.utils.data.DataLoader(data_test, batch_size=batch_size, num_workers=5)

  cpuset_checked))


In [None]:
class BERTClassifier(nn.Module):
    def __init__(self,
                 bert,
                 hidden_size = 768,
                 num_classes=7,   ##클래스 수 조정##
                 dr_rate=None,
                 params=None):
        super(BERTClassifier, self).__init__()
        self.bert = bert
        self.dr_rate = dr_rate
                 
        self.classifier = nn.Linear(hidden_size , num_classes)
        if dr_rate:
            self.dropout = nn.Dropout(p=dr_rate)
    
    def gen_attention_mask(self, token_ids, valid_length):
        attention_mask = torch.zeros_like(token_ids)
        for i, v in enumerate(valid_length):
            attention_mask[i][:v] = 1
        return attention_mask.float()

    def forward(self, token_ids, valid_length, segment_ids):
        attention_mask = self.gen_attention_mask(token_ids, valid_length)
        
        _, pooler = self.bert(input_ids = token_ids, token_type_ids = segment_ids.long(), attention_mask = attention_mask.float().to(token_ids.device))
        if self.dr_rate:
            out = self.dropout(pooler)
        return self.classifier(out)

In [None]:
#BERT 모델 불러오기
model = BERTClassifier(bertmodel,  dr_rate=0.5).to(device)

#optimizer와 schedule 설정
no_decay = ['bias', 'LayerNorm.weight']
optimizer_grouped_parameters = [
    {'params': [p for n, p in model.named_parameters() if not any(nd in n for nd in no_decay)], 'weight_decay': 0.01},
    {'params': [p for n, p in model.named_parameters() if any(nd in n for nd in no_decay)], 'weight_decay': 0.0}
]

optimizer = AdamW(optimizer_grouped_parameters, lr=learning_rate)
loss_fn = nn.CrossEntropyLoss()

t_total = len(train_dataloader) * num_epochs
warmup_step = int(t_total * warmup_ratio)

scheduler = get_cosine_schedule_with_warmup(optimizer, num_warmup_steps=warmup_step, num_training_steps=t_total)

#정확도 측정을 위한 함수 정의
def calc_accuracy(X,Y):
    max_vals, max_indices = torch.max(X, 1)
    train_acc = (max_indices == Y).sum().data.cpu().numpy()/max_indices.size()[0]
    return train_acc
    
train_dataloader



<torch.utils.data.dataloader.DataLoader at 0x7f2e3eab67d0>

In [None]:
for e in range(num_epochs):
    train_acc = 0.0
    test_acc = 0.0
    model.train()
    for batch_id, (token_ids, valid_length, segment_ids, label) in enumerate(tqdm_notebook(train_dataloader)):
        optimizer.zero_grad()
        token_ids = token_ids.long().to(device)
        segment_ids = segment_ids.long().to(device)
        valid_length= valid_length
        label = label.long().to(device)
        out = model(token_ids, valid_length, segment_ids)
        loss = loss_fn(out, label)
        loss.backward()
        torch.nn.utils.clip_grad_norm_(model.parameters(), max_grad_norm)
        optimizer.step()
        scheduler.step()  # Update learning rate schedule
        train_acc += calc_accuracy(out, label)
        if batch_id % log_interval == 0:
            print("epoch {} batch id {} loss {} train acc {}".format(e+1, batch_id+1, loss.data.cpu().numpy(), train_acc / (batch_id+1)))
    print("epoch {} train acc {}".format(e+1, train_acc / (batch_id+1)))
    
    model.eval()
    for batch_id, (token_ids, valid_length, segment_ids, label) in enumerate(tqdm_notebook(test_dataloader)):
        token_ids = token_ids.long().to(device)
        segment_ids = segment_ids.long().to(device)
        valid_length= valid_length
        label = label.long().to(device)
        out = model(token_ids, valid_length, segment_ids)
        test_acc += calc_accuracy(out, label)
    print("epoch {} test acc {}".format(e+1, test_acc / (batch_id+1)))

Please use `tqdm.notebook.tqdm` instead of `tqdm.tqdm_notebook`
  """


  0%|          | 0/453 [00:00<?, ?it/s]

  cpuset_checked))


epoch 1 batch id 1 loss 1.984428882598877 train acc 0.203125
epoch 1 batch id 201 loss 1.3873825073242188 train acc 0.2646144278606965
epoch 1 batch id 401 loss 1.1412982940673828 train acc 0.3688435162094763
epoch 1 train acc 0.3837062556810804


Please use `tqdm.notebook.tqdm` instead of `tqdm.tqdm_notebook`


  0%|          | 0/151 [00:00<?, ?it/s]

epoch 1 test acc 0.5006250844708745


  0%|          | 0/453 [00:00<?, ?it/s]

epoch 2 batch id 1 loss 1.169190764427185 train acc 0.5625
epoch 2 batch id 201 loss 1.1277793645858765 train acc 0.5262748756218906
epoch 2 batch id 401 loss 0.9084476828575134 train acc 0.5546290523690773
epoch 2 train acc 0.5597893130762239


  0%|          | 0/151 [00:00<?, ?it/s]

epoch 2 test acc 0.5468074233004461


  0%|          | 0/453 [00:00<?, ?it/s]

epoch 3 batch id 1 loss 0.9312045574188232 train acc 0.65625
epoch 3 batch id 201 loss 0.9336588382720947 train acc 0.6277985074626866
epoch 3 batch id 401 loss 0.8120540976524353 train acc 0.6553927680798005
epoch 3 train acc 0.6616551421893261


  0%|          | 0/151 [00:00<?, ?it/s]

epoch 3 test acc 0.5499117279362076


  0%|          | 0/453 [00:00<?, ?it/s]

epoch 4 batch id 1 loss 0.6257176995277405 train acc 0.765625
epoch 4 batch id 201 loss 0.5960274934768677 train acc 0.720693407960199
epoch 4 batch id 401 loss 0.6404158473014832 train acc 0.7443890274314214
epoch 4 train acc 0.7487400175301908


  0%|          | 0/151 [00:00<?, ?it/s]

epoch 4 test acc 0.5557782301662387


  0%|          | 0/453 [00:00<?, ?it/s]

epoch 5 batch id 1 loss 0.4528019428253174 train acc 0.859375
epoch 5 batch id 201 loss 0.5245208144187927 train acc 0.7838152985074627
epoch 5 batch id 401 loss 0.520845353603363 train acc 0.7953943266832918
epoch 5 train acc 0.7981938222308791


  0%|          | 0/151 [00:00<?, ?it/s]

epoch 5 test acc 0.556637721313691


In [None]:
#토큰화
tokenizer = get_tokenizer()
tok = nlp.data.BERTSPTokenizer(tokenizer, vocab, lower=False)

def predict(predict_sentence):

    data = [predict_sentence, '0']
    dataset_another = [data]

    another_test = BERTDataset(dataset_another, 0, 1, tok, max_len, True, False)
    test_dataloader = torch.utils.data.DataLoader(another_test, batch_size=batch_size, num_workers=5)
    
    model.eval()

    for batch_id, (token_ids, valid_length, segment_ids, label) in enumerate(test_dataloader):
        token_ids = token_ids.long().to(device)
        segment_ids = segment_ids.long().to(device)

        valid_length= valid_length
        label = label.long().to(device)

        out = model(token_ids, valid_length, segment_ids)


        test_eval=[]
        for i in out:
            logits=i
            logits = logits.detach().cpu().numpy()

            if np.argmax(logits) == 0:
                test_eval.append("공포가")
            elif np.argmax(logits) == 1:
                test_eval.append("놀람이")
            elif np.argmax(logits) == 2:
                test_eval.append("분노가")
            elif np.argmax(logits) == 3:
                test_eval.append("슬픔이")
            elif np.argmax(logits) == 4:
                test_eval.append("중립이")
            elif np.argmax(logits) == 5:
                test_eval.append("행복이")
            elif np.argmax(logits) == 6:
                test_eval.append("혐오가")

        print(">> 입력하신 내용에서 " + test_eval[0] + " 느껴집니다.")

using cached model. /content/.cache/kobert_news_wiki_ko_cased-1087f8699e.spiece


In [None]:
#질문 무한반복하기! 0 입력시 종료
end = 1
while end == 1 :
    sentence = input("하고싶은 말을 입력해주세요 : ")
    if sentence == 0 :
        break
    predict(sentence)
    print("\n")

하고싶은 말을 입력해주세요 : 영상 올라올때마다 보는데 시승할때마다 피드백을 깔끔하게 잘하시는거 같아요 피드백에서 차의 품질도 생각해볼수 있는거 같고 좋네요 모터그래프때부터 잘 보고 있습니다


  cpuset_checked))


>> 입력하신 내용에서 행복이 느껴집니다.


하고싶은 말을 입력해주세요 : 디자인은 확실히 좋아 졌네요. 하체구성, 심장병있는 엔진도 좋아지면 좋겠어요
>> 입력하신 내용에서 행복이 느껴집니다.


하고싶은 말을 입력해주세요 : 등록은 키 두개 하는게 맞는거 같아요. 발렛이나 대리불렀는데 그양반들이 자기 프로필 등록도 할 수 있으니 ㅎㅎ 보안은 무조건 보수적으로 디자인해야됩니다
>> 입력하신 내용에서 중립이 느껴집니다.


하고싶은 말을 입력해주세요 : 그릴과 범퍼가 일체형이라서 어디가져다가 박으면 수리비 개쩔듯하네요..ㄷㄷㄷ
>> 입력하신 내용에서 슬픔이 느껴집니다.


하고싶은 말을 입력해주세요 : 없어서 못쓰는 기능보다 있는데 안쓰는 기능으로 남길 바라고 여러부분 부족한 기능은 더 추가 되었으면 좋겠네요. 단가는 오르겠지만서도
>> 입력하신 내용에서 중립이 느껴집니다.


하고싶은 말을 입력해주세요 : 디자인 너무 읔ㅜㅜ 테슬라보다 몬생긴 유일한 차 같은
>> 입력하신 내용에서 슬픔이 느껴집니다.


하고싶은 말을 입력해주세요 : 저는 예쁘지가 않네요..... 디자인은 머 개인취향이지만 먼가 조잡함.
>> 입력하신 내용에서 슬픔이 느껴집니다.


하고싶은 말을 입력해주세요 : 모델3롱레인지가 출력이나 주행거리면에서 넘사벽인데 300만원이나 더 비싸네 ㅋㅋㅋㅋ
>> 입력하신 내용에서 놀람이 느껴집니다.


하고싶은 말을 입력해주세요 : 0
>> 입력하신 내용에서 공포가 느껴집니다.


하고싶은 말을 입력해주세요 : 0
>> 입력하신 내용에서 공포가 느껴집니다.


하고싶은 말을 입력해주세요 : O
>> 입력하신 내용에서 놀람이 느껴집니다.


하고싶은 말을 입력해주세요 : 뭐라는거야 시발
>> 입력하신 내용에서 분노가 느껴집니다.


하고싶은 말을 입력해주세요 : 정신 못 차리는 듯
>> 입력하신 내용에서 놀람이 느껴집니다.


하고싶은 말을 입력해주세요 : 갖다부셔버리고 싶네
>> 입력하신 내용에서 분노가 느껴집니다.


하고싶은 말을 입력해주세요 : 

KeyboardInterrupt: ignored