## 기본 Setting

In [12]:
!pip install mxnet
!pip install gluonnlp pandas tqdm
!pip install sentencepiece
!pip install transformers==3.0.2
!pip install torch

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting mxnet
  Downloading mxnet-1.9.1-py3-none-manylinux2014_x86_64.whl (49.1 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m49.1/49.1 MB[0m [31m18.2 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting graphviz<0.9.0,>=0.8.1
  Downloading graphviz-0.8.4-py2.py3-none-any.whl (16 kB)
Installing collected packages: graphviz, mxnet
  Attempting uninstall: graphviz
    Found existing installation: graphviz 0.10.1
    Uninstalling graphviz-0.10.1:
      Successfully uninstalled graphviz-0.10.1
Successfully installed graphviz-0.8.4 mxnet-1.9.1
Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting gluonnlp
  Downloading gluonnlp-0.10.0.tar.gz (344 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m344.5/344.5 KB[0m [31m23.2 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l

In [13]:
!pip install git+https://git@github.com/SKTBrain/KoBERT.git@master

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting git+https://****@github.com/SKTBrain/KoBERT.git@master
  Cloning https://****@github.com/SKTBrain/KoBERT.git (to revision master) to /tmp/pip-req-build-n4txyoxu
  Running command git clone --filter=blob:none --quiet 'https://****@github.com/SKTBrain/KoBERT.git' /tmp/pip-req-build-n4txyoxu
  Resolved https://****@github.com/SKTBrain/KoBERT.git to commit 47a69af87928fc24e20f571fe10c3cc9dd9af9a3
  Preparing metadata (setup.py) ... [?25l[?25hdone
Collecting boto3<=1.15.18
  Downloading boto3-1.15.18-py2.py3-none-any.whl (129 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m129.1/129.1 KB[0m [31m12.3 MB/s[0m eta [36m0:00:00[0m
Collecting mxnet<=1.7.0.post2,>=1.4.0
  Downloading mxnet-1.7.0.post2-py2.py3-none-manylinux2014_x86_64.whl (54.7 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m54.7/54.7 MB[0m [31m17.5 MB/s[0m eta [36m0:00:00[

In [14]:
import torch
from torch import nn
import torch.nn.functional as F
import torch.optim as optim
from torch.utils.data import Dataset, DataLoader
import gluonnlp as nlp
import numpy as np
from tqdm import tqdm, tqdm_notebook

In [15]:
from kobert.utils import get_tokenizer
from kobert.pytorch_kobert import get_pytorch_kobert_model

In [16]:
from transformers import AdamW
from transformers.optimization import get_cosine_schedule_with_warmup

In [17]:
device = torch.device("cuda:0")

In [18]:
bertmodel, vocab = get_pytorch_kobert_model()

/content/.cache/kobert_v1.zip[██████████████████████████████████████████████████]
/content/.cache/kobert_news_wiki_ko_cased-1087f8699e.spiece[██████████████████████████████████████████████████]


## 데이터셋 전처리 진행

In [27]:
import pandas as pd
data = pd.read_csv("sample_data.csv")

In [28]:
data.head()

Unnamed: 0,0,1
0,부랴부랴 왔는데 아무도 안왔네. 시간개념들이 없네,2
1,맞아. 사람들이 진짜 개념이없다,2
2,저렇게는 살지 말아야지,2
3,그러게 게으르고 멍청한 사람들은 맞아야해,2
4,인방 보는 남자는 거르는게 맞다,2


In [29]:
data_list = list()
for sen, lab in zip(data["0"], data["1"]):
  data_list.append([sen,lab])

In [30]:
data_list[:10]

[['부랴부랴 왔는데 아무도 안왔네. 시간개념들이 없네', 2],
 ['맞아. 사람들이 진짜 개념이없다', 2],
 ['저렇게는 살지 말아야지', 2],
 ['그러게 게으르고 멍청한 사람들은 맞아야해', 2],
 ['인방 보는 남자는 거르는게 맞다', 2],
 ['특히 벗방보는 애들은 진짜 거세 시켜야함', 3],
 ['볼 게 없어서 벗방을 보냐 ㅋㅋㅋ', 3],
 ['사회성이 얼마나 떨어지면 그러냐 ㅋㅋㅋ', 2],
 ['댓글에 빠순이들 몰려와서 즈그 주인님 쉴드치는 꼴 좀 봐', 2],
 ['이래서 인방충~ 인방충~ 하는거 구나', 2]]

## Train data, Test data 분리

In [31]:
from sklearn.model_selection import train_test_split

In [32]:
train_set, test_set = train_test_split(data_list, test_size=0.25, random_state=0) # train : test = 4 : 1

In [33]:
len(train_set), len(test_set)

(49707, 16570)

In [34]:
train_set[0]

['지들이 술먹고 싶은데 부하직원들은 왜 데려가?', 0]

## KoBERT 입력 데이터 구성하기
BERT 입력값은 (token + segment + position embedding의 합으로 구성)  
https://happy-obok.tistory.com/23 여기서 확인!!

In [35]:
class BERTDataset(Dataset):
  def __init__(self, dataset, sent_idx, label_idx, bert_tokenizer, max_len, pad, pair):

    # sentence , label data를 BERT의 입력값에 맞게 변환하는 transformer를 생성
    transform = nlp.data.BERTSentenceTransform(bert_tokenizer, max_len, pad=pad, pair=pair)

    ## 생성한 transformer로 sentence를 변환하여 저장
    self.sentences = [transform([data[sent_idx]]) for data in dataset]
    self.labels = [np.int32(data[label_idx]) for data in dataset]
  
  def __getitem__ (self, i):
    return (self.sentences[i] + (self.labels[i], )) # 각 index에 맞는 item 반환 진행 --> 왜 이런 형태인지는 잘 모르겠음
  
  def __len__(self):
    return (len(self.labels))
    

In [36]:
# Parameter setting 진행
max_len = 64
batch_size = 64
warmup_ratio = 0.1
num_epochs = 5
max_grad_norm = 1
log_interval = 200
learning_rate =  5e-5

In [37]:
# Kobert 모듈에서 제공하는 get_tokenizer와 vocab를 활용해 tokneizer를 구성한다
tokenizer = get_tokenizer() 
tok = nlp.data.BERTSPTokenizer(tokenizer, vocab, lower=False)

data_train = BERTDataset(train_set, 0, 1, tok, max_len, True, False)
data_test = BERTDataset(test_set, 0, 1, tok, max_len, True, False)

using cached model. /content/.cache/kobert_news_wiki_ko_cased-1087f8699e.spiece


In [38]:
data_train[0]

## 출력값 설명
## 1번 array - 1로 padding된 sequence - 총 길이 64 고정
## 2번 array - padding 전 sequnce 길이 - 42
## 3번 array - 어텐션 마스크 sequence (1로 padding이 된 부분은 어텐션 함수가 적용되지 않아도 됨을 알려주는 시퀀스)
##           - 일단은 전부 0으로 구성하고, 아래의 gen_attention_mask에서 필요한 부분만 1로 변경
## 마지막 숫자 - label값

(array([   2, 4297, 5940, 2918, 6183, 5439, 3075, 5850, 2423, 7782, 7343,
        5937, 3466, 1706, 6060, 5330,  633,    3,    1,    1,    1,    1,
           1,    1,    1,    1,    1,    1,    1,    1,    1,    1,    1,
           1,    1,    1,    1,    1,    1,    1,    1,    1,    1,    1,
           1,    1,    1,    1,    1,    1,    1,    1,    1,    1,    1,
           1,    1,    1,    1,    1,    1,    1,    1,    1], dtype=int32),
 array(18, dtype=int32),
 array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
        0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
        0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
       dtype=int32),
 0)

In [39]:
# Torch에 맞게 최종 입력 dataset 구성 

train_dataloader = torch.utils.data.DataLoader(data_train, batch_size=batch_size, num_workers=5)
test_dataloader = torch.utils.data.DataLoader(data_test, batch_size=batch_size, num_workers=5)

  assert self._num_workers == 0


## KoBert 다중 분류기를 위한 미세 조정 모델 만들기


In [40]:
class BERTClassifier(nn.Module):
  def __init__(self, bert, hidden_size = 768, num_classes=4, dr_rate=None, params=None):
    super(BERTClassifier, self).__init__()
    self.bert = bert
    self.dr_rate = dr_rate

    ## classifier는 선형 회귀 모델로 구성 (input size = 768, output size = 4 (label이 4개로 구성))
    self.classifier = nn.Linear(hidden_size, num_classes)

    ## overfitting 방지를 위한 dropout 비율 설정
    if dr_rate:
      self.dropout = nn.Dropout(p=dr_rate)

  # attention mask sequence를 구성해주는 함수 --> padding이 아닌 영역을 0에서 1로 변경
  def gen_attention_mask(self, token_ids, valid_length):
    attention_mask = torch.zeros_like(token_ids)
    for i,v in enumerate(valid_length):
      attention_mask[i][:v] = 1
    
    return attention_mask.float()
  
  # bert + classifier를 관통하는 forward 연산 진행
  def forward(self, token_ids, valid_length, segment_ids):

    # attention_mask 계산
    attention_mask = self.gen_attention_mask(token_ids, valid_length)

    # bert에 input 투입, 변수명이 pooler인거 보니 출력 embedding에 mean pooling 적용한 값이지 않을까 추측
    _, pooler = self.bert(input_ids = token_ids, token_type_ids = segment_ids.long(), attention_mask = attention_mask.float().to(token_ids.device))

    # dropout 비율이 존재한다면, dropout 적용
    if self.dr_rate:
        out = self.dropout(pooler)

    # classifier 진행
    return self.classifier(out) 

In [41]:
# Kobert + classifier 불러오기
model = BERTClassifier(bertmodel, dr_rate=0.3).to(device)

# optimizer (Adam), scheduler 설정
no_decay = ['bias', 'LayerNorm.weight']
optimizer_grouped_parameters = [
    {'params': [p for n, p in model.named_parameters() if not any(nd in n for nd in no_decay)], 'weight_decay': 0.01},
    {'params': [p for n, p in model.named_parameters() if any(nd in n for nd in no_decay)], 'weight_decay': 0.0}
]

optimizer = AdamW(optimizer_grouped_parameters, lr=learning_rate)
loss_fn = nn.CrossEntropyLoss()

t_total = len(train_dataloader) * num_epochs
warmup_step = int(t_total * warmup_ratio)

scheduler = get_cosine_schedule_with_warmup(optimizer, num_warmup_steps=warmup_step, num_training_steps=t_total)

#정확도 측정을 위한 함수 정의
def calc_accuracy(X,Y):
    max_vals, max_indices = torch.max(X, 1)
    train_acc = (max_indices == Y).sum().data.cpu().numpy()/max_indices.size()[0]
    return train_acc
    
train_dataloader

<torch.utils.data.dataloader.DataLoader at 0x7ff06e92ee80>

In [42]:
for e in range(num_epochs):

    train_acc = 0.0
    test_acc = 0.0
    model.train()

    # train set
    for batch_id, (token_ids, valid_length, segment_ids, label) in enumerate(tqdm_notebook(train_dataloader)):
        optimizer.zero_grad()
        token_ids = token_ids.long().to(device)
        segment_ids = segment_ids.long().to(device)
        valid_length= valid_length
        label = label.long().to(device)

        # forward 연산 진행
        out = model(token_ids, valid_length, segment_ids)

        # loss 는 CrossEntropyLoss를 이용 -> backpropagation 학습 진행
        loss = loss_fn(out, label)
        loss.backward()

        torch.nn.utils.clip_grad_norm_(model.parameters(), max_grad_norm)
        optimizer.step()
        scheduler.step()  # Update learning rate schedule

        # train data set 정확도 확인
        train_acc += calc_accuracy(out, label)
        if batch_id % log_interval == 0:
            print("epoch {} batch id {} loss {} train acc {}".format(e+1, batch_id+1, loss.data.cpu().numpy(), train_acc / (batch_id+1)))
    print("epoch {} train acc {}".format(e+1, train_acc / (batch_id+1)))
    
    model.eval()

    # test set
    for batch_id, (token_ids, valid_length, segment_ids, label) in enumerate(tqdm_notebook(test_dataloader)):
        token_ids = token_ids.long().to(device)
        segment_ids = segment_ids.long().to(device)
        valid_length= valid_length
        label = label.long().to(device)
        out = model(token_ids, valid_length, segment_ids)
        
        # test set 정확도 확인
        test_acc += calc_accuracy(out, label)
    print("epoch {} test acc {}".format(e+1, test_acc / (batch_id+1)))

Please use `tqdm.notebook.tqdm` instead of `tqdm.tqdm_notebook`
  for batch_id, (token_ids, valid_length, segment_ids, label) in enumerate(tqdm_notebook(train_dataloader)):


  0%|          | 0/777 [00:00<?, ?it/s]

epoch 1 batch id 1 loss 1.4716747999191284 train acc 0.15625
epoch 1 batch id 201 loss 0.8145614862442017 train acc 0.564521144278607
epoch 1 batch id 401 loss 0.7087942957878113 train acc 0.6368453865336658
epoch 1 batch id 601 loss 0.5231168866157532 train acc 0.6662853577371048
epoch 1 train acc 0.6834706384124988


Please use `tqdm.notebook.tqdm` instead of `tqdm.tqdm_notebook`
  for batch_id, (token_ids, valid_length, segment_ids, label) in enumerate(tqdm_notebook(test_dataloader)):


  0%|          | 0/259 [00:00<?, ?it/s]

epoch 1 test acc 0.769471441885235


  0%|          | 0/777 [00:00<?, ?it/s]

epoch 2 batch id 1 loss 0.5333715081214905 train acc 0.859375
epoch 2 batch id 201 loss 0.5417010188102722 train acc 0.7627487562189055
epoch 2 batch id 401 loss 0.505285918712616 train acc 0.7736128428927681
epoch 2 batch id 601 loss 0.32217586040496826 train acc 0.7833558652246256
epoch 2 train acc 0.7920305064200414


  0%|          | 0/259 [00:00<?, ?it/s]

epoch 2 test acc 0.761121188922913


  0%|          | 0/777 [00:00<?, ?it/s]

epoch 3 batch id 1 loss 0.4489060044288635 train acc 0.796875
epoch 3 batch id 201 loss 0.4134535789489746 train acc 0.8327891791044776
epoch 3 batch id 401 loss 0.39726248383522034 train acc 0.8396976309226932
epoch 3 batch id 601 loss 0.24570460617542267 train acc 0.8481437188019967
epoch 3 train acc 0.8564394959743797


  0%|          | 0/259 [00:00<?, ?it/s]

epoch 3 test acc 0.7585333178005592


  0%|          | 0/777 [00:00<?, ?it/s]

epoch 4 batch id 1 loss 0.3274574279785156 train acc 0.875
epoch 4 batch id 201 loss 0.27723199129104614 train acc 0.8875932835820896
epoch 4 batch id 401 loss 0.20652468502521515 train acc 0.8926901496259352
epoch 4 batch id 601 loss 0.12704497575759888 train acc 0.9000103993344426
epoch 4 train acc 0.906240179132621


  0%|          | 0/259 [00:00<?, ?it/s]

epoch 4 test acc 0.7773016242843829


  0%|          | 0/777 [00:00<?, ?it/s]

epoch 5 batch id 1 loss 0.13018882274627686 train acc 0.9375
epoch 5 batch id 201 loss 0.17823061347007751 train acc 0.925839552238806
epoch 5 batch id 401 loss 0.15678048133850098 train acc 0.9275639027431422
epoch 5 batch id 601 loss 0.09224927425384521 train acc 0.9305324459234608
epoch 5 train acc 0.9334481907156326


  0%|          | 0/259 [00:00<?, ?it/s]

epoch 5 test acc 0.7792986952469712


## 학습된 Model로 결과 예측해보기

In [43]:
def predict(predict_sentence):

    # 1. data set 구성 (문장, 라벨)
    data = [predict_sentence, '0']
    dataset_another = [data]

    # 2. data를 bert의 입력에 맞게 변환하기
    another_test = BERTDataset(dataset_another, 0, 1, tok, max_len, True, False)
    test_dataloader = torch.utils.data.DataLoader(another_test, batch_size=batch_size, num_workers=5)
    
    model.eval()

    for batch_id, (token_ids, valid_length, segment_ids, label) in enumerate(test_dataloader):
        token_ids = token_ids.long().to(device)
        segment_ids = segment_ids.long().to(device)
        valid_length= valid_length
        label = label.long().to(device)

        # 모델 forward 연산 진행
        out = model(token_ids, valid_length, segment_ids)

        # torch out -> numpy 형식으로 변환
        test_eval=[]
        logits = out[0].detach().cpu().numpy()
        
        # 값이 가장 큰 인덱스를 출력
        if np.argmax(logits) == 0:
            test_eval= "일반"
        elif np.argmax(logits) == 1:
            test_eval = "욕설"
        elif np.argmax(logits) == 2:
            test_eval = "폭언"
        elif np.argmax(logits) == 3:
            test_eval = "성희롱"

        print(">> " + test_eval + " 문장입니다.")
     

In [44]:
while True:
    sentence = input("하고싶은 말을 입력해주세요 : ")
    if sentence == "q":
      break
    
    predict(sentence)
    print()
     

하고싶은 말을 입력해주세요 : 안녕하세요, 무엇을 도와드립니까?
>> 일반 문장입니다.

하고싶은 말을 입력해주세요 : 이게 왜 결제가 안됩니까?
>> 일반 문장입니다.

하고싶은 말을 입력해주세요 : 고객님, 어떤 부분이 문제가 될까요?
>> 일반 문장입니다.

하고싶은 말을 입력해주세요 : 시발, 니 엄마가 그리 가르키던
>> 욕설 문장입니다.

하고싶은 말을 입력해주세요 : 고객님, 욕설은 자제 부탁드립니다.
>> 일반 문장입니다.

하고싶은 말을 입력해주세요 : 확, 나한테 죽고싶나
>> 폭언 문장입니다.

하고싶은 말을 입력해주세요 : 고객님...
>> 일반 문장입니다.

하고싶은 말을 입력해주세요 : 너 내가 따먹는다
>> 성희롱 문장입니다.

하고싶은 말을 입력해주세요 : q
