# Setting

In [1]:
import torch
import torch.nn as nn
import torch.nn.functional as F
from torch.utils.data import Dataset
from torch.utils.data import DataLoader
from torchtext import data, datasets
from torchtext.vocab import Vectors
from torchtext.data import TabularDataset
from torchtext.data import Iterator
from konlpy.tag import Mecab

import sklearn.metrics as metrics
import pandas as pd
import numpy as np
import gensim
import random
import os
import warnings
warnings.filterwarnings(action='ignore')

# 각종 전역변수들
data_path = 'data\\korean-hate-speech\\labeled'
path_train_data = 'data\\korean-hate-speech\\labeled\\train.tsv'
path_dev_data = 'data\\korean-hate-speech\\labeled\\dev.tsv'
BATCH_SIZE = 256
HIDDEN_DIM = 256
NUM_LSTM_LAYER = 2
n_classes = 3
learning_rate = 0.01
MAX_LEN = 80

# 시드 고정
SEED = 5
random.seed(SEED)
torch.manual_seed(SEED)

# CUDA setting 확인
USE_CUDA = torch.cuda.is_available()
DEVICE = torch.device("cuda" if USE_CUDA else "cpu")
print("cpu와 cuda 중 다음 기기로 학습함:", DEVICE)

cpu와 cuda 중 다음 기기로 학습함: cuda


# 데이터 살펴보기

In [2]:
# data read
train_data = pd.read_csv(path_train_data, sep='\t')
dev_data = pd.read_csv(path_dev_data, sep='\t')

print("train data shape: {}".format(train_data.shape))
print("dev data shape: {}".format(dev_data.shape))
train_data.head()

train data shape: (7896, 4)
dev data shape: (471, 4)


Unnamed: 0,comments,contain_gender_bias,bias,hate
0,(현재 호텔주인 심정) 아18 난 마른하늘에 날벼락맞고 호텔망하게생겼는데 누군 계속...,False,others,hate
1,....한국적인 미인의 대표적인 분...너무나 곱고아름다운모습...그모습뒤의 슬픔을...,False,none,none
2,"...못된 넘들...남의 고통을 즐겼던 넘들..이젠 마땅한 처벌을 받아야지..,그래...",False,none,hate
3,"1,2화 어설펐는데 3,4화 지나서부터는 갈수록 너무 재밌던데",False,none,none
4,1. 사람 얼굴 손톱으로 긁은것은 인격살해이고2. 동영상이 몰카냐? 메걸리안들 생각...,True,gender,hate


# Torchtext dataset 작성

참고자료  
https://wikidocs.net/65348  
https://wikidocs.net/64904  

--------------------------------------

elmo 임베딩
https://github.com/HIT-SCIR/ELMoForManyLangs

## Torchtext를 이용한 전처리

gensim word2vec_kor를 불러내서 torch에서 이용

In [3]:
def preprocess_label(label, only_hate=False):
    if only_hate is True:
        label_matching = {'none':0, 'offensive':1, 'hate':1}
    else:
        label_matching = {'none':0, 'offensive':1, 'hate':2}
    
    return label_matching[label]

def preprocess_bias(bias):
    label_matching = {'none':0, 'others':1, 'gender':2}
    
    return label_matching[bias]

### 필드 정의

In [4]:
tokenizer = Mecab('C:\mecab\mecab-ko-dic')

# comments, hate 만 사용할 거임
comments = data.Field(sequential=True,
                      use_vocab=True,
                      tokenize=tokenizer.morphs,
                      lower=True,
                      batch_first=True, 
                      fix_length = MAX_LEN)

contain_gender_bias = data.Field(sequential=False,
                                 use_vocab=False,
                                 batch_first=True, 
                                 preprocessing=lambda x: x =='True')

bias = data.Field(sequential=False,
                  use_vocab=False,
                  batch_first=True, 
                  preprocessing=lambda x:preprocess_bias(x))

hate = data.Field(sequential=False,
                  use_vocab=False,
                  is_target=True,
                  batch_first=True, 
                  preprocessing=lambda x:preprocess_label(x))

### 본격적인 데이터셋 구성

In [5]:
train_data, val_data = TabularDataset.splits(
    path=data_path, train='train.tsv', validation='dev.tsv', format='tsv',
    fields=[('comments', comments), ('contain_gender_bias', contain_gender_bias), ('bias', bias), ('hate', hate)],
    skip_header=True)

train_data, test_data = train_data.split(split_ratio=0.8)

print('훈련 샘플의 개수 : {}'.format(len(train_data)))
print('검증 샘플의 개수 : {}'.format(len(val_data)))
print('테스트 샘플의 개수 : {}'.format(len(test_data)))
print(vars(train_data[0]))

훈련 샘플의 개수 : 6317
검증 샘플의 개수 : 471
테스트 샘플의 개수 : 1579
{'comments': ['오창', '이채', '은', '이제', '그만', '좀', '나와라', '너무', '설정', '에', '집착', '진심', '도', '없', '구', '~', '너무', '애', '여우', '같', '아', '싫증'], 'contain_gender_bias': False, 'bias': 1, 'hate': 1}


### 단어 집합 만들기

In [6]:
path_word2vec_kor = './data/word2vec_kor/ko.bin'
model_kor_word2vec = gensim.models.Word2Vec.load(path_word2vec_kor)
gensim_to_torch_kor_word2vec = 'torch_kor_word2vec.wv'
model_kor_word2vec.wv.save_word2vec_format(gensim_to_torch_kor_word2vec)

In [7]:
vectors = Vectors(name=gensim_to_torch_kor_word2vec)

In [8]:
comments.build_vocab(train_data, vectors=vectors, min_freq=3, max_size=10000)
#hate.build_vocab(train_data)

print('단어 집합의 크기 : {}'.format(len(comments.vocab)))
print('임베딩 벡터 크기: {}'.format(comments.vocab.vectors.shape))

단어 집합의 크기 : 4033
임베딩 벡터 크기: torch.Size([4033, 200])


### 데이터 로더 만들기

본래 미니 배치 간 샘플 길이가 모두 다르지만, 앞에 torchtext 변수를 선언할때 fix_length를 이용해 통일시켜주었다. CNN에 집어넣어야하기 때문

In [9]:
"""
# 다른 방법
train_loader = Iterator(dataset=train_data, batch_size = BATCH_SIZE)
test_loader = Iterator(dataset=test_data, batch_size = BATCH_SIZE)

print('훈련 데이터의 미니 배치 수 : {}'.format(len(train_loader)))
print('테스트 데이터의 미니 배치 수 : {}'.format(len(test_loader)))
"""

train_iter, val_iter, test_iter = data.BucketIterator.splits(
        (train_data, val_data, test_data), batch_size=BATCH_SIZE,
        shuffle=True, repeat=False, sort_within_batch=False, sort_key=lambda x: len(x.comments))

print('훈련 데이터의 미니 배치의 개수 : {}'.format(len(train_iter)))
print('테스트 데이터의 미니 배치의 개수 : {}'.format(len(test_iter)))
print('검증 데이터의 미니 배치의 개수 : {}'.format(len(val_iter)))

훈련 데이터의 미니 배치의 개수 : 25
테스트 데이터의 미니 배치의 개수 : 7
검증 데이터의 미니 배치의 개수 : 2


## BiLSTM

In [10]:
class BiLSTM(nn.Module):
    def __init__(self, pre_embedding, hidden_dim, model_embedding, num_lstm_layer, n_classes, dropout=0.1):
        super(BiLSTM, self).__init__()
        
        self.hidden_dim = hidden_dim
        self.num_lstm_layer = num_lstm_layer
        self.n_classes = n_classes
        self.embedding = nn.Embedding.from_pretrained(pre_embedding, freeze=False)
        
        # BiLSTM layer 세팅
        self.bi_lstm = nn.LSTM(input_size=self.embedding.embedding_dim,
                               hidden_size=self.hidden_dim,
                               num_layers=self.num_lstm_layer,
                               dropout=dropout,
                               batch_first=True,
                               bidirectional=True)
        
        # bidirectional 이라서 hidden_dim * 2
        self.linear = nn.Linear(self.hidden_dim * 2, self.n_classes)
        """
        self.lin_layers = nn.Sequential(
            nn.ReLU(),
            nn.Linear(self.hidden_dim * 2, self.n_classes)
        )
        """
        
    def forward(self, sents):
        # embedding 
        embedded = self.embedding(sents)
        
        # lstm 통과
        lstm_out, (h_n, c_n) = self.bi_lstm(embedded) # (h_0, c_0) = (0, 0)
        
        # forward와 backward의 마지막 time-step의 은닉 상태를 가지고 와서 concat
        # 이때 모델이 batch_first라는 점에 주의한다. (dimension 순서가 바뀜)
        hidden = torch.cat((h_n[-2,:,:], h_n[-1,:,:]), dim = 1)
        out=self.linear(hidden)
        #out=self.lin_layers(hidden)
        
        return out

# Training function 정의

In [13]:
def train(model, optimizer, train_iter):
    model.train()
    
    corrects, total_loss = 0, 0
    
    for b, batch in enumerate(train_iter):
        # comments 는 x, hate(label)은 y로 두고
        x, y = batch.comments.to(DEVICE), batch.hate.to(DEVICE)
        # gradient 0으로 세팅해두고
        optimizer.zero_grad()
        # model 돌리고
        prediction = model(x)
        # loss 구해서 backprop
        loss = criterion(prediction, y)
        total_loss = total_loss + loss.item()
        loss.backward()
        optimizer.step()
    
    size = len(train_iter.dataset)
    avg_loss = total_loss / size
    
    return avg_loss
        
def evaluate(model, val_iter):
    model.eval()
    
    corrects, total_loss = 0, 0
    
    for b, batch in enumerate(val_iter):
        x, y = batch.comments.to(DEVICE), batch.hate.to(DEVICE)
        prediction = model(x)
        loss = criterion(prediction, y)
        total_loss = total_loss + loss.item()
        corrects = corrects + (prediction.max(1)[1].view(y.size()).data == y.data).sum()
        
        y = y.data
        y = y.to("cpu")
        y = y.detach().numpy()
        p = prediction.max(1)[1].data
        p = p.to("cpu")
        p = p.detach().numpy()
    
    print('**** Look only last batch case ****')
    print(metrics.classification_report(y,p))
        
    size = len(val_iter.dataset)
    avg_loss = total_loss / size
    avg_accuracy = 100.0 * corrects / size
    
    return avg_loss, avg_accuracy

# BiLSTM 선언

In [None]:
bilstm_model = BiLSTM(comments.vocab.vectors, HIDDEN_DIM, model_kor_word2vec, NUM_LSTM_LAYER, n_classes)
print(bilstm_model)
bilstm_model = bilstm_model.to(DEVICE)

optimizer = torch.optim.Adam(bilstm_model.parameters(), lr=learning_rate)
criterion = nn.CrossEntropyLoss()

# BiLSTM training / test

In [None]:
best_val_loss = None
num_epoch = 10

print('[STAGE] Train')
for i in range(1, num_epoch+1):
    train_loss = train(bilstm_model, optimizer, train_iter)
    val_loss, val_accuracy = evaluate(bilstm_model, val_iter)
    result = (
        f'[Epoch: {i}/{num_epoch}] train loss : {train_loss:.4f} '
        f'| val loss : {val_loss:.4f} | val accuracy : {val_accuracy:.4f}%'
    )
    print(result)
    
    # 검증 오차가 가장 적은 최적의 모델을 저장
    if not best_val_loss or val_loss < best_val_loss:
        if not os.path.isdir("snapshot"):
            os.makedirs("snapshot")
        torch.save(bilstm_model.state_dict(), './snapshot/hate_classification_bilstm.pt')
        best_val_loss = val_loss
        
bilstm_model.load_state_dict(torch.load('./snapshot/hate_classification_bilstm.pt'))
test_loss, test_acc = evaluate(bilstm_model, test_iter)
result = f'테스트 오차: {test_loss:.4f} | 테스트 정확도: {test_acc:.4f}%'
print(result)