## 기본 환경 설정

In [1]:
!python --version

Python 3.10.12


In [None]:
!wget https://www.python.org/ftp/python/3.6.9/Python-3.6.9.tgz
!tar xvfz Python-3.6.9.tgz
!Python-3.6.9/configure
!make
!sudo make install

In [3]:
!python --version

Python 3.6.9


In [None]:
!pip install mxnet

In [None]:
!pip install gluonnlp pandas tqdm

In [None]:
!pip install sentencepiece

In [None]:
!curl --proto '=https' --tlsv1.2 -sSf https://sh.rustup.rs | sh

In [None]:
!pip install transformers

In [None]:
!pip install torch

In [None]:
!pip install pandas

In [None]:
!pip install 'git+https://github.com/SKTBrain/KoBERT.git#egg=kobert_tokenizer&subdirectory=kobert_hf'

In [12]:
import torch
from torch import nn
import torch.nn.functional as F
import torch.optim as optim
from torch.utils.data import Dataset, DataLoader
import gluonnlp as nlp
import numpy as np
from tqdm import tqdm, tqdm_notebook
import pandas as pd

- torch, nn, F, optim : PyTorch 라이브러리에서 제공되는 모듈, 함수
- Dataset : 데이터 저장, DataLoader : 데이터 관리 및 공급
- gluonnlp : GlunoNLP, 자연어 처리 라이브러리
- numpy : NumPy 라이브러리, 다차원 배열과 행렬 연산에 이용
- tqdm : 진행 상황을 시각적으로 보여주는 라이브러리
- pandas : 데이터 조작 및 분석 라이브러리

In [13]:
# KoBERT
from kobert_tokenizer import KoBERTTokenizer
from transformers import BertModel

# transformers
from transformers import AdamW
from transformers.optimization import get_cosine_schedule_with_warmup

- kobert_tokenizer : 한국어 텍스트를 위한 토크나이저
- BertModel : 구글에서 개발된 BERT 모델, 자연어 처리 모델 라이브러리
- AdamW : [Adam 알고리즘 + 가중치 감쇠] 모델의 복잡도를 줄임
- get_cosine_schedule_with_warmup : 학습률을 조절하는 스케줄러

In [38]:
import os

n_devices = torch.cuda.device_count()
print(n_devices)

for i in range(n_devices):
    print(torch.cuda.get_device_name(i))

1
Tesla T4


결과가 0이 뜬다면, 런타임 유형 GPU로 변경해주기

In [14]:
#GPU 사용
device = torch.device("cuda:0")

- GPU : CPU 보다 빠르게 연산되는 병렬 프로세서
- cuda:0 : 첫 번째 GPU를 의미

In [None]:
tokenizer = KoBERTTokenizer.from_pretrained('skt/kobert-base-v1')
bertmodel = BertModel.from_pretrained('skt/kobert-base-v1', return_dict=False)
vocab = nlp.vocab.BERTVocab.from_sentencepiece(tokenizer.vocab_file, padding_token='[PAD]')

- tokenizer : 문장을 토큰으로 분리하여, 인덱스로 변환
- bertmodel : 텍스트의 의미 이해, 특성 추출
- vocal : KoBERT의 Vocabulary 설정, 인덱스 매핑

## 데이터셋 전처리

In [16]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [17]:
dataset = pd.read_excel('/content/drive/MyDrive/dataset/dataset.xlsx')

In [18]:
dataset.sample(n=1)

Unnamed: 0,문장,감정
83124,학대를 받아서 정신장애가 생겼는데 이 문제를 잘 해결하지 못한 내가 너무 싫어. 나...,분노


In [19]:
len(dataset)

96865

In [20]:
dataset["감정"].value_counts()

슬픔    25545
분노    16082
공포    15901
놀람    15702
행복    13376
혐오     5429
중립     4830
Name: 감정, dtype: int64

In [21]:
# 정수 변환
# 슬픔(0), 분노(1), 공포(2), 놀람(3), 행복(4), 혐오(5), 중립(6)
dataset.loc[(dataset["감정"] == "슬픔"), "감정"] = 0
dataset.loc[(dataset["감정"] == "분노"), "감정"] = 1
dataset.loc[(dataset["감정"] == "공포"), "감정"] = 2
dataset.loc[(dataset["감정"] == "놀람"), "감정"] = 3
dataset.loc[(dataset["감정"] == "행복"), "감정"] = 4
dataset.loc[(dataset["감정"] == "혐오"), "감정"] = 5
dataset.loc[(dataset["감정"] == "중립"), "감정"] = 6

In [22]:
dataset["감정"].value_counts()

0    25545
1    16082
2    15901
3    15702
4    13376
5     5429
6     4830
Name: 감정, dtype: int64

In [23]:
dataset.sample(n=10)

Unnamed: 0,문장,감정
84107,이제 정년퇴직할 때인데 모아둔 돈이 별로 없고 몸도 안 좋아서 너무 짜증 나. 돈을...,2
31872,맛 없더라고 앞으로도 계속 도저~~~ㄴ!!,4
38463,배신이다 기본의리라는게있는데....,5
18427,참고로 정말 진지하게 고민중임 ㅜㅜ0,0
15284,일본은 그냥 다 사라져라,1
86251,난 발이 하나 없어. 밖에 나가기 너무 창피해 매일 게임을 하며 지내. 내가 못된 ...,3
28173,진짜 개꿀잼.....꼭 봐야됨,4
86891,아빠가 나쁜 친구들과 어울리지 않는데도 불구하고 외출을 금지했어. 난 단지 친구들 ...,0
26501,도깨비 끝낫다고 이제 튀어나오네,6
41393,집에 아들이 사귀는 아가씨랑 아이를 가졌다고 하네. 남 부끄러워 살 수가 있나. 그...,3


In [24]:
data_list = []
for q, label in zip(dataset['문장'], dataset['감정'])  :
    data = []
    data.append(q)
    data.append(str(label))

    data_list.append(data)

print(data)

['친구들 모두 결혼하고 나만 혼자 남아서 쓸쓸하네. 맞아. 하지만 그렇다고 아무나하고 결혼할 수도 없잖아.', '3']


In [25]:
# train & test 데이터로 분류하기
from sklearn.model_selection import train_test_split

dataset_train, dataset_test = train_test_split(data_list, test_size= 0.2, random_state = 0)

- test_size= 0.2 : 80%는 train, 20%는 test로 추출
- shuffle = True : 디폴트값으로 생략 가능
- random_state : 난수의 초기값 설정

In [26]:
len(dataset_train)

77492

In [27]:
len(dataset_test)

19373

### 입력 데이터 생성 (토큰화, 정수 인코딩, 패딩)

KoBERT 입력 데이터를 생성하기 위해 다음을 진행해야 한다.


토큰화 : 텍스트를 작은 단위로 나누는 과정

- "안녕하세요" : "안녕", "하세", "요"


정수 인코딩 : 토큰을 고유한 정수로 변환하는 과정

- "안녕" : 1, "하세" : 2, "요" : 3


패딩 : 지정된 입력 크기보다 짧다면, 토큰을 추가하는 과정
- 입력 크기가 10, 입력 문장은 7개의 토큰이라면 3개의 패딩 토큰을 추가하여 10개의 토큰으로 만든다.


In [28]:
class BERTDataset(Dataset):
    def __init__(self, dataset, sent_idx, label_idx, bert_tokenizer, vocab, max_len,
                 pad, pair):
        transform = nlp.data.BERTSentenceTransform(
            bert_tokenizer, max_seq_length=max_len, vocab=vocab, pad=pad, pair=pair)

        self.sentences = [transform([i[sent_idx]]) for i in dataset]
        self.labels = [np.int32(i[label_idx]) for i in dataset]

    def __getitem__(self, i):
        return (self.sentences[i] + (self.labels[i], ))

    def __len__(self):
        return (len(self.labels))

- dataset : 원본 데이터셋
- sent_idx : 문장(sentence)의 인덱스
- label_idx : 라벨의 인덱스
- bert_tokenizer : BERT 토크나이저
- vocab : Vocaburary 설정
- max_len : 문장의 최대 길이
- pad : 패딩의 여부
- pair : 문장 쌍 여부

In [29]:
# 파라미터 설정
max_len = 256
batch_size = 64
warmup_ratio = 0.1
num_epochs = 10
max_grad_norm = 1
log_interval = 200
learning_rate =  5e-5

In [30]:
#토큰화
tok = nlp.data.BERTSPTokenizer(tokenizer, vocab, lower = False)

In [31]:
tok = tokenizer.tokenize

# BERTDataset(데이터셋, 문장 인덱스, 라벨 인덱스, 토크나이저, 어휘, 최대 길이, 패딩 여부, 문자쌍 여부)
# 토큰화, 정수 인코딩, 패딩 과정 진행
data_train = BERTDataset(dataset_train, 0, 1, tok, vocab, max_len, True, False)
data_test = BERTDataset(dataset_test, 0, 1, tok, vocab, max_len, True, False)

In [32]:
data_train[0]

(array([   2, 3238, 6410, 4627, 5330, 1370, 6897,  517, 6756, 6756, 6166,
        5400, 1168, 6855,   54, 1435, 2110, 3943, 7088, 4955,  881, 3093,
        5777, 5591, 2497, 7788,  880, 5876,   54, 1435,  517, 6249, 3943,
        7868, 7261, 2050, 5439,   54, 3945, 5859, 3942, 3647, 6099, 2872,
        3278,   54,    3,    1,    1,    1,    1,    1,    1,    1,    1,
           1,    1,    1,    1,    1,    1,    1,    1,    1,    1,    1,
           1,    1,    1,    1,    1,    1,    1,    1,    1,    1,    1,
           1,    1,    1,    1,    1,    1,    1,    1,    1,    1,    1,
           1,    1,    1,    1,    1,    1,    1,    1,    1,    1,    1,
           1,    1,    1,    1,    1,    1,    1,    1,    1,    1,    1,
           1,    1,    1,    1,    1,    1,    1,    1,    1,    1,    1,
           1,    1,    1,    1,    1,    1,    1,    1,    1,    1,    1,
           1,    1,    1,    1,    1,    1,    1,    1,    1,    1,    1,
           1,    1,    1,    1,    1, 

In [33]:
data_test[0]

(array([   2, 1435,  891, 3177, 7086, 2397, 7418, 5330, 3135, 1771, 5439,
        5007, 4619, 6441, 4012, 6398, 6116, 2426, 7852, 4998,   54, 1458,
        3239, 7788, 2856, 6527, 7848,   54, 4044, 2393, 5889, 3177, 2397,
        6896,  758, 7864, 6887, 1435,  891, 4832, 5859, 6824, 7086, 4004,
        7096, 3135, 1771, 5439, 4924, 5839,   54, 2397, 3475, 4332, 2233,
        2872, 3860, 2270, 7088, 4529, 3175, 6364, 6061, 4998,   54,    3,
           1,    1,    1,    1,    1,    1,    1,    1,    1,    1,    1,
           1,    1,    1,    1,    1,    1,    1,    1,    1,    1,    1,
           1,    1,    1,    1,    1,    1,    1,    1,    1,    1,    1,
           1,    1,    1,    1,    1,    1,    1,    1,    1,    1,    1,
           1,    1,    1,    1,    1,    1,    1,    1,    1,    1,    1,
           1,    1,    1,    1,    1,    1,    1,    1,    1,    1,    1,
           1,    1,    1,    1,    1,    1,    1,    1,    1,    1,    1,
           1,    1,    1,    1,    1, 

1번 array는 패딩된 시퀀스, 1이라는 패딩 토큰 추가하여 길이 조정

2번 array는 패딩 전 원본 시퀀스의 길이와, 데이터 유형

3번 array는 어텐션 마스크 시퀀스

어텐션 마스크를 사용하여, 입력 시퀀스에서 주의해야 할 토큰과 무시해야 하는 토큰을 나타낸다. 어텐션 마스크는 0으로, 실제 연산에 필요한 토큰의 위치는 1로 채워진다.

In [34]:
# torch 형식의 dataset을 만들어 입력 데이터셋의 전처리 마무리
train_dataloader = torch.utils.data.DataLoader(data_train, batch_size = batch_size, num_workers = 5)
test_dataloader = torch.utils.data.DataLoader(data_test, batch_size = batch_size, num_workers = 5)



## KoBERT 모델

### BERT 기반의 감정 분류를 위한 클래스 정의

In [35]:
class BERTClassifier(nn.Module):
    def __init__(self,
                 bert,
                 hidden_size = 768,
                 num_classes = 7,
                 dr_rate = None,
                 params = None):
        super(BERTClassifier, self).__init__()
        self.bert = bert
        self.dr_rate = dr_rate

        self.classifier = nn.Linear(hidden_size , num_classes)
        if dr_rate:
            self.dropout = nn.Dropout(p = dr_rate)

    def gen_attention_mask(self, token_ids, valid_length):
        attention_mask = torch.zeros_like(token_ids)
        for i, v in enumerate(valid_length):
            attention_mask[i][:v] = 1
        return attention_mask.float()

    def forward(self, token_ids, valid_length, segment_ids):
        attention_mask = self.gen_attention_mask(token_ids, valid_length)

        _, pooler = self.bert(input_ids = token_ids, token_type_ids = segment_ids.long(), attention_mask = attention_mask.float().to(token_ids.device),return_dict = False)
        if self.dr_rate:
            out = self.dropout(pooler)
        return self.classifier(out)

- num_classes : 예측할 감정 클래스의 수
- gen_attention_mask 메서드 : 토큰과 길이를 입력받아, 어텐션 마스크를 생성한다.
- forword 메서드 : BERT 모델에 입력을 전달하여, 어텐션 마스크를 적용한다. 그 후, 최종적으로 예측값을 반환한다.

In [36]:
# BERT  모델
model = BERTClassifier(bertmodel,  dr_rate = 0.5).to(device)

### Optimizer, Schedule 설정

In [41]:
no_decay = ['bias', 'LayerNorm.weight']
optimizer_grouped_parameters = [
    {'params': [p for n, p in model.named_parameters() if not any(nd in n for nd in no_decay)], 'weight_decay': 0.01},
    {'params': [p for n, p in model.named_parameters() if any(nd in n for nd in no_decay)], 'weight_decay': 0.0}
]

optimizer = AdamW(optimizer_grouped_parameters, lr=learning_rate)
loss_fn = nn.CrossEntropyLoss()

- no_decay : Weight Decay를 적용하지 않을 파라미터
- optimizer_grouped_parameters : 옵티마이저에 전달될 파라미터 그룹 정의
    - no_decay에 포함되지 않은 파라미터 : Weight Decay 0.01 적용
    - no_decay에 포함된 파라미터 : Weight Decay 적용 X
- optimizer : Adam 옵티마이저 이용
- loss_fn : 다중 클래스 분류에 사용되는 손실 함수(정답값과 예측값의 오차 계산)


In [44]:
t_total = len(train_dataloader) * num_epochs
warmup_step = int(t_total * warmup_ratio)
scheduler = get_cosine_schedule_with_warmup(optimizer, num_warmup_steps=warmup_step, num_training_steps=t_total)

- t_total : 훈련 데이터 로더의 총 배치 수
- warmup_step : 준비 단계 수
- scheduler : 코사인 스케줄러를 사용하여 학습률 조절

In [45]:
def calc_accuracy(X,Y):
    max_vals, max_indices = torch.max(X, 1)
    train_acc = (max_indices == Y).sum().data.cpu().numpy()/max_indices.size()[0]
    return train_acc

- calc_accuracy : 정확도 계산 함수, 예측 비율 계산