# 0. Install Packages

In [1]:
!pip install transformers

Collecting transformers
  Downloading transformers-4.30.2-py3-none-any.whl (7.2 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m7.2/7.2 MB[0m [31m84.4 MB/s[0m eta [36m0:00:00[0m
Collecting huggingface-hub<1.0,>=0.14.1 (from transformers)
  Downloading huggingface_hub-0.15.1-py3-none-any.whl (236 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m236.8/236.8 kB[0m [31m21.6 MB/s[0m eta [36m0:00:00[0m
Collecting tokenizers!=0.11.3,<0.14,>=0.11.1 (from transformers)
  Downloading tokenizers-0.13.3-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (7.8 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m7.8/7.8 MB[0m [31m106.7 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting safetensors>=0.3.1 (from transformers)
  Downloading safetensors-0.3.1-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (1.3 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.3/1.3 MB[0m [31m53.3 MB/s[0m eta [36m0:00:

# 1. Import Packages

 - 본 실습에 필요한 패키지들을 불러옵니다.

In [2]:
from transformers import GPT2Model
from transformers import GPT2LMHeadModel
from transformers import PreTrainedTokenizerFast
import torch
from torch.utils.data import Dataset, DataLoader
import urllib
import pandas as pd

# 2. KoGPT2 Tokenizer

 - 사전 학습된 KoGPT2 Tokenizer를 불러옵니다.

In [3]:
tokenizer = PreTrainedTokenizerFast.from_pretrained("skt/kogpt2-base-v2", bos_token='<s>', eos_token='</s>', unk_token='<unk>', pad_token='<pad>', mask_token='<mask>', padding_side='right')
sample_text = "근육이 커지기 위해서는"

tokens = tokenizer.tokenize(sample_text)
token_ids = tokenizer.encode(sample_text)

print(f' Sentence: {sample_text}')
print(f'   Tokens: {tokens}')
print(f'Token IDs: {token_ids}')

Downloading (…)/main/tokenizer.json:   0%|          | 0.00/2.83M [00:00<?, ?B/s]

Downloading (…)lve/main/config.json:   0%|          | 0.00/1.00k [00:00<?, ?B/s]

The tokenizer class you load from this checkpoint is not the same type as the class this function is called from. It may result in unexpected tokenization. 
The tokenizer class you load from this checkpoint is 'GPT2Tokenizer'. 
The class this function is called from is 'PreTrainedTokenizerFast'.


 Sentence: 근육이 커지기 위해서는
   Tokens: ['▁근육이', '▁커', '지기', '▁위해서는']
Token IDs: [33245, 10114, 12748, 11357]


# 3. KoGPT2 Models

 - GPT2Model과 GPT2LMHeadModel을 불러옵니다.

## 3-1. GPT2Model

 - GPT2Model은 hidden state를 출력합니다.

 - 본 예제에서는 네 개의 토큰에 대한 768차원의 벡터가 도출됩니다.

In [4]:
gpt2_model = GPT2Model.from_pretrained('skt/kogpt2-base-v2')
hidden_states = gpt2_model(torch.tensor([token_ids]))
last_hidden_state = hidden_states[0]
print(last_hidden_state.shape)

Downloading pytorch_model.bin:   0%|          | 0.00/513M [00:00<?, ?B/s]

Some weights of the model checkpoint at skt/kogpt2-base-v2 were not used when initializing GPT2Model: ['lm_head.weight']
- This IS expected if you are initializing GPT2Model from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing GPT2Model from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).


torch.Size([1, 4, 768])


## 3-2. GPT2LMHeadModel

 - GPT2LMHead는 next word prediction을 출력합니다.

 - 본 예제에서는 네 개의 토큰에 대한 51200 차원의 단어 확률 분포가 도출됩니다.

In [5]:
gpt2lm_model = GPT2LMHeadModel.from_pretrained('skt/kogpt2-base-v2')
outputs = gpt2lm_model(torch.tensor([token_ids]))
next_word_predictions = outputs[0]
print(next_word_predictions.shape)

torch.Size([1, 4, 51200])


 - 단어 확률 분포에 대해 가장 높은 확률을 보이는 단어를 찾습니다.

 - 본 예제에서는 "무엇보다" 라는 단어가 가장 높은 확률을 나타냅니다.

In [9]:
next_word_distribution = next_word_predictions[0, -1, :]

# To-do
# next_word_id = ??? # 가장 높은 확률을 보이는 단어 id를 찾으세요.
# next_word = ??? # 해당 id를 토대로 실제 단어를 도출하세요. "무엇보다"
next_word_id = torch.argmax(next_word_distribution)
next_word = tokenizer.decode(next_word_id)

print(f'Next word: {next_word}')

Next word: 무엇보다


In [11]:
next_word_predictions.shape

torch.Size([1, 4, 51200])

In [12]:
next_word_distribution

tensor([-5.4558, -6.0249, -6.1399,  ..., -0.2245, -4.0262, -3.2469],
       grad_fn=<SliceBackward0>)

# 4. Text Generation Examples (Pre-trained model)

 - 두 가지 Text Generation 방법을 실험해봅니다.

## 4-1. Greedy Search

 - Greedy Search는 가장 높은 확률의 단어를 Greedy하게 찾는 방식으로 텍스트를 생성합니다.

In [13]:
gen_ids = gpt2lm_model.generate(torch.tensor([token_ids]),
                           max_length=127,
                           repetition_penalty=2.0)

generated = tokenizer.decode(gen_ids[0,:].tolist())
print(generated)

근육이 커지기 위해서는 무엇보다 규칙적인 생활습관이 중요하다.
특히, 아침식사는 단백질과 비타민이 풍부한 과일과 채소를 많이 섭취하는 것이 좋다.
또한 하루 30분 이상 충분한 수면을 취하는 것도 도움이 된다.
아침 식사를 거르지 않고 규칙적으로 운동을 하면 혈액순환에 도움을 줄 뿐만 아니라 신진대사를 촉진해 체내 노폐물을 배출하고 혈압을 낮춰준다.
운동은 하루에 10분 정도만 하는 게 좋으며 운동 후에는 반드시 스트레칭을 통해 근육량을 늘리고 유연성을 높여야 한다.
운동 후 바로 잠자리에 드는 것은 피해야 하며 특히 아침에 일어나면 몸이 피곤해지기 때문에 무리하게 움직이면 오히려 역효과가 날 수도 있다.



In [15]:
gen_ids

tensor([[33245, 10114, 12748, 11357, 14564,  9238, 33215,  6867,  6903, 11405,
         12155,  8610,  8143,  9091,  9377, 12486, 10320,  9199, 15177, 27459,
          6867,  8135, 48240,  9731,  9492, 19870,  9280,  9650, 10254,  9178,
          8146,  7397,  8704, 33215, 42250,  9091,  9377, 12486, 12826, 11357,
         39713, 18595,  9025, 11189, 10474,  8711,  8244,  7991,  9178,  7335,
          8704, 41046, 10558,  8382,  9124,  9922, 10108, 10090,  9049,  7884,
          9743, 16364, 17764,  9033, 10599, 13229,  9508,  8694, 10002, 12443,
          8137, 10474, 18566,  9049,  7884,  8196,  9460,  9479,  7803,  7813,
          9114, 13626,  9029,  8022,  7803,  7813,  9114, 16373, 15386, 38625,
          9752,   387, 10403,  6824, 26523, 16255,  7249,  9341, 47036,  7607,
          9844, 12972, 10764,  9243, 10552,  9029, 26421,  9479,  7803,  7813,
          9114, 16373, 41845, 18418,  9277, 13576,  7759, 10115, 15231,  8711,
         14564,  9153,  9823, 13508, 11469, 12972, 1

## 4-2. Beam Search

 - Beam Search는 매 step마다 num_beams 개 만큼의 Top word selection path를 찾습니다.

In [16]:
gen_ids = gpt2lm_model.generate(torch.tensor([token_ids]),
                           max_length=127,
                           repetition_penalty=2.0,
                           num_beams=5)

generated = tokenizer.decode(gen_ids[0,:].tolist())
print(generated)

근육이 커지기 위해서는 피부 속 콜라겐과 엘라스틴의 생성을 촉진시키는 것이 중요하다.
콜라겐은 피부의 탄력을 유지하는 데 중요한 역할을 한다.
이러한 콜라겐의 생성을 촉진시키기 위해서는 피부에 충분한 수분을 공급해줘야 한다.
또한 피부를 촉촉하게 유지시켜주는 보습제를 꾸준히 섭취하는 것도 도움이 된다.
피부에 영양을 공급해주는 보습제로는 에센셜 오일이 있다.
에센셜 오일은 비타민 A, C, E가 풍부하게 함유돼 있어 노화방지에 도움을 주는 것으로 알려져 있다.
특히 에센셜 오일은 항산화 작용을 하는 활성산소를 억제해 피부 노화를 방지하는데 도움을 준다.



In [17]:
gen_ids

tensor([[33245, 10114, 12748, 11357, 14564,  9238, 33215,  6867,  6903, 11405,
         12155,  8610,  8143,  9091,  9377, 12486, 10320,  9199, 15177, 27459,
          6867,  8135, 48240,  9731,  9492, 19870,  9280,  9650, 10254,  9178,
          8146,  7397,  8704, 33215, 42250,  9091,  9377, 12486, 12826, 11357,
         39713, 18595,  9025, 11189, 10474,  8711,  8244,  7991,  9178,  7335,
          8704, 41046, 10558,  8382,  9124,  9922, 10108, 10090,  9049,  7884,
          9743, 16364, 17764,  9033, 10599, 13229,  9508,  8694, 10002, 12443,
          8137, 10474, 18566,  9049,  7884,  8196,  9460,  9479,  7803,  7813,
          9114, 13626,  9029,  8022,  7803,  7813,  9114, 16373, 15386, 38625,
          9752,   387, 10403,  6824, 26523, 16255,  7249,  9341, 47036,  7607,
          9844, 12972, 10764,  9243, 10552,  9029, 26421,  9479,  7803,  7813,
          9114, 16373, 41845, 18418,  9277, 13576,  7759, 10115, 15231,  8711,
         14564,  9153,  9823, 13508, 11469, 12972, 1

In [23]:
gen_ids = gpt2lm_model.generate(torch.tensor([token_ids]),
                           max_length=127,
                           repetition_penalty=2.0,
                           num_beams=1)

generated = tokenizer.decode(gen_ids[0,:].tolist())
print(generated)

근육이 커지기 위해서는 무엇보다 규칙적인 생활습관이 중요하다.
특히, 아침식사는 단백질과 비타민이 풍부한 과일과 채소를 많이 섭취하는 것이 좋다.
또한 하루 30분 이상 충분한 수면을 취하는 것도 도움이 된다.
아침 식사를 거르지 않고 규칙적으로 운동을 하면 혈액순환에 도움을 줄 뿐만 아니라 신진대사를 촉진해 체내 노폐물을 배출하고 혈압을 낮춰준다.
운동은 하루에 10분 정도만 하는 게 좋으며 운동 후에는 반드시 스트레칭을 통해 근육량을 늘리고 유연성을 높여야 한다.
운동 후 바로 잠자리에 드는 것은 피해야 하며 특히 아침에 일어나면 몸이 피곤해지기 때문에 무리하게 움직이면 오히려 역효과가 날 수도 있다.



# 5. Fine tunning 1 (Naver Movie review)

 - 네이버 영화 리뷰데이터를 활용하여 모델을 Fine Tuning 합니다.

## 5-1. Get Datasets

 - github으로부터 네이버 영화 리뷰데이터를 요청하여 내 pc에 저장합니다.

 - 데이터의 크기가 너무 큰 관계로, 본 실험에서는 테스트 데이터 셋만을 활용하여 모델을 학습시킵니다.

In [24]:
def get_naver_review_examples():
    #urllib.request.urlretrieve("https://raw.githubusercontent.com/e9t/nsmc/master/ratings_train.txt", filename="ratings_train.txt")
    urllib.request.urlretrieve("https://raw.githubusercontent.com/e9t/nsmc/master/ratings_test.txt", filename="ratings_test.txt")

    #train_data = pd.read_table('ratings_train.txt')
    test_data = pd.read_table('ratings_test.txt')

    return test_data

In [25]:
naver_data = get_naver_review_examples()

In [26]:
naver_data

Unnamed: 0,id,document,label
0,6270596,굳 ㅋ,1
1,9274899,GDNTOPCLASSINTHECLUB,0
2,8544678,뭐야 이 평점들은.... 나쁘진 않지만 10점 짜리는 더더욱 아니잖아,0
3,6825595,지루하지는 않은데 완전 막장임... 돈주고 보기에는....,0
4,6723715,3D만 아니었어도 별 다섯 개 줬을텐데.. 왜 3D로 나와서 제 심기를 불편하게 하죠??,0
...,...,...,...
49995,4608761,오랜만에 평점 로긴했네ㅋㅋ 킹왕짱 쌈뽕한 영화를 만났습니다 강렬하게 육쾌함,1
49996,5308387,의지 박약들이나 하는거다 탈영은 일단 주인공 김대희 닮았고 이등병 찐따 OOOO,0
49997,9072549,그림도 좋고 완성도도 높았지만... 보는 내내 불안하게 만든다,0
49998,5802125,절대 봐서는 안 될 영화.. 재미도 없고 기분만 잡치고.. 한 세트장에서 다 해먹네,0


 - Dataset Loader를 정의합니다.

In [27]:
class NaverReviewDataset(Dataset):
    def __init__(self, texts, labels, tokenizer, max_len):
        self.texts = texts
        self.labels = labels
        self.tokenizer = tokenizer
        self.max_len = max_len

    def __getitem__(self, item):
        text = str(self.texts[item])
        label = self.labels[item]

        encoding = self.tokenizer.encode_plus(
          text,
          add_special_tokens=True,
          max_length=self.max_len,
          return_token_type_ids=False,
          padding='max_length',
          return_attention_mask=True,
          return_tensors='pt',
          truncation=True,
        )

        return {
          'text': text,
          'input_ids': encoding['input_ids'].flatten(),
          'attention_mask': encoding['attention_mask'].flatten(),
          'labels': torch.tensor(label, dtype=torch.long)
        }

    def __len__(self):
        return len(self.texts)


In [28]:
dataset = NaverReviewDataset(naver_data['document'], naver_data['label'], tokenizer, 100)
train_set, valid_set, test_set = torch.utils.data.random_split(dataset, [40000, 5000, 5000])
train_set[0]

{'text': '이럴줄 알았다. 진짜 유치해 죽을뻔.이게 명작임? 아니 진짜 유치해 토막될뻔',
 'input_ids': tensor([ 9018,  7400,  8239,  9181, 32574, 23971, 13215,  8711, 14909,  7724,
           389, 13421,  9170,  8160,  8152,   406,  9320, 23971, 13215,  8711,
         36788,  7253,  7724,     3,     3,     3,     3,     3,     3,     3,
             3,     3,     3,     3,     3,     3,     3,     3,     3,     3,
             3,     3,     3,     3,     3,     3,     3,     3,     3,     3,
             3,     3,     3,     3,     3,     3,     3,     3,     3,     3,
             3,     3,     3,     3,     3,     3,     3,     3,     3,     3,
             3,     3,     3,     3,     3,     3,     3,     3,     3,     3,
             3,     3,     3,     3,     3,     3,     3,     3,     3,     3,
             3,     3,     3,     3,     3,     3,     3,     3,     3,     3]),
 'attention_mask': tensor([1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0,
         0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,

In [29]:
batch_size = 4

train_dataloader = DataLoader(train_set, batch_size=batch_size,
                        shuffle=True)

# 일반적으로 valid와 test는 shuffle을 안하는게 좋음
valid_dataloader = DataLoader(valid_set, batch_size=batch_size,
                        shuffle=False)

test_dataloader = DataLoader(test_set, batch_size=batch_size,
                        shuffle=False)

In [34]:
sample_data = next(iter(test_dataloader))
sample_data

{'text': ['이 따위도 영화야?...',
  '전반적으로 초반부터 흥미진진해서 재밋었던영화 ,ㅎㅎ 추천~',
  '시즌3의 실패는 카리스마 음악의 진실의 깊이를 모두 갖은 김기련',
  '다시는 못느낄 어릴 적 그때의 신비로움.판타지...'],
 'input_ids': tensor([[ 9018,  9106, 22881, 10584,  7991,   406, 29045,     3,     3,     3,
              3,     3,     3,     3,     3,     3,     3,     3,     3,     3,
              3,     3,     3,     3,     3,     3,     3,     3,     3,     3,
              3,     3,     3,     3,     3,     3,     3,     3,     3,     3,
              3,     3,     3,     3,     3,     3,     3,     3,     3,     3,
              3,     3,     3,     3,     3,     3,     3,     3,     3,     3,
              3,     3,     3,     3,     3,     3,     3,     3,     3,     3,
              3,     3,     3,     3,     3,     3,     3,     3,     3,     3,
              3,     3,     3,     3,     3,     3,     3,     3,     3,     3,
              3,     3,     3,     3,     3,     3,     3,     3,     3,     3],
         [20090, 18622,  9148, 15112,  8265, 

## 5-2. Model Settings

 - Model의 환경을 설정합니다.

In [31]:
gpt2lm_model.train()

learning_rate = 3e-5
criterion = torch.nn.CrossEntropyLoss()
optimizer = torch.optim.Adam(gpt2lm_model.parameters(), lr=learning_rate)

device = 'cuda'

epochs = 10
count = 0

In [36]:
# list(gpt2lm_model.parameters())[0][1].shape
list(gpt2lm_model.named_parameters())[0][1].shape


torch.Size([51200, 768])

In [37]:
total_params = list(gpt2lm_model.parameters())
user_defined_parameters = total_params[1:]
torch.optim.Adam(user_defined_parameters, lr=learning_rate)

Adam (
Parameter Group 0
    amsgrad: False
    betas: (0.9, 0.999)
    capturable: False
    differentiable: False
    eps: 1e-08
    foreach: None
    fused: None
    lr: 3e-05
    maximize: False
    weight_decay: 0
)

In [40]:
device = 'cuda'
gpt2lm_model.to(device)
sample_inputs = sample_data['input_ids'].to(device)
sample_outputs = gpt2lm_model(sample_inputs, labels = sample_inputs)

RuntimeError: ignored

In [None]:
sample_outputs.keys()

In [39]:
sample_outputs['loss']

NameError: ignored

## 5-3. Model Training

 - Model의 학습을 시작합니다.

In [None]:
tot_train_loss = 0.0
tot_valid_loss = 0.0
prev_valid_loss = 10000

print('KoGPT-2 Training Start!')

for epoch in range(epochs):
    for batch, train_data in enumerate(train_dataloader):

        gpt2lm_model.to(device)
        train_inputs = train_data['input_ids'].to(device)

        # To-do
        # train_outputs = ??? # gpt2lm_model을 통해 다음에 나올 단어를 예측해보세요.
        # train_loss = ??? # train_outputs을 활용하여 train_loss를 계산하세요.
        train_outputs = gpt2lm_model(train_inputs, labels = train_inputs)
        train_loss, _ = train_outputs[:2]


        valid_data = next(iter(valid_dataloader))

        valid_inputs = valid_data['input_ids'].to(device)

        # To-do
        # valid_outputs = ??? # gpt2lm_model을 통해 다음에 나올 단어를 예측해보세요.
        # valid_loss = ??? # valid_outputs을 활용하여 train_loss를 계산하세요.
        valid_outputs = gpt2lm_model(valid_inputs, labels = valid_inputs)
        valid_loss, _ = valid_outputs[:2]


        # To-do
        # Gradients를 0으로 초기화하세요.
        # Back-propagation을 통해 Gradients를 계산하세요.
        # 계산된 Gradients를 통해 Parameter를 업데이트하세요.
        optimizer.zero_grad()
        train_loss.backward()
        optimizer.step()

        tot_train_loss += train_loss.item()
        tot_valid_loss += valid_loss.item()


        if count % 200 == 0:
            cnt = ((count+1) * batch_size)
            current_train_loss = tot_train_loss / cnt
            current_valid_loss = tot_valid_loss / cnt

            print(f'epoch : %5d | batch : %5d | train_loss : %.5f | valid_loss : %.5f' %(epoch+1, batch+1, current_train_loss, current_valid_loss))

            tot_train_loss = 0.0
            tot_valid_loss = 0.0

            count = 0

            # 이전 test_loss 보다 현재의 test_loss가 더 낮을 경우, 모델을 저장합니다.
            if prev_valid_loss > current_valid_loss:
                prev_valid_loss = current_valid_loss
                torch.save(gpt2lm_model.state_dict(), f'./KoGPT-model.pth')

        count += 1

In [None]:
train_set[5]

In [None]:
kogpt_load_path = f"./KoGPT-model.pth"

gpt2lm_model.load_state_dict(torch.load(kogpt_load_path))

In [None]:
gpt2lm_model.to(device)

sample_text = "정말 재미"

tokens = tokenizer.tokenize(sample_text)
token_ids = tokenizer.encode(sample_text)

gen_ids = gpt2lm_model.generate(torch.tensor([token_ids]).to(device),
                           max_length=127,
                           repetition_penalty=1.0,
                           num_beams=5)

generated = tokenizer.decode(gen_ids[0,:].tolist())
print(generated)

In [None]:
import re

p = re.compile('<pad>')
re.sub(p, '', generated)

# 6. Fine Tuning 2 (Classification Task)

 - Dateset을 가져옵니다.

In [None]:
# tokenizer = PreTrainedTokenizerFast.from_pretrained("skt/kogpt2-base-v2", bos_token='<s>', eos_token='</s>', unk_token='<unk>', pad_token='<pad>', mask_token='<mask>', padding_side='right')
tokenizer = PreTrainedTokenizerFast.from_pretrained("skt/kogpt2-base-v2", bos_token='<s>', eos_token='</s>', unk_token='<unk>', pad_token='<pad>', mask_token='<mask>', padding_side='left')

In [None]:
batch_size = 16

naver_data = get_naver_review_examples()

dataset = NaverReviewDataset(naver_data['document'], naver_data['label'], tokenizer, 100)
train_set, valid_set, test_set = torch.utils.data.random_split(dataset, [40000, 5000, 5000])

train_dataloader = DataLoader(train_set, batch_size=batch_size,
                        shuffle=True)

valid_dataloader = DataLoader(valid_set, batch_size=batch_size,
                        shuffle=True)

test_dataloader = DataLoader(test_set, batch_size=batch_size,
                        shuffle=True)

 - GPT Classifier를 정의합니다.

In [None]:
class GPT2SentimentClassifier(torch.nn.Module):

    def __init__(self, n_classes):
        super(GPT2SentimentClassifier, self).__init__()

        self.gpt_model = GPT2Model.from_pretrained('skt/kogpt2-base-v2')

        # To-do
        # 감정 분류를 위한 Layer들을 정의하세요.
        self.drop = torch.nn.Dropout(p=0.1)
        self.out = torch.nn.Linear(self.gpt_model.config.hidden_size, n_classes)

    def forward(self, input_ids, attention_mask):

        # To-do
        # 감정 분류 테스크를 위한 코드를 작성하세요.
        hidden_states = self.gpt_model(
            input_ids = input_ids,
            attention_mask = attention_mask
        )
        last_hidden_state = hidden_states[0]

        output = self.drop(last_hidden_state[:, -1, :])

        return self.out(output)



 - Model의 환경을 설정합니다.

In [None]:
gpt_clf = GPT2SentimentClassifier(n_classes=1)
gpt_clf.train()

pre_trained_lr = 1e-5
lr = 3e-5

# To-do
# criterion = ??? # 이진 분류를 위한 손실 함수를 정의하세요.
# optimizer = ??? # Adam Optimizer를 활용하여 Pre-trained layer는 1e-5, 새로 추가한 layer는 3e-5의 learning rate를 부여하세요.
criterion = torch.nn.BCEWithLogitsLoss()
optimizer = torch.optim.Adam(gpt_clf.parameters(), lr=learning_rate)

device = 'cuda'

epochs = 1
count = 0

- 정확도 계산 함수를 정의합니다.

In [None]:
def cal_correct_num(predicts, labels):
    predicts_ = predicts >= 0.5
    correct_num = torch.sum(predicts_ == labels)

    return correct_num

 - Model의 학습을 시작합니다

In [None]:
tot_train_loss = 0.0
tot_valid_loss = 0.0

train_correct_num = 0
valid_correct_num = 0

prev_valid_loss = 10000

print('KoGPT-2 Training Start!')

for epoch in range(epochs):
    for batch, train_data in enumerate(train_dataloader):
        gpt_clf.to(device)
        train_inputs = train_data['input_ids'].to(device)
        train_masks = train_data['attention_mask'].to(device)
        train_labels = train_data['labels'].to(device)

        # train_outputs = ??? # 입력 값들을 할당하여 감정을 예측해보세요.
        # train_loss = ??? # train_outputs를 활용하여 train_loss를 계산하세요.
        train_outputs = gpt_clf(train_inputs, train_masks)
        train_loss = criterion(train_outputs.view(-1), train_labels.float())



        valid_data = next(iter(valid_dataloader))

        valid_inputs = valid_data['input_ids'].to(device)
        valid_masks = valid_data['attention_mask'].to(device)
        valid_labels = valid_data['labels'].to(device)

        # valid_outputs = ??? # 입력 값들을 할당하여 감정을 예측해보세요.
        # valid_loss = ??? # train_outputs를 활용하여 train_loss를 계산하세요.
        valid_outputs = gpt_clf(valid_inputs, valid_masks)
        valid_loss = criterion(valid_outputs.view(-1), valid_labels.float())


        # To-do
        # Gradients를 0으로 초기화하세요.
        # Back-propagation을 통해 Gradients를 계산하세요.
        # 계산된 Gradients를 통해 Parameter를 업데이트하세요.
        optimizer.zero_grad()
        train_loss.backward()
        optimizer.step()


        tot_train_loss += train_loss.item()
        tot_valid_loss += valid_loss.item()

        train_correct_num += cal_correct_num(torch.sigmoid(train_outputs.view(-1)), train_labels.float())
        valid_correct_num += cal_correct_num(torch.sigmoid(valid_outputs.view(-1)), valid_labels.float())


        if count % 200 == 0:
            cnt = ((count+1) * batch_size)
            current_train_loss = tot_train_loss / cnt
            current_valid_loss = tot_valid_loss / cnt

            train_acc = train_correct_num / cnt
            valid_acc = valid_correct_num / cnt

            print(f'epoch : %5d | batch : %5d | train_loss : %.5f | valid_loss : %.5f | train_acc : %.5f | valid_acc : %.5f' %(epoch+1, batch+1, current_train_loss, current_valid_loss, train_acc, valid_acc))

            tot_train_loss = 0.0
            tot_valid_loss = 0.0

            train_correct_num = 0
            valid_correct_num = 0

            count = 0

            # 이전 test_loss 보다 현재의 test_loss가 더 낮을 경우, 모델을 저장합니다.
            if prev_valid_loss > current_valid_loss:
                prev_valid_loss = current_valid_loss
                torch.save(gpt_clf.state_dict(), f'./KoGPT-Classifier-model.pth')

        count += 1