> STS 학습

In [1]:
import math
import logging
from datetime import datetime

import torch
from torch.utils.data import DataLoader
from datasets import load_dataset
from sentence_transformers import SentenceTransformer,  LoggingHandler, losses, models, util
from sentence_transformers.evaluation import EmbeddingSimilarityEvaluator
from sentence_transformers.readers import InputExample

In [16]:
import torch
import os
os.environ['KMP_DUPLICATE_LIB_OK']='True'
device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")

In [2]:
# 학습 경과를 지켜보는데 사용될 logger 를 초기화
logging.basicConfig(
    format="%(asctime)s - %(message)s",
    datefmt="%Y-%m-%d %H:%M:%S",
    level=logging.INFO,
    handlers=[LoggingHandler()],
)

* https://huggingface.co/klue : 다양한 사전학습 언어 모델

In [3]:
model_name = "klue/roberta-base"

In [4]:
train_batch_size = 32
num_epochs = 4
model_save_path = "output/training_klue_sts_" + model_name.replace("/", "-") + "-" + datetime.now().strftime("%Y-%m-%d_%H-%M-%S")

In [5]:
embedding_model = models.Transformer(model_name)

Some weights of the model checkpoint at klue/roberta-base were not used when initializing RobertaModel: ['lm_head.bias', 'lm_head.decoder.bias', 'lm_head.layer_norm.bias', 'lm_head.decoder.weight', 'lm_head.dense.bias', 'lm_head.layer_norm.weight', 'lm_head.dense.weight']
- This IS expected if you are initializing RobertaModel from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing RobertaModel from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).


In [6]:
# Mean Pooling 사용 
# 모델이 반환한 모든 토큰 임베딩을 더해준 후, 더해진 토큰 개수만큼 나누어 문장을 대표하는 임베딩으로 사용하는 기법
pooler = models.Pooling(
    embedding_model.get_word_embedding_dimension(),
    pooling_mode_mean_tokens=True,
    pooling_mode_cls_token=False,
    pooling_mode_max_tokens=False,
)

In [7]:
model = SentenceTransformer(modules=[embedding_model, pooler])

2023-06-07 12:41:57 - Use pytorch device: cuda


In [None]:
# 학습에 사용될 KLUE STS 데이터셋 (훈련, 검증 데이터만 존재)
datasets = load_dataset("klue", "sts")

# KorSTS 데이터셋
# 두 데이터셋은 제작 과정이 엄밀히 다르므로, 
# KLUE STS 데이터에 대해 학습된 모델이 
# KorSTS 테스트셋에 대해 기록하는 점수은 
# 사실상 큰 의미가 없을 수 있습니다. 
# 전체적인 훈련 프로세스의 이해를 돕기 위해 사용
testsets = load_dataset("kor_nlu", "sts")

In [12]:
# 데이터셋을 sentence-transformers 훈련 양식에 맞게 변환해주는 작업

train_samples = []
dev_samples = []
test_samples = []

# KLUE STS 내 훈련, 검증 데이터 예제 변환
for phase in ["train", "validation"]:
    examples = datasets[phase]

    for example in examples:
        score = float(example["labels"]["label"]) / 5.0  # 0.0 ~ 1.0 스케일로 유사도 정규화

        inp_example = InputExample(
            texts=[example["sentence1"], example["sentence2"]], 
            label=score,
        )

        if phase == "validation":
            dev_samples.append(inp_example)
        else:
            train_samples.append(inp_example)

# KorSTS 내 테스트 데이터 예제 변환
for example in testsets["test"]:
    score = float(example["score"]) / 5.0

    if example["sentence1"] and example["sentence2"]:
        inp_example = InputExample(
            texts=[example["sentence1"], example["sentence2"]],
            label=score,
        )

    test_samples.append(inp_example)

In [13]:
# 학습에 사용될 DataLoader와 Loss를 설정
train_dataloader = DataLoader(
    train_samples,
    shuffle=True,
    batch_size=train_batch_size,
)
train_loss = losses.CosineSimilarityLoss(model=model)

# 모델 검증에 활용할 Evaluator 를 정의
evaluator = EmbeddingSimilarityEvaluator.from_input_examples(
    dev_samples,
    name="sts-dev",
)

# Warm up Steps를 설정
warmup_steps = math.ceil(len(train_dataloader) * num_epochs  * 0.1)  # 10% of train data for warm-up
logging.info(f"Warmup-steps: {warmup_steps}")

2023-06-07 12:44:52 - Warmup-steps: 146


In [None]:
# 모델 훈련
model.fit(
    train_objectives=[(train_dataloader, train_loss)],
    evaluator=evaluator,
    epochs=num_epochs,
    evaluation_steps=1000,
    warmup_steps=warmup_steps,
    output_path=model_save_path,
)

In [17]:
import torch, gc
gc.collect()
torch.cuda.empty_cache()

> NLI 학습

In [None]:
import random
import logging
from IPython.display import display, HTML

import numpy as np
import pandas as pd
import datasets
from datasets import load_dataset, load_metric, ClassLabel, Sequence
from transformers import AutoTokenizer, AutoModelForSequenceClassification, TrainingArguments, Trainer

In [None]:
# model_checkpoint = "klue/roberta-base"
batch_size = 32
task = "nli"

In [None]:
datasets = load_dataset("klue", task)

In [None]:
# 훈련 과정 중 모델의 성능을 파악하기 위한 메트릭을 설정
metric = load_metric("glue", "qnli")

In [None]:
# 학습에 활용할 토크나이저를 로드
tokenizer = AutoTokenizer.from_pretrained(model, use_fast=True)

In [None]:
# 로드한 데이터셋에서 각 문장에 해당하는 value 를 뽑아주기 위한 key 를 정의
sentence1_key, sentence2_key = ("premise", "hypothesis")

In [None]:
# 데이터셋에서 각 예제들을 뽑아와 토큰화 할 수 있는 함수
def preprocess_function(examples):
    return tokenizer(
        examples[sentence1_key],
        examples[sentence2_key],
        truncation=True,
        return_token_type_ids=False,
    )

In [None]:
# 전처리 함수를 활용해 데이터셋을 미리 토큰화시키는 작업
encoded_datasets = datasets.map(preprocess_function, batched=True)

In [None]:
# 학습을 위한 모델을 로드
num_labels = 3
model = AutoModelForSequenceClassification.from_pretrained(model, num_labels=num_labels)

In [None]:
# 앞서 정의한 메트릭을 모델 예측 결과에 적용하기 위한 함수
def compute_metrics(eval_pred):
    predictions, labels = eval_pred
    predictions = np.argmax(predictions, axis=1)
    return metric.compute(predictions=predictions, references=labels)

In [None]:
# transformers에서 제공하는 Trainer 객체를 활용하기 위한 인자 관리 클래스를 초기화
metric_name = "accuracy"

args = TrainingArguments(
    "test-nli",
    # evaluation_strategy="epoch",
    evaluation_strategy = "no",
    save_strategy = 'no',
    learning_rate=2e-5,
    per_device_train_batch_size=batch_size,
    per_device_eval_batch_size=batch_size,
    num_train_epochs=5,
    weight_decay=0.01,
    load_best_model_at_end=True,
    metric_for_best_model=metric_name,
)

trainer = Trainer(
    model,
    args,
    train_dataset=encoded_datasets["train"],
    eval_dataset=encoded_datasets["validation"],
    tokenizer=tokenizer,
    compute_metrics=compute_metrics,
)

In [None]:
# 모델 훈련
trainer.train()

In [None]:
trainer.evaluate()

> 훈련 모델 허깅페이스에 올리기

In [None]:
# repo
my_token = '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'   # https://huggingface.co/settings/token에서 내 토큰 찾아서 입력
MODEL_SAVE_REPO = 'yngkyng/klue-roberta-large-sts-ko'
HUGGINGFACE_AUTH_TOKEN = my_token

# Push to huggingface-hub
model.push_to_hub(
MODEL_SAVE_REPO,
use_temp_dir=False,
use_auth_token=HUGGINGFACE_AUTH_TOKEN
)

tokenizer.push_to_hub(
MODEL_SAVE_REPO,
use_temp_dir=False,
use_auth_token=HUGGINGFACE_AUTH_TOKEN
)