# HuggingFace로 두 문장의 논리적 모순 분류하기

이번 실습에서는 HuggingFace로 두 문장의 논리적 모순 분류 문제를 위한 모델을 구현합니다.
먼저 필요한 library들을 설치하고 import합니다.

In [1]:
%pip install transformers datasets evaluate accelerate scikit-learn

Collecting evaluate
  Downloading evaluate-0.4.3-py3-none-any.whl.metadata (9.2 kB)
Collecting accelerate
  Downloading accelerate-1.0.0-py3-none-any.whl.metadata (19 kB)
Collecting scikit-learn
  Downloading scikit_learn-1.5.2-cp312-cp312-macosx_12_0_arm64.whl.metadata (13 kB)
Collecting scipy>=1.6.0 (from scikit-learn)
  Downloading scipy-1.14.1-cp312-cp312-macosx_14_0_arm64.whl.metadata (60 kB)
Collecting threadpoolctl>=3.1.0 (from scikit-learn)
  Downloading threadpoolctl-3.5.0-py3-none-any.whl.metadata (13 kB)
Downloading evaluate-0.4.3-py3-none-any.whl (84 kB)
Downloading accelerate-1.0.0-py3-none-any.whl (330 kB)
Downloading scikit_learn-1.5.2-cp312-cp312-macosx_12_0_arm64.whl (11.0 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m11.0/11.0 MB[0m [31m41.7 MB/s[0m eta [36m0:00:00[0m [36m0:00:01[0m
[?25hDownloading scipy-1.14.1-cp312-cp312-macosx_14_0_arm64.whl (23.1 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m23.1/23.1 MB[0m [31m40

In [1]:
import random
import evaluate
import numpy as np

from datasets import load_dataset
from transformers import AutoTokenizer, AutoModelForSequenceClassification

  from .autonotebook import tqdm as notebook_tqdm


## Dataset 준비

그 다음 두 문장의 논리적 모순 분류를 위해 사용할 nyu-mll/glue mnli dataset을 `load_dataset` 함수로 다운로드 받습니다.

In [2]:
imdb = load_dataset("nyu-mll/glue", "mnli")
imdb

Generating train split: 100%|██████████| 392702/392702 [00:00<00:00, 3444845.57 examples/s]
Generating validation_matched split: 100%|██████████| 9815/9815 [00:00<00:00, 2634019.69 examples/s]
Generating validation_mismatched split: 100%|██████████| 9832/9832 [00:00<00:00, 2759528.70 examples/s]
Generating test_matched split: 100%|██████████| 9796/9796 [00:00<00:00, 2646190.63 examples/s]
Generating test_mismatched split: 100%|██████████| 9847/9847 [00:00<00:00, 2651258.92 examples/s]


DatasetDict({
    train: Dataset({
        features: ['premise', 'hypothesis', 'label', 'idx'],
        num_rows: 392702
    })
    validation_matched: Dataset({
        features: ['premise', 'hypothesis', 'label', 'idx'],
        num_rows: 9815
    })
    validation_mismatched: Dataset({
        features: ['premise', 'hypothesis', 'label', 'idx'],
        num_rows: 9832
    })
    test_matched: Dataset({
        features: ['premise', 'hypothesis', 'label', 'idx'],
        num_rows: 9796
    })
    test_mismatched: Dataset({
        features: ['premise', 'hypothesis', 'label', 'idx'],
        num_rows: 9847
    })
})

`load_dataset`은 HuggingFace의 `datasets` library의 함수로, HuggingFace의 hub에서 dataset을 다운로드 받을 수 있도록 만든 함수입니다.
출력 결과를 보시면 `imdb`는 `train`, `validation_matched`, `validation_mismatched`, `test_matched` 그리고 `test_mismatched` data로 구성되어있습니다.
이 중에서 우리는 `train`과 `validation_matched`를 활용합니다.

`train` data를 한 번 살펴보겠습니다.

In [3]:
imdb['train'][0]

{'premise': 'Conceptually cream skimming has two basic dimensions - product and geography.',
 'hypothesis': 'Product and geography are what make cream skimming work. ',
 'label': 1,
 'idx': 0}

`train`과 `validation_matched`의 각 data는 `premise`와 `hypothesis`, `label` 로 구성되어있습니다.
각각은 두 문장과 해당 문장들의 논리적 관계를 의미합니다.

이번에는 tokenizer를 불러와서 미리 text들을 tokenize합니다.

In [7]:
tokenizer = AutoTokenizer.from_pretrained("bert-base-cased")

def preprocess_function(data):
    tokenized = tokenizer(data["premise"], data["hypothesis"], truncation=True)
    return tokenized

imdb_tokenized = imdb.map(preprocess_function, batched=True)

Map: 100%|██████████| 392702/392702 [00:09<00:00, 40661.49 examples/s]
Map: 100%|██████████| 9815/9815 [00:00<00:00, 45399.46 examples/s]
Map: 100%|██████████| 9832/9832 [00:00<00:00, 43528.06 examples/s]
Map: 100%|██████████| 9796/9796 [00:00<00:00, 32700.53 examples/s]
Map: 100%|██████████| 9847/9847 [00:00<00:00, 44887.22 examples/s]


Tokenizer를 실행할 때 넘겨주었던 `truncation` 옵션은 주어진 text가 일정 길이 이상이면 잘라내라는 의미입니다.
만약 특정 길이 값이 같이 주어지지 않는다면 `bert-base-cased`를 학습할 때 사용한 text의 최대 길이를 기준으로 값을 결정합니다.

In [10]:
imdb_tokenized['train'][0].keys()

dict_keys(['premise', 'hypothesis', 'label', 'idx', 'input_ids', 'token_type_ids', 'attention_mask'])

마지막 출력 결과를 보면, `premise`와 `hypothesis`, `label` 이외에 `input_ids`가 생기신 것을 확인하실 수 있습니다.
이는 우리가 `AutoTokenizer.from_pretrained`로 불러온 tokenizer로 text를 token들로 나누고 정수 index로 변환한 결과입니다.

이번에는 `train` data를 쪼개 training data와 validation data를 만들어보겠습니다.

In [15]:
imdb_split = imdb_tokenized['train'].train_test_split(test_size=0.2)
imdb_split.keys()
imdb_train, imdb_val = imdb_split['train'], imdb_split['test']
imdb_test = imdb_tokenized['validation_matched']

HuggingFace `datasets`로 불러온 dataset은 `train_test_split`으로 쉽게 쪼갤 수 있습니다.

다음은 각 split의 크기입니다.

In [16]:
len(imdb_train), len(imdb_val), len(imdb_test)

(314161, 78541, 9815)

## Model 구현

이번에는 text 분류를 수행할 Transformer를 구현합니다.
이전에는 Transformer의 구성 요소들을 직접 구현하여 합쳤습니다.
이번에는 HuggingFace의 BERT를 활용하여 인자만 넘겨주는 식으로 구현해보겠습니다:

In [17]:
from transformers import BertConfig

config = BertConfig()

config.hidden_size = 64  # BERT layer의 기본 hidden dimension
config.intermediate_size = 64  # FFN layer의 중간 hidden dimension
config.num_hidden_layers = 2  # BERT layer의 개수
config.num_attention_heads = 4  # Multi-head attention에서 사용하는 head 개수
config.num_labels = 3  # 마지막에 예측해야 하는 분류 문제의 class 개수

model = AutoModelForSequenceClassification.from_config(config)

BERT는 이전에 배운 Transformer의 architecture를 그대로 사용합니다.
그래서 BERT의 옵션들만 수정하면 vanilla Transformer를 쉽게 구현할 수 있습니다.

Transformer 구현 이외에 분류 문제에 맞춰 첫 번째 token을 linear classifier를 거치는 등의 과정은 `AutoModelForSequenceClassification`이 구현해줍니다.
즉, 우리가 `config`로 넘겨주는 BERT의 마지막에 linear classifier를 달아주는 역할을 합니다.

## 학습 코드

다음은 위에서 구현한 Transformer를 imdb로 학습하는 코드를 구현합니다.
먼저 다음과 같이 학습 인자들을 정의합니다.

In [18]:
from transformers import TrainingArguments, Trainer

training_args = TrainingArguments(
    output_dir='hf_mnli',  # 모델, log 등을 저장할 directory
    num_train_epochs=10,  # epoch 수
    per_device_train_batch_size=128,  # training data의 batch size
    per_device_eval_batch_size=128,  # validation data의 batch size
    logging_strategy="epoch",  # Epoch가 끝날 때마다 training loss 등을 log하라는 의미
    do_train=True,  # 학습을 진행하겠다는 의미
    do_eval=True,  # 학습 중간에 validation data에 대한 평가를 수행하겠다는 의미
    eval_strategy="epoch",  # 매 epoch가 끝날 때마다 validation data에 대한 평가를 수행한다는 의미
    save_strategy="epoch",  # 매 epoch가 끝날 때마다 모델을 저장하겠다는 의미
    learning_rate=1e-3,  # optimizer에 사용할 learning rate
    load_best_model_at_end=True  # 학습이 끝난 후, validation data에 대한 성능이 가장 좋은 모델을 채택하겠다는 의미
)

각각의 부분들은 이전 주차에서 배웠던 내용들을 설정하는 것에 불과하다는 것을 알 수 있습니다.
요약하면 다음과 같습니다:
- `epochs`: training data를 몇 번 반복할 것인지 결정합니다.
- `batch_size`: training data를 얼마나 잘게 잘라서 학습할 것인지 결정합니다.
- `learning_rate`: optimizer의 learning rate를 얼마로 할 것인지 결정합니다.
위의 부분들 이외에도 사소한 구현 요소들도 지정할 수 있습니다.

다음은 loss 이외의 평가 함수들을 구현하는 방법입니다.

In [19]:
import evaluate

accuracy = evaluate.load("accuracy")


def compute_metrics(pred):
    predictions, labels = pred
    predictions = np.argmax(predictions, axis=1)
    return accuracy.compute(predictions=predictions, references=labels)

`evaluate` 또한 HuggingFace의 library로 다양한 평가 함수들을 제공하고 있습니다.
이번 실습의 경우, 두 문장의 논리적 모순 분류 문제는 분류 문제이기 때문에 정확도를 계산할 수 있습니다.
위와 같이 예측 결과(`pred`)와 실제 label(`labels`)가 주어졌을 때 정확도를 계산하는 것은 `evaluate`의 accuracy 함수로 구현할 수 있습니다.

마지막으로 위의 요소들을 종합하여 학습할 수 있는 `Trainer`를 구현합니다.

In [20]:
from transformers import EarlyStoppingCallback


trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=imdb_train,
    eval_dataset=imdb_val,
    compute_metrics=compute_metrics,
    tokenizer=tokenizer,
    # callbacks = [EarlyStoppingCallback(early_stopping_patience=1)]
)

모델, training 인자, training과 validation data, 부가적인 평가 함수, 그리고 tokenizer를 넘겨주면 끝입니다.
별개로 early stopping과 같은 기능도 주석 친 부분과 같이 `callbacks`로 구현할 수 있으니 참고해주시길 바랍니다.

위와 같이 만든 `Trainer`는 다음과 같이 학습을 할 수 있습니다.

In [21]:
trainer.train()

 10%|█         | 2455/24550 [05:15<3:25:40,  1.79it/s]

{'loss': 0.9718, 'grad_norm': 0.6975794434547424, 'learning_rate': 0.0009000000000000001, 'epoch': 1.0}


                                                      
 10%|█         | 2456/24550 [06:27<136:00:31, 22.16s/it]

{'eval_loss': 0.9018356204032898, 'eval_accuracy': 0.5735985026928611, 'eval_runtime': 72.5498, 'eval_samples_per_second': 1082.581, 'eval_steps_per_second': 8.463, 'epoch': 1.0}


 20%|██        | 4910/24550 [11:36<1:24:19,  3.88it/s]  

{'loss': 0.8759, 'grad_norm': 1.0166763067245483, 'learning_rate': 0.0008, 'epoch': 2.0}


                                                      
 20%|██        | 4910/24550 [12:45<1:24:19,  3.88it/s]

{'eval_loss': 0.8841335773468018, 'eval_accuracy': 0.5883678588253269, 'eval_runtime': 69.5006, 'eval_samples_per_second': 1130.077, 'eval_steps_per_second': 8.834, 'epoch': 2.0}


 30%|███       | 7365/24550 [17:48<27:01, 10.60it/s]   

{'loss': 0.8217, 'grad_norm': 1.0889077186584473, 'learning_rate': 0.0007, 'epoch': 3.0}


                                                    
 30%|███       | 7365/24550 [18:58<27:01, 10.60it/s]

{'eval_loss': 0.8790404796600342, 'eval_accuracy': 0.6008836149272354, 'eval_runtime': 69.9061, 'eval_samples_per_second': 1123.521, 'eval_steps_per_second': 8.783, 'epoch': 3.0}


 40%|████      | 9820/24550 [24:04<50:32,  4.86it/s]   

{'loss': 0.7744, 'grad_norm': 1.3961162567138672, 'learning_rate': 0.0006, 'epoch': 4.0}


                                                    
 40%|████      | 9820/24550 [25:13<50:32,  4.86it/s]

{'eval_loss': 0.8937756419181824, 'eval_accuracy': 0.5997377166066131, 'eval_runtime': 69.6445, 'eval_samples_per_second': 1127.741, 'eval_steps_per_second': 8.816, 'epoch': 4.0}


 50%|█████     | 12275/24550 [30:34<1:11:29,  2.86it/s]

{'loss': 0.7324, 'grad_norm': 1.8426482677459717, 'learning_rate': 0.0005, 'epoch': 5.0}


                                                       
 50%|█████     | 12275/24550 [31:46<1:11:29,  2.86it/s]

{'eval_loss': 0.894999086856842, 'eval_accuracy': 0.6010236691664226, 'eval_runtime': 72.911, 'eval_samples_per_second': 1077.217, 'eval_steps_per_second': 8.421, 'epoch': 5.0}


 60%|██████    | 14730/24550 [37:04<48:36,  3.37it/s]   

{'loss': 0.6938, 'grad_norm': 2.1590042114257812, 'learning_rate': 0.0004, 'epoch': 6.0}


                                                     
 60%|██████    | 14730/24550 [38:15<48:36,  3.37it/s]

{'eval_loss': 0.9498928189277649, 'eval_accuracy': 0.5940082250035014, 'eval_runtime': 71.0772, 'eval_samples_per_second': 1105.009, 'eval_steps_per_second': 8.638, 'epoch': 6.0}


 70%|███████   | 17185/24550 [43:22<27:27,  4.47it/s]   

{'loss': 0.6576, 'grad_norm': 1.61057448387146, 'learning_rate': 0.0003, 'epoch': 7.0}


                                                     
 70%|███████   | 17185/24550 [44:36<27:27,  4.47it/s]

{'eval_loss': 0.9690077304840088, 'eval_accuracy': 0.588558841878764, 'eval_runtime': 74.2447, 'eval_samples_per_second': 1057.866, 'eval_steps_per_second': 8.27, 'epoch': 7.0}


 80%|████████  | 19640/24550 [49:46<22:39,  3.61it/s]   

{'loss': 0.6259, 'grad_norm': 2.2923152446746826, 'learning_rate': 0.0002, 'epoch': 8.0}


                                                     
 80%|████████  | 19641/24550 [50:58<27:39:17, 20.28s/it]

{'eval_loss': 1.031815767288208, 'eval_accuracy': 0.5897811334207611, 'eval_runtime': 71.5627, 'eval_samples_per_second': 1097.513, 'eval_steps_per_second': 8.58, 'epoch': 8.0}


 90%|█████████ | 22095/24550 [56:16<05:23,  7.58it/s]   

{'loss': 0.5976, 'grad_norm': 2.492615222930908, 'learning_rate': 0.0001, 'epoch': 9.0}


                                                     
 90%|█████████ | 22095/24550 [57:28<05:23,  7.58it/s]

{'eval_loss': 1.0670527219772339, 'eval_accuracy': 0.585719560484333, 'eval_runtime': 72.5123, 'eval_samples_per_second': 1083.141, 'eval_steps_per_second': 8.468, 'epoch': 9.0}


100%|██████████| 24550/24550 [1:02:48<00:00,  3.42it/s] 

{'loss': 0.5738, 'grad_norm': 3.08063006401062, 'learning_rate': 0.0, 'epoch': 10.0}


                                                       
100%|██████████| 24550/24550 [1:04:01<00:00,  6.39it/s]

{'eval_loss': 1.1213196516036987, 'eval_accuracy': 0.5834404960466508, 'eval_runtime': 72.3867, 'eval_samples_per_second': 1085.02, 'eval_steps_per_second': 8.482, 'epoch': 10.0}
{'train_runtime': 3841.3703, 'train_samples_per_second': 817.836, 'train_steps_per_second': 6.391, 'train_loss': 0.7325053551823447, 'epoch': 10.0}





TrainOutput(global_step=24550, training_loss=0.7325053551823447, metrics={'train_runtime': 3841.3703, 'train_samples_per_second': 817.836, 'train_steps_per_second': 6.391, 'total_flos': 131169969000000.0, 'train_loss': 0.7325053551823447, 'epoch': 10.0})

보시다시피 training loss는 잘 떨어지는 반면, validation loss는 중간부터 쭉 올라가는 것을 볼 수 있습니다.
Overfitting이 일어났다고 볼 수 있습니다.

위와 같이 학습이 끝난 후 validation loss가 가장 낮은 모델을 가지고 test data의 성능을 평가하는 것은 다음과 같이 구현할 수 있습니다.

In [27]:
trainer.evaluate(imdb_test)

100%|██████████| 77/77 [00:09<00:00,  8.27it/s]


{'eval_loss': 0.8530890941619873,
 'eval_accuracy': 0.6139582272032603,
 'eval_runtime': 9.7998,
 'eval_samples_per_second': 1001.551,
 'eval_steps_per_second': 7.857,
 'epoch': 10.0}

이전에 학습 인자에서 `load_best_model_at_end=True`를 넘겨줬기 때문에 `trainer`는 학습이 끝난 후, 기본적으로 validation loss가 가장 좋은 모델을 가지고 `evaluate`를 진행합니다.
실제로 결과를 보면 `eval_loss`가 가장 낮은 validation loss와 유사한 것을 볼 수 있습니다.

평가할 때 사용한 모델은 다음과 같이 저장할 수 있습니다.

In [28]:
trainer.save_model()