# HuggingFace로 뉴스 기사 분류하기

이번 실습에서는 HuggingFace로 뉴스 기사 분류와 같은 text 분류 문제를 위한 모델을 구현합니다.
먼저 필요한 library들을 설치하고 import합니다.

In [1]:
%pip install transformers datasets evaluate accelerate scikit-learn

Collecting evaluate
  Downloading evaluate-0.4.3-py3-none-any.whl.metadata (9.2 kB)
Collecting accelerate
  Downloading accelerate-1.0.0-py3-none-any.whl.metadata (19 kB)
Collecting scikit-learn
  Downloading scikit_learn-1.5.2-cp312-cp312-macosx_12_0_arm64.whl.metadata (13 kB)
Collecting scipy>=1.6.0 (from scikit-learn)
  Downloading scipy-1.14.1-cp312-cp312-macosx_14_0_arm64.whl.metadata (60 kB)
Collecting threadpoolctl>=3.1.0 (from scikit-learn)
  Downloading threadpoolctl-3.5.0-py3-none-any.whl.metadata (13 kB)
Downloading evaluate-0.4.3-py3-none-any.whl (84 kB)
Downloading accelerate-1.0.0-py3-none-any.whl (330 kB)
Downloading scikit_learn-1.5.2-cp312-cp312-macosx_12_0_arm64.whl (11.0 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m11.0/11.0 MB[0m [31m41.7 MB/s[0m eta [36m0:00:00[0m [36m0:00:01[0m
[?25hDownloading scipy-1.14.1-cp312-cp312-macosx_14_0_arm64.whl (23.1 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m23.1/23.1 MB[0m [31m40

In [2]:
import random
import evaluate
import numpy as np

from datasets import load_dataset
from transformers import AutoTokenizer, AutoModelForSequenceClassification

  from .autonotebook import tqdm as notebook_tqdm


## Dataset 준비

그 다음 뉴스 기사 분류를 위해 사용할 fancyzhx/ag_news dataset을 `load_dataset` 함수로 다운로드 받습니다.

In [3]:
imdb = load_dataset("fancyzhx/ag_news")
imdb

DatasetDict({
    train: Dataset({
        features: ['text', 'label'],
        num_rows: 120000
    })
    test: Dataset({
        features: ['text', 'label'],
        num_rows: 7600
    })
})

`load_dataset`은 HuggingFace의 `datasets` library의 함수로, HuggingFace의 hub에서 dataset을 다운로드 받을 수 있도록 만든 함수입니다.
출력 결과를 보시면 `imdb`는 `train`, `test` data로 구성되어있습니다.
이 중에서 우리는 `train`과 `test`를 활용합니다.

`train` data를 한 번 살펴보겠습니다.

In [4]:
imdb['train'][0]

{'text': "Wall St. Bears Claw Back Into the Black (Reuters) Reuters - Short-sellers, Wall Street's dwindling\\band of ultra-cynics, are seeing green again.",
 'label': 2}

`train`과 `test`의 각 data는 `text`와 `label`로 구성되어있습니다.
각각은 뉴스 기사와 해당 뉴스 기사의 종류를 의미합니다.
이는 이전 주차들에서 사용한 imdb dataset과 동일합니다.

이번에는 tokenizer를 불러와서 미리 text들을 tokenize합니다.

In [5]:
tokenizer = AutoTokenizer.from_pretrained("bert-base-cased")

def preprocess_function(data):
    return tokenizer(data["text"], truncation=True)

imdb_tokenized = imdb.map(preprocess_function, batched=True)

Map: 100%|██████████| 120000/120000 [00:03<00:00, 36498.00 examples/s]
Map: 100%|██████████| 7600/7600 [00:00<00:00, 39516.86 examples/s]


Tokenizer를 실행할 때 넘겨주었던 `truncation` 옵션은 주어진 text가 일정 길이 이상이면 잘라내라는 의미입니다.
만약 특정 길이 값이 같이 주어지지 않는다면 `bert-base-cased`를 학습할 때 사용한 text의 최대 길이를 기준으로 값을 결정합니다.

In [6]:
imdb_tokenized['train'][0].keys()

dict_keys(['text', 'label', 'input_ids', 'token_type_ids', 'attention_mask'])

마지막 출력 결과를 보면, `text`와 `label` 이외에 `input_ids`가 생기신 것을 확인하실 수 있습니다.
이는 우리가 `AutoTokenizer.from_pretrained`로 불러온 tokenizer로 text를 token들로 나누고 정수 index로 변환한 결과입니다.

이번에는 `train` data를 쪼개 training data와 validation data를 만들어보겠습니다.

In [7]:
imdb_split = imdb_tokenized['train'].train_test_split(test_size=0.2)
imdb_train, imdb_val = imdb_split['train'], imdb_split['test']
imdb_test = imdb_tokenized['test']

HuggingFace `datasets`로 불러온 dataset은 `train_test_split`으로 쉽게 쪼갤 수 있습니다.

다음은 각 split의 크기입니다.

In [8]:
len(imdb_train), len(imdb_val), len(imdb_test)

(96000, 24000, 7600)

## Model 구현

이번에는 text 분류를 수행할 Transformer를 구현합니다.
이전에는 Transformer의 구성 요소들을 직접 구현하여 합쳤습니다.
이번에는 HuggingFace의 BERT를 활용하여 인자만 넘겨주는 식으로 구현해보겠습니다:

In [9]:
from transformers import BertConfig

config = BertConfig()

config.hidden_size = 64  # BERT layer의 기본 hidden dimension
config.intermediate_size = 64  # FFN layer의 중간 hidden dimension
config.num_hidden_layers = 2  # BERT layer의 개수
config.num_attention_heads = 4  # Multi-head attention에서 사용하는 head 개수
config.num_labels = 4  # 마지막에 예측해야 하는 분류 문제의 class 개수

model = AutoModelForSequenceClassification.from_config(config)

BERT는 이전에 배운 Transformer의 architecture를 그대로 사용합니다.
그래서 BERT의 옵션들만 수정하면 vanilla Transformer를 쉽게 구현할 수 있습니다.

Transformer 구현 이외에 분류 문제에 맞춰 첫 번째 token을 linear classifier를 거치는 등의 과정은 `AutoModelForSequenceClassification`이 구현해줍니다.
즉, 우리가 `config`로 넘겨주는 BERT의 마지막에 linear classifier를 달아주는 역할을 합니다.

## 학습 코드

다음은 위에서 구현한 Transformer를 imdb로 학습하는 코드를 구현합니다.
먼저 다음과 같이 학습 인자들을 정의합니다.

In [10]:
from transformers import TrainingArguments, Trainer

training_args = TrainingArguments(
    output_dir='hf_transformer',  # 모델, log 등을 저장할 directory
    num_train_epochs=10,  # epoch 수
    per_device_train_batch_size=128,  # training data의 batch size
    per_device_eval_batch_size=128,  # validation data의 batch size
    logging_strategy="epoch",  # Epoch가 끝날 때마다 training loss 등을 log하라는 의미
    do_train=True,  # 학습을 진행하겠다는 의미
    do_eval=True,  # 학습 중간에 validation data에 대한 평가를 수행하겠다는 의미
    eval_strategy="epoch",  # 매 epoch가 끝날 때마다 validation data에 대한 평가를 수행한다는 의미
    save_strategy="epoch",  # 매 epoch가 끝날 때마다 모델을 저장하겠다는 의미
    learning_rate=1e-3,  # optimizer에 사용할 learning rate
    load_best_model_at_end=True  # 학습이 끝난 후, validation data에 대한 성능이 가장 좋은 모델을 채택하겠다는 의미
)

각각의 부분들은 이전 주차에서 배웠던 내용들을 설정하는 것에 불과하다는 것을 알 수 있습니다.
요약하면 다음과 같습니다:
- `epochs`: training data를 몇 번 반복할 것인지 결정합니다.
- `batch_size`: training data를 얼마나 잘게 잘라서 학습할 것인지 결정합니다.
- `learning_rate`: optimizer의 learning rate를 얼마로 할 것인지 결정합니다.
위의 부분들 이외에도 사소한 구현 요소들도 지정할 수 있습니다.

다음은 loss 이외의 평가 함수들을 구현하는 방법입니다.

In [11]:
import evaluate

accuracy = evaluate.load("accuracy")


def compute_metrics(pred):
    predictions, labels = pred
    predictions = np.argmax(predictions, axis=1)
    return accuracy.compute(predictions=predictions, references=labels)

Downloading builder script: 100%|██████████| 4.20k/4.20k [00:00<00:00, 11.9MB/s]


`evaluate` 또한 HuggingFace의 library로 다양한 평가 함수들을 제공하고 있습니다.
이번 실습의 경우, 뉴스 기사 분류 문제는 분류 문제이기 때문에 정확도를 계산할 수 있습니다.
위와 같이 예측 결과(`pred`)와 실제 label(`labels`)가 주어졌을 때 정확도를 계산하는 것은 `evaluate`의 accuracy 함수로 구현할 수 있습니다.

마지막으로 위의 요소들을 종합하여 학습할 수 있는 `Trainer`를 구현합니다.

In [12]:
from transformers import EarlyStoppingCallback


trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=imdb_train,
    eval_dataset=imdb_val,
    compute_metrics=compute_metrics,
    tokenizer=tokenizer,
    # callbacks = [EarlyStoppingCallback(early_stopping_patience=1)]
)

모델, training 인자, training과 validation data, 부가적인 평가 함수, 그리고 tokenizer를 넘겨주면 끝입니다.
별개로 early stopping과 같은 기능도 주석 친 부분과 같이 `callbacks`로 구현할 수 있으니 참고해주시길 바랍니다.

위와 같이 만든 `Trainer`는 다음과 같이 학습을 할 수 있습니다.

In [13]:
trainer.train()

 10%|█         | 750/7500 [02:21<11:47,  9.55it/s]  

{'loss': 0.4463, 'grad_norm': 2.6531643867492676, 'learning_rate': 0.0009000000000000001, 'epoch': 1.0}


                                                  
 10%|█         | 750/7500 [02:39<11:47,  9.55it/s]

{'eval_loss': 0.25426775217056274, 'eval_accuracy': 0.915, 'eval_runtime': 17.4406, 'eval_samples_per_second': 1376.101, 'eval_steps_per_second': 10.779, 'epoch': 1.0}


 20%|██        | 1500/7500 [04:49<16:12,  6.17it/s]  

{'loss': 0.196, 'grad_norm': 3.2850983142852783, 'learning_rate': 0.0008, 'epoch': 2.0}


                                                   
 20%|██        | 1500/7500 [05:12<16:12,  6.17it/s]

{'eval_loss': 0.26024410128593445, 'eval_accuracy': 0.91375, 'eval_runtime': 23.0784, 'eval_samples_per_second': 1039.934, 'eval_steps_per_second': 8.146, 'epoch': 2.0}


 30%|███       | 2250/7500 [07:25<11:57,  7.32it/s]   

{'loss': 0.1351, 'grad_norm': 1.8369730710983276, 'learning_rate': 0.0007, 'epoch': 3.0}


                                                   
 30%|███       | 2250/7500 [07:49<11:57,  7.32it/s]

{'eval_loss': 0.28734296560287476, 'eval_accuracy': 0.911875, 'eval_runtime': 24.1711, 'eval_samples_per_second': 992.922, 'eval_steps_per_second': 7.778, 'epoch': 3.0}


 40%|████      | 3000/7500 [09:57<10:22,  7.22it/s]  

{'loss': 0.0961, 'grad_norm': 2.130864381790161, 'learning_rate': 0.0006, 'epoch': 4.0}


                                                   
 40%|████      | 3000/7500 [10:18<10:22,  7.22it/s]

{'eval_loss': 0.33650025725364685, 'eval_accuracy': 0.9090416666666666, 'eval_runtime': 20.4277, 'eval_samples_per_second': 1174.876, 'eval_steps_per_second': 9.203, 'epoch': 4.0}


 50%|█████     | 3750/7500 [12:19<07:19,  8.54it/s]  

{'loss': 0.0701, 'grad_norm': 1.6289002895355225, 'learning_rate': 0.0005, 'epoch': 5.0}


                                                   
 50%|█████     | 3750/7500 [12:40<07:19,  8.54it/s]

{'eval_loss': 0.37245509028434753, 'eval_accuracy': 0.908125, 'eval_runtime': 20.3982, 'eval_samples_per_second': 1176.572, 'eval_steps_per_second': 9.216, 'epoch': 5.0}


 60%|██████    | 4500/7500 [14:39<06:30,  7.69it/s]  

{'loss': 0.0482, 'grad_norm': 1.2298778295516968, 'learning_rate': 0.0004, 'epoch': 6.0}


                                                   
 60%|██████    | 4501/7500 [15:01<5:14:42,  6.30s/it]

{'eval_loss': 0.41012218594551086, 'eval_accuracy': 0.9085833333333333, 'eval_runtime': 21.4655, 'eval_samples_per_second': 1118.076, 'eval_steps_per_second': 8.758, 'epoch': 6.0}


 70%|███████   | 5250/7500 [17:06<05:22,  6.99it/s]  

{'loss': 0.0344, 'grad_norm': 0.4483035206794739, 'learning_rate': 0.0003, 'epoch': 7.0}


                                                   
 70%|███████   | 5250/7500 [17:26<05:22,  6.99it/s]

{'eval_loss': 0.4408002197742462, 'eval_accuracy': 0.9055833333333333, 'eval_runtime': 20.5104, 'eval_samples_per_second': 1170.136, 'eval_steps_per_second': 9.166, 'epoch': 7.0}


 80%|████████  | 6000/7500 [19:27<03:14,  7.72it/s]  

{'loss': 0.0213, 'grad_norm': 1.0284065008163452, 'learning_rate': 0.0002, 'epoch': 8.0}


                                                   
 80%|████████  | 6000/7500 [19:48<03:14,  7.72it/s]

{'eval_loss': 0.5084899663925171, 'eval_accuracy': 0.9044583333333334, 'eval_runtime': 20.5776, 'eval_samples_per_second': 1166.319, 'eval_steps_per_second': 9.136, 'epoch': 8.0}


 90%|█████████ | 6750/7500 [21:49<01:29,  8.37it/s]  

{'loss': 0.0149, 'grad_norm': 1.5138286352157593, 'learning_rate': 0.0001, 'epoch': 9.0}


                                                   
 90%|█████████ | 6750/7500 [22:10<01:29,  8.37it/s]

{'eval_loss': 0.5338899493217468, 'eval_accuracy': 0.90375, 'eval_runtime': 21.0556, 'eval_samples_per_second': 1139.839, 'eval_steps_per_second': 8.929, 'epoch': 9.0}


100%|██████████| 7500/7500 [24:14<00:00,  8.37it/s]  

{'loss': 0.0107, 'grad_norm': 0.3332286477088928, 'learning_rate': 0.0, 'epoch': 10.0}


                                                   
100%|██████████| 7500/7500 [24:35<00:00,  5.08it/s]

{'eval_loss': 0.5426365733146667, 'eval_accuracy': 0.905125, 'eval_runtime': 20.6424, 'eval_samples_per_second': 1162.658, 'eval_steps_per_second': 9.107, 'epoch': 10.0}
{'train_runtime': 1475.1627, 'train_samples_per_second': 650.776, 'train_steps_per_second': 5.084, 'train_loss': 0.1073102907816569, 'epoch': 10.0}





TrainOutput(global_step=7500, training_loss=0.1073102907816569, metrics={'train_runtime': 1475.1627, 'train_samples_per_second': 650.776, 'train_steps_per_second': 5.084, 'total_flos': 56700217758720.0, 'train_loss': 0.1073102907816569, 'epoch': 10.0})

보시다시피 training loss는 잘 떨어지는 반면, validation loss는 중간부터 쭉 올라가는 것을 볼 수 있습니다.
Overfitting이 일어났다고 볼 수 있습니다.

위와 같이 학습이 끝난 후 validation loss가 가장 낮은 모델을 가지고 test data의 성능을 평가하는 것은 다음과 같이 구현할 수 있습니다.

In [14]:
trainer.evaluate(imdb_test)

100%|██████████| 60/60 [00:09<00:00,  6.52it/s]


{'eval_loss': 0.25580328702926636,
 'eval_accuracy': 0.9164473684210527,
 'eval_runtime': 9.5207,
 'eval_samples_per_second': 798.259,
 'eval_steps_per_second': 6.302,
 'epoch': 10.0}

이전에 학습 인자에서 `load_best_model_at_end=True`를 넘겨줬기 때문에 `trainer`는 학습이 끝난 후, 기본적으로 validation loss가 가장 좋은 모델을 가지고 `evaluate`를 진행합니다.
실제로 결과를 보면 `eval_loss`가 가장 낮은 validation loss와 유사한 것을 볼 수 있습니다.

평가할 때 사용한 모델은 다음과 같이 저장할 수 있습니다.

In [15]:
trainer.save_model()

그리고 저장한 모델을 가지고 다른 예시들을 예측하는 것은 다음과 같이 구현할 수 있습니다.

In [18]:
from transformers import pipeline

classifier = pipeline("text-classification", model="./hf_transformer/", device='mps')
print(classifier("UK charges 8 in terror plot linked to alert in US LONDON, AUGUST 17: Britain charged eight terror suspects on Tuesday with conspiracy to commit murder and said one had plans that could be used in striking US buildings that were the focus of security scares this month."))

[{'label': 'LABEL_0', 'score': 0.9704790115356445}]


HuggingFace의 `pipeline`은 다양한 모델들에 대하여 서비스에 사용할 수 있는 형태들을 제공합니다.
여기서는 영화 리뷰가 주어졌을 때, label이 0(World)인지 1(Sports)인지 2(Business)인지 3(Sci/Tech)인지 예측 결과를 보여줄 뿐만 아니라 그 신뢰도를 `score`로 넘겨주게 됩니다.

이처럼 HuggingFace를 활용하면 모델이나 예측, 학습 코드를 구현할 필요 없이 인자로 설정값들만 넘겨주면 쉽게 구현 할 수 있습니다.