In [None]:
1. Load Dataset
2. Tokenizing the text
3. Creating a Dataset object for TensorFlow
4. Fine-tuning BERT
4.1 Using Native Tensorflow
4.2 Using TFTrainer class
5. Saving Model
6. Loading the saved Model and Prediction
7. Evaluation
Outro
References

In [None]:
!nvidia-smi

# 뉴스 토픽 분류 (with HuggingFace Transformers)

In [2]:
import os
os.environ['CUDA_LAUNCH_BLOCKING'] = "1"
os.environ["CUDA_VISIBLE_DEVICES"] = "0"

## 0. Install and import libraries

In [3]:
!pip install -U transformers==4.7.0 datasets scipy scikit-learn

In [4]:
# import libraries
import random
import logging
from IPython.display import display, HTML

import numpy as np
import pandas as pd
import datasets
from sklearn.model_selection import train_test_split
from datasets import Dataset, load_dataset, load_metric, ClassLabel, Sequence
from transformers import AutoTokenizer, AutoModelForSequenceClassification, TrainingArguments, Trainer

## 1. Load Dataset
 - np_downsampling_data.csv : **not** preprocessed data
 - p_downsampling_data.csv : preprocessed data

In [5]:
# Load data (not preprocessed data, preprocessed data)
PATH = '../input/finaldata'
df_np = pd.read_csv(PATH + "/np_downsampling_data.csv")    # 전처리x, 다운샘플링o 데이터
df_np = df_np[['title', 'topic_idx']]
df_p = pd.read_csv(PATH + "/p_downsampling_data.csv")     # 전처리o, 다운샘플링o 데이터
df_p = df_p[['title', 'topic_idx']]

print('df_np')
display(df_np.head())
print('\n df_p')
display(df_p.head())

In [6]:
display(df_np['topic_idx'].value_counts())
display(df_p['topic_idx'].value_counts())

In [7]:
# data
print("length of df_np:", len(df_np))
print("length of df_p:", len(df_p))

x_np_train = df_np['title'].to_numpy().reshape(-1,1)
y_np_target = df_np['topic_idx'].to_numpy().reshape(-1,1)
x_p_train = df_p['title'].to_numpy().reshape(-1,1)
y_p_target = df_p['topic_idx'].to_numpy().reshape(-1,1)

x_np_train.shape, y_np_target.shape, x_p_train.shape, y_p_target.shape

In [8]:
dataset = [(x_np_train, y_np_target), (x_p_train, y_p_target)]
train, target = dataset[0]

x_train, x_temp, y_train, y_temp = train_test_split(train, target, test_size=0.4, stratify=target)
x_eval, x_test, y_eval, y_test = train_test_split(x_temp, y_temp, test_size=0.5, stratify=y_temp)

x_train.shape, x_eval.shape, x_test.shape, y_train.shape, y_eval.shape, y_test.shape

**KLUE YNAT** 는 총 7개의 라벨을 지니는 데이터셋임을 확인할 수 있습니다. <br>
**0 IT과학**<br>
**1 경제**<br>
**2 사회** <br>
**3 생활문화** <br>
**4 세계** <br> 
**5 스포츠** <br>
**6 정치** <br> 

In [9]:
# New test data
df_test = pd.read_csv('../input/test-crawling/test_crawling.csv')
df_test = df_test[['title', 'topic_idx']]
df_test.rename(columns={'topic_idx': 'label'}, inplace=True)
df_test.head()

In [10]:
# Test data shuffle
df_test = df_test.sample(frac=1)
display(df_test.info())
df_test['label'].value_counts()

## 2. Load tokenizer and create dataset

In [11]:
# Hyperparameters setting
# model_checkpoint="plbr/my_model"
# model_checkpoint="yobi/klue-roberta-base-ynat"
# model_checkpoint="klue/roberta-base"
model_checkpoint="klue/bert-base"
# model_checkpoint="xlm-roberta-large"
batch_size = 32
task = "ynat"
num_epochs = 3
learningRate = 2e-5
weight_decay = 0.01
seed_value = 42
num_labels = 7

In [12]:
tokenizer = AutoTokenizer.from_pretrained(model_checkpoint) # use_fast=True
# tokenizer = AutoTokenizer.from_pretrained('xlm-roberta-large') # use_fast=True

In [13]:
display(tokenizer)
display(tokenizer.all_special_ids)
display(tokenizer.all_special_tokens)
tokenizer(list(x_train[0]))

In [14]:
tokenizer(list(x_train[0]), list(x_train[1]))

In [15]:
len(tokenizer(list(x_train[0]), list(x_train[1]))['input_ids'][0])

`input_ids`를 보시면 `cls_token`에 해당하는 2번 토큰이 가장 좌측에 붙게 되며, `sep_token`의 3번 토큰이 각각 중간과 가장 우측에 더해진 것을 확인할 수 있습니다.

이제 앞서 로드한 데이터셋에서 각 문장에 해당하는 *value* 를 뽑아주기 위한 *key* 를 정의합니다.

앞서 **KLUE NLI** 데이터셋의 두 문장은 각각 `premise`와 `hypothesis`라는 이름으로 정의된 것을 확인하였으니, 두 문장의 *key* 는 마찬가지로 각각 `premise`, `hypothesis`가 되게 됩니다.

이제 *key* 도 확인이 되었으니, 데이터셋에서 각 예제들을 뽑아와 토큰화 할 수 있는 함수를 아래와 같이 정의해줍니다.

해당 함수는 모델을 훈련하기 앞서 데이터셋을 미리 토큰화 시켜놓는 작업을 위한 콜백 함수로 사용되게 됩니다.

인자로 넣어주는 `truncation`는 모델이 입력 받을 수 있는 최대 길이 이상의 토큰 시퀀스가 들어오게 될 경우, 최대 길이 기준으로 시퀀스를 자르라는 의미를 지닙니다.

( \* `return_token_type_ids`는 토크나이저가 `token_type_ids`를 반환하도록 할 것인지를 결정하는 인자입니다. `transformers==4.7.0` 기준으로 `token_type_ids`가 기본적으로 반환되므로 `token_type_ids` 자체를 사용하지 않는 `RoBERTa` 모델을 활용하기 위해 해당 인자를 `False`로 설정해주도록 합니다.)

In [16]:
def preprocess_function(examples):
    return tokenizer(
        examples['title'],
        padding="max_length", 
        max_length = 40,
        truncation=True
    )

In [17]:
train_df = pd.DataFrame({'title':np.squeeze(x_train).tolist(), 'label': np.squeeze(y_train).tolist()})
eval_df = pd.DataFrame({'title':np.squeeze(x_eval).tolist(), 'label': np.squeeze(y_eval).tolist()})
test_df = pd.DataFrame({'title':np.squeeze(x_test).tolist(), 'label': np.squeeze(y_test).tolist()})
test_df.head()

In [18]:
train_data = Dataset.from_pandas(train_df)
eval_data = Dataset.from_pandas(eval_df)
test_data = Dataset.from_pandas(test_df)

In [19]:
# Test data
test_dt = Dataset.from_pandas(df_test)

In [20]:
display(test_dt[:3])

In [21]:
# preprocess_function(dataset_train[:3])
display(train_data[:3])
preprocess_function(train_data[:3])

앞서 정의한 `process_function`은 여러 개의 예제 데이터를 받을 수도 있습니다.

이제 정의된 전처리 함수를 활용해 데이터셋을 미리 토큰화시키는 작업을 수행합니다.

`datasets` 라이브러리를 통해 얻어진 `DatasetDict` 객체는 `map()` 함수를 지원하므로, 정의된 전처리 함수를 데이터셋 토큰화를 위한 콜백 함수로 `map()` 함수 인자로 넘겨주면 됩니다.

보다 자세한 내용은 [문서](https://huggingface.co/docs/datasets/processing.html#processing-data-with-map)를 참조해주시면 됩니다.

In [22]:
# encoded_dataset_train = dataset_train.map(preprocess_function, batched=True)
# encoded_dataset_validation = dataset_validation.map(preprocess_function, batched=True)

encoded_dataset_train = train_data.map(preprocess_function, batched=True)
encoded_dataset_eval = eval_data.map(preprocess_function, batched=True)
encoded_dataset_test = test_data.map(preprocess_function, batched=True)

In [23]:
encoded_data_test = test_dt.map(preprocess_function, batched=True)

In [24]:
print(encoded_data_test[0])

학습을 위한 모델을 로드할 차례입니다.

앞서 살펴본 바와 같이 **KLUE YNAT**에는 총 7개의 클래스가 존재하므로, 7개의 클래스를 예측할 수 있는 *SequenceClassification* 구조로 모델을 로드하도록 합니다.

In [25]:
# print(encoded_dataset_train[0])
print(encoded_dataset_train[:3])

## 3. Fine-Tuning
 - Bert model select
 - Metrics select
 - Hyperparameter setting
 - Training

In [26]:
model = AutoModelForSequenceClassification.from_pretrained(model_checkpoint, num_labels=num_labels) # from_pt=True

모델을 로드할 때 발생하는 경고 문구는 두 가지 의미를 지닙니다.

1. *Masked Language Modeling* 을 위해 존재했던 `lm_head`가 현재는 사용되지 않고 있음을 의미합니다.
2. 문장 분류를 위한 `classifier` 레이어를 백본 모델 뒤에 이어 붙였으나 아직 훈련이 되지 않았으므로, 학습을 수행해야 함을 의미합니다.

마지막으로 앞서 정의한 메트릭을 모델 예측 결과에 적용하기 위한 함수를 정의합니다.

입력으로 들어오는 `eval_pred`는 [*EvalPrediction*](https://huggingface.co/transformers/internal/trainer_utils.html#transformers.EvalPrediction) 객체이며, 모델의 클래스 별 예측 값과 정답 값을 지닙니다.

클래스 별 예측 중 가장 높은 라벨을 `argmax()`를 통해 뽑아낸 후, 정답 라벨과 비교를 하게 됩니다.

In [27]:
from sklearn.metrics import precision_recall_fscore_support, accuracy_score

# def compute_metrics(pred):
#     labels = pred.label_ids
#     preds = pred.predictions.argmax(-1)
#     precision, recall, f1, supp = precision_recall_fscore_support(labels, preds, average='macro')
#     acc = accuracy_score(labels, preds)
#     return {
#         'accuracy': acc,
#         'f1': f1,
#         'precision': precision,
#         'recall': recall
#     }
metric = load_metric("accuracy")

def compute_metrics(eval_pred):
    predictions, labels = eval_pred
    print(predictions)
    predictions = np.argmax(predictions, axis=1)
    return metric.compute(predictions=predictions, references=labels)


이제 앞서 정의한 정보들을 바탕으로 `transformers`에서 제공하는 *Trainer* 객체를 활용하기 위한 인자 관리 클래스를 초기화합니다.

`metric_name`은 앞서 얻어진 메트릭 함수를 활용했을 때, 아래와 같이 `dict` 형식으로 결과 값이 반환되는데 여기서 우리가 사용할 *key* 를 정의해준다고 생각하시면 됩니다.

```python
>>> metric.compute(predictions=fake_preds, references=fake_labels)
{'accuracy': 0.515625}
```

각 인자에 대한 자세한 설명은 [문서](https://huggingface.co/transformers/main_classes/trainer.html#trainingarguments)에서 참조해주시면 됩니다.

In [28]:
metric_name = "accuracy"

args = TrainingArguments(
    #"test-nli",
    "test-ynat",
    evaluation_strategy="epoch",
    save_strategy = 'no',
#     save_strategy = "epoch",
    learning_rate = learningRate,
    per_device_train_batch_size = batch_size,
    per_device_eval_batch_size = batch_size,
    num_train_epochs = num_epochs,
    weight_decay = weight_decay,
    # seed = seed_value,
#     load_best_model_at_end = True,
    load_best_model_at_end = False,
    metric_for_best_model = metric_name,
    report_to ='none'

)

이제 로드한 모델, 인자 관리 클래스, 데이터셋 등을 *Trainer* 클래스를 초기화에 넘겨주도록 합니다.

(TIP: Q: 이미 `encoded_datasets`을 만드는 과정에 토큰화가 이루어졌는데 토크나이저를 굳이 넘겨주는 이유가 무엇인가요?,<br>A: 토큰화는 이루어졌지만 학습 과정 시, 데이터를 배치 단위로 넘겨주는 과정에서 배치에 포함된 가장 긴 시퀀스 기준으로 `truncation`을 수행하고 최대 길이 시퀀스 보다 짧은 시퀀스들은 그 길이만큼 `padding`을 수행해주기 위함입니다.)

In [29]:
trainer = Trainer(
    model,
    args,
    train_dataset = encoded_dataset_train,
    eval_dataset = encoded_dataset_eval,
    tokenizer = tokenizer,
    compute_metrics = compute_metrics,
)

이제 정의된 *Trainer* 객체를 다음과 같이 훈련시킬 수 있습니다.

에폭이 지남에 따라 *Loss* 는 떨어지고, 앞서 선정한 메트릭인 *Accuracy* 는 증가하는 것을 확인할 수 있습니다.

*Trainer* 는 학습을 마치게 되면, `load_best_model_at_end=True` 인자에 따라 메트릭 기준 가장 좋은 성능을 보였던 체크포인트를 로드하게 됩니다.

본 노트북에서는 마지막 에폭 때 가장 좋은 성능을 얻었기에 `evaluate`를 수행해도 같은 결과가 나오겠습니다.

In [30]:
trainer.train()

## 4. Save model

In [None]:
# model.save_pretrained('./my_model_up.h5')  # tensorflow model save
model.save_pretrained('./my_model_np.pt')    # pytorch model save
# trainer.save_model() 
# special_tokens_map.json
# tokenizer_config.json
# training_arg.bin
# tokenizer.json
# sentencepiece.bpe.model
# pytorch_model.bin
# config.json



## Predict with test data

In [31]:
trainer.predict(encoded_dataset_test)

In [37]:
prediction = trainer.predict(encoded_data_test)

In [38]:
dir(prediction)

In [59]:
print((np.argmax(prediction.predictions, axis=1) != prediction.label_ids))
print(prediction.label_ids)
fail_idx = np.argmax(prediction.predictions, axis=1) != prediction.label_ids

In [76]:
fail = {'prediction': np.argmax(prediction.predictions, axis=1)}
df_test['prediction'] = np.argmax(prediction.predictions, axis=1)
df_fail = df_test[df_test['label'] != df_test['prediction']]
df_fail
# df_test

In [77]:
df_fail = df_fail.iloc[:, :-1]
df_fail

In [78]:
# 0 IT과학
# 1 경제
# 2 사회 
# 3 생활문화
# 4 세계
# 5 스포츠
# 6 정치
df_fail.head(30)

In [85]:
print(df_fail['label'].value_counts())
print()
print(df_fail['predicion'].value_counts())

In [67]:
df_fail['prediction'] = np.argmax(prediction.predictions, axis=1)

## Check the wrong prediction

In [36]:
# encoded_data_test[0]
trainer.evaluate(encoded_data_test[0])

지금까지 `transformers`를 라이브러리 내 문장 분류 모델을 학습하는 과정을 KLUE NLI 데이터셋을 통해 알아보았습니다.

본 노트북을 통해 습득한 지식이 여러분의 업무와 학습에 도움이 되었으면 좋겠습니다.

```
허 훈 (huffonism@gmail.com)
```

APPENDIX: 앞서 학습된 모델을 HuggingFace 모델 허브에 업로드하였으니, 아래 예제와 같이 `pipeline` 함수를 통해 사용이 가능합니다.

먼저 `text-classification` 태스크로 파이프라인 객체를 초기화합니다.

( \* `return_all_scores`는 모델이 입력 문장에 대해 측정한 각 라벨에 대한 확률 값을 모두 보여줄 것인지를 결정하는 인자입니다.)

In [None]:
from transformers import pipeline

classifier = pipeline(
    task = "text-classification",
    tokenizer = 'xlm-roberta-large'
#     model='plbr/my_model'
    model="yobi/klue-roberta-base-ynat",
    return_all_scores=True,
)

NLI는 두 문장의 페어를 입력 값으로 주어야 하기 때문에 구분자 스페셜 토큰을 두 문장 사이에 넣어주기 위해 토크나이저 객체를 로드합니다.

`[SEP]` 문자열을 하드코딩하여 넣어줄 수도 있겠지만, 스페셜 토큰은 토크나이저 마다 다르게 정의되므로 다른 모델을 활용할 때 보다 코드를 재사용할 수 있도록 토크나이저의 `sep_token` 프로퍼티에 접근하는 방식으로 코드를 작성합니다.

In [None]:
model="yobi/klue-roberta-base-ynat"
tokenizer = AutoTokenizer.from_pretrained(model)

In [None]:
tokenizer.sep_token

`sep_token`으로 두 문장을 이어 하나의 입력 값으로 파이프라인에 넘겨줍니다.

입력된 문장에 대해 모델이 각 라벨에 대해 어떤 확률을 가지고 예측했는지를 확인할 수 있습니다.

검증 데이터에 존재하는 임의의 문장 페어를 입력해보니, 우리가 원하던 결과를 얻을 수 있었습니다.

*(cf. NLI 데이터에 대해 학습된 모델을 활용해 Zero-shot Classification을 수행하는 예제가 궁금하신 분들은 해당 [노트북](https://colab.research.google.com/github/Huffon/klue-transformers-tutorial/blob/master/zero_shot_classification.ipynb)을 참조해주세요.)*