# 05 Training

KLUE-NLI task 중 training log 를 관리하는 방법과 hyperparameter search 을 통해 모델 성능을 높이는 방법에 대해 다루겠습니다.


---

## Weights & Biases setting

huggingface 는 모델 학습 로그를 기록할 때 Tensorboard 또는 Weights & Biases를 사용할 수 있습니다. 본 노트북에서는 Weights & Biases를 사용하겠습니다.

우선 wandb id 를 생성하여 실험 관리를 위한 세팅을 진행합니다. wandb id 가 있는 경우, https://wandb.ai/authorize 에서 code 를 다음 셀에 입력하면 자동으로 연동됩니다.

In [19]:
import wandb
wandb.login()
id = wandb.util.generate_id() # id 생성
print(id)

<IPython.core.display.Javascript object>

[34m[1mwandb[0m: You can find your API key in your browser here: https://wandb.ai/authorize


wandb: Paste an API key from your profile and hit enter: ··········


[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc


31iuajct


생성된 id 를 붙여넣으면 wandb 를 사용할 수 있습니다.

In [20]:
wandb.init(project='klue', #  실험기록을 관리할 프로젝트 이름. 없을 시 입력받은 이름으로 생성
           entity='Jihyun22', # 사용자명 또는 팀 이름
           id='34hc23p1', # 실험에 부여된 고유 아이디
           name='nli', # 실험에 부여한 이름
            )

[34m[1mwandb[0m: Currently logged in as: [33mjihyun22[0m (use `wandb login --relogin` to force relogin)


## Training

이제 `Trainer` 객체를 사용하여 학습을 진행할 수 있습니다.

In [23]:
trainer.train() # 학습 시작

The following columns in the training set  don't have a corresponding argument in `BertForSequenceClassification.forward` and have been ignored: source, premise, hypothesis, guid.
***** Running training *****
  Num examples = 24998
  Num Epochs = 5
  Instantaneous batch size per device = 128
  Total train batch size (w. parallel, distributed & accumulation) = 128
  Gradient Accumulation steps = 1
  Total optimization steps = 980


RuntimeError: ignored

학습이 완료된 후, evaluate 메서드를 사용하여 Trainer가 best 모델로 불러온 모델의 성능을 확인해볼 수 있습니다.

In [None]:
trainer.evaluate() # 성능 확인

학습이 끝나면 wandb 역시 종료합니다.

In [None]:
wandb.finish() # wandbe 종료

push_to_hub() 메서드를 사용하여 tokenizer를 비롯한 모델을 Hub에 업로드할 수 있습니다.

In [None]:
trainer.push_to_hub()

업로드한 모델을 Hub-user-name/사용자가 지정한 이름으로 바로 다운로드하여 사용할 수 있습니다.

In [None]:
from transformers import AutoModelForSequenceClassification
# {HuggingFace Model Hub 사용자 아이디}/{push_to_hub_model_id에서 설정한 값}
model = AutoModelForSequenceClassification.from_pretrained('eliza-dukim/bert-base-finetuned-ynat', num_labels=num_labels)

## Hyperparameter search

위 모델의 성능을 높이기 위해 Hyperparameter search 방법을 사용할 수 있습니다. `Trainer` 는  optuna 또는 Ray Tune를 이용한 hyperparameter search를 지원합니다.

우선 관련 라이브러리를 설치하겠습니다.

In [None]:
!pip install optuna
!pip install ray[tune]

hyperparameter search 동안 `Trainer`는 학습을 여러 번 수행합니다. 따라서 모델이 매 학습마다 다시 초기화 될 수 있도록 모델이 함수에 의해 정의되도록 합니다.

모델 초기화 함수를 정의하겠습니다.

In [None]:
def model_init():
    return AutoModelForSequenceClassification.from_pretrained(model_checkpoint, num_labels=num_labels)

모델 초기화 단계를 포함한 `Trainer`를 새롭게 정의하겠습니다. 이때, TrainingArguments 은 위에서 선언한 내용을 그대로 사용합니다.

또한 hyperparameter search 과정에서 학습 시 시간이 오래 소요될 수 있습니다. 이 경우, `.shard(index=1, num_shards=10) ` 을 통해 일부 데이터 셋에 대한 hyperparameter 를 탐색할 수 있습니다.

num_shards 의 수에 따라 1/10, 1/5 데이터 만을 사용할 수 있습니다. 본 노트북에서는 1/5 데이터셋만 사용하여 hyperparameter 를 탐색하겠습니다. 

물론, 탐색된 hyperparameter 는 전체 데이터에 대해 학습할 때 적용되어 최종 모델을 정상적으로 학습시킬 수 있습니다.

In [None]:
trainer_hps = Trainer(
    model_init=model_init,
    args=args,
    train_dataset=encoded_dataset["train"].shard(index=1, num_shards=5), # 일부 데이터셋만 선택하여 진행 가능
    eval_dataset=encoded_dataset['validation'],
    tokenizer=tokenizer,
    compute_metrics=compute_metrics,
)

`Trainer`정의가 완료되었다면, log 기록을 위해 wandb 를 다시 설정합니다. 위의 과정과 동일합니다.

In [None]:
wandb.init()
wandb.login()
id = wandb.util.generate_id()
print(id)

wandb 에서 project 이름을 변경하여 wandb 를 초기화합니다.

In [None]:
wandb.init(project='klue-nli-hps',
           entity='Jihyun22',
           id='101p3eks'
           )

이제 `hyperparameter_search` 매서드를 사용하여 탐색 및 학습을 진행할 수 있습니다.
`hyperparameter_search` 메서드는 BestRun 객체를 반환합니다. 이 객체는 최대화된 objective의 값(평가지표의 값, 본 task 에서는 accuracy)과 이때 선택된 hyperparameter를 포함합니다.

In [None]:
best_run = trainer_hps.hyperparameter_search(n_trials=5, direction="maximize")

최종 best_run 에서 탐색된 hyperparameter 값은 다음과 같습니다. 정확도 역시 기존 training 결과에 비해 상승한 결과를 확인할 수 있습니다.


In [None]:
best_run

해당 모델도 hub 에 업로드하겠습니다.

In [None]:
# Hub에 업로드
trainer_hps.push_to_hub()

지금까지 fine-tuning 시 training 과정과 log 관리, hyperparameter search 에 대해 살펴보았습니다.

본 실험의 결과는 링크 에서 확인할 수 있으며, 다음 부록에서는 hyperparameter search 시 optuna, ray custom 방법에 대해 소개하겠습니다.

다음 단계는 모델 배포에 대해 살펴보겠습니다.

---