## 3.3. 허깅페이스 라이브러리 사용법 익히기



### 3.3.1. 모델 활용하기

허깅페이스에서 모델을 바디와 헤드로 구분한다. 이러면 같은 바디를 사용하지만 다른 작업에 사용할 수 있도록 헤드만 바꾸어 사용할 수 있다.

In [1]:
# 예제 3.2 모델 아이디로 모델 불러오기

from transformers import AutoModel

model_id = 'klue/roberta-base'
model = AutoModel.from_pretrained(model_id)
model.config

Some weights of RobertaModel were not initialized from the model checkpoint at klue/roberta-base and are newly initialized: ['roberta.pooler.dense.bias', 'roberta.pooler.dense.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


RobertaConfig {
  "_attn_implementation_autoset": true,
  "_name_or_path": "klue/roberta-base",
  "architectures": [
    "RobertaForMaskedLM"
  ],
  "attention_probs_dropout_prob": 0.1,
  "bos_token_id": 0,
  "classifier_dropout": null,
  "eos_token_id": 2,
  "gradient_checkpointing": false,
  "hidden_act": "gelu",
  "hidden_dropout_prob": 0.1,
  "hidden_size": 768,
  "initializer_range": 0.02,
  "intermediate_size": 3072,
  "layer_norm_eps": 1e-05,
  "max_position_embeddings": 514,
  "model_type": "roberta",
  "num_attention_heads": 12,
  "num_hidden_layers": 12,
  "pad_token_id": 1,
  "position_embedding_type": "absolute",
  "tokenizer_class": "BertTokenizer",
  "transformers_version": "4.46.3",
  "type_vocab_size": 1,
  "use_cache": true,
  "vocab_size": 32000
}

In [4]:
# 예제 3.4 분류 헤드가 포함된 모델 불러오기

from transformers import AutoModelForSequenceClassification

model_id = "SamLowe/roberta-base-go_emotions"
classification_model = AutoModelForSequenceClassification.from_pretrained(model_id)
classification_model.config

RobertaConfig {
  "_attn_implementation_autoset": true,
  "_name_or_path": "SamLowe/roberta-base-go_emotions",
  "architectures": [
    "RobertaForSequenceClassification"
  ],
  "attention_probs_dropout_prob": 0.1,
  "bos_token_id": 0,
  "classifier_dropout": null,
  "eos_token_id": 2,
  "hidden_act": "gelu",
  "hidden_dropout_prob": 0.1,
  "hidden_size": 768,
  "id2label": {
    "0": "admiration",
    "1": "amusement",
    "2": "anger",
    "3": "annoyance",
    "4": "approval",
    "5": "caring",
    "6": "confusion",
    "7": "curiosity",
    "8": "desire",
    "9": "disappointment",
    "10": "disapproval",
    "11": "disgust",
    "12": "embarrassment",
    "13": "excitement",
    "14": "fear",
    "15": "gratitude",
    "16": "grief",
    "17": "joy",
    "18": "love",
    "19": "nervousness",
    "20": "optimism",
    "21": "pride",
    "22": "realization",
    "23": "relief",
    "24": "remorse",
    "25": "sadness",
    "26": "surprise",
    "27": "neutral"
  },
  "initializer

In [6]:
# 예제 3.7 분류 모델에 바디만 있는 모델을 불러울 때 경고가 표시된다.

from transformers import AutoModelForSequenceClassification

model_id = "klue/roberta-base"
classification_model = AutoModelForSequenceClassification.from_pretrained(model_id)
classification_model.config

Some weights of RobertaForSequenceClassification were not initialized from the model checkpoint at klue/roberta-base and are newly initialized: ['classifier.dense.bias', 'classifier.dense.weight', 'classifier.out_proj.bias', 'classifier.out_proj.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


RobertaConfig {
  "_attn_implementation_autoset": true,
  "_name_or_path": "klue/roberta-base",
  "architectures": [
    "RobertaForMaskedLM"
  ],
  "attention_probs_dropout_prob": 0.1,
  "bos_token_id": 0,
  "classifier_dropout": null,
  "eos_token_id": 2,
  "gradient_checkpointing": false,
  "hidden_act": "gelu",
  "hidden_dropout_prob": 0.1,
  "hidden_size": 768,
  "initializer_range": 0.02,
  "intermediate_size": 3072,
  "layer_norm_eps": 1e-05,
  "max_position_embeddings": 514,
  "model_type": "roberta",
  "num_attention_heads": 12,
  "num_hidden_layers": 12,
  "pad_token_id": 1,
  "position_embedding_type": "absolute",
  "tokenizer_class": "BertTokenizer",
  "transformers_version": "4.46.3",
  "type_vocab_size": 1,
  "use_cache": true,
  "vocab_size": 32000
}

모델의 바디는 불러왔지만 분류 헤드가 없기 때문에 학습을 해야한다. 경고 내용은 분류 헤드에 대한 파라미터가 없어서 랜덤으로 초기화 되었다는 것이다.

In [7]:
# 예제 3.8 토크나이저 불러오기

from transformers import AutoTokenizer
model_id = 'klue/roberta-base'
tokenizer = AutoTokenizer.from_pretrained(model_id)

vocab.txt:   0%|          | 0.00/248k [00:00<?, ?B/s]

In [8]:
tokenizer

BertTokenizerFast(name_or_path='klue/roberta-base', vocab_size=32000, model_max_length=512, is_fast=True, padding_side='right', truncation_side='right', special_tokens={'bos_token': '[CLS]', 'eos_token': '[SEP]', 'unk_token': '[UNK]', 'sep_token': '[SEP]', 'pad_token': '[PAD]', 'cls_token': '[CLS]', 'mask_token': '[MASK]'}, clean_up_tokenization_spaces=False),  added_tokens_decoder={
	0: AddedToken("[CLS]", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
	1: AddedToken("[PAD]", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
	2: AddedToken("[SEP]", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
	3: AddedToken("[UNK]", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
	4: AddedToken("[MASK]", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
}

In [9]:
tokenizer("안녕하세요, 한국어 모델을 사용해보겠습니다.")

{'input_ids': [0, 5891, 2205, 5971, 16, 9187, 4347, 2069, 3704, 2097, 2178, 2918, 2219, 3606, 18, 2], 'token_type_ids': [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]}

In [18]:
import pandas as pd

test_inputs = ["안녕하세요, 한국어 모델을 사용해보겠습니다.", "이번 주에는 무엇을 해야할까요?", "오늘은 날씨가 좋네요"]

for input_text in test_inputs:
    print("input ids: ", tokenizer(input_text)['input_ids'])
    print("token type ids: ", tokenizer(input_text)['token_type_ids'])
    print("attention mask: ",tokenizer(input_text)['attention_mask'])
    print("", tokenizer.convert_ids_to_tokens(tokenizer(input_text)['input_ids']))
    print(tokenizer.decode(tokenizer(input_text)['input_ids']))
    print(tokenizer.decode(tokenizer(input_text)['input_ids'], skip_special_tokens=True))

input ids:  [0, 5891, 2205, 5971, 16, 9187, 4347, 2069, 3704, 2097, 2178, 2918, 2219, 3606, 18, 2]
token type ids:  [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
attention mask:  [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]
 ['[CLS]', '안녕', '##하', '##세요', ',', '한국어', '모델', '##을', '사용', '##해', '##보', '##겠', '##습', '##니다', '.', '[SEP]']
[CLS] 안녕하세요, 한국어 모델을 사용해보겠습니다. [SEP]
안녕하세요, 한국어 모델을 사용해보겠습니다.
input ids:  [0, 3686, 1564, 2170, 2259, 3890, 2069, 3645, 2085, 6301, 35, 2]
token type ids:  [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
attention mask:  [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]
 ['[CLS]', '이번', '주', '##에', '##는', '무엇', '##을', '해야', '##할', '##까요', '?', '[SEP]']
[CLS] 이번 주에는 무엇을 해야할까요? [SEP]
이번 주에는 무엇을 해야할까요?
input ids:  [0, 3822, 2073, 5792, 2116, 1560, 2203, 2182, 2]
token type ids:  [0, 0, 0, 0, 0, 0, 0, 0, 0]
attention mask:  [1, 1, 1, 1, 1, 1, 1, 1, 1]
 ['[CLS]', '오늘', '##은', '날씨', '##가', '좋', '##네', '##요', '[SEP]']
[CLS] 오늘은 날씨가 좋네요 [SEP]
오늘은 날씨가 좋네요


### 3.3.3. 데이터셋 활용하기

허깅페이스에서는 데이터셋을 다루기 위한 클래스를 제공한다. 이 클래스를 사용하면 데이터셋을 쉽게 다룰 수 있다.

In [21]:
from datasets import load_dataset

klue_dataset = load_dataset("klue", "mrc")

Reusing dataset klue (/home/asanobm/.cache/huggingface/datasets/klue/mrc/1.0.0/e0fc3bc3de3eb03be2c92d72fd04a60ecc71903f821619cb28ca0e1e29e4233e)


  0%|          | 0/2 [00:00<?, ?it/s]