# 03 트랜스포머 모델을 다루기 위한 허깅페이스 트랜스포머 라이브러리
Huggingface팀이 개발한 트랜스포머 라이브러리는 공통된 인터페이스로 트랜스포머 모델을 활용할 수 있도록 지원함

In [13]:
# 허깅페이스 트랜스포머 활용에 필요한 라이브러리 설치
# pip install transformers==4.50.0 datasets==3.5.0 huggingface_hub==0.29.0 -qqq

## 3.1 허깅페이스 트랜스포머란
다양한 트랜스포머 모델을 통일된 인터페이스로 사용할 수 있도록 지원하는 오픈소스 라이브러리 <br>
- transformers 라이브러리: 트렌스포머 모델과 토크나이저를 활용할 때 사용
- datasets 라이브러리: 데이터셋을 공개하고 쉽게 가져다 쓸 수 있도록 지원

In [14]:
# BERT와 GPT-2모델을 활용할 때 허깅페이스 트랜스포머 코드 비교
from transformers import AutoModel, AutoTokenizer

text = "What is Huggingface Transformers?"
# BERT 모델 활용
bert_model = AutoModel.from_pretrained("bert-base-uncased") # 모델 불러오기
bert_tokenizer = AutoTokenizer.from_pretrained('bert-base-uncased') # 토크나이저 불러오기
encoded_input = bert_tokenizer(text, return_tensors='pt') # 입력 토큰화
bert_output = bert_model(**encoded_input) # 모델에 입력
print(bert_output)
# # GPT-2 모델 활용
# gpt_model = AutoModel.from_pretrained('gpt2') # 모델 불러오기
# gtp_tokenizer = AutoTokenizer.from_pretrained('gpt2') # 토크나이저 불러오기
# encoded_input = gpt_tokenizer(text, return_tensors='pt') # 입력 토큰화
# gpt_output = gpt_model(**encoded_input) # 모델에 입력

BaseModelOutputWithPoolingAndCrossAttentions(last_hidden_state=tensor([[[-0.3009,  0.0158,  0.0698,  ..., -0.3406,  0.5976,  0.5820],
         [-0.1109,  0.0754, -0.1906,  ...,  0.2970,  0.4278, -0.0391],
         [-0.5813, -0.0042,  0.4034,  ..., -0.2549,  0.2216,  0.8121],
         ...,
         [ 0.9971,  0.3301, -0.0688,  ..., -0.4873,  0.0168, -0.0345],
         [-0.2394, -0.0573, -0.5885,  ..., -0.0415,  0.3123, -0.0288],
         [ 0.7884,  0.4039,  0.0217,  ...,  0.3869, -0.4785, -0.4116]]],
       grad_fn=<NativeLayerNormBackward0>), pooler_output=tensor([[-8.7247e-01, -3.1464e-01, -5.2733e-01,  7.3685e-01,  1.8460e-01,
         -1.8295e-01,  8.9985e-01,  2.9762e-01, -3.9314e-01, -9.9994e-01,
          7.1272e-02,  7.2618e-01,  9.7232e-01,  3.2968e-01,  9.1370e-01,
         -7.5043e-01, -3.5754e-01, -5.6530e-01,  2.8968e-01, -6.4040e-01,
          6.0199e-01,  9.9856e-01,  3.8675e-01,  2.9078e-01,  4.0431e-01,
          7.7010e-01, -7.6515e-01,  9.1830e-01,  9.4834e-01,  7.255

## 3.2 허깅페이스 허브 탐색하기
### 3.2.1 모델 허브
어떤 작업(Tasks)에 사용하는지, 어떤 언어(Languages)로 학습된 모델인지 등 자양한 기준으로 모델이 분류됨 <br>
모델 허브에서는 자연어 처리(NLP)뿐만 아니라 컴퓨터 비전, 오디오 처리, 멀티 모달 등 다양한 작업 분야의 모델을 제공 <br>
### 3.2.2 데이터셋 허브
분류 기준에 데이터셋 크기, 데이터 유형 등이 추가로 있고 선택한 기준에 맞는 데이터셋을 보여줌 <br>
### 3.2.3 모델 데모를 공개하고 사용할 수 있는 스페이스
사용자가 자신의 모델 데모를 간편하게 공개 <br>
스페이스를 활용하면 별도의 복잡한 웹 페이지 개발 없이 모델 데모를 공유할 수 있음 <br>
## 3.3 허깅페이스 라이브러리 사용법 익히기
모델을 학습시키거나 추론하기 위해서는 모델, 토크나이저, 데이터셋이 필요
### 3.3.1 모델 활용하기
허깅페이스에서는 모델을 바디(body)와 헤드(head)로 구분함.  같은 바디를 사용하면서 다른 작업에 사용할 수 있도록 만들기 위해

In [15]:
from transformers import AutoModel
model_id = 'klue/roberta-base'
model = AutoModel.from_pretrained(model_id)
model

Some weights of RobertaModel were not initialized from the model checkpoint at klue/roberta-base and are newly initialized: ['pooler.dense.bias', 'pooler.dense.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


RobertaModel(
  (embeddings): RobertaEmbeddings(
    (word_embeddings): Embedding(32000, 768, padding_idx=1)
    (position_embeddings): Embedding(514, 768, padding_idx=1)
    (token_type_embeddings): Embedding(1, 768)
    (LayerNorm): LayerNorm((768,), eps=1e-05, elementwise_affine=True)
    (dropout): Dropout(p=0.1, inplace=False)
  )
  (encoder): RobertaEncoder(
    (layer): ModuleList(
      (0-11): 12 x RobertaLayer(
        (attention): RobertaAttention(
          (self): RobertaSdpaSelfAttention(
            (query): Linear(in_features=768, out_features=768, bias=True)
            (key): Linear(in_features=768, out_features=768, bias=True)
            (value): Linear(in_features=768, out_features=768, bias=True)
            (dropout): Dropout(p=0.1, inplace=False)
          )
          (output): RobertaSelfOutput(
            (dense): Linear(in_features=768, out_features=768, bias=True)
            (LayerNorm): LayerNorm((768,), eps=1e-05, elementwise_affine=True)
            (dr

- AutoModel: 모델의 바디를 불러오는 클래스
    - from_pretrained()메서드에서 인자로 받는 model_id 에 맞춰 적절한 클래스를 가져옴
- model_id
    - 허깅페이스 모델 허브의 저장소 경로(klue/roberta-base)인 경우 모델 허브에서 모델을 다운로드
    - 로컬인 경우, 지정한 로컬 경로에서 모델을 불러옴
<br>

_AutoModel은 어떻게 klue/roberta-base 저장소의 모델이 RoBERTa계열의 모델인지 알 수 있을까?_
- 허깅페이스 모델을 저장할 때 config.json이 함께 저장됨
- 해당 설정 파일에 모델의 종류(model_type)
- 여러 설정 파라미터(num_attention_heads, num_hidden_layers 등), 어휘 사전 크기(vocab_size), 토크나이저 클래스(tokenzier_class)등이 저장됨
- AutoModel 과 AutoTokenizer 클래스는 config.json 파일을 참고해 적절한 모델과 토크나이저를 불러옴

In [16]:
# 분류 헤드가 포함된 모델 불러오기
from transformers import AutoModelForSequenceClassification
model_id = 'SamLowe/roberta-base-go_emotions'
classification_model = AutoModelForSequenceClassification.from_pretrained(model_id)
classification_model

RobertaForSequenceClassification(
  (roberta): RobertaModel(
    (embeddings): RobertaEmbeddings(
      (word_embeddings): Embedding(50265, 768, padding_idx=1)
      (position_embeddings): Embedding(514, 768, padding_idx=1)
      (token_type_embeddings): Embedding(1, 768)
      (LayerNorm): LayerNorm((768,), eps=1e-05, elementwise_affine=True)
      (dropout): Dropout(p=0.1, inplace=False)
    )
    (encoder): RobertaEncoder(
      (layer): ModuleList(
        (0-11): 12 x RobertaLayer(
          (attention): RobertaAttention(
            (self): RobertaSdpaSelfAttention(
              (query): Linear(in_features=768, out_features=768, bias=True)
              (key): Linear(in_features=768, out_features=768, bias=True)
              (value): Linear(in_features=768, out_features=768, bias=True)
              (dropout): Dropout(p=0.1, inplace=False)
            )
            (output): RobertaSelfOutput(
              (dense): Linear(in_features=768, out_features=768, bias=True)
         

### 3.3.2 토크나이저 활용하기
토크나이저는 텍스트를 토큰 단위로 나누고 각 토큰을 대응하는 토큰 아이디로 변환함 <br>

In [17]:
# 토크나이저 불러오기
from transformers import AutoTokenizer
model_id = 'klue/roberta-base'
tokenizer = AutoTokenizer.from_pretrained(model_id)

# 토크나이저 사용하기
tokenized = tokenizer("토크나이저는 텍스트를 토큰 단위로 나눈다")
# 토큰 id의 리스트인 input_ids
# 토큰이 실제 텍스트인지 아니면 길이를 맞추기 위해 추가한 패딩인지 알려주는 attention_mask: 1이면 실제 토큰, 0이면 패딩
# 토큰이 속한 문장의 아이디를 알려주는 token_type_ids: 0 이면 일반적으로 첫번째 문장
print(tokenized)
print(tokenizer.convert_ids_to_tokens(tokenized['input_ids']))
print(tokenizer.decode(tokenized['input_ids'])) # id를 다시 텍스트로 돌리고 싶을 때
print(tokenizer.decode(tokenized['input_ids'], skip_special_tokens=True)) # 특수 토큰을 제외하고 텍스트로 돌리고 싶을 때

{'input_ids': [0, 9157, 7461, 2190, 2259, 8509, 2138, 1793, 2855, 5385, 2200, 20950, 2], 'token_type_ids': [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]}
['[CLS]', '토크', '##나이', '##저', '##는', '텍스트', '##를', '토', '##큰', '단위', '##로', '나눈다', '[SEP]']
[CLS] 토크나이저는 텍스트를 토큰 단위로 나눈다 [SEP]
토크나이저는 텍스트를 토큰 단위로 나눈다


In [18]:
# 토크나이저에 여러 문장 넣기
tokenizer(['첫 번째 문장', '두 번째 문장'])

{'input_ids': [[0, 1656, 1141, 3135, 6265, 2], [0, 864, 1141, 3135, 6265, 2]], 'token_type_ids': [[0, 0, 0, 0, 0, 0], [0, 0, 0, 0, 0, 0]], 'attention_mask': [[1, 1, 1, 1, 1, 1], [1, 1, 1, 1, 1, 1]]}

In [19]:
# 하나의 데이터에 여러 문장이 들어가는 경우
tokenizer([['첫 번째 문장', '두 번째 문장']])


{'input_ids': [[0, 1656, 1141, 3135, 6265, 2, 864, 1141, 3135, 6265, 2]], 'token_type_ids': [[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]], 'attention_mask': [[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]]}

In [20]:
# 토큰 아이디를 문자열로 복원
first_tokenized_result = tokenizer(['첫 번째 문장', '두 번째 문장'])['input_ids']
print(tokenizer.batch_decode(first_tokenized_result))

second_tokenized_result = tokenizer([['첫 번째 문장', '두 번째 문장']])['input_ids']
print(tokenizer.batch_decode(second_tokenized_result))

['[CLS] 첫 번째 문장 [SEP]', '[CLS] 두 번째 문장 [SEP]']
['[CLS] 첫 번째 문장 [SEP] 두 번째 문장 [SEP]']


BERT는 학습할 때 2개의 문장이 서로 이어지는지 맞추는 NSP(Next Sentence Prediction)작업을 활용 <br>
이를 위해 문장을 구분하는 토큰 타입 아이디를 만듦

In [21]:
# BERT 토크나이저와 RoBERTa 토크나이저
bert_tokenizer = AutoTokenizer.from_pretrained('klue/bert-base')
print(bert_tokenizer([['첫 번째 문장', '두 번째 문장']])) # 문장에 따라 토큰 타입 아이디를 구분

roberta_tokenizer = AutoTokenizer.from_pretrained('klue/roberta-base')
print(roberta_tokenizer([['첫 번째 문장', '두 번째 문장']])) # NSP작업을 학습 과정에서 제거했기 때문에 문장 토큰 구분이 필요 없음

en_roberta_tokenizer = AutoTokenizer.from_pretrained('roberta-base')
print(en_roberta_tokenizer([['first sentence', 'second sentence']]))

{'input_ids': [[2, 1656, 1141, 3135, 6265, 3, 864, 1141, 3135, 6265, 3]], 'token_type_ids': [[0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1]], 'attention_mask': [[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]]}
{'input_ids': [[0, 1656, 1141, 3135, 6265, 2, 864, 1141, 3135, 6265, 2]], 'token_type_ids': [[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]], 'attention_mask': [[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]]}
{'input_ids': [[0, 9502, 3645, 2, 2, 10815, 3645, 2]], 'attention_mask': [[1, 1, 1, 1, 1, 1, 1, 1]]}


attention_mask는 해당 토큰이 패딩 토큰인지 실제 데이터인지에 대한 정보를 담고 있음 <br>
패딩은 모델에 입력하는 토큰 아이디의 길이를 맞추기 위해 추가하는 특수 토큰 <br>

In [22]:
tokenizer(['첫 번째 문장은 짧다.', '두 번째 문장은 첫 번째 문장보다 더 길다.'], padding='longest')

{'input_ids': [[0, 1656, 1141, 3135, 6265, 2073, 1599, 2062, 18, 2, 1, 1, 1, 1, 1, 1, 1], [0, 864, 1141, 3135, 6265, 2073, 1656, 1141, 3135, 6265, 2178, 2062, 831, 647, 2062, 18, 2]], 'token_type_ids': [[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]], 'attention_mask': [[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0], [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]]}

### 3.3.3 데이터셋 활용하기
datasets 라이브러리를 사용하면 허깅페이스 허브에서 살펴봤던 데이터셋을 코들 불러올 수 있음 <br>

In [23]:
# KLUE MRC 데이터셋 다운로드
from datasets import load_dataset
klue_mrc_dataset = load_dataset('klue', 'mrc')
# klue_mrc_dataset_only_train = load_dataset('klue', 'mrc', split='train') # 유형이 train인 데이터셋만 불러오기
klue_mrc_dataset

DatasetDict({
    train: Dataset({
        features: ['title', 'context', 'news_category', 'source', 'guid', 'is_impossible', 'question_type', 'question', 'answers'],
        num_rows: 17554
    })
    validation: Dataset({
        features: ['title', 'context', 'news_category', 'source', 'guid', 'is_impossible', 'question_type', 'question', 'answers'],
        num_rows: 5841
    })
})

In [24]:
# # 로컬의 데이터 활용하기
# from datasets import load_dataset
# # 로컬의 csv 데이터 파일을 활용
# dataset = load_dataset("csv", data_files="my_file.csv")

# # 파이썬 딕셔너리 활용
# from datasets import Dataset
# my_dict = {"a": [1, 2, 3]}
# dataset = Dataset.from_dict(my_dict)

# # 판다스 데이터프레임 활용
# from datasets import Dataset
# import pandas as pd
# df = pd.DataFrame({"a": [1, 2, 3]})
# dataset = Dataset.from_pandas(df)

## 3.4 모델 학습시키기
허깅페이스 트랜스포머에서는 간편하게 모델학습을 수행할 수 있도록 학습 과정을 추상화한 트레이너(Trainer) API를 제공함 <br>
학습을 간편하게 살 수 있다는 장점이 있지만 내부에서 어떤 과정을 거치는지 알기 어려움 <br>
### 3.4.1 데이터 준비
실습데이터: KLUE 데이터셋의 YNAT 서브셋 활용 (연합 뉴스 기사의 제목과 기사가 속한 카테고리 정보가 있음) <br>
연합 뉴스 기사의 제목을 바탕으로 카테고리를 예측하는 모델 만들기

In [25]:
# 모델 학습에 사용할 연합 뉴스 데이터셋 다운로드
klue_tc_train = load_dataset('klue', 'ynat', split='train')
klue_tc_eval = load_dataset('klue', 'ynat', split='validation')
klue_tc_train

Dataset({
    features: ['guid', 'title', 'label', 'url', 'date'],
    num_rows: 45678
})

In [26]:
# 개별 데이터 형태 확인
klue_tc_train[0]

{'guid': 'ynat-v1_train_00000',
 'title': '유튜브 내달 2일까지 크리에이터 지원 공간 운영',
 'label': 3,
 'url': 'https://news.naver.com/main/read.nhn?mode=LS2D&mid=shm&sid1=105&sid2=227&oid=001&aid=0008508947',
 'date': '2016.06.30. 오전 10:36'}

In [27]:
# features속성은 데이터셋의 정보를 저장하고 있음
klue_tc_train.features['label'].names

['IT과학', '경제', '사회', '생활문화', '세계', '스포츠', '정치']

In [28]:
# 분류모델 학습 시 불필요한 guid, url, date컬럼 제거
klue_tc_train = klue_tc_train.remove_columns(['guid', 'url', 'date'])
klue_tc_eval = klue_tc_eval.remove_columns(['guid', 'url', 'date'])
klue_tc_train

Dataset({
    features: ['title', 'label'],
    num_rows: 45678
})

In [29]:
# 카테고리를 확인하기 쉽도록 label_str컬럼 추가 
klue_tc_train.features['label']

ClassLabel(names=['IT과학', '경제', '사회', '생활문화', '세계', '스포츠', '정치'], id=None)

In [30]:
# int2str() ID를 카테고리로 변환
klue_tc_train.features['label'].int2str(1)

'경제'

In [31]:
klue_tc_label = klue_tc_train.features['label']
def make_str_label(batch):
    batch['label_str'] = klue_tc_label.int2str(batch['label'])
    return batch

klue_tc_train = klue_tc_train.map(make_str_label, batched=True, batch_size=1000)
klue_tc_train[0]

{'title': '유튜브 내달 2일까지 크리에이터 지원 공간 운영', 'label': 3, 'label_str': '생활문화'}

In [32]:
# 학습/검증/테스트 데티터셋 분할
train_dataset = klue_tc_train.train_test_split(test_size=10000, shuffle=True, seed=42)['test']
dataset = klue_tc_eval.train_test_split(test_size=1000, shuffle=True, seed=42)
test_dataset = dataset['test']
valid_dataset = dataset['train'].train_test_split(test_size=1000, shuffle=True, seed=42)['test']

### 3.4.2 트레이너 API를 사용해 학습하기
학습에 사용할 분류 모델을 불러오기 위해 AutoModelForSequenceClassification 클래스로 klue/roberta-base 모델을 불러옴 <br>
앞서 살펴본 대로 모델 바디의 파라미터만 있는 klue/roberta-base 모델을 불러오면 분류 헤드 부분은 랜덤으로 초기화됨 <br>

In [33]:
# Trainer 를 사용한 학습: (1) 준비
import torch
import numpy as np
from transformers import (
    Trainer,
    TrainingArguments,
    AutoModelForSequenceClassification,
    AutoTokenizer
)

def tokenize_function(examples):
    return tokenizer(examples["title"], padding="max_length", truncation=True)

model_id = 'klue/roberta-base'
model = AutoModelForSequenceClassification.from_pretrained(model_id, num_labels=len(train_dataset.features['label'].names))
tokenizer = AutoTokenizer.from_pretrained(model_id)
train_dataset = train_dataset.map(tokenize_function, batched=True)
valid_dataset = valid_dataset.map(tokenize_function, batched=True)
test_dataset = test_dataset.map(tokenize_function, batched=True)

Some weights of RobertaForSequenceClassification were not initialized from the model checkpoint at klue/roberta-base and are newly initialized: ['classifier.dense.bias', 'classifier.dense.weight', 'classifier.out_proj.bias', 'classifier.out_proj.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


Map:   0%|          | 0/1000 [00:00<?, ? examples/s]

TrainingArguments 에 학습인자를 입력 <br>
- num_train_epochs: 학습 에포크 수 1
- per_device_train_batch_size: 배치 크기 8
- output_dir: 결과를 저장할 폴더 results
- evaluation_strategy: 평가를 수행할 빈도 epoch
- compute_metrics: 학습이 잘 이뤄지고 있는지 확인할 때 사용할 평가 지표
    - 모델의 예측결과인 eval_pred를 입력으로 받아 예측 결과 중 가장 큰 값을 갖는 클래스를 np.argmax함수로 뽑아 predictions 변수에 저장
    - predictions와 정답이 저장된 labels가 같은 값을 갖는 결과의 비율을 정확도로 결과 딕셔너리에 저장해 반환


In [34]:
# Trainer를 사용한 학습: (2) 학습 인자와 평가 함수 정의
training_args = TrainingArguments(
    output_dir="./results",
    num_train_epochs=1,
    per_device_train_batch_size=8,
    per_device_eval_batch_size=8,
    eval_strategy="epoch",
    learning_rate=5e-5,
    push_to_hub=False
)

def compute_metrics(eval_pred):
    logits, labels = eval_pred
    predictions = np.argmax(logits, axis=-1)
    return {"accuracy": (predictions == labels).mean()}

In [35]:
# Trainer를 사용한 학습: (3) 학습 진행
trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=train_dataset,
    eval_dataset=valid_dataset,
    tokenizer=tokenizer,
    compute_metrics=compute_metrics,
)

trainer.train()
trainer.evaluate(test_dataset)

  trainer = Trainer(


Epoch,Training Loss,Validation Loss,Accuracy
1,0.5295,0.514199,0.835


{'eval_loss': 0.46936774253845215,
 'eval_accuracy': 0.846,
 'eval_runtime': 37.2772,
 'eval_samples_per_second': 26.826,
 'eval_steps_per_second': 3.353,
 'epoch': 1.0}

### 3.4.3 트레이너 API를 사용하지 않고 학습하기
Trainer 를 사용한 예제와 비슷하게 모델과 토크나이저를 불러오고, 토큰화에 사용할 tokenize_function함수를 정의 <br>
Trainer를 사용하는 예제에서는 Trainer가 내부적으로 수행하던 GPU로의 모델 이동(model.to(device))을 직접 수행해야함 <br>

In [36]:
# Trainer를 사용하지 않는 학습: (1) 학습을 위한 모델과 토크나이저 준비
import torch
from tqdm.auto import tqdm
from torch.utils.data import DataLoader
from torch.optim import AdamW

def tokenize_function(examples): # 제목(title) 컬럼에 대한 토큰화
    return tokenizer(examples["title"], padding="max_length", truncation=True)

# 모델과 토크나이저 불러오기
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model_id = "klue/roberta-base"
model = AutoModelForSequenceClassification.from_pretrained(model_id, num_labels=len(train_dataset.features['label'].names))
tokenizer = AutoTokenizer.from_pretrained(model_id)
model.to(device)

Some weights of RobertaForSequenceClassification were not initialized from the model checkpoint at klue/roberta-base and are newly initialized: ['classifier.dense.bias', 'classifier.dense.weight', 'classifier.out_proj.bias', 'classifier.out_proj.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


RobertaForSequenceClassification(
  (roberta): RobertaModel(
    (embeddings): RobertaEmbeddings(
      (word_embeddings): Embedding(32000, 768, padding_idx=1)
      (position_embeddings): Embedding(514, 768, padding_idx=1)
      (token_type_embeddings): Embedding(1, 768)
      (LayerNorm): LayerNorm((768,), eps=1e-05, elementwise_affine=True)
      (dropout): Dropout(p=0.1, inplace=False)
    )
    (encoder): RobertaEncoder(
      (layer): ModuleList(
        (0-11): 12 x RobertaLayer(
          (attention): RobertaAttention(
            (self): RobertaSdpaSelfAttention(
              (query): Linear(in_features=768, out_features=768, bias=True)
              (key): Linear(in_features=768, out_features=768, bias=True)
              (value): Linear(in_features=768, out_features=768, bias=True)
              (dropout): Dropout(p=0.1, inplace=False)
            )
            (output): RobertaSelfOutput(
              (dense): Linear(in_features=768, out_features=768, bias=True)
         

In [None]:
# Trainer를 사용하지 않는 학습: (2) 학습을 위한 데이터 준비
def make_dataloader(dataset, batch_size, shuffle=True):
    dataset = dataset.map(tokenize_function, batched=True).with_format("torch")
    # 데이터셋에 토큰화 수행
    dataset = dataset.rename_column("label", "labels") #컬럼 이름 변경
    dataset = dataset.remove_columns(column_names=["title"])
    return DataLoader(dataset, batch_size=batch_size, shuffle=shuffle)

# 데이터로더 만들기
train_dataloader = make_dataloader(train_dataset, batch_size=8, shuffle=True)
valid_dataloader = make_dataloader(valid_dataset, batch_size=8, shuffle=False)
test_dataloader = make_dataloader(test_dataset, batch_size=8, shuffle=False)

In [None]:
# Trainer를 사용하지 않는 학습: (3) 학습을 위한 함수 정의
def train_epoch(model, data_loader, optimizer):
    model.train()
    total_loss = 0
    for batch in tqdm(data_loader):
        optimizer.zero_grad() # 그래디언트 초기화
        input_ids = batch['input_ids'].to(device) # 이것도 왜 따로 device에 넣지? 모델에 입력할 토큰 아이디
        attention_mask = batch['attention_mask'].to(device) # 왜 이것을 device로 넣지? 모델에 입력할 어텐션 마스크
        labels = batch['lables'].to(device) # 모델에 입력할 정답 레이블
        outputs = model(input_ids, attention_mask=attention_mask, labels=labels) # 모델 계산
        loss = outputs.loss # 손실
        loss.backward() # 역전파 왜하지?
        optimizer.step() # 모델 업데이트
        total_loss += loss.item()
    avg_loss = total_loss / len(data_loader)
    return avg_loss

In [None]:
# Trainer 를 사용하지 않는 학습: (4) 평가를 위한 함수 정의
def evaluate(model, data_loader):
    model.eval()
    total_loss = 0
    predictions = []
    true_labels = []
    with torch.no_grad(): # 그래디언트 계산 안함
        for batch in tqdm(data_loader):
            input_ids = batch['input_ids'].to(device)
            attention_mask = batch['attention_mask'].to(device)
            labels = batch['labels'].to(device)
            outputs = model(input_ids, attention_mask=attention_mask, labels=labels)
            logits = outputs.logits
            loss = outputs.loss
            total_loss += loss.item()
            preds = torch.argmax(logits, dim=-1)
            predictions.extend(preds.cpu().numpy())
            true_labels.extend(labels.cpu().numpy())
        avg_loss = total_loss / len(data_loader)
        accuracy = np.mean(np.asarray(predictions) == np.asarray(true_labels))
        return avg_loss, accuracy

In [None]:
# Trainer를 사용하지 않는 학습: (5) 학습 수행
num_epochs = 1
optimizer = AdamW(model.parameters(), lr=5e-5)

# 학습 루프
for epoch in range(num_epochs):
    print(f"Epoch {epoch+1} / {num_epochs}")
    train_loss = train_epoch(model, train_dataloader, optimizer)
    print(f"Training loss: {train_loss}")
    valid_loss, valid_accuracy = evaluate(model, valid_dataloader)
    print(f"Validation loss: {valid_loss}")
    print(f"Validation accuracy: {valid_accuracy}")
    