# 허깅페이스 트랜스포머란

In [3]:
from transformers import AutoTokenizer, AutoModel

text = "What is Huggingface Transformers?"
# BERT 모델 활용
bert_model = AutoModel.from_pretrained("bert-base-uncased")
bert_tokenizer = AutoTokenizer.from_pretrained('bert-base-uncased')
encoded_input = bert_tokenizer(text, return_tensors='pt')
bert_output = bert_model(**encoded_input)
# GPT-2 모델 활용
gpt_model = AutoModel.from_pretrained('gpt2')
gpt_tokenizer = AutoTokenizer.from_pretrained('gpt2')
encoded_input = gpt_tokenizer(text, return_tensors='pt')
gpt_output = gpt_model(**encoded_input)

# 허깅페이스 라이브러리 사용법 익히기

## 모델 활용하기

- 예제 3.2. 모델 아이디로 모델 불러오기

In [None]:
from transformers import AutoModel
model_id = 'klue/roberta-base'
model = AutoModel.from_pretrained(model_id)

In [None]:
model

- 예제 3.4. 분류 헤드가 포함된 모델 불러오기

In [None]:
from transformers import AutoModelForSequenceClassification
model_id = 'SamLowe/roberta-base-go_emotions'
classification_model = AutoModelForSequenceClassification.from_pretrained(model_id)

In [3]:
from transformers import AutoTokenizer
import torch
import torch.nn.functional as F

# 토크나이저 불러오기
tokenizer = AutoTokenizer.from_pretrained('SamLowe/roberta-base-go_emotions')

In [None]:
# 테스트할 텍스트
text = "I am feeling very happy today!"

# 텍스트 인코딩
inputs = tokenizer(text, return_tensors="pt")

# 모델 추론
outputs = classification_model(**inputs)

# 확률값으로 변환
probs = F.softmax(outputs.logits, dim=-1)

# 가장 높은 확률의 감정 클래스 찾기
predicted_class = torch.argmax(probs).item()

# 감정 레이블 가져오기
emotion_labels = classification_model.config.id2label
predicted_emotion = emotion_labels[predicted_class]

print(f"입력 텍스트: {text}")
print(f"예측된 감정: {predicted_emotion}")
print(f"확률: {probs[0][predicted_class].item():.3f}")

- 예제 3.6. 분류 헤드가 랜덤으로 초기화된 모델 불러오기

In [None]:
from transformers import AutoModelForSequenceClassification
model_id = 'klue/roberta-base'
classification_model = AutoModelForSequenceClassification.from_pretrained(model_id)

## 토크나이저 활용하기

- 예제 3.8. 토크나이저 불러오기

In [None]:
from transformers import AutoTokenizer
model_id = 'klue/roberta-base'
tokenizer = AutoTokenizer.from_pretrained(model_id)

In [None]:
print(tokenizer.init_kwargs)

- 예제 3.9. 토크나이저 사용하기

In [None]:
tokenized = tokenizer("토크나이저는 텍스트를 토큰 단위로 나눈다")
print(tokenized)
# {'input_ids': [0, 9157, 7461, 2190, 2259, 8509, 2138, 1793, 2855, 5385, 2200, 20950, 2],
#  'token_type_ids': [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
#  'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]}

In [None]:
print(tokenizer.convert_ids_to_tokens(tokenized['input_ids']))
# ['[CLS]', '토크', '##나이', '##저', '##는', '텍스트', '##를', '토', '##큰', '단위', '##로', '나눈다', '[SEP]']

In [None]:

print(tokenizer.decode(tokenized['input_ids']))
# [CLS] 토크나이저는 텍스트를 토큰 단위로 나눈다 [SEP]

In [None]:
print(tokenizer.decode(tokenized['input_ids'], skip_special_tokens=True))
# 토크나이저는 텍스트를 토큰 단위로 나눈다

- 예제 3.10. 토크나이저에 여러 문장 넣기

In [None]:
tokenizer(['첫 번째 문장', '두 번째 문장'])

# {'input_ids': [[0, 1656, 1141, 3135, 6265, 2], [0, 864, 1141, 3135, 6265, 2]],
# 'token_type_ids': [[0, 0, 0, 0, 0, 0], [0, 0, 0, 0, 0, 0]],
# 'attention_mask': [[1, 1, 1, 1, 1, 1], [1, 1, 1, 1, 1, 1]]}

- 예제 3.11. 하나의 데이터에 여러 문장이 들어가는 경우

In [None]:
tokenizer([['첫 번째 문장', '두 번째 문장']])

# {'input_ids': [[0, 1656, 1141, 3135, 6265, 2, 864, 1141, 3135, 6265, 2]],
# 'token_type_ids': [[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]],
# 'attention_mask': [[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]]}

- 예제 3.12. 토큰 아이디를 문자열로 복원

In [None]:
first_tokenized_result = tokenizer(['첫 번째 문장', '두 번째 문장'])['input_ids']
tokenizer.batch_decode(first_tokenized_result)
# ['[CLS] 첫 번째 문장 [SEP]', '[CLS] 두 번째 문장 [SEP]']

In [None]:

second_tokenized_result = tokenizer([['첫 번째 문장', '두 번째 문장']])['input_ids']
tokenizer.batch_decode(second_tokenized_result)
# ['[CLS] 첫 번째 문장 [SEP] 두 번째 문장 [SEP]']

- 예제 3.13. BERT 토크나이저와 RoBERTa 토크나이저

In [None]:
bert_tokenizer = AutoTokenizer.from_pretrained('klue/bert-base')
bert_tokenizer([['첫 번째 문장', '두 번째 문장']])
# {'input_ids': [[2, 1656, 1141, 3135, 6265, 3, 864, 1141, 3135, 6265, 3]],
# 'token_type_ids': [[0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1]],
# 'attention_mask': [[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]]}

In [None]:
roberta_tokenizer = AutoTokenizer.from_pretrained('klue/roberta-base')
roberta_tokenizer([['첫 번째 문장', '두 번째 문장']])
# {'input_ids': [[0, 1656, 1141, 3135, 6265, 2, 864, 1141, 3135, 6265, 2]],
# 'token_type_ids': [[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]],
# 'attention_mask': [[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]]}


In [None]:
en_roberta_tokenizer = AutoTokenizer.from_pretrained('roberta-base')
en_roberta_tokenizer([['first sentence', 'second sentence']])
# {'input_ids': [[0, 9502, 3645, 2, 2, 10815, 3645, 2]],
# 'attention_mask': [[1, 1, 1, 1, 1, 1, 1, 1]]}

- 예제 3.14. attention_mask 확인

In [None]:
tokenizer(['첫 번째 문장은 짧다.', '두 번째 문장은 첫 번째 문장 보다 더 길다.'], padding='longest')

# {'input_ids': [[0, 1656, 1141, 3135, 6265, 2073, 1599, 2062, 18, 2, 1, 1, 1, 1, 1, 1],
# [0, 864, 1141, 3135, 6265, 2073, 1656, 1141, 3135, 6265, 3632, 831, 647, 2062, 18, 2]],
# 'attention_mask': [[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0],
# [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]]}

## 데이터셋 활용하기

- 예제 3.15. KLUE MRC 데이터셋 다운로드

In [None]:
from datasets import load_dataset
klue_mrc_dataset = load_dataset('klue', 'mrc')
# klue_mrc_dataset_only_train = load_dataset('klue', 'mrc', split='train')

In [None]:
klue_mrc_dataset

In [None]:
klue_mrc_dataset['train'][0]

# 모델 학습시키기

## 데이터 준비

- 예제 3.17. 모델 학습에 사용할 연합뉴스 데이터셋 다운로드

In [None]:
from datasets import load_dataset
klue_tc_train = load_dataset('klue', 'ynat', split='train')
klue_tc_eval = load_dataset('klue', 'ynat', split='validation')
klue_tc_train

In [None]:
klue_tc_train[0]

In [None]:
klue_tc_train.features['label'].names
# ['IT과학', '경제', '사회', '생활문화', '세계', '스포츠', '정치']

- 예제 3.18. 실습에 사용하지 않는 불필요한 컬럼 제거

In [None]:
klue_tc_train = klue_tc_train.remove_columns(['guid', 'url', 'date'])
klue_tc_eval = klue_tc_eval.remove_columns(['guid', 'url', 'date'])
klue_tc_train

In [None]:
klue_tc_train[0]

- 예제 3.19. 카테고리를 문자로 표기한 label_str 컬럼 추가

In [None]:
klue_tc_train.features['label']
# ClassLabel(names=['IT과학', '경제', '사회', '생활문화', '세계', '스포츠', '정치'], id=None)

In [None]:
klue_tc_train.features['label'].int2str(1)
# '경제'

In [8]:
klue_tc_label = klue_tc_train.features['label']

In [None]:
def make_str_label(batch):
  batch['label_str'] = klue_tc_label.int2str(batch['label'])
  return batch

klue_tc_train = klue_tc_train.map(make_str_label, batched=True, batch_size=1000)

klue_tc_train[0]
# {'title': '유튜브 내달 2일까지 크리에이터 지원 공간 운영', 'label': 3, 'label_str': '생활문화'}

- 예제 3.20. 학습/검증/테스트 데이터셋 분할

In [None]:
klue_tc_train

In [11]:
train_dataset = klue_tc_train.train_test_split(test_size=10000, shuffle=True, seed=42)['test']

In [None]:
train_dataset

In [None]:
train_dataset[0]

In [14]:
dataset = klue_tc_eval.train_test_split(test_size=1000, shuffle=True, seed=42)

In [None]:
dataset

In [16]:
test_dataset = dataset['test']

In [None]:
test_dataset

In [None]:
test_dataset[0]

In [19]:
valid_dataset = dataset['train'].train_test_split(test_size=1000, shuffle=True, seed=42)['test']

In [None]:
valid_dataset

In [None]:
valid_dataset[0]

## 트레이너 API를 사용해 학습하기

- 예제 3.21. Trainer를 사용한 학습: (1) 준비

In [22]:
# 필요한 라이브러리 임포트
import torch
import numpy as np
from transformers import (
    Trainer,
    TrainingArguments, 
    AutoModelForSequenceClassification,
    AutoTokenizer
)

# 토큰화 함수 정의
def tokenize_function(examples):
    # 입력 텍스트를 토큰화하고 패딩과 자르기 적용
    return tokenizer(examples["title"], padding="max_length", truncation=True)

In [None]:
# 사전학습된 모델과 토크나이저 로드
model_id = "klue/roberta-base"
model = AutoModelForSequenceClassification.from_pretrained(model_id, num_labels=len(train_dataset.features['label'].names))
tokenizer = AutoTokenizer.from_pretrained(model_id)

In [None]:
# 데이터셋에 토큰화 적용
train_dataset = train_dataset.map(tokenize_function, batched=True)
valid_dataset = valid_dataset.map(tokenize_function, batched=True) 
test_dataset = test_dataset.map(tokenize_function, batched=True)

- 예제 3.22. Trainer를 사용한 학습: (2) 학습 인자와 평가 함수 정의

In [None]:
# 학습 인자 설정
training_args = TrainingArguments(
    output_dir="./models",          # 결과 저장 경로
    num_train_epochs=1,              # 학습 에포크 수
    per_device_train_batch_size=8,   # 학습 배치 크기
    per_device_eval_batch_size=8,    # 평가 배치 크기 
    evaluation_strategy="epoch",      # 에포크마다 평가 수행
    learning_rate=5e-5,              # 학습률
    push_to_hub=False                # 허브에 모델 업로드 안 함
)

# 평가 메트릭 계산 함수 정의
def compute_metrics(eval_pred):
    logits, labels = eval_pred                      # 예측값과 실제값 추출
    predictions = np.argmax(logits, axis=-1)        # 예측 클래스 선택
    return {"accuracy": (predictions == labels).mean()}  # 정확도 계산 및 반환

- 예제 3.23. Trainer를 사용한 학습 - (3) 학습 진행

In [None]:
# Trainer 객체 생성
trainer = Trainer(
    model=model,                     # 학습할 모델
    args=training_args,              # 학습 인자
    train_dataset=train_dataset,     # 학습 데이터셋
    eval_dataset=valid_dataset,      # 검증 데이터셋
    tokenizer=tokenizer,             # 토크나이저
    compute_metrics=compute_metrics, # 평가 메트릭 계산 함수
)

# 모델 학습 수행
trainer.train()

# 테스트 데이터셋으로 모델 평가
trainer.evaluate(test_dataset) # 정확도 0.84

## 트레이너 API를 사용하지 않고 학습하기

- 예제 3.24. Trainer를 사용하지 않는 학습: (1) 학습을 위한 모델과 토크나이저 준비

In [None]:
# PyTorch 관련 라이브러리 임포트
import torch
from tqdm.auto import tqdm
from torch.utils.data import DataLoader
from transformers import AdamW

# 토큰화 함수 정의
def tokenize_function(examples): 
    # 제목(title) 컬럼을 토큰화하고 패딩과 자르기 적용
    return tokenizer(examples["title"], padding="max_length", truncation=True)

# GPU 사용 가능 여부 확인 및 디바이스 설정
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

# 사전학습된 모델 ID 설정
model_id = "klue/roberta-base"

# 모델 초기화 - 레이블 수에 맞게 분류 헤드 설정
model = AutoModelForSequenceClassification.from_pretrained(model_id, num_labels=len(train_dataset.features['label'].names))

# 토크나이저 초기화
tokenizer = AutoTokenizer.from_pretrained(model_id)

# 모델을 지정된 디바이스로 이동
model.to(device)

- 예제 3.25 Trainer를 사용하지 않는 학습: (2) 학습을 위한 데이터 준비

In [None]:
# 데이터로더를 생성하는 함수 정의
def make_dataloader(dataset, batch_size, shuffle=True):
    # 데이터셋의 텍스트를 토큰화하고 PyTorch 텐서 형식으로 변환
    dataset = dataset.map(tokenize_function, batched=True).with_format("torch") 
    
    # 'label' 컬럼명을 모델이 인식할 수 있도록 'labels'로 변경
    dataset = dataset.rename_column("label", "labels") 
    
    # 토큰화된 데이터만 필요하므로 원본 'title' 컬럼 제거
    dataset = dataset.remove_columns(column_names=['title']) 
    
    # DataLoader 객체 생성하여 반환
    return DataLoader(dataset, batch_size=batch_size, shuffle=shuffle)

# 학습용 데이터로더 생성 (배치 크기=8, 셔플=True)
train_dataloader = make_dataloader(train_dataset, batch_size=8, shuffle=True)

# 검증용 데이터로더 생성 (배치 크기=8, 셔플=False) 
valid_dataloader = make_dataloader(valid_dataset, batch_size=8, shuffle=False)

# 테스트용 데이터로더 생성 (배치 크기=8, 셔플=False)
test_dataloader = make_dataloader(test_dataset, batch_size=8, shuffle=False)

- 예제 3.26. Trainer를 사용하지 않는 학습: (3) 학습을 위한 함수 정의

In [None]:
def train_epoch(model, data_loader, optimizer):
    """
    한 에포크 동안 모델을 학습시키는 함수
    
    Args:
        model: 학습할 모델
        data_loader: 학습 데이터를 배치 단위로 제공하는 DataLoader 객체
        optimizer: 모델 파라미터를 업데이트할 옵티마이저
        
    Returns:
        avg_loss: 에포크의 평균 손실값
    """
    model.train()  # 모델을 학습 모드로 설정
    total_loss = 0  # 전체 손실값을 누적할 변수 초기화
    
    # 배치 단위로 데이터 처리
    for batch in tqdm(data_loader):
        optimizer.zero_grad()  # 이전 배치의 그래디언트 초기화
        
        # 배치 데이터를 GPU로 이동
        input_ids = batch['input_ids'].to(device)  # 입력 텍스트의 토큰 ID
        attention_mask = batch['attention_mask'].to(device)  # 패딩 토큰을 구분하기 위한 마스크
        labels = batch['labels'].to(device)  # 정답 레이블
        
        # 순전파 수행
        outputs = model(input_ids, attention_mask=attention_mask, labels=labels)
        loss = outputs.loss  # 손실값 계산
        
        # 역전파 및 가중치 업데이트
        loss.backward()  # 그래디언트 계산
        optimizer.step()  # 모델 파라미터 업데이트
        
        total_loss += loss.item()  # 배치의 손실값 누적
    
    # 평균 손실값 계산
    avg_loss = total_loss / len(data_loader)
    return avg_loss

- 예제 3.27. Trainer를 사용하지 않는 학습: (4) 평가를 위한 함수 정의

In [None]:
def evaluate(model, data_loader):
    # 모델을 평가 모드로 설정
    model.eval()
    
    # 손실과 예측값을 저장할 변수 초기화
    total_loss = 0
    predictions = []
    true_labels = []
    
    # 그래디언트 계산 비활성화
    with torch.no_grad():
        # 데이터로더에서 배치 단위로 데이터 로드
        for batch in tqdm(data_loader):
            # 입력 데이터를 GPU로 이동
            input_ids = batch['input_ids'].to(device)
            attention_mask = batch['attention_mask'].to(device)
            labels = batch['labels'].to(device)
            
            # 모델 예측 수행
            outputs = model(input_ids, attention_mask=attention_mask, labels=labels)
            logits = outputs.logits
            loss = outputs.loss
            
            # 배치의 손실 값을 누적
            total_loss += loss.item()
            
            # 예측값 계산 (가장 높은 확률을 가진 클래스)
            preds = torch.argmax(logits, dim=-1)
            
            # 예측값과 실제 레이블을 CPU로 이동하여 리스트에 추가
            predictions.extend(preds.cpu().numpy())
            true_labels.extend(labels.cpu().numpy())
    
    # 평균 손실 계산
    avg_loss = total_loss / len(data_loader)
    
    # 정확도 계산
    accuracy = np.mean(np.array(predictions) == np.array(true_labels))
    
    return avg_loss, accuracy

- 예제 3.28 Trainer를 사용하지 않는 학습: (5) 학습 수행

In [None]:
# 학습할 에포크 수 설정
num_epochs = 1
# AdamW 옵티마이저 초기화 - 학습률 5e-5 설정
optimizer = AdamW(model.parameters(), lr=5e-5)

# 학습 루프 시작
for epoch in range(num_epochs):
    # 현재 에포크 출력
    print(f"Epoch {epoch+1}/{num_epochs}")
    # train_epoch 함수를 호출하여 한 에포크 학습 수행하고 학습 손실 값 반환
    train_loss = train_epoch(model, train_dataloader, optimizer)
    print(f"Training loss: {train_loss}")
    # evaluate 함수를 호출하여 검증 데이터에 대한 손실과 정확도 계산
    valid_loss, valid_accuracy = evaluate(model, valid_dataloader)
    print(f"Validation loss: {valid_loss}")
    print(f"Validation accuracy: {valid_accuracy}")

# 테스트 데이터에 대한 최종 평가
# evaluate 함수를 호출하여 테스트 정확도 계산 (손실은 사용하지 않음)
_, test_accuracy = evaluate(model, test_dataloader)
print(f"Test accuracy: {test_accuracy}") # 정확도 0.82

## 학습한 모델 업로드하기

- 예제 3.29. 허깅페이스 허브에 모델 업로드

In [33]:
# 모델의 예측 아이디와 문자열 레이블을 연결할 데이터를 모델 config에 저장
id2label = {i: label for i, label in enumerate(train_dataset.features['label'].names)}
label2id = {label: i for i, label in id2label.items()}
model.config.id2label = id2label
model.config.label2id = label2id

In [None]:
from huggingface_hub import login

# 토큰 입력 받기
token = input("허깅페이스 토큰을 입력하세요: ")
login(token=token)

# 사용자 아이디 입력 받기
user_id = input("허깅페이스 사용자 아이디를 입력하세요: ")
repo_id = f"{user_id}/roberta-base-klue-ynat-classification"

# Trainer를 사용한 경우
trainer.push_to_hub(repo_id)
# 직접 학습한 경우
# model.push_to_hub(repo_id)
tokenizer.push_to_hub(repo_id)

# 모델 추론하기

## 파이프라인을 활용한 추론

- 예제 3.30. 학습한 모델을 불러와 pipeline을 활용해 추론하기

In [None]:
# 실습을 새롭게 시작하는 경우 데이터셋 다시 불러오기 실행
# import torch
# import torch.nn.functional as F
# from datasets import load_dataset

# dataset = load_dataset("klue", "ynat", split="validation")

In [None]:
from transformers import pipeline

user_id = input("허깅페이스 사용자 아이디를 입력하세요: ")
model_id = f"{user_id}/roberta-base-klue-ynat-classification"

model_pipeline = pipeline("text-classification", model=model_id)

model_pipeline(dataset["title"][:5])

## 직접 추론하기

- 예제 3.31. 커스텀 파이프라인 구현

In [None]:
# 필요한 라이브러리 임포트
import torch
from torch.nn.functional import softmax
from transformers import AutoModelForSequenceClassification, AutoTokenizer

# 커스텀 파이프라인 클래스 정의
class CustomPipeline:
    def __init__(self, model_id):
        # 모델과 토크나이저 초기화
        self.model = AutoModelForSequenceClassification.from_pretrained(model_id)
        self.tokenizer = AutoTokenizer.from_pretrained(model_id)
        # 모델을 평가 모드로 설정
        self.model.eval()

    def __call__(self, texts):
        # 입력 텍스트를 토큰화
        tokenized = self.tokenizer(texts, return_tensors="pt", padding=True, truncation=True)

        # 그래디언트 계산 없이 추론 수행
        with torch.no_grad():
            outputs = self.model(**tokenized)
            logits = outputs.logits

        # softmax를 사용해 확률값으로 변환
        probabilities = softmax(logits, dim=-1)
        # 가장 높은 확률값과 해당 레이블 인덱스 추출
        scores, labels = torch.max(probabilities, dim=-1)
        # 레이블 인덱스를 문자열로 변환
        labels_str = [self.model.config.id2label[label_idx] for label_idx in labels.tolist()]

        # 결과를 딕셔너리 리스트로 반환
        return [{"label": label, "score": score.item()} for label, score in zip(labels_str, scores)]

# 커스텀 파이프라인 인스턴스 생성
custom_pipeline = CustomPipeline(model_id)
# 데이터셋의 처음 5개 타이틀에 대해 추론 수행
custom_pipeline(dataset['title'][:5])