# Hugging Face Transformers 라이브러리 개요
- 웹사이트 : https://huggingface.co/

## 1. 들어가며  
- Hugging Face의 Transformers 라이브러리는 현대 자연어 처리(NLP) 및 자연어 생성(NLG), 나아가 음성, 비전 등의 멀티모달 분야까지 확장된 사전학습(pretrained) 모델과 파인튜닝(fine-tuning) 기법을 직관적이면서도 강력하게 지원하는 파이썬 라이브러리다.  
- Hugging Face 플랫폼은 수많은 대규모 딥러닝 모델들이 공유되는 공간으로, 그 영향력과 접근성 측면에서 "딥러닝 모델계의 GitHub"라 불릴 정도로 활발한 생태계를 형성하고 있다.
- 본 자료에서는 사전학습 언어 모델의 개념과 이를 사용하기 위한 Hugging Face의 `transformers` 라이브러리의 핵심 요소 및 실습 방법에 대해 개략적으로 살펴보는 것을 목적으로 한다.

## 2. 사전학습 언어 모델(Pretrained Language Model)이란?  
### 2.1 사전학습의 개념  
- **정의:** 대규모 텍스트 데이터로 모델을 사전에 학습시켜, 다양한 언어 처리 작업을 위한 일반적인 언어적 이해 능력을 모델이 이미 내장하게 하는 것.  
- **이점:** 특정 태스크에 맞춰 전처리나 사전학습 없이 바로 `파인튜닝`하는 방식을 사용하면, 최소한의 데이터와 연산 자원으로도 높은 성능을 달성 가능.

### 2.2 대표적인 사전학습 모델들  
- **BERT** (Bidirectional Encoder Representations from Transformers)  
- **GPT 계열** (Generative Pre-trained Transformers)  
- **RoBERTa, DistilBERT, ALBERT 등 다양한 변형 모델들**

이들은 각기 다른 pretraining objective(마스크 언어 모델링, 언어 모델링)와 사전학습 데이터셋, 아키텍처 변형을 통해 특정 특성을 강화하였다.

## 3. Hugging Face Transformers 라이브러리란?  
### 3.1 개요  
- **Transformers 라이브러리 특징:**  
  - 수많은 사전학습 모델 지원: BERT, GPT-2, GPT-Neo, RoBERTa, T5, BART, DeBERTa 등  
  - PyTorch, TensorFlow, JAX 등의 다양한 프레임워크 호환성  
  - 토크나이저(Tokernizer), 모델 로딩, 파인튜닝, Inference를 위한 간소화된 API 제공  
  - 모델 허브(Model Hub)를 통한 풍부한 커뮤니티 기여 모델 및 간편한 배포  
- **장점:**  
  - 신속한 실험 및 프로토타이핑 가능  
  - 사전학습 모델을 가져와 텍스트 분류, 질의응답, 번역, 문서 요약 등 광범위한 태스크에 적용 용이

### 3.2 설치 방법

In [None]:
!pip install transformers



### 3.3 기본 사용 흐름
1. 토크나이저 선택 및 로드: 사전학습 모델에 맞는 토크나이저 사용
2. 모델 선택 및 로드: Hub에서 모델명을 이용해 로드
3. 입력 처리 → 모델 추론: 인풋을 토크나이즈하여 모델에 입력, 아웃풋 해석
4. 파인튜닝(선택사항): 주어진 Downstream Task용 데이터로 파인튜닝 진행

## 4. Hugging Face Model Hub 활용법
### 4.1 Model Hub
 - https://huggingface.co/models 에서 다양한 모델을 검색할 수 있음.
 - 원하는 모델의 체크포인트 이름을 transformers 라이브러리를 통해 곧바로 불러올 수 있음.

### 4.2 예시: BERT 기반 모델 불러오기
- 아래 예시에서 AutoTokenizer, AutoModelForSequenceClassification 클래스를 사용해 간단히 토크나이저와 모델을 로드할 수 있다.

In [None]:
# [transformers] Hugging Face에서 제공하는 라이브러리로, 다양한 사전학습(pretrained) 모델과 토크나이저를 손쉽게 로드하고,
# NLP 태스크(문장 분류, 질의응답, 번역, 요약, 문장 생성 등)에 활용할 수 있게 해줍니다.
from transformers import AutoTokenizer, AutoModelForSequenceClassification

# 모델 이름을 지정합니다. "bert-base-uncased"는 대문자/소문자 구분을 제거한 영어 코퍼스로 학습된 BERT 기본 모델입니다.
model_name = "bert-base-uncased"

# AutoTokenizer.from_pretrained(model_name):
#   해당 모델에 맞는 토크나이저를 자동으로 불러옵니다.
#   입력: str (토크나이즈할 문장), return_tensors 인자로 텐서 형태 지정 가능
#   출력: input_ids, attention_mask 등의 텐서 형태 입력 준비물
tokenizer = AutoTokenizer.from_pretrained(model_name)

# AutoModelForSequenceClassification.from_pretrained(model_name):
#   사전학습된 BERT 모델을 로드하고, 시퀀스 분류용 헤더를 갖춘 모델을 반환합니다.
#   입력: 토크나이즈된 입력 (input_ids, attention_mask 등)
#   출력: 분류를 위한 로짓(logits) 텐서 (예: [batch_size, num_labels])

# 모델 내부적으로는 입력 문장 -> 토큰 임베딩 -> Transformer Encoder 레이어를 거쳐 마지막 레이어에서
# 최종 CLS 토큰의 임베딩을 기반으로 로짓 출력. 입력 시퀀스 길이: [batch_size, sequence_length]
# 출력 로짓 텐서 shape 예: [batch_size, num_labels], 여기서 num_labels는 클래스 수(기본은 2개일 수 있음)
model = AutoModelForSequenceClassification.from_pretrained(model_name)

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


tokenizer_config.json:   0%|          | 0.00/48.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/570 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/232k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/466k [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/440M [00:00<?, ?B/s]

Some weights of BertForSequenceClassification were not initialized from the model checkpoint at bert-base-uncased and are newly initialized: ['classifier.bias', 'classifier.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


## 5. 토크나이저(Tokernizer)
### 5.1 역할
- 원시 텍스트 데이터를 모델이 이해할 수 있는 토큰 단위로 나누는 전처리 과정 담당
WordPiece, Byte-Pair Encoding(BPE) 등 다양한 토크나이즈 기법 사용

### 5.2 사용 예제
- "Hello, world!"를 토크나이즈하여 파이토치 텐서 형태로 반환
- 이후 model(**inputs) 형태로 모델에 직접 입력 가능

In [None]:
'''
입력 텍스트를 토크나이즈하고 텐서 형태로 반환합니다.
"Hello, world!" -> 토크나이저가 "hello", ",", "world", "!" 등의 토큰으로 분리 후
각 토큰을 vocab index로 바꿔 input_ids를 생성
return_tensors="pt"로 파이토치 텐서 형태 반환
'''
inputs = tokenizer("Hello, world!", return_tensors="pt")
inputs

{'input_ids': tensor([[ 101, 7592, 1010, 2088,  999,  102]]), 'token_type_ids': tensor([[0, 0, 0, 0, 0, 0]]), 'attention_mask': tensor([[1, 1, 1, 1, 1, 1]])}

* input_ids:
    - 원본 문장을 해당 모델의 단어 사전에 대응하는 정수 인덱스 시퀀스로 변환한 것.
    - 각 단어/서브워드 토큰이 vocabulary에 고유 번호(id)로 매핑되어 있으며, 모델에 대한 직접적인 입력으로 쓰임.

* token_type_ids:
    - BERT와 같은 모델에서 문장 쌍 입력 시(예: 문장1 + [SEP] + 문장2) 각 토큰이 어느 문장에 속하는지 구분하기 위해 사용.
    - 단일 문장 입력 시에는 일반적으로 모두 0으로 설정됨.

* attention_mask:
    - 문장 길이를 최대 길이에 맞추기 위해 패딩(padding)하는 과정에서, 실제 단어 토큰과 패딩 토큰을 구분하기 위한 마스크.
    - 1은 실제 토큰, 0은 패딩 토큰을 의미.
    - 모델이 어텐션 계산 시 패딩 부분은 무시하도록 도움.

## 6. 파인튜닝(Fine-tuning)

### 6.1 개념
- 사전학습된 모델을 원하는 다운스트림 태스크(예: 감정 분석, 질문 답변, 문장 분류)에 맞게 추가적인 학습을 수행하는 과정
- 비교적 적은 데이터로 빠르고 효율적인 학습 가능

### 6.2 파인튜닝 예제 - 텍스트 분류
- 텍스트 레이블(긍정/부정)로 이루어진 작은 데이터셋을 모델에 학습시키면, 사전학습 모델이 기존 언어적 지식을 바탕으로 정확한 예측 수행
- transformers는 Trainer API를 제공하여 학습 파이프라인을 단순화

In [None]:
# [Trainer, TrainingArguments] 모델 파인튜닝 및 평가 과정을 간소화하기 위한 헬퍼 클래스입니다.
from transformers import Trainer, TrainingArguments

# TrainingArguments: 파인튜닝 과정의 하이퍼파라미터 및 설정을 지정합니다.
training_args = TrainingArguments(
    output_dir="./results",          # 모델 및 체크포인트가 저장될 디렉토리
    num_train_epochs=3,              # 학습 에폭 수
    per_device_train_batch_size=16,  # 각 장치(GPU)당 배치 크기
    evaluation_strategy="epoch",     # 평가 전략(예: "epoch"마다 평가)
    save_total_limit=2,              # 체크포인트 저장 개수 제한
    logging_strategy="steps",        # 스텝 단위로 로깅
    logging_steps=10,                # 10스텝마다 로그 출력
    disable_tqdm=False,              # 진행 상황 표시
)



In [None]:
# 간단한 한글 문장 데이터와 해당 문장의 긍정/부정 레이블을 예제로 만듭니다.
# 여기서는 매우 소규모의 예시 데이터셋이며, 긍정=1, 부정=0 형태로 라벨링하였습니다.
train_texts = ["안녕하세요", "정말 재미없네요", "이 영화는 최고예요!", "그다지 좋지 않았어요"]
train_labels = [1, 0, 1, 0]

val_texts = ["별로예요", "정말 훌륭한 작품이네요"]
val_labels = [0, 1]

# 토크나이저를 이용해 텍스트를 토큰화하고, input_ids, attention_mask 등을 생성합니다.
# truncation=True: 문장이 너무 길 경우 잘라냄
# padding=True: 모든 문장을 동일한 길이로 맞추어 패딩 추가
train_encodings = tokenizer(train_texts, truncation=True, padding=True)
val_encodings = tokenizer(val_texts, truncation=True, padding=True)

import torch

# torch.utils.data.Dataset을 상속받아 간단한 PyTorch용 Dataset 클래스를 정의합니다.
# 이 Dataset은 __getitem__에서 input_ids, attention_mask, labels 텐서를 반환합니다.
class KoDataset(torch.utils.data.Dataset):
    def __init__(self, encodings, labels):
        self.encodings = encodings
        self.labels = labels

    def __getitem__(self, idx):
        # encodings는 'input_ids', 'attention_mask'(및 경우에 따라 'token_type_ids')를 키로 갖는 딕셔너리
        # idx에 해당하는 토큰 시퀀스와 attention_mask를 텐서 형태로 변환
        item = {key: torch.tensor(val[idx]) for key, val in self.encodings.items()}
        # labels도 텐서 형태로 변환
        item["labels"] = torch.tensor(self.labels[idx])
        return item

    def __len__(self):
        return len(self.labels)

# 이제 train_dataset과 val_dataset을 위에서 만든 encodings와 labels로 초기화합니다.
train_dataset = KoDataset(train_encodings, train_labels)
val_dataset = KoDataset(val_encodings, val_labels)

# 위 과정을 통해 train_dataset, val_dataset이 준비되었으므로 이제 trainer.train()를 문제없이 실행할 수 있습니다.

trainer = Trainer(
    model=model, # model: 파인튜닝할 모델
    args=training_args, # TrainingArguments로 설정한 파라미터
    train_dataset=train_dataset,  # train_dataset은 (input_ids, attention_mask, labels) 형태의 예제들을 포함
    eval_dataset=val_dataset      # val_dataset 역시 동일한 형태로 평가용 데이터를 포함
)

In [None]:
# 함수 trainer.train():
#   지정된 train_dataset을 사용해 모델을 파인튜닝.
#   예상 인풋: train_dataset은 토크나이즈된 예제들 (input_ids, attention_mask, labels 등)
#   예상 아웃풋: 학습 진행 사항(로스, 스텝별 메트릭) 로그 및 최종적으로 파인튜닝된 모델 파라미터

# 내부적으로 배치 단위로 input_ids, attention_mask, labels를 모델에 전달하고, 로스를 계산한 뒤 옵티마이저로 업데이트.
# 각 에폭마다 평가 전략에 따라 eval_dataset으로 메트릭 계산.
trainer.train()

Epoch,Training Loss,Validation Loss
1,No log,0.484269
2,No log,0.577656
3,No log,0.581246


TrainOutput(global_step=3, training_loss=0.472901185353597, metrics={'train_runtime': 20.9657, 'train_samples_per_second': 0.572, 'train_steps_per_second': 0.143, 'total_flos': 86333315040.0, 'train_loss': 0.472901185353597, 'epoch': 3.0})

## 7. 다양한 태스크에의 활용  
- **질의응답(Question Answering)**: 컨텍스트 내에서 특정 질문에 답변  
- **머신 번역(Machine Translation)**: 한 언어 텍스트를 다른 언어로 변환  
- **문서 요약(Summarization)**: 긴 텍스트를 압축하여 요약문 생성  
- **텍스트 생성(Text Generation)**: 시퀀스의 연속 토큰 생성(GPT 계열 모델 활용)  
- **NER(Named Entity Recognition)**: 문장 내 개체명 식별 및 분류  

## 8. 성능 평가 및 배포  
- 파인튜닝 완료 후, 메트릭 계산(정확도, F1 등)을 통해 모델 성능 평가  
- Hugging Face Hub나 AWS Sagemaker, GCP 등 클라우드 서비스를 통한 모델 배포 가능  

## 9. 결론 및 정리  
- 사전학습 언어 모델과 Hugging Face Transformers 라이브러리를 활용하면, NLP 태스크에서 뛰어난 성능을 손쉽게 재현할 수 있다.  
- 풍부한 사전학습 모델과 편리한 API, 커뮤니티 생태계를 통해 실용적이고 확장성 높은 NLP 파이프라인 구축이 가능하다.

## 10. 추가 자료  
- Hugging Face 공식 문서: [https://huggingface.co/docs/transformers](https://huggingface.co/docs/transformers)  
- 튜토리얼: [https://huggingface.co/course/chapter1](https://huggingface.co/course/chapter1)  
- NLP 학습 자료: [https://nlp.stanford.edu/](https://nlp.stanford.edu/) 등
