## 2.7. 오토 클래스

허깅페이스는 트랜스포머 모델을 사용하여 자동으로 텍스트 분류 모델을 만들 수 있는 오토 클래스를 제공합니다. 오토 클래스는 텍스트 분류 작업을 위한 최신 트랜스포머 모델을 사용하여 모델을 학습하고 평가하는 데 필요한 모든 코드를 제공합니다. 이 노트북에서는 오토 클래스를 사용하여 텍스트 분류 모델을 만드는 방법을 살펴보겠습니다.

**오토 클래스의 장점**

* **자동화된 모델 불러오기**: 모델 이름만으로 해당 모델의 아키텍처를 자동으로 인식해 적절한 모델을 불러온다. 사용자는 내부 세부 사항을 몰라도 된다.
* **간편한 API**: 오토 클래스는 모델, 토크나이저, 이미지 프로세서 설정을 위한 간단하고 일관된 API를 제공해 코드를 간소화하고 재사용성을 높인다.
* **모델 교체 용이성**: 동일한 API를 사용하기 때문에 다양한 모델을 쉽게 실험하고 교체할 수 있다. 이는 모델 선택 및 성능 비교를 용이하게 한다.
* **추론 및 미세 조정 간소화**: 모델 설정 전처리 후처리 등의 과정이 자동화 되어 추론과 미세 조정 프로세스가 간소화된다. 이는 모델을 실제 환경에 배포하거나 특정 과제에 맞게 조정할 때 유용하다.

### 2.7.1. 주요 Auto 클래스

* **AutoConfig**: 모델 아키텍처에 맞는 PretrainedConfig 클래스 설정
* **AutoModel**: 모델 아키텍처에 맞는 PretrainedModel 클래스 설정
* **AutoTokenizer**: 모델 아키텍처에 맞는 PretrainedTokenizer 클래스 설정
* **AutoFeatureExtractor**: 모델 아키텍처에 맞는 FeatureExtractor 클래스 설정
* **AutoImageProcessor**: 모델 아키텍처에 맞는 전처리를 수행하는 클래스 설정

오토 클래스는 모두 `AutoConfig`, `AutoTokenizer`, `AutoModel`, `AutoFeatureExtractor`, `AutoImageProcessor`등의 기본 클리스를 상속받는다. pretrained메서드를 통해 지정된 모델 이름이나 경로에서 적절한 클래스를 불러온다. 오토 클래스를 활용해 다양한 모델과 모달리티르 쉽게 다룰 수 있다.

In [11]:
from transformers import AutoConfig, AutoTokenizer, AutoModel, AutoFeatureExtractor, AutoImageProcessor

nlp_model_name = "bert-base-uncased"
config = AutoConfig.from_pretrained(nlp_model_name)
tokenizer = AutoTokenizer.from_pretrained(nlp_model_name)
model = AutoModel.from_pretrained(nlp_model_name)
print(model)

BertModel(
  (embeddings): BertEmbeddings(
    (word_embeddings): Embedding(30522, 768, padding_idx=0)
    (position_embeddings): Embedding(512, 768)
    (token_type_embeddings): Embedding(2, 768)
    (LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
    (dropout): Dropout(p=0.1, inplace=False)
  )
  (encoder): BertEncoder(
    (layer): ModuleList(
      (0-11): 12 x BertLayer(
        (attention): BertAttention(
          (self): BertSdpaSelfAttention(
            (query): Linear(in_features=768, out_features=768, bias=True)
            (key): Linear(in_features=768, out_features=768, bias=True)
            (value): Linear(in_features=768, out_features=768, bias=True)
            (dropout): Dropout(p=0.1, inplace=False)
          )
          (output): BertSelfOutput(
            (dense): Linear(in_features=768, out_features=768, bias=True)
            (LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
            (dropout): Dropout(p=0.1, inplace=False

In [12]:
vision_model_name = "microsoft/resnet-18"
feature_extractor = AutoFeatureExtractor.from_pretrained(vision_model_name)
ImageProcessor = AutoImageProcessor.from_pretrained(vision_model_name)
model = AutoModel.from_pretrained(vision_model_name)
print(model)

ResNetModel(
  (embedder): ResNetEmbeddings(
    (embedder): ResNetConvLayer(
      (convolution): Conv2d(3, 64, kernel_size=(7, 7), stride=(2, 2), padding=(3, 3), bias=False)
      (normalization): BatchNorm2d(64, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
      (activation): ReLU()
    )
    (pooler): MaxPool2d(kernel_size=3, stride=2, padding=1, dilation=1, ceil_mode=False)
  )
  (encoder): ResNetEncoder(
    (stages): ModuleList(
      (0): ResNetStage(
        (layers): Sequential(
          (0): ResNetBasicLayer(
            (shortcut): Identity()
            (layer): Sequential(
              (0): ResNetConvLayer(
                (convolution): Conv2d(64, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)
                (normalization): BatchNorm2d(64, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
                (activation): ReLU()
              )
              (1): ResNetConvLayer(
                (convolution): Conv2d(6

In [13]:
# 오토 클래스로 자연어 처리 모델 불러오기

from transformers import AutoModel, AutoTokenizer

model_name = "bert-base-uncased"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModel.from_pretrained(model_name)

text = "I am learning about tokenizers."
inputs = tokenizer(text, return_tensors="pt")
outputs = model(**inputs)
print(outputs.last_hidden_state.shape)

torch.Size([1, 10, 768])


In [17]:
#오토 클래스로 컴퓨터비전 모델 불러오기
from datasets import load_dataset
from transformers import AutoImageProcessor, AutoModel

model_name = "microsoft/resnet-18"

image_processor = AutoImageProcessor.from_pretrained(model_name)
model = AutoModel.from_pretrained(model_name)
dataset = load_dataset("huggingface/cats-image")
image = dataset["test"]["image"][0]

inputs = image_processor(images=image, return_tensors="pt")
outputs = model(**inputs)

print(outputs.last_hidden_state.shape)

torch.Size([1, 512, 7, 7])


In [19]:
# 오토 클래스로 오디오 모델 불러오기

from datasets import load_dataset
from transformers import AutoFeatureExtractor

model_name = "facebook/wav2vec2-base-960h"

feature_extractor = AutoFeatureExtractor.from_pretrained(model_name)

dataset = load_dataset("PolyAI/minds14", "ko-KR", split="train")
audios = [audio["array"] for audio in dataset["audio"][:2]]

inputs = feature_extractor(
  raw_speech=audios,
  padding=True,
  return_tensors="pt"
)
print(inputs.keys())

It is strongly recommended to pass the ``sampling_rate`` argument to this function. Failing to do so can result in silent errors that might be hard to debug.


dict_keys(['input_values'])
