# 304. HuggingFace pretrained models and tokenizers

https://huggingface.co/transformers/quicktour.html

In [1]:
# ! pip install transformers datasets
# !pip install sentencepiece
# !pip install kobert-transformers

## pre-trained model 과 tokenizer를 pipeline 에 지정하여 사용

예를 들어 "nlptown/bert-base-multilingual-uncased-sentiment" 모델은 영어, 한국어, 프랑스어, 네덜란드어, 독일어, 이탈리아어 및 스페인어로 된 텍스트를 처리할 수 있습니다. 사전 훈련된 모델을 저장한 로컬 폴더로 해당 이름을 바꿀 수도 있습니다(아래 참조).  모델 개체 및 연결된 토크나이저를 전달할 수도 있습니다.

이를 위해 두 개의 클래스가 필요합니다. 

첫 번째는 우리가 선택한 모델과 관련된 토크나이저를 다운로드하고 인스턴스화하는 데 사용할 `AutoTokenizer`입니다. 

두 번째는 'AutoModelForSequenceClassification'(TensorFlow를 사용하는 경우 `TFAutoModelForSequenceClassification`)는 모델 자체를 다운로드하는 데 사용할 것입니다. 

다른 Task 의 경우 모델의 클래스가 변경됩니다. [Task Summary](https://huggingface.co/transformers/task_summary.html) 튜토리얼에는 어떤 클래스가 어떤 작업에 사용되는지 요약되어 있습니다.

In [5]:
from transformers import AutoTokenizer, AutoModelForSequenceClassification
from transformers import pipeline

이제 우리가 찾은 모델과 토크나이저를 다운로드하려면 `AutoModelForSequenceClassification.from_pretrained` 메서드를 사용해야 합니다(`model_name`을 model hub의 다른 모델로 자유롭게 대체).

In [6]:
model_name = "nlptown/bert-base-multilingual-uncased-sentiment"
# This model only exists in PyTorch, so we use the `from_pt` flag to import that model in TensorFlow.
model = AutoModelForSequenceClassification.from_pretrained(model_name)

tokenizer = AutoTokenizer.from_pretrained(model_name)

classifier = pipeline('sentiment-analysis', model=model, tokenizer=tokenizer)

In [7]:
classifier('I love you'), classifier('난 널 사랑해')

([{'label': '5 stars', 'score': 0.8546807169914246}],
 [{'label': '5 stars', 'score': 0.40948763489723206}])

우리가 가진 데이터와 유사한 데이터로 사전 훈련된 모델을 찾지 못한 경우 우리가 가진 데이터에 대해 사전 훈련된 모델을 미세 조정해야 합니다. 이를 위해 [예제 스크립트](https://huggingface.co/transformers/examples.html)를 제공합니다. 완료되면 [이 튜토리얼](https://huggingface.co/transformers/model_sharing.html)을 사용하여 허브에서 미세 조정된 모델을 커뮤니티와 공유하는 것을 잊지 마십시오.

## Under the hood: pretrained models

이제 이러한 파이프라인을 사용할 때 내부에서 어떤 일이 발생하는지 살펴보겠습니다.  

우리가 보았듯이 모델과 토크나이저는 `from_pretrained` 메소드를 사용하여 생성됩니다.

In [28]:
model_name = "distilbert-base-uncased-finetuned-sst-2-english"

pt_model = AutoModelForSequenceClassification.from_pretrained(model_name)

tokenizer = AutoTokenizer.from_pretrained(model_name)

### 토크나이저 사용

우리는 토크나이저가 텍스트의 전처리를 담당한다고 언급했습니다. 먼저 주어진 텍스트를 일반적으로 *token*이라고 하는 단어(또는 단어의 일부, 구두점 기호 등)로 분할합니다. 해당 프로세스를 제어할 수 있는 여러 규칙이 있습니다([토큰나이저 요약](https://huggingface.co/transformers/tokenizer_summary.html)에서 자세히 알아볼 수 있음). 이것이 모델이 사전 훈련되었을 때와 동일한 규칙을 사용하도록 하기 위해 모델의 이름을 사용하여 토크나이저를 인스턴스화해야 하는 이유입니다.

두 번째 단계는 해당 *token*을 숫자로 변환하여 텐서를 만들고 모델에 공급할 수 있도록 하는 것입니다. 이를 위해 토크나이저는 *vocab*을 가지고 있는데, 이는 모델이 사전 훈련되었을 때와 동일한 *vocab*을 사용해야 하기 때문에 `from_pretrained` 메서드로 인스턴스화할 때 다운로드하는 부분입니다.

주어진 텍스트에 이 단계를 적용하려면 토크나이저에 입력하면 됩니다.

In [13]:
inputs = tokenizer("We are very happy to show you the 🤗 Transformers library.")

이것은 integer list를 반환합니다. 여기에는 앞서 언급한 [토큰의 Id](https://huggingface.co/transformers/glossary.html#input-ids)뿐 아니라 모델에 유용한 추가 인수도 포함됩니다. 예를 들어 모델이 시퀀스를 더 잘 이해할 수도록 하기 위한 [attention mask](https://huggingface.co/transformers/glossary.html#attention-mask)도 있습니다.

In [14]:
print(inputs)

{'input_ids': [101, 2057, 2024, 2200, 3407, 2000, 2265, 2017, 1996, 100, 19081, 3075, 1012, 102], 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]}


sequence list를 토크나이저에 직접 전달할 수 있습니다. 모델을 통해 일괄 처리 하려면 모두 같은 길이로 padding하고 모델이 허용할 수 있는 최대 길이로 truncate 한 텐서를 만들 수 있습니다. 이 모든 것을 토크나이저에 지정할 수 있습니다.

In [24]:
pt_batch = tokenizer(
        ["We are very happy to show you the 🤗 Transformers library.", 
         "We hope you don't hate it."],
        padding=True,
        truncation=True,
        max_length=512,
        return_tensors="pt"
)

패딩은 모델이 미리 훈련한 패딩 토큰과 함께 모델이 예상하는 면(이 경우 오른쪽)에 자동으로 적용됩니다. attention mask는 패딩을 고려하도록 조정되었습니다.

In [26]:
for key, value in pt_batch.items():
    print(f"{key}: {value.numpy().tolist()}")

input_ids: [[101, 2057, 2024, 2200, 3407, 2000, 2265, 2017, 1996, 100, 19081, 3075, 1012, 102], [101, 2057, 3246, 2017, 2123, 1005, 1056, 5223, 2009, 1012, 102, 0, 0, 0]]
attention_mask: [[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1], [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0]]


[여기](https://huggingface.co/transformers/preprocessing.html)에서 토크나이저에 대해 자세히 알아볼 수 있습니다.

### 모델 사용

입력이 토크나이저에 의해 사전 처리되면 모델에 직접 보낼 수 있습니다. 언급했듯이 모델에 필요한 모든 관련 정보가 포함됩니다. TensorFlow 모델을 사용하는 경우 dictionary key를 텐서에 직접 전달할 수 있습니다. PyTorch 모델의 경우 `**`를 추가하여 dictionary 압축을 풀어야 합니다.

In [38]:
pt_outputs = pt_model(**pt_batch)

🤗 Transformers에서 모든 출력은 다른 메타데이터와 함께 모델의 final activation을 포함하는 object입니다. 이러한 object는 [여기](https://huggingface.co/transformers/main_classes/output.html)에 대해 자세히 설명되어 있습니다. 지금은 출력을 직접 검사해 보겠습니다.

In [40]:
print(pt_outputs)
print()
print(pt_outputs[0])

SequenceClassifierOutput(loss=None, logits=tensor([[-4.0833,  4.3364],
        [ 0.0818, -0.0418]], grad_fn=<AddmmBackward>), hidden_states=None, attentions=None)

tensor([[-4.0833,  4.3364],
        [ 0.0818, -0.0418]], grad_fn=<AddmmBackward>)


출력 객체에 어떻게 `logits` 속성이 있는지 주목하세요. 이를 사용하여 모델의 최종 activation에 액세스할 수 있습니다.

**참고:** 모든 🤗 트랜스포머 모델(PyTorch 또는 TensorFlow)은 최종 활성화 함수가 종종 손실과 융합되기 때문에 최종 활성화 함수(SoftMax와 같은) 전의 logit 값을 반환합니다.

예측을 얻기 위해 SoftMax activation을 적용해 보겠습니다.

In [33]:
from torch import nn
pt_predictions = nn.functional.softmax(pt_outputs.logits, dim=-1)
print(pt_predictions)

tensor([[2.2043e-04, 9.9978e-01],
        [5.3086e-01, 4.6914e-01]], grad_fn=<SoftmaxBackward>)


모델에 입력 외에 레이블을 제공하면 모델 출력 객체에도 'loss' 속성이 포함됩니다.

In [36]:
import torch
pt_outputs = pt_model(**pt_batch, labels = torch.tensor([1, 0]))
print(pt_outputs)
print()
print(pt_outputs[0])
print(pt_outputs[1])

SequenceClassifierOutput(loss=tensor(0.3167, grad_fn=<NllLossBackward>), logits=tensor([[-4.0833,  4.3364],
        [ 0.0818, -0.0418]], grad_fn=<AddmmBackward>), hidden_states=None, attentions=None)

tensor(0.3167, grad_fn=<NllLossBackward>)
tensor([[-4.0833,  4.3364],
        [ 0.0818, -0.0418]], grad_fn=<AddmmBackward>)


모델은 표준 [torch.nn.Module](https://pytorch.org/docs/stable/nn.html#torch.nn.Module) 또는 [tf.keras.Model](https://www.tensorflow. org/api_docs/python/tf/keras/Model)을 사용하여 일반적인 교육 루프에서 사용할 수 있습니다. 

🤗Transformers는 또한 훈련을 돕기 위해 `Trainer`(또는 TensorFlow를 사용하는 경우 `TFTrainer`) 클래스를 제공합니다(분산 훈련, mixed precision 등 처리). 자세한 내용은 [교육 튜토리얼](https://huggingface.co/transformers/training.html)을 참조하세요.

모델이 미세 조정되면 다음과 같은 방식으로 모델을 저장할 수 있습니다.

```
tokenizer.save_pretrained(save_directory)
model.save_pretrained(save_directory)
```

그런 다음 모델 이름 대신 디렉토리 이름을 전달하여 `AutoModel.from_pretrained` 메서드를 사용하여 이 모델을 다시 로드할 수 있습니다. 

🤗 Transformers의 멋진 기능 중 하나는 PyTorch와 TensorFlow 간에 쉽게 전환할 수 있다는 것입니다. 이전에 저장한 모든 모델은 PyTorch 또는 TensorFlow에서 다시 로드할 수 있습니다. TensorFlow 모델에 저장된 PyTorch 모델을 로드하는 경우 다음과 같이 `TFAutoModel.from_pretrained`를 사용합니다.

```
from transformers import TFAutoModel
tokenizer = AutoTokenizer.from_pretrained(save_directory)
model = TFAutoModel.from_pretrained(save_directory, from_pt=True)
```