# AutoTokenizer

Hugging Face의 `AutoTokenizer`는 다양한 자연어 처리(NLP) 모델을 위한 자동화된 토크나이제이션 클래스이다.

사용자가 모델에 맞는 적절한 토크나이저를 선택하면 모델의 이름이나 경로에 따라 적절한 토크나이저를 자동으로 로드하여 다양한 모델과 함께 사용할 수 있는 장점이 있다.

Auto: 사용자의 편의를 위해 다양한 토크나이저와 모델을 자동으로 관리하고 선택할 수 있게 해주는 기능

`AutoTokenizer.from_pretrained`을 통해 원하는 모델의 토크나이저를 불러 올 수 잇음

In [2]:
from transformers import AutoTokenizer

# Google-Bert
bert_tokenizer = AutoTokenizer.from_pretrained("google-bert/bert-base-uncased")

불러온 토크나이저를 통한 텍스트 토크나이징

Tokenization의 결과로 input_ids, token_type_ids, attention_mask의 딕셔너리를 얻음

In [4]:
encoded_input = bert_tokenizer("Do not meddle in the affairs of wizards, for they are subtle and quick to anger.")

print(encoded_input)

{'input_ids': [101, 2079, 2025, 19960, 10362, 1999, 1996, 3821, 1997, 16657, 1010, 2005, 2027, 2024, 11259, 1998, 4248, 2000, 4963, 1012, 102], 'token_type_ids': [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]}


`tokenizer.tokenize`는 주어진 텍스트를 토큰으로 분리함

In [6]:
print(bert_tokenizer.tokenize("Do not meddle in the affairs of wizards."))

['do', 'not', 'med', '##dle', 'in', 'the', 'affairs', 'of', 'wizards', '.']


`tokenizer.vocab_size` : 토크나이저의 vocab_size를 확인할 수 있음

In [8]:
bert_tokenizer.vocab_size

30522

`encode`와 `decode`를 통해 토큰화와 문장화를 수행할 수 있음<br>
영어를 기반으로 학습된 토크나이저로 한글에 대한 토크나이징 성능은 떨어짐

In [9]:
print(bert_tokenizer.tokenize("한글은 어떻게 될까요?"))

['ᄒ', '##ᅡ', '##ᆫ', '##ᄀ', '##ᅳ', '##ᆯ', '##ᄋ', '##ᅳ', '##ᆫ', '[UNK]', '[UNK]', '?']


In [10]:
encoded_input = bert_tokenizer.encode("한글은 어떻게 될까요?")
bert_tokenizer.decode(encoded_input)

'[CLS] 한글은 [UNK] [UNK]? [SEP]'