## 3. 토크나이저

입력된 텍스트를 모델에서 처리할 수 있도록 데이터로 변환

__즉, 텍스트 입력을 숫자로 변환하는 역할을 수행__

모델은 숫자만 처리할 수 있으므로 토크나이저를 이용해서 원시 텍스트를 숫자로 변환해 주어야 한다.

### 단어 기반 토큰화

예)

```python
tokenized_text = "Jim Henson was a puppeteer".split()
print(tokenized_text)
```

```python
['Jim', 'Henson', 'was', 'a', 'puppeteer']
```

* 각 단어에는 0부터 시작해서 어휘집 크기 사이의 ID가 할당되고, __모델은 이러한 ID를 사용해서 각 단어를 식별한다__

* 어휘집에 없는 단어를 표현하기 위한 사용자 정의 토큰이 필요하다

    unknown 토큰: 주로 [UNK]로 표현

### 문자 기반 토큰화

단어를 문자로 나누기

* 어휘집 크기가 작다
* OOV $↓$
* 토큰의 의미 파악이 힘들다
* 매우 많은 양의 토큰이 발생한다

### 하위 단어(subword) 토큰화

빈번하게 사용하는 단어는 하위 단어로 분할하지 않고, 희귀 단어는 하위 단어로 분할하는 것

* 하위 단어들: 충분한 양의 의미 정보 제공
* 토큰들 각각이 의미 정보를 가지면서도 공간 효율적
* 길이가 긴 복잡한 단어를 만들 수 있는 교착어에서 특히 유용

예)

* BPE(GPT-2)
* WordPiece(BERT)
* SentencePiece, Unigradm

### 토크나이저 로딩 및 저장

`from_pretrained()`, `save_pretrained()` 메서드를 그대로 사용

$→$ 토크나이저와 어휘집에서 사용하는 알고리즘을 로드하거나 저장

In [None]:
# BERT와 동일한 체크포인트로 학습된 BERT토크나이저 로드

from transformers import BertTokenizer

tokenizer = BertTokenizer.from_pretrained("bert-base-cased")

Downloading (…)solve/main/vocab.txt:   0%|          | 0.00/213k [00:00<?, ?B/s]

Downloading (…)okenizer_config.json:   0%|          | 0.00/29.0 [00:00<?, ?B/s]

Downloading (…)lve/main/config.json:   0%|          | 0.00/570 [00:00<?, ?B/s]

In [None]:
# AutoTokenizer 클래스: 체크포인트 이름에 해당하는 토크나이저 클래스 가져옴
from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("bert-base-cased")

Downloading (…)/main/tokenizer.json:   0%|          | 0.00/436k [00:00<?, ?B/s]

In [None]:
# 토크나이저 사용
tokenizer("Using a Transformer network is simple")

{'input_ids': [101, 7993, 170, 13809, 23763, 2443, 1110, 3014, 102], 'token_type_ids': [0, 0, 0, 0, 0, 0, 0, 0, 0], 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1]}

In [None]:
# 토크나이저 저장
tokenizer.save_pretrained("saving_folder")

('saving_folder/tokenizer_config.json',
 'saving_folder/special_tokens_map.json',
 'saving_folder/vocab.txt',
 'saving_folder/added_tokens.json',
 'saving_folder/tokenizer.json')

### 인코딩

텍스트를 숫자로 변환하는 과정

1. 토큰화
2. 식별자로의 변환(input IDs)

### 토큰화 작업

`tokenize()` 메서드에 의해 수행됨

In [11]:
from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("bert-base-cased")

sequence = "Using a Transformer network is simple"
tokens = tokenizer.tokenize(sequence)

# 어휘집에 존재하는 토큰들을 얻을 수 있을 때까지 단어를 분할
print(tokens)

['Using', 'a', 'Trans', '##former', 'network', 'is', 'simple']


In [12]:
# 토큰을 입력 식별자로 전환(tokens -> input IDs)

ids = tokenizer.convert_tokens_to_ids(tokens)

print(ids)

[7993, 170, 13809, 23763, 2443, 1110, 3014]


### 디코딩

인코딩의 반대 방향으로 진행

변환된 입력 식별자를 이용해서 어휘집에서 해당하는 문자열을 찾아낸다

`decode` 메서드를 사용하여 수행

`decode` : 인덱스를 토큰으로 변환하며, 하위 단어로 분할된 토큰을 병합하고 읽을 수 있는 원본 문장을 도출

In [13]:
decoded_string = tokenizer.decode(
    [7993, 170, 13809, 23763, 2443, 1110, 3014]
)

print(decoded_string)

Using a Transformer network is simple
