# Tokenizers
- https://huggingface.co/learn/nlp-course/chapter2/4?fw=pt

Tokenizer는 NLP pipeline의 핵심적인 요소 중 하나이다. Tokenization의 목적은 text를 모델이 처리할 수 있는 데이터로 변환하는 것이다. 모델은 숫자값만을 다룰 수 있기에, tokenizer는 text input을 numerical data로 바꿀 필요가 있다. 이번 section에서는 tokenization pipeline에서 어떤 일이 일어나는지 볼 것이다.

NLP에서, 데이터는 보통 raw text이다.  
- 예: `Jim henson was a puppeteer`

하지만 모델은 오직 숫자값만 다룰 수 있기에, raw text를 숫자값으로 바꿀 방법을 찾아야한다.  
이것이 tokenizer가 하는 것이다. 그리고 toeknzation 에는 많은 방법들이 있다. 목표는 meaningful한 representation을 차즌 것이다. 즉, 모델에게 가장 말이 되는 것을 찾는 것이다. 그리고 가능하다면 가장 작은 representation이여야 한다.

이제 tokenziation algorithm의 예시를 살펴보자.




## 1. Word-based

이 방법은 적은 rule만 설정하여 설정하고 사용하기 쉽다. 그리고 괜찮은 결과를 낸다.   
예를 들어 아래 이미지에서 목표는 raw text를 단어 단위로 나눈다음 각각의 numerical reprensentation을 찾는 것이다.

![1](https://huggingface.co/datasets/huggingface-course/documentation-images/resolve/main/en/chapter2/word_based_tokenization.svg)

위의 이미지처럼 말고도 다른 방법으로 나눌 수도 있다. 그저 whitespace를 이용해서 나누는 것이다. 이는 python의 `split`함수를 적용할 수 있다.



In [None]:
tokenized_text = "Jim Henson was a puppeteer".split()
print(tokenized_text)

['Jim', 'Henson', 'was', 'a', 'puppeteer']


이외에도 몇몇 rule을 추가한 다양한 word tokenizer가 있다. 이러한 방식으로 우리는 커다란 vocabularies를 만들 수 있다. 여기서 vocabulary는 독립적인 token의 총 갯수로 정의된다.

각 단어는 고유 ID를 부여받고 0부터 시작해서 vocabulary size만큼 ID가 있다. 모델은 이러한 ID를 각 word를 식별하기 위해 사용한다.

만약 언어 하나를 완전히 커버하려면 volcabulary 사이즈가 매우 커질 것이다. 영어의 경우, 단어가 50만개를 넘는다.

그리고 `dog`와 `dogs`는 별개의 token으로 저장되는데, 모델은 dog와 dogs가 비슷하다는 것을 처음에는 알 방법이 없다. 이는 두 단어가 관련 없다고 인식할 것이다. 이는 run, running과 같은 단어 사이 관계에서도 마찬가지로 모델은 처음에 알 방법이 없다.

마지막으로, 우리는 기존 vocabulary에 없던 custom token이 필요하다. 이는 unknown token으로 알려져있는데, 주로 `[UNK]`나 `<unk>`로 표현된다. 만약 tokenizer가 unk 토큰을 많이 만들어낸다면 이는 일반적으로 좋지 않은 상황이라는 증거이다. unk를 많이 만들어낸다는 것은 단어의 민감한 표현력을 얻지 못하고 이러한 token들의 정보를 잃는다는 의미이다.  
vocabulary를 만들어가는 것의 목적은 tokenizer가 가능한 적은 단어를 unk 토큰으로 변환하는 것이다.

unknown toekn을 줄이는 방법 중 하나는 character-based token을 사용하는 것이다.

## 2. Character-based

Character 기반 tokenizer는 text를 character 단위로 나눈다. 이는 두 가지 장점이 있다.
1. vocabulary가 매우 작아진다.
2. 모든 단어가 character들로 나왔기 때문에, unknown tokens가 매우 적어진다.

![1](https://huggingface.co/datasets/huggingface-course/documentation-images/resolve/main/en/chapter2/character_based_tokenization.svg)

하지만, 이 방식 역시 완벽하지가 않다. 왜냐하면 representation이 character 기반이기 때문에, 직관적으로 이는 의미가 덜하다. 각 character 자체는 의미를 가지지 않기 때문이다.
- 단, 이는 언어에 따라 다르다. Chinese의 경우, Latin계 언어보다 character 하나하나가 의미를 전달한다.

두 번째 한계점은 token의 양이 매우 많다는 것이다. 주어진 input sequence 하나하나를 봐야하기 때문에, word가 token인 경우는 input token이 많지 않지만, character를 하나하나 input token으로 보면 개수가 매우 많아진다.

word와 character 기반의 한계점을 보완하고자 이들 사이인 subword tokenization이 제안되었다.

## 3. Subword tokenization

subword tokenization은 frequently used worlds는 더 작은 subwords로 나누어지면 안되고, 희소한 단어는 의미있는 subwords로 분해되어야 한다는 원리를 따른다.

예를들어, annoyingly는 희소하게 사용되어 annoying과 ly로 나뉜다. 이 두 subwords는 더 자주 나타난다. 그러면서도 annoyingly와 동일한 의미를 가진다.

![1](https://huggingface.co/datasets/huggingface-course/documentation-images/resolve/main/en/chapter2/bpe_subword.svg)

## 4. 그외의 다른 기법들

- GPT2를 위한 BPE tokenization  
- BERT를 위한 WordPiece tokenization  
- SentencePiece나 Unigram은 multilingual models에 사용됨.

## 5. Loading and saving

tokenizer를 불러오고 저장하는 것은 모델만큼 간단하다. 이는 `from_pretrained`와 `save_pretrained` method를 적용할 수 있다. 이러한 methods는 tokenizer에서 사용된 vocabulary와 알고리즘을 불러오거나 저장한다.

BERT의 checkpoint와 동일하게 학습된 BERT tokenizer는 model loading과 동일한 방식으로 loading 된다. (BertTokenizer 클래스는 제외)

In [None]:
from transformers import BertTokenizer

tokenizer = BertTokenizer.from_pretrained("bert-base-cased")

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


tokenizer_config.json:   0%|          | 0.00/29.0 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/213k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/436k [00:00<?, ?B/s]

config.json:   0%|          | 0.00/570 [00:00<?, ?B/s]

`AutoModel`처럼, `AutoTokenizer`클래스가 있다. 이 역시 어떠한 checkpoint에 대해서도 사용 가능하다.

In [None]:
from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("bert-base-cased")

이제 tokenizer를 사용할 수 있다.

In [None]:
tokenizer("Using a Transformer netowrk is simple")

{'input_ids': [101, 7993, 170, 13809, 23763, 5795, 4064, 4661, 1110, 3014, 102], 'token_type_ids': [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]}

- 허깅페이스 튜토리얼과 결과가 다르다.
- 그런데 튜토리얼의 colab파일을 실행해보니 내 결과와 같았다. 중간에 token id가 바뀐 것 같다.

저장 방법은 아래와 같다.

In [None]:
tokenizer.save_pretrained("directory_on_my_computer")

('directory_on_my_computer/tokenizer_config.json',
 'directory_on_my_computer/special_tokens_map.json',
 'directory_on_my_computer/vocab.txt',
 'directory_on_my_computer/added_tokens.json',
 'directory_on_my_computer/tokenizer.json')

token_type_ids는 chapter 3에서 더 자세히 다룰 것이다.

## 6. Encoding

Text를 숫자값으로 바꾸는 것을 encoding이라고 한다. encoding은 2 steps를 거쳐서 진행된다.
1. Tokenization
2. conversion to input ID

step 1 에서는 text를 words 혹은 sub words로 바꾼다. 보통 이렇게 나누어진 다누이를 token이라고 한다. toeknization에는 다양한 rule이 있다(다양한 rule이 있어서 model 이름을 통해 tokenizer를 instantiate해서 model이 pre training 될 때와 동일한 rule의 tokenization을 하도록 확실히 해야한다.).

step 2에서는 token을 숫자값으로 바꾼다. 이렇게 해서 tensor로 바꾸고 이를 model에 넣는다. 이렇게 하기 위해 tokenizer가 vocabulrary를 가지고 있어야 한다. 이는 `from_pretrained()`로 initiate할 때 다운받는 것중 하나이다. 마찬가지로 pretraining 할 때와 동일한 vocabulrary를 가지고 있어야 한다.



` ##ize 와 같이 앞에 ##이 붙은건 BERT toknizer에서 사용하는 convention 이라고 한다.  
- https://youtu.be/Yffk5aydLzg?t=75

다른 tokenizer에선 다른 convention을 사용할 수 있다. 예를 들어 ALBERT의 경우는 ## 대신 _를 사용한다.
- https://youtu.be/Yffk5aydLzg?t=84

tokenizer vocabulary를 사용할 때는 반드시 pre training에서 사용된 vocabulary와 동일한 것을 사용해야한다.

### Tokenization

tokenization process는 `tokenize()` method로 진행된다.

In [None]:
from transformers import AutoTokenizer

# tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased") # 튜토리얼 결과대로 나오게 하려면 이걸 사용해야 하는 것 같다.
tokenizer = AutoTokenizer.from_pretrained("bert-base-cased") # 튜토리얼에서 사용한 코드인데 결과가 다르게 나왔다.

sequence = "Using a Transformer network is simple"
tokens = tokenizer.tokenize(sequence)

print(tokens)

['Using', 'a', 'Trans', '##former', 'network', 'is', 'simple']


이 tokenizer는 subword tokenizer다.  
이는 단어를 vocabulary로 표현될 수 있을 때 까지 split한다. transformer의 경우, transform과 ##er로 나눈다.

### token에서 input ID로

input ID로의 변환은 `convert_tokens_to_ids()`를 사용하면 된다.

In [None]:
ids = tokenizer.convert_tokens_to_ids(tokens)
print(ids)

[7993, 170, 13809, 23763, 2443, 1110, 3014]


이 outputs는 적절한 tensor로 변환되면 model의 input으로 사용할 수 있다.

1. 에서 보았던 tokenizer 문장을 적용하면 1. 의 결과와 동일한지

In [None]:
sequence = "I've been waiting for a HuggingFace course my whole life."
tokens = tokenizer.tokenize(sequence)
ids = tokenizer.convert_tokens_to_ids(tokens)
print(ids)

[146, 112, 1396, 1151, 2613, 1111, 170, 20164, 10932, 2271, 7954, 1736, 1139, 2006, 1297, 119]


- 다르다. 원본 transformer tutorial의 colab 파일을 그대로 실행헀는데 결과가 달랐던 것을 보면, 이게 맞는 결과이고 옛날 것에서 toekn id가 달라진 것 같다.
- ask a question 에서도 결과가 다르다고 질문한 사람 있는데, 그 사람 결과도 나랑 똑같다.

## 7. Decoding

Decoding은 vocabulary indices로부터 시작한다. 이는 `decode()` method로 구현되어 있다.

In [None]:
decoded_string = tokenizer.decode([7993, 170, 13809, 23763, 2443, 1110, 3014])
print(decoded_string)

Using a Transformer network is simple


`decode` method는 indices를 다시 token으로 되돌릴 뿐만 아니라, 이들을 grouping해서 readable한 sentece로 다시 만들어준다.  
이는 모델이 새로운 text를 만들어낼 때 매우 유용한 tool이 될 수 있다. (예: prompt로부터 텍스트 생성, sequence-to-sequence 류의 translation과 summarization)
