# Huggingface의 Tokenizers : 정규화와 사전토큰화 제공

### 정규화(Normalization)
- 일관된 형식으로 텍스트 표준화
- 모호한 경우를 방지 -> 일부 문자를 대체하거나 제거
- 불필요한 공백 제거, 대소문자 변환, 유닠드 정규화, 구두점 처리, 특수문자 처리 등


### 사전토큰화(Pre-tokenization)
- 입력 문장을 토큰화하기 전에 단어와 같은 작은 단위로 나누는 기능

In [None]:
!pip install tokenizers

## 1. 정규화 및 사전토큰화

In [3]:
from tokenizers import Tokenizer
from tokenizers.models import WordPiece
from tokenizers.normalizers import Sequence, NFD, Lowercase
from tokenizers.pre_tokenizers import Whitespace

In [6]:
tokenizer = Tokenizer(WordPiece())

In [7]:
# 정규화 : NFD 유니코드 정규화, 소문자 변환
tokenizer.normalizer = Sequence([NFD(), Lowercase()])

# 사전토큰화 : 공백, 구두점 기준으로 분리
tokenizer.pre_tokenizer = Whitespace()

## 2. 학습

In [8]:
# 학습
corpus_path = './datasets/corpus.txt'
tokenizer.train([corpus_path])

# 저장: 정규화, 사전 토큰화 등 메타데이터와 함께 어휘 사전에 저장
tokenizer.save("./models/1.petition_wordpiece.json")

## 3. 토큰화

In [12]:
from tokenizers import Tokenizer
from tokenizers.decoders import WordPiece as WordPieceDecoder

In [13]:
tokenizer = Tokenizer.from_file('./models/1.petition_wordpiece.json')
tokenizer.decoder = WordPieceDecoder()

In [19]:
sentence = "안녕하세요, 토크나이저를 학습했습니다."
sentences = ["안녕하세요", "토크나이저는 자연어 전처리 방법입니다.", "다음은 임베딩입니다."]

encoded_sentence = tokenizer.encode(sentence)
encoded_sentences = tokenizer.encode_batch(sentences)

print(sentence, "->" , encoded_sentence.tokens)
print(sentences, "->" , [enc.tokens for enc in encoded_sentences])


안녕하세요, 토크나이저를 학습했습니다. -> ['안녕하세요', ',', '토', '##크', '##나이', '##저', '##를', '학습', '##했습니다', '.']
['안녕하세요', '토크나이저는 자연어 전처리 방법입니다.', '다음은 임베딩입니다.'] -> [['안녕하세요'], ['토', '##크', '##나이', '##저는', '자연', '##어', '전', '##처리', '방법입니다', '.'], ['다음은', '임', '##베', '##딩', '##입니다', '.']]


In [20]:
# 정수 인코딩
print(sentence, "->" , encoded_sentence.ids)
print(sentences, "->" , [enc.ids for enc in encoded_sentences])


안녕하세요, 토크나이저를 학습했습니다. -> [8760, 11, 8693, 8415, 16269, 7536, 7510, 15016, 8315, 13]
['안녕하세요', '토크나이저는 자연어 전처리 방법입니다.', '다음은 임베딩입니다.'] -> [[8760], [8693, 8415, 16269, 23335, 9969, 7497, 7615, 10152, 25450, 13], [23330, 7972, 9139, 11171, 7598, 13]]


In [24]:
# 디코딩
decoded_sentence = tokenizer.decode(encoded_sentence.ids)
decoded_sentences = [tokenizer.decode(enc.ids) for enc in encoded_sentences]


print(encoded_sentence.ids, "->" , decoded_sentence)
print([enc.ids for enc in encoded_sentences], "->" , [dnc for dnc in decoded_sentences])


[8760, 11, 8693, 8415, 16269, 7536, 7510, 15016, 8315, 13] -> 안녕하세요, 토크나이저를 학습했습니다.
[[8760], [8693, 8415, 16269, 23335, 9969, 7497, 7615, 10152, 25450, 13], [23330, 7972, 9139, 11171, 7598, 13]] -> ['안녕하세요', '토크나이저는 자연어 전처리 방법입니다.', '다음은 임베딩입니다.']


##### Reference
- 파이토치 트랜스포머를 활용한 자연어 처리와 컴퓨터비전 심층학습(위키북스, 윤대희, 김동화, 송종민, 진현두 지음, 2023)<br>