## 허깅페이스 토크나이저(Huggingface Tokenizer)

자연어 처리 스타트업 허깅페이스가 개발한 패키지

자주 등장하는 서브워드들을 하나의 토큰으로 취급하는 다양한 서브워드 토크나이저를 제공

### BERT의 워드피스 토크나이저(BertWordPieceTokenizer)

WordPiece Tokenizer는 구글이 공개한 딥 러닝 모델 BERT에 사용한 방식

해당 방식의 구현체가 패키지에서 제공됨

In [2]:
import pandas as pd
import urllib.request
from tokenizers import BertWordPieceTokenizer

In [3]:
urllib.request.urlretrieve("https://raw.githubusercontent.com/e9t/nsmc/master/ratings.txt", filename="ratings.txt")

('ratings.txt', <http.client.HTTPMessage at 0x1c578f39c30>)

In [4]:
# 전처리
naver_df = pd.read_table('ratings.txt')
naver_df = naver_df.dropna(how='any')
with open('naver_review.txt', 'w', encoding='utf8') as f:
    f.write('\n'.join(naver_df['document']))

In [6]:
# BertWordPieceTokenizer 설정
# lowercase : 대소문자를 구분 여부, True일 경우 구분하지 않음
# strip_accents : True일 경우 악센트 제거
tokenizer = BertWordPieceTokenizer(lowercase=False)

In [7]:
data_file = 'naver_review.txt'
vocab_size = 30000
limit_alphabet = 6000
min_frequency = 5

In [8]:
# files : 단어 집합을 얻기 위해 학습할 데이터
# vocab_size : 단어 집합의 크기
# limit_alphabet : 병합 전의 초기 토큰의 허용 개수
# min_frequency : 최소 해당 횟수만큼 등장한 쌍(pair)의 경우에만 병합 대상이 됨
tokenizer.train(files=data_file,
                vocab_size=vocab_size,
                limit_alphabet=limit_alphabet,
                min_frequency=min_frequency)

In [9]:
# vocab 저장
tokenizer.save_model('./')

['./vocab.txt']

In [10]:
# vocab 로드
df = pd.read_fwf('vocab.txt', header=None)
df

Unnamed: 0,0
0,[PAD]
1,[UNK]
2,[CLS]
3,[SEP]
4,[MASK]
...,...
29995,맛도
29996,망하지
29997,망한다
29998,망가지


In [13]:
encoded = tokenizer.encode('커피 한잔의 여유를 즐기다.')
print('토큰화 결과 :',encoded.tokens)
print('정수 인코딩 :',encoded.ids)
print('디코딩 :',tokenizer.decode(encoded.ids))

토큰화 결과 : ['커피', '한잔', '##의', '여유', '##를', '즐기', '##다', '.']
정수 인코딩 : [12825, 25647, 3327, 12696, 3252, 10784, 3249, 18]
디코딩 : 커피 한잔의 여유를 즐기다.


### 기타 토크나이저

BertWordPieceTokenizer : BERT에서 사용된 워드피스 토크나이저(WordPiece Tokenizer)

CharBPETokenizer : 오리지널 BPE

ByteLevelBPETokenizer : BPE의 바이트 레벨 버전

SentencePieceBPETokenizer : 앞서 본 패키지 센텐스피스(SentencePiece)와 호환되는 BPE 구현체

In [14]:
from tokenizers import ByteLevelBPETokenizer, CharBPETokenizer, SentencePieceBPETokenizer

In [15]:
tokenizer = SentencePieceBPETokenizer()
tokenizer.train('naver_review.txt', vocab_size=10000, min_frequency=5)

In [16]:
encoded = tokenizer.encode("이 영화는 정말 재미있습니다.")
print(encoded.tokens)

['▁이', '▁영화는', '▁정말', '▁재미있', '습니다.']
