## BertWordPiece Tokenizer

In [1]:
import pandas as pd
from tokenizers import BertWordPieceTokenizer

naver_df = pd.read_table('C:/Users/Myeong/dding/data/딥러닝-자연어처리입문/ratings.txt')
naver_df

Unnamed: 0,id,document,label
0,8112052,어릴때보고 지금다시봐도 재밌어요ㅋㅋ,1
1,8132799,"디자인을 배우는 학생으로, 외국디자이너와 그들이 일군 전통을 통해 발전해가는 문화산...",1
2,4655635,폴리스스토리 시리즈는 1부터 뉴까지 버릴께 하나도 없음.. 최고.,1
3,9251303,와.. 연기가 진짜 개쩔구나.. 지루할거라고 생각했는데 몰입해서 봤다.. 그래 이런...,1
4,10067386,안개 자욱한 밤하늘에 떠 있는 초승달 같은 영화.,1
...,...,...,...
199995,8963373,포켓 몬스터 짜가 ㅡㅡ;;,0
199996,3302770,쓰.레.기,0
199997,5458175,완전 사이코영화. 마지막은 더욱더 이 영화의질을 떨어트린다.,0
199998,6908648,왜난 재미없었지 ㅠㅠ 라따뚜이 보고나서 스머프 봐서 그런가 ㅋㅋ,0


In [2]:
naver_df.dropna(how='any', inplace=True)
with open('naver_review.txt', 'w', encoding='utf8') as f:
    f.write('\n'.join(naver_df['document']))

In [4]:
# lowercase : 대소문자 구분 여부. True일 경우 구분하지 않음
# strip_accents : True일 경우 악센트 제거
tokenizer = BertWordPieceTokenizer(lowercase=False, strip_accents=False)

- files : 단어 집합을 얻기 위해 학습할 데이터

- vocab_size : 단어 집합의 크기

- limit_alphabet : 병합 전의 초기 토큰의 허용 개수.

- min_frequency : 최소 해당 횟수만큼 등장한 쌍(pair)의 경우에만 병합 대상이 된다.

In [5]:
data_file = 'naver_review.txt'
vocab_size = 32000
limit_alphabet = 6000
min_frequency = 5

tokenizer.train(files=data_file, vocab_size=vocab_size, limit_alphabet=limit_alphabet, min_frequency=min_frequency)

In [6]:
# vocab 저장
tokenizer.save_model('./')

['./vocab.txt']

In [7]:
# vocab load
df = pd.read_fwf('vocab.txt', header=None)
df

Unnamed: 0,0
0,[PAD]
1,[UNK]
2,[CLS]
3,[SEP]
4,[MASK]
...,...
31995,##었니
31996,##어질
31997,##어찌
31998,##도우


In [8]:
encoded = tokenizer.encode('안녕하세요 경상국립대학교 진명입니다.')
print('tokenized : ', encoded.tokens)
print()
print('word to int : ', encoded.ids)
print()
print('decoding : ', tokenizer.decode(encoded.ids))

tokenized :  ['안녕하세요', '경', '##상', '##국', '##립', '##대', '##학교', '진', '##명', '##입니다', '.']

word to int :  [24358, 639, 3296, 3349, 3730, 3257, 7855, 2514, 3749, 5922, 18]

decoding :  안녕하세요 경상국립대학교 진명입니다.


## 기타 토크나이저

- CharBPETokenizer : 오리지널 BPE

- ByteLevelBPETokenizer : BPE의 바이트 버전

- SentencePieceBPETokenizer : SentencePiece와 호환되는 BPE 구현체

In [9]:
from tokenizers import ByteLevelBPETokenizer, CharBPETokenizer, SentencePieceBPETokenizer

tokenizer = SentencePieceBPETokenizer()
tokenizer.train('naver_review.txt', vocab_size=10000, min_frequency=5)

sample_text = '안녕하세요 경상국립대학교 진명입니다.'

encoded = tokenizer.encode(sample_text)
print(encoded.tokens)

['▁안', '녕', '하세요', '▁경', '상', '국', '립', '대', '학교', '▁진', '명', '입니다.']


In [10]:
tokenizer = ByteLevelBPETokenizer()
tokenizer.train('naver_review.txt', vocab_size=10000, min_frequency=5)

encoded = tokenizer.encode(sample_text)
print(encoded.tokens)

['ìķĪë', 'ħķ', 'íķĺìĦ¸ìļĶ', 'Ġê²½', 'ìĥģ', 'êµŃ', 'ë¦½', 'ëĮĢ', 'íķĻêµĲ', 'Ġì§Ħ', 'ëªħ', 'ìŀħëĭĪëĭ¤', '.']
