In [5]:
import pandas as pd
import urllib.request
from tokenizers import BertWordPieceTokenizer

<h2>1) BERT의 워드피스 토크나이저(BertWordPieceTokenizer)</h2>

In [2]:
# 데이터 로드
urllib.request.urlretrieve("https://raw.githubusercontent.com/e9t/nsmc/master/ratings.txt", filename="ratings.txt")

('ratings.txt', <http.client.HTTPMessage at 0x2baff3fc290>)

In [3]:
# raiting.txt 파일을 DataFrame으로 로드한 후 결측값을 제거함
# document 열의 데이터를 naver_review.txt 파일로 저장
naver_df = pd.read_table('ratings.txt')
naver_df = naver_df.dropna(how='any')
with open('naver_review.txt', 'w', encoding='utf8') as f:
    f.write('\n'.join(naver_df['document']))

In [8]:
# BertWordPieceTokenizer를 이용하여 학습
tokenizer = BertWordPieceTokenizer(lowercase=False, strip_accents=False)


In [9]:
# 네이버 영화 리뷰 데이터를 학습하여 단어 집합을 얻음
data_file = 'naver_review.txt'
vocab_size = 30000
limit_alphabet = 6000
min_frequency = 5

tokenizer.train(files=data_file,
                vocab_size=vocab_size,
                limit_alphabet=limit_alphabet,
                min_frequency=min_frequency)


In [10]:
# vocab 저장
tokenizer.save_model('./')

['./vocab.txt']

In [11]:
# vocab을 DataFrame으로 로드
df = pd.read_fwf('vocab.txt', header=None)
df

Unnamed: 0,0
0,[PAD]
1,[UNK]
2,[CLS]
3,[SEP]
4,[MASK]
...,...
29995,말세
29996,말들이
29997,말라는
29998,말밖에는


In [12]:
# 실제 토큰화 수행
encoded = tokenizer.encode('아 배고픈데 짜장면먹고싶다')
print('토큰화 결과 :',encoded.tokens)
print('정수 인코딩 :',encoded.ids)
print('디코딩 :',tokenizer.decode(encoded.ids))

토큰화 결과 : ['아', '배고', '##픈', '##데', '짜장면', '##먹고', '##싶다']
정수 인코딩 : [2111, 20630, 3462, 3252, 24681, 7873, 7379]
디코딩 : 아 배고픈데 짜장면먹고싶다


<h2>기타 토큰나이저</h2>

In [14]:
# 기타 토크나이저 수행 (SentencePieceBPETokenizer)
from tokenizers import ByteLevelBPETokenizer, CharBPETokenizer, SentencePieceBPETokenizer

tokenizer = SentencePieceBPETokenizer()
tokenizer.train('naver_review.txt', vocab_size=10000, min_frequency=5)

encoded = tokenizer.encode("이 영화는 정말 재미있습니다.")
print(encoded.tokens)

['▁이', '▁영화는', '▁정말', '▁재미있', '습니다.']
