In [1]:
import pandas as pd
import urllib.request
from tokenizers import BertWordPieceTokenizer

urllib.request.urlretrieve("https://raw.githubusercontent.com/e9t/nsmc/master/ratings.txt", filename="ratings.txt")

('ratings.txt', <http.client.HTTPMessage at 0x1eb63542a60>)

In [2]:
naver_df = pd.read_table('ratings.txt')
naver_df = naver_df.dropna(how='any')
with open('naver_review.txt', 'w', encoding='utf8') as f:
    f.write('\n'.join(naver_df['document']))

In [4]:
#lowercase : 대소문자 구분 여부
#strip_accents : 악센트 제거 여부
tokenizer = BertWordPieceTokenizer(lowercase = False, strip_accents=False)

In [5]:
#네이버 영화 리뷰 데이터를 학습하여 단어 집합 얻기
data_file = 'naver_review.txt'
vocab_size = 30000
limit_alphabet = 6000
min_frequency = 5

tokenizer.train(files = data_file,
               vocab_size = vocab_size,
               limit_alphabet=limit_alphabet,
               min_frequency = min_frequency
               )

In [6]:
# vocab 저장
tokenizer.save_model('./')

['./vocab.txt']

In [7]:
df = pd.read_fwf('vocab.txt', header=None)
df

Unnamed: 0,0
0,[PAD]
1,[UNK]
2,[CLS]
3,[SEP]
4,[MASK]
...,...
29995,맘을
29996,맛도
29997,망하지
29998,망한다


In [8]:
encoded = tokenizer.encode('아 배고픈데 짜장면먹고싶다')
print('토큰화 결과 : ',encoded.tokens)
print('Integer Encoding : ', encoded.ids)
print('Decoding : ',tokenizer.decode(encoded.ids))

토큰화 결과 :  ['아', '배고', '##픈', '##데', '짜장면', '##먹고', '##싶다']
Integer Encoding :  [2111, 20628, 3334, 3257, 24681, 7873, 7379]
Decoding :  아 배고픈데 짜장면먹고싶다


In [9]:
encoded = tokenizer.encode('커피 한잔의 여유를 즐기다')
print('토큰화 결과 :',encoded.tokens)
print('정수 인코딩 :',encoded.ids)
print('디코딩 :',tokenizer.decode(encoded.ids))

토큰화 결과 : ['커피', '한잔', '##의', '여유', '##를', '즐기', '##다']
정수 인코딩 : [12825, 25647, 3307, 12696, 3251, 10784, 3255]
디코딩 : 커피 한잔의 여유를 즐기다
