<a href="https://colab.research.google.com/github/hr1588/NLP/blob/main/tokenizer_example.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [21]:
!pip install tokenizers -qqq

In [22]:
import pandas as pd
import urllib.request
from tokenizers import BertWordPieceTokenizer

urllib.request.urlretrieve("https://raw.githubusercontent.com/e9t/nsmc/master/ratings.txt", filename="ratings.txt")

('ratings.txt', <http.client.HTTPMessage at 0x7fb08a81d580>)

In [23]:
naver_df = pd.read_table('ratings.txt')
naver_df = naver_df.dropna(how='any')
with open('naver_review.txt', 'w', encoding='utf8') as f:
    f.write('\n'.join(naver_df['document']))

In [27]:
tokenizer = BertWordPieceTokenizer(lowercase=False, strip_accents=False)
# strip_accents = True일 경우 악센트 제거

In [28]:
data_file = 'naver_review.txt'
vocab_size = 30000 # 단어 집합 크기
limit_alphabet = 6000 # 병합 전 초기 토큰 허용 개수
min_frequency = 5 # 최소 해당 횟수만큼 등장한 쌍(pair)의 경우에 병합

tokenizer.train(files=data_file,
                vocab_size=vocab_size,
                limit_alphabet=limit_alphabet,
                min_frequency=min_frequency)

In [29]:
tokenizer.save_model('./')

['./vocab.txt']

In [30]:
df = pd.read_fwf('vocab.txt', header=None)
df

Unnamed: 0,0
0,[PAD]
1,[UNK]
2,[CLS]
3,[SEP]
4,[MASK]
...,...
29995,말라는
29996,말밖에는
29997,맘을
29998,맛도


In [32]:
text = '저는 경영정보학과 4학년 이동현입니다.'

In [33]:
encoded = tokenizer.encode(text)
print('토큰화 결과 :',encoded.tokens)
print('정수 인코딩 :',encoded.ids)
print('디코딩 :',tokenizer.decode(encoded.ids))

토큰화 결과 : ['저는', '경', '##영', '##정보', '##학', '##과', '4', '##학년', '이동', '##현', '##입니다', '.']
정수 인코딩 : [6907, 639, 3251, 14436, 3574, 3440, 24, 8322, 10831, 3577, 5922, 18]
디코딩 : 저는 경영정보학과 4학년 이동현입니다.


In [35]:
from tokenizers import ByteLevelBPETokenizer, CharBPETokenizer, SentencePieceBPETokenizer

tokenizer = SentencePieceBPETokenizer()
tokenizer.train('naver_review.txt', vocab_size=10000, min_frequency=5)

encoded = tokenizer.encode(text)
print('토큰화 결과 :',encoded.tokens)
print('정수 인코딩 :',encoded.ids)
print('디코딩 :',tokenizer.decode(encoded.ids))

토큰화 결과 : ['▁저는', '▁경', '영', '정', '보', '학', '과', '▁4', '학년', '▁이동', '현', '입니다.']
정수 인코딩 : [2722, 1561, 659, 738, 496, 942, 146, 1491, 4233, 7374, 963, 1750]
디코딩 : 저는 경영정보학과 4학년 이동현입니다.
