In [2]:
# 1. WordPiece 학습 및 vocab(단어 사전) 생성

import os
from tokenizers import BertWordPieceTokenizer

# BertWordPieceTokenizer() : WordPiece 알고리즘을 사용하여 문장을 최소 의미 단위로 나누는 규칙을 학습하고 vocab(단어 사전 생성)
# lowercase=False : 대소문자 구분
tokenizer = BertWordPieceTokenizer(lowercase=False)

# 학습에 사용할 텍스트 파일 경로
file_path = "../data/processed/model/pretraining_preprocessed.txt"

# 데이터셋을 학습하여 vocab(단어 사전) 추출
tokenizer.train(
    files=file_path,
    vocab_size=30000,       # vocab(단어 사전) 크기
    limit_alphabet=3000,    # 개별 문자/특수 문자 등의 최대 개수 제한
    min_frequency=5,        # 최소 등장 빈도
)

# 파일을 저장할 폴더 경로
dir_path = "../tokenizer"

# 해당 폴더가 없으면
if not os.path.exists(dir_path):
    # 폴더 생성
    os.mkdir(dir_path)

# vocab(단어 사전) 저장
tokenizer.save_model(dir_path)

['../tokenizer\\vocab.txt']

In [3]:
# 2. tokenizer 초기화

from transformers import BertTokenizer

# 학습된 vocab(단어 사전) 경로
vocab_file_path = "../tokenizer/vocab.txt"

# BertTokenizer() : 학습된 vocab(단어 사전)을 기반으로 문장을 토큰화하고 정수 인덱싱을 할 수 있는 객체로 초기화
tokenizer = BertTokenizer(
    vocab_file=vocab_file_path,
    do_lower_case=False,  # 한국어는 대소문자 구분 필요 없음
    unk_token="[UNK]",
    sep_token="[SEP]",
    pad_token="[PAD]",
    cls_token="[CLS]",
    mask_token="[MASK]"
)

In [4]:
# 토크나이저를 저장할 경로
dir_path = "../tokenizer"

# save_pretrained() : 저장
tokenizer.save_pretrained(dir_path)

('../tokenizer\\tokenizer_config.json',
 '../tokenizer\\special_tokens_map.json',
 '../tokenizer\\vocab.txt',
 '../tokenizer\\added_tokens.json')

In [5]:
from transformers import BertTokenizer

tokenizer = BertTokenizer.from_pretrained("../tokenizer")
# result = tokenizer.tokenize("안녕하세요. 저는 학생 입니다. 코딩을 공부하고 있어요.")
result = tokenizer("안녕하세요. 저는 학생 입니다. 코딩을 공부하고 있어요.")
print(result)
    
print(tokenizer.vocab['학생'])

{'input_ids': [2, 11102, 4858, 13, 4269, 3919, 4926, 13, 1546, 2526, 1937, 4552, 3421, 5415, 13, 3], 'token_type_ids': [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]}
3919
